• Nem Talált Eredményt

Automatizált módszerek a szekvenciák elemzésére

és 13. fejezet). Fontos emlékeztetnünk rá, hogy az eukariótában a gének általában intronokat is

10. Bevezetés a bioinformatikába

10.2. Szekvencia-illesztések és egyéb fontos algoritmusok

10.2.7. Automatizált módszerek a szekvenciák elemzésére

A bioinformatika egyik legnagyobb kihívása, hogy ismeretlen makromolekulák tulajdonságait kellő biztonsággal meg lehessen jósolni. Ezekre az előrejelzésekre (predikciókra) számos módszer áll rendelkezésre, itt csak a leggyakrabban használt néhány algoritmus alapjait fogjuk áttekinteni.

10.2.7.1. Pontozómátrixok (PSSM: Position Specific Scoring Matrices). Logók

Abban az esetben, ha csak egy-egy rövid, jól definiált szakasz felelős a DNS, RNS vagy a fehérje adott biológiai funkciójáért, viszonylag egyszerű feladat jóslatokat adni. Ezeket az elemeket szokták lineáris motívumoknak nevezni. Például az állatvilágban megtalálható úgynevezett SH3 domén egy konzervált szerkezeti elem, és olyan partnerfehérjékhez kötődik, ahol (a fehérje rendezetlen részén) két prolin

egymástól három aminosav távolságra van, őket pedig megfelelő pozícióban egy arginin követi. Ilyesfajta szekvenciák azonban óriási számban vannak a fehérjékben: nagy részük nem tud SH3 doménekhez kötődni.

Hogyan tudjuk mégis jó eséllyel megmondani, hogy melyek a valódi motívumok? Minden ilyen interakció a polipeptidlánc speciális szerkezetével függ össze, amely „összefér” a partner domén felszínével. A

szerkezetnek azonban pontosan tükröződnie kell az aminosav-összetételben és sorrendben. Ha az ismert példák szekvenciáit megfelelő módon illesztjük, látni fogjuk, hogy nemcsak a Pro vagy Arg aminosavak a rögzítettek, hanem a köztes pozíciókban is határozott preferenciák láthatóak. Ezeket pozíció szerinti (20 tagú) vektorokkal lehet kifejezni, az összes vizsgált pozíció vektorai pedig egy pozíció specifikus mátrixot fognak kiadni, amelyet PSSM-nek rövidítünk (Position Specific Scoring Matrix). A

szekvencia-preferenciákat leglátványosabban ún. szekvencia logó formájában lehet ábrázolni: Itt minden egyes betű

132 (szimbólum) magassága arányos a mátrix neki megfelelő súlyával (ezt a gyakoriság értéket az y tengelyen az adott szimbólum információ tartalmával, bit-ekben fejezik ki). (ld. 10.10. ábra) Magát a mátrixot pedig fel lehet használni a többi, potenciális motívum jóságának vizsgálatára is: azok a találatok lesznek a

legesélyesebbek arra, hogy valóban működőképesek legyenek, amelyek szekvencia-eloszlása leginkább hasonlít a már ismert példákéra. Sajnos a módszer alkalmazása feltételezi azt, hogy nagyszámú, kísérletesen azonosított motívumot ismerünk, amelyek mind egyforma módon kötődnek a partner molekulák felszínéhez:

a gyakorlatban ezért gyakran pontatlan eredményeket kapunk.

10.10. ábra: A humán Crk fehérjéhez kötődő peptidek szekvencia logója

10.2.7.2. Rejtett Markov-modellek (HMM: Hidden Markov Models)

A legtöbb biológiai funkció nemcsak egy-egy rövid motívum jelenlététől vagy hiányától függ, hanem nagyobb szerkezeti blokkok jelenlétét feltételezi. Ezek a blokkok azonban minden esetben lebonthatóak elemi motívumokra: a motívumok sorrendje pedig általában rögzített, a hossza viszont változatos lehet.

Például egy eukarióta gén esetében a promóter régió után exonok következnek, közöttük intronok, azok után pedig egy poliadenilációs hely, mindegyik jellemző szekvencia-összetétellel. Ezen ismereteket fel lehet használni például a gének automatizált jóslására. A rejtett Markov-modellek (Hidden Markov Models) a bioinformatika "nagyágyúi", amelyeket pontosan ilyen problémák megoldására dolgoztak ki (ld. 10.11.

ábra).

Maga a modell nem más, mint egy gráf, amely állapotokból (csúcsokból) és állapot-átmenetekből (élekből) áll. Az egyes állapotok közötti átmenet mindig megadott valószínűséggel lehetséges. Az egyes

állapotátmenetek pedig függetlenek a megelőzőektől (a fenti példában: az exonban haladva minden

nukleotid után egyforma valószínűséggel folytatódhat az exon vagy következhet egy intron, és ez nem függ attól, hogy mennyi nukleotid volt már előtte). A statisztikában az ilyen rendszereket hívják

Markov-láncnak.

133 10.11. ábra: Példa a rejtett Markov-modellek alkalmazására

Ez a lánc pedig azért rejtett, mert nem figyelhetjük meg közvetlenül a belső állapotokat (pl. intron/exon), csak egy attól függő külső változót (például a nukleinsav-összetételt). Vegyük a következő, egyszerű modellt: egy képzeletbeli organizmus génjeiben a nem kódoló régiók A/T gazdagok, a promóter régió nagyon G/C gazdag, míg a kódoló régió nukleotid eloszlása egyenletes. Az erre az ismeretekre felépített rejtett Markov-modell alapján pontosan ki lehet számolni hogy a genomban legvalószínűbben hol vannak a fehérje-kódoló gének. A trükk az, hogy minden egyes állapot átmenetkor összeszorzódnak a valószínűségek, és a végén vissza lehet számolni (számítógéppel) az egyes állapot-utakhoz tartozó egyedi valószínűségeket.

Az efféle modelleket nagyon széles körben használják: de ezek felépítéséhez komoly mennyiségű kísérletes adatra van szükség.

10.2.7.3. Neurális háló módszerek (Neural net)

A biológiai gyakorlat tele van olyan problémákkal, ahol viszonylag kevés és nehezen rendszerezhető kísérleti adat áll rendelkezésre, és ezek alapján kell komplex jóslatokat adni egy másik rendszer

viselkedésére. Az ilyen esetekre nehéz egzakt statisztikai modelleket alkotni. Viszont e nélkül is lehetséges jóslatokat adni, méghozzá olyan módszerekkel, mint a neurális háló algoritmusok. Maga a neurális háló nem más, mint az agykéregről "lemásolt" számítógépes modell. Az egyes csomópontok ("neuronok") egymás feletti rétegekben találhatóak: a legfelső réteg kapja a direkt bemenetet (a nyers információt hordozó

változók formájában), az ez alatti rétegek pedig mindig a megelőző réteg csomópontjaiban levő (számszerű) változók különféle logiai kombinációt kapják (pl. "és" operátor, "vagy" operátor, stb.). A végén, a legalsó réteg kimenete fogja megadni a kívánt jóslatot. A rendszer működéséhez előbb "tanításra" van szükség:

ismert tulajdonságú példák feldolgozásával a neurális hálóban előbb rögzítjük a rétegek közötti logikai kombinációkat. Csak ez után következhet az ismeretlen minták elemzése. A neurális háló működésének hatékonysága a tanító példáktól függ: elegendő számú példával megfelelő minőségű modellt és viszonylag megbízható jóslatokat kaphatunk. Megjegyzendő azonban, hogy a neurális háló nem csodaszer: abban az esetben, ha egzakt modell felállítására megvan a mód, az gyakran jobb eredményeket nyújt, mint a neurális háló módszer.

134

10.2.7.4. A Bayes-statisztika és a döntéselmélet alapjai (Bayesian inference)

A legutoljára említett, fontos matematikai módszer a Bayes-statisztika. Ezt nemcsak a bioinformatikai jóslásokra, hanem a kísérleti eredmények kiértékelésére is fel lehet használni (vagyis az elméleti modellek ellenőrzésére). Az egész Bayes-statisztika egyetlen fontos fogalommal kapcsolatos: ez a feltételes

valószínűség. Amikor a kísérleti rendszerünkben egynél több véletlen változót figyelünk meg egyidejűleg, akkor nemcsak az egybeesések közös valószínűségét lehet kiszámítani (P(A=x, B=y): Mi a valószínűsége hogy A és B egyszerre x illetve y értékű?), hanem a feltételes valószínűségeket is, mint például P(A=x|B=y) (Mi a valószínűsége hogy A=x, ha azt találjuk hogy B=y?). A feltételességet a képletbe tett függőleges vonal jelöli, és mindig az első változóról van szó, a másodiktól függően. A kétféle, "fordított" P(A=x|B=y) és P(B=y|A=x) feltételes valószínűségek általában különbözőek: itt a két ellenkező irányú logikai

következtetésről van szó. Vagyis: ha A-ból következik B, ez még nyilvánvalóan nem jelenti azt, hogy B-ből is következik A. Tegyük fel, hogy a kísérletünkben az A változó rejtett, nem mérhető (de ezt akarjuk tudni), viszont van egy tőle P(B|A)-szerint függő B változó, amit meg tudunk mérni. Az általunk tanulmányozott B változó méréseiből szeretnénk az A-ra következtetni. Ha csak a B változót tudjuk megfigyelni, akkor a kísérleti rendszerből adódó P(B|A) feltételes valószínűség önmagában még nem mondja meg hogy mi lehet az A változó legvalószínűbb állapota. Ehhez a fordítottját, P(A|B)-t kellene tudnunk! Szerencsére van egy képlet, amely segítségével a kétféle feltételes valószínűség: P(A|B) és P(B|A) átszámolhatóak egymásba.

Bayes tétele szerint:

Az egész döntéselmélet lényegében ezen az egyetlenegy képleten alapszik. Mindig az A változó azon értékére kell szavaznunk, amelyre a P(A|B) valószínűség (a mért B-vel) maximális. Ekkor lesz a döntésünk hibája a legkisebb. A fordított, P(B|A) értékek a kísérleti rendszer alapján határozhatóak meg, a P(A) valószínűségek pedig előzetes mérésekből, vagy akár az irodalomból becsülhetőek. Így dönthetünk két vagy több rivális hipotézis, vagy akár tudományos elmélet között is.