Bioinformatika Bioinformatika

(1)

Bioinformatika Bioinformatika

Szekvenc

Szekvenc iák és biológiai funkciók iák és biológiai funkciók ill. genotipusok és fenotipusok ill. genotipusok és fenotipusok

egymáshoz rendelése egymáshoz rendelése

Kós Péter

2009.XI.

(2)

A BLAST korlátai A BLAST korlátai

1.1.

A BLAST tár- ill. időigénye O (n A BLAST tár- ill. időigénye O (n

^x^x

m) m)

 Nagyon hosszú szekvenciák (teljes genomok) Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas

összehasonlítására nem alkalmas

2.2.

Figyelembe veszi a vizsgált szekvenciá Figyelembe veszi a vizsgált szekvenciá k minden k minden elemét

elemét

 Az egyes régiók súlyozására nincs lehetőség, így az esetleg Az egyes régiók súlyozására nincs lehetőség, így az esetleg

„felhígult” információt nem találja meg

BLAST, FASTA Egyes molekulák

hasonlósága Genomok,

kromoszómák

Aktív helyek, molekula részek

1 2

(3)

Összehasonlító genomika Összehasonlító genomika

 A genomok géntartalma, szerveződése A genomok géntartalma, szerveződése rengeteg információval szolgál

rengeteg információval szolgál

++ ++ -- ++ ++ ++ -- ++ ++ ++ ++ ++ -- -- ++

-

- -- ++ ++ --

++ ++ ++ -- ++

gén

genom

a b c d e

(4)

Genomok összehasonlítása: MegaBLAST Genomok összehasonlítása: MegaBLAST

 „ „ Fösvény algoritmus” ( Fösvény algoritmus” (

Greedy algorithmGreedy algorithm

) )



csak ott használ dinamikus programozást, csak ott használ dinamikus programozást, ahol az elkerülhetetlen

ahol az elkerülhetetlen

 Összefűzött kérdő szekvenciák Összefűzött kérdő szekvenciák



a keresést egyszerre végzi, majd az a keresést egyszerre végzi, majd az

eredményből kiválogatja az egyes

szekvenciákra vonatkozó adatokat

(5)

Genomok összehasonlítása: MUMmer Genomok összehasonlítása: MUMmer



A szekvencia ábrázolása toldalékfa (suffix tree) formájában A szekvencia ábrázolása toldalékfa (suffix tree) formájában

 uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék)uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék)

 O (n) időigényO (n) időigény

 Maximal Unique Matches (MUM) meghatározásaMaximal Unique Matches (MUM) meghatározása

 Szomszédos MUM-ok összekötéseSzomszédos MUM-ok összekötése



MUMer2 : MUMer2 :

 Streaming query : 1 fa + sok kis kérdés Streaming query : 1 fa + sok kis kérdés  sebesség, genom sebesség, genom sszzekvenálásekvenálás

 Nucmer, prommer (nem 100%-s azonosság megtalálása)Nucmer, prommer (nem 100%-s azonosság megtalálása)



MUMmer3 MUMmer3

 Tetszőleges ABC Tetszőleges ABC  miniproteome miniproteome

 javított nucmer, prommer, grafikus interfészjavított nucmer, prommer, grafikus interfész

(6)

Genomok összehasonlítása: MUMmer Genomok összehasonlítása: MUMmer

Delcher et al, 1999. NAR v. 27

(7)

Az Az agcgacgag agcgacgag toldalékfájanak felépítése toldalékfájanak felépítése

(8)

MUMmer2:

1 suffix tree, streaming query

(9)

Genomok összehasonlítása a MUM meghatározás után Genomok összehasonlítása a MUM meghatározás után

5: Transzpozíció

3: Véletlen illeszkedés 6: MUM meghosszabbítás

(10)

(11)

genomok összehasonlítása MUMmerrel genomok összehasonlítása MUMmerrel

Fasta

25-mers

MUMmer

(12)

genomok összehasonlítása promerrel genomok összehasonlítása promerrel

nucmer promer

(13)

2. probléma:



Egyes esetekben a rokon molekulák Egyes esetekben a rokon molekulák szekvenciájának csak egy része mutat szekvenciájának csak egy része mutat

homológiát.



Ilyenkor a teljes szekvenciára kiterjedő Ilyenkor a teljes szekvenciára kiterjedő homológia-keresés hibás eredményeket homológia-keresés hibás eredményeket

szolgáltathat

(14)

Mi a teendő nagy evolúciós távolságok esetén?

Ekkor azonos funkció mellett is alacsony szintű a homológia.

Mikor mondhatjuk, hogy az adott pontszám, %-os hasonlóság, vagy egyéb matematikai jellemző

biológiai jelentőséggel bír?

Hasonlóság mértéke:

E()

% azonos aminosavak

Mikor tekinjük szignifikánsnak a homológiát?

(15)

The The Twilight Zone Twilight Zone

 Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”:: 5% azonosság

5% azonosság

 A gyakorlatban, az aminosavak különböző gyakorisága következtében A gyakorlatban, az aminosavak különböző gyakorisága következtében

„minden-mindennel” átlag 8%-ban azonos

„minden-mindennel” átlag 8%-ban azonos: : Midnight ZoneMidnight Zone

 kb. 45-50% AA azonosság mellett a szerkezetek ált. hasonlóak kb. 45-50% AA azonosság mellett a szerkezetek ált. hasonlóak (backbone rms

(backbone rms<1<1Å)Å): rokon funkciók: rokon funkciók homológ szekvenciák homológ szekvenciák (közös ős)

(közös ős)

 ~25% aminosav azonoss~25% aminosav azonosság alatt:ág alatt:

 a “true positive” a “true positive” és „false positive” találatok különválasztása lehetetlenés „false positive” találatok különválasztása lehetetlen

 a közös ős nemigen határozható meg puszán szekvencia-adatok a közös ős nemigen határozható meg puszán szekvencia-adatok alapján:

alapján:

Twilight Zone Twilight Zone

1. Szakértői módszerek

2. Automatizálható módszerek

3. További információk bevonása

Segítség:

(16)

„Több hasonló mint azonos”„Több hasonló mint azonos”

„Sequence-space-hopping”

Automatizálható módszerek alacsony homológiájú fehérje-párok Automatizálható módszerek alacsony homológiájú fehérje-párok

közül a „false nagativ”-ok elvetésére közül a „false nagativ”-ok elvetésére

(17)

Az evolúció során csökkenő szekvencia-homológia Az evolúció során csökkenő szekvencia-homológia

nem egyenletesen oszlik el a molekulában nem egyenletesen oszlik el a molekulában



Aktív molekula: 3D Aktív molekula: 3D



Részei: Részei:

 Aktív hely(ek) Aktív hely(ek)

 TÉRBEN közeli aminosavakTÉRBEN közeli aminosavak Minden számít Minden számít

 Szerkezeti elemekSzerkezeti elemek

 Az egyes aktív helyeketAz egyes aktív helyeket

megfelelő pozícióban tartják (α, β, C-C) megfelelő pozícióban tartják (α, β, C-C) A szerkezet számít

A szerkezet számít

 EgyébEgyéb

Szelekciós nyomás konzerváltság

(18)

Pontosan illeszkedő, AZONOS aminosavak az aktív helyen

A szerkezet megtartását eredményező

esetleges mutációk

Máshol jelentős különbségek

(19)

Többszintű megoldás Többszintű megoldás ok ok Egyenként, vagy integráltan Egyenként, vagy integráltan

 Továbbra is 1DTovábbra is 1D

Látható, vagy Látható, vagy láthatatlan láthatatlan motívumok motívumok felkutatása a felkutatása a primer

primer

szekvenciában szekvenciában

profile, profile, Pfam/Rfam, Pfam/Rfam, BLOCKS,

BLOCKS, CDD, CDD, CODCOD



Kb 2D Kb 2D

A másodlagos A másodlagos

szerkezet szerkezet előrejelzése:

előrejelzése:

alfa, beta, ACC, alfa, beta, ACC,

TM, ...

PHD..., Jpred, PHD..., Jpred,

Threader Threader



3D 3D

Harmadlagos szerkezetek Harmadlagos szerkezetek

hasonl

hasonlóságaósága DALI/FSSP

DALI/FSSP PROCAT

PROCAT (( A database of 3D enzyme A database of 3D enzyme active site templates

active site templates )) SCOP (

SCOP (Structural Classification of Structural Classification of Proteins

Proteins) )

CATHCATH ((Class, Architectre, Topology and Class, Architectre, Topology and Homologous superfamily

Homologous superfamily)) CDART

CDART ((protein homology by domain protein homology by domain architecture

architecture ))

HMM

(20)

Szerkezeti információk Szerkezeti információk megbízhatóbbá teszik a megbízhatóbbá teszik a homológok azonosítását homológok azonosítását Azonos funkci

Azonos funkcióhoz jobbára óhoz jobbára hasonló szerkezet járul hasonló szerkezet járul

Először csak azt vegyük Először csak azt vegyük

figyelembembe, hogy

figyelembembe, hogy nem nem minden

minden egymást követő egymást követő aminosav

aminosav homológiája homológiája egyformán fontos

egyformán fontos a szerkezet a szerkezet és funkció szempontjából.

és funkció szempontjából.

Melyik fontos?

(21)

A pontoz

A pontozásnál ne ásnál ne ((ne nagyonne nagyon))

vegyük figyelembe a biológiai vegyük figyelembe a biológiai funkcióban részt nem vevő funkcióban részt nem vevő aminosavakat, és a

aminosavakat, és a

konzerváltságnak megfelelő konzerváltságnak megfelelő mértékben pontozzuk vagy mértékben pontozzuk vagy súlyozzuk a lényegeseket!

súlyozzuk a lényegeseket!

DNS-kötő fehérjék AT-hook motívuma

Hogy tudhatjuk meg, hogy melyek a

fontos aminosavak?

(22)

Egy Egy fehérje: túl szemérmes. fehérje: túl szemérmes.

Néhány

Néhány : súg egy keveset. : súg egy keveset.

Hogyha

Hogyha mindet mindet megkérdezed, megkérdezed, hangos lesz a felelet.

hangos lesz a felelet.

Multiple Alignment !

(23)

Multiple Alignment Multiple Alignment

Szimultán módszerek (m szekvencia összehasonlítása m dimenziós Szimultán módszerek (m szekvencia összehasonlítása m dimenziós

mátrixban) rendkívül időigényesek lennének: O (n mátrixban) rendkívül időigényesek lennének: O (n^m^m))

Heurisztikus módszereket alkalmazunk

(24)

Heurisztikus többszörös rendezők Heurisztikus többszörös rendezők

(Multiple alignment) (Multiple alignment)



ClustalW, clustalv, clustalx (PC) ClustalW, clustalv, clustalx (PC)

(Thompson, Higgins, Gibson 1994)(Thompson, Higgins, Gibson 1994)



A szekvenciákból páronként távolságokat számít A távolságok A szekvenciákból páronként távolságokat számít A távolságok alapján filogenetikai törzsfát (vezérfát) készít.

alapján filogenetikai törzsfát (vezérfát) készít.

 A vezérfa szerinti távolságok alapján állapítja meg a többszörös A vezérfa szerinti távolságok alapján állapítja meg a többszörös rendezés sorrendjét

rendezés sorrendjét

 A közeli szekvenciákat kisebb súllyal veszi figyelembeA közeli szekvenciákat kisebb súllyal veszi figyelembe

 A BLOSUM mátrixok közül a távolságok alapján választA BLOSUM mátrixok közül a távolságok alapján választ

 Oldallánc- és pozícióspecifikus pontozásOldallánc- és pozícióspecifikus pontozás



MultAlin MultAlin : (Corpet, 1988) : (Corpet, 1988)



Rekurzív eljárás: Rekurzív eljárás:

 a kapott eredménybõl újraszámolja a vezérfát, a kapott eredménybõl újraszámolja a vezérfát,

 ezzel új rendezést végezezzel új rendezést végez

 ezt addig ismétli, amíg a ezt addig ismétli, amíg a pontszám javulpontszám javul

(25)

(26)

Multiple Alignment !

E. coli tioredoxin

(27)

http://weblogo.berkeley.edu/

(28)

Multiple Alignment ! Multiple Alignment !

Egy adott funkcióval Egy adott funkcióval

kapcsolatba hozott állandó kapcsolatba hozott állandó (?) (?) aminosavak együttese:

aminosavak együttese: motifmotif

pl ATP/GTP-bontó fehérjék foszfátkötő helye:

P-loop

+ Kis adatbázis letölthető, tárolható;

Egyszerű keresés (grep, regex)

(FPAT, SCANPROSITE@ExPasy) - nem hordoz elég információt

Genbank mérete > 3^x10⁸!! 8000 találat

Tioredoxin: WCGPC–[KR]

PROFILE PROFILE

(29)

Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az ismert szekvenciákhoz tökéletesen hasonlítsanak:

ismert szekvenciákhoz tökéletesen hasonlítsanak:

 Valószínűségi módszereket kell alkalmaznunk, ésValószínűségi módszereket kell alkalmaznunk, és

 Megfelelően Megfelelően nagy evolúciós távolságot átfogó,nagy evolúciós távolságot átfogó, reprezentatív mintából reprezentatív mintából származó aminosav-gyakoriságokat kell figyelembe venni

származó aminosav-gyakoriságokat kell figyelembe venni

Előfordulási valószínűség az adott pozícióban

Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM)

Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) × AA gyakoriság

PSSM: Position Speific Scoring Matrix

Számos adatbázis elérhető: COD, CDD, BLOCKS, Pfam, Rfam, ...

(30)

A profile-ok haszn

A profile-ok haszn álata megkönnyíti: álata megkönnyíti:

•Távoli homológok illesztését

•Az aktív helyek és a funkció meghatárzását

•Újabb homológok felkutatását

•A homológok osztályozását alcsoportokra

•Változékony aminosavak meghatározását (Ab)

•Térbeli szerkezetek meghatározását

Kár, hogy a mátrixot a keresés előtt meg kell adni 



Rekurzió

(31)

Dinamikusan változtatott, menet közben Dinamikusan változtatott, menet közben automatikusan származtatott scoring mátrix automatikusan származtatott scoring mátrix

használata:

használata: PSI-Blast PSI-Blast

1.1. Gapped BLAST az adatbázisban, egymástól függetlenülGapped BLAST az adatbázisban, egymástól függetlenül

2.2. „„Multiple Alignment” táblázatMultiple Alignment” táblázat

3.3. „„Profile” előállítása ez utóbbibólProfile” előállítása ez utóbbiból

4.4. Újra vizsgálja az adatbázist a Profile-lalÚjra vizsgálja az adatbázist a Profile-lal

5.5. Megtartja a szignifikáns találatokatMegtartja a szignifikáns találatokat

6.6. Vissza a 2-es ponthoz, míg van változás, vagy a maximáils Vissza a 2-es ponthoz, míg van változás, vagy a maximáils ciklusszámig

ciklusszámig

(Position-Specifc Iterated BLAST)

(32)

További BLAST-rokon programok:



blastpgp – protein profile előállítása blastpgp – protein profile előállítása



formatrpsdb – profile adatbázis előállítása formatrpsdb – profile adatbázis előállítása



PHI-BLAST – Pattern-Hit-Initiated BLAST PHI-BLAST – Pattern-Hit-Initiated BLAST



rpsblast, impala – reverse position-specific BLAST rpsblast, impala – reverse position-specific BLAST

 KeresKeresés PSSM adatbázisban CDD és PSSM adatbázisban CDD

 Ungapped találatok kiterjesztéseUngapped találatok kiterjesztése

 PSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehetPSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehet



blastc blastc l l ust – automatikus szekvencia-”klaszterezés” ust – automatikus szekvencia-”klaszterezés”



bl2seq – két szekvencia között az optimális lokális bl2seq – két szekvencia között az optimális lokális illesztés

illesztés

A módszer, ami a BLAST-nál érzékenyebben talál rokonságot távoli homológok között tisztán szekvencia-

adatok alapján:

HMM

(33)

E. coli tioredoxin

(34)

H H idden idden M M arkov arkov M M odel odel



A pozícó-specifikus mátrixok használatának A pozícó-specifikus mátrixok használatának

továbbfejlesztése egy matematikai eljárás képében, továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak egyes aminosavaknak, inszerciónak és deléciónak



A matematkai módszer alkalmazható szekvencia- A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, illesztésre, homológia-keresésre, gén-keresésre, … …

... ... besz besz éd- ill. írás éd- ill. írás felismer felismer é é sre, sre, rádiózavarszűrésre, rádiózavarszűrésre, stb. stb.

(35)

A Hidden Markov Model általános szerkezete A Hidden Markov Model általános szerkezete

1.1.

A modellt A modellt fázisok, fázisok, átmenetek átmenetek és valószínűségek alkotják és valószínűségek alkotják

2.2.

Minden fázist sorban meglátogatunk Minden fázist sorban meglátogatunk

3.3.

Az egyes fázisok egy-egy Az egyes fázisok egy-egy jelet bocsátanak ki jelet bocsátanak ki

4.4.

Minden Minden átmenetnek átmenetnek és és kibocsátott jel kibocsátott jel nek meghatározott nek meghatározott valószínűsége

valószínűsége van; van ; Σ Σp p

_i_i

=1 =1

5.5.

A kibocsátott jelek láthatóak, míg a meglátogatott A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett

fázisok sorrendje rejtett

6.6.

A felhasznált lépések valószínűségének szorzata adja A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott annak a valószínűségét, hogy a modell a kibocsátott

jelek megfigyelhető sorrendjét szolgáltatja jelek megfigyelhető sorrendjét szolgáltatja

7.7.

A valószínűségek az egyes fázisokban a többi fázistól A valószínűségek az egyes fázisokban a többi fázistól

függetlenek (távoli hatásokat nem vesz figyelembe)

(36)

1. példa

1. példa : : “ “ Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”

vagy GC-gazdag?”

 A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van:

 AT-gazdag (1) és AT-gazdag (1) és

 GC-gazdag (2)GC-gazdag (2)

 AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”)

(ezért „szakasz”)

 AT-gazdag szakaszban is lehet G/C (és ford.)AT-gazdag szakaszban is lehet G/C (és ford.)

 A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C

(ebben a kitalált esetben, ezen DNS-nek ezen a láncán) (ebben a kitalált esetben, ezen DNS-nek ezen a láncán)

 A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszokA GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

Ezek alapján három dolgot rendelünk egymáshoz:

A megfigyelt szekvenciát

A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt

(Ezek közül kettőből

TÖBB KÜLÖNBÖZŐ

harmadik lenne származtatható)

Megfigyelt szekvencia

Markov- lánc

Modell

Megfigyelések:

(37)

1. példa

1. példa : : “ “ Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”

vagy GC-gazdag?”

Két fázis

A Modell

Jelek és kibocsátási valószínűségeik

Fázis-átmeneti valószínűségek

Egy lehetséges Egy lehetséges

„Markov-chain”

A megfigyelt szekvencia

Kétféle szakasz:

Kétféle szakasz: AT-gazdag (1) és GC-gazdag (2)AT-gazdag (1) és GC-gazdag (2) Hasonló hasonlót követ …

Hasonló hasonlót követ …

AT-gazdag szakaszban is lehet G/C (és ford.) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C

A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ezez a HMM ezzelezzel a fázis-sorrenddel

ezt a szimbólum-szekvenciát generáljaezt

(38)

Két fázis

Egy lehetséges Egy lehetséges

„Markov-chain”

A Modell

A megválaszolható kérdések A megválaszolható kérdések

1. Az adott HMM milyen valószínűséggel generálja az adott szekvenciát?

(Scoring)

2. Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment)

3. Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)

(39)

A kibocsátási és átmeneti valószínűségek meghatározása pl.

többszörös összerendezés (multiple alignment) alapján lehetséges többszörös összerendezés (multiple alignment) alapján lehetséges

(40)

Két fázis

Egy lehetséges Egy lehetséges

„Markov-chain”

A Modell

Az előző péda paraméterei Az előző péda paraméterei

 A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van:

 AT-gazdag (1) és AT-gazdag (1) és

 GC-gazdag (2)GC-gazdag (2)

 AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”)

(ezért „szakasz”)

 AT-gazdag szakaszban is lehet G/C (és ford.)AT-gazdag szakaszban is lehet G/C (és ford.)

 A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C

(ebben a kitalált esetben, ezen DNS-nek ezen a láncán) (ebben a kitalált esetben, ezen DNS-nek ezen a láncán)

 A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszokA GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

(41)

2. példa

2. példa : : “ “ 5’ prime splice site 5’ prime splice site ” ”

Alignment

Scoring

(42)

Minden lehetséges út kiszámítása rendkívül időigényes lenne, Minden lehetséges út kiszámítása rendkívül időigényes lenne,

emiatt itt is speciális algoritmusokat alkalmazunk emiatt itt is speciális algoritmusokat alkalmazunk



Scoring: Scoring:

Forward algoritmus Forward algoritmus

A megelőző valószínűségek összege A megelőző valószínűségek összege



Alignment: Alignment:

Viterbi algoritmus Viterbi algoritmus

A megelőző valószínűségek legnagyobbika + back-tracking A megelőző valószínűségek legnagyobbika + back-tracking



Training Training

Forward-Backward algoritmus Forward-Backward algoritmus

Multiple alignment esetén lokális minimumok kivédésére Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”) további módszerek („noise injection”, „simulated annealing”)

(43)

Példa: Profile vs.HMM Példa: Profile vs.HMM

Vezérelv: Több adattal és alaposabb Vezérelv: Több adattal és alaposabb

módszerrel pontosabb eredményt lehet kapni módszerrel pontosabb eredményt lehet kapni

PROFILE

HMM

(44)

3. példa: gén keresés

(45)

Néhány alapvető HMM Néhány alapvető HMM

(ungapped)

(46)

Főbb HMM-en alapuló programok és rokon web szolgáltatások

(47)

A HMM hiányossága A HMM hiányossága



Az átmeneti- és kibocsátási valószínűségek csak csak az aktuális fázis függvényei



Emiatt távoli összefüggésekkel kapcsolatban nem használható

 RNS másodlagos szerkezet

 korrelált mutáció, pl. C-C

További információt kell bevonni a További információt kell bevonni a

távoli homológiák felderítesére:

másodlagos, harmadlagos

másodlagos, harmadlagos szerkezet szerkezet

(48)

Az evolúció során fellépő mutációk a fehérje Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat szerkezetében nem okoznak azonnal változásokat

• Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja

(kivétel: konvergens evolúció!!!)

• Így a szerkezet felderítése segíthet a

funkció megtalálásában

(49)

G=H-TS 3D szerkezet 3D szerkezet

a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét

Hasonló funkció Hasonló szerkezet

Hogyan határozhatjuk meg a szerkezetet a szekvenciából?

VIGYÁZAT!!!

A fehérje szerkezetek nem nagyon stabilak

Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H₂O-H₂O H-H kötés)

(50)

Közeli homológgal nem rendelkező fehérjék Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján funkciójának meghatározása homológia alapján

~50507 protein szerkezet ismert

(2008 dec. 11.)

A hasonlóság elve alapján

következtethetünk egyes sajátságokra

szekvencia

KÍSÉRLET

FASTA, BLAST PSI-BLAST, HMM

Másodlagos szerkezet Fold recognition

Vélt funkció

Mol.biol, Biochem

SCOP, ...

CASP

(51)

A fehérje molekula több

A fehérje molekula több doménből doménből épülhet fel épülhet fel



A domének szerkezetileg és részben funkcionálisan A domének szerkezetileg és részben funkcionálisan független egységek

független egységek



Szerkezetük ill. funkciójuk külön-külön vizsgálandó Szerkezetük ill. funkciójuk külön-külön vizsgálandó



Egy domén: gyakran több motif Egy domén: gyakran több motif



A domének független evoluciója következtében az egyes A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes domének magasabb homológiát mutathatnak, mint a teljes fehérje

fehérje



A fehérjéket domének szerint csoportosíthatjuk A fehérjéket domének szerint csoportosíthatjuk

(ld. később)(ld. később)

Conserved Domain Database (CDD) (NCBI) ...

Simple Modular Architecture Research Tool (SMART) ...

(52)

Sasisekharan-Ramakrishnan-Ramchandran plot Sasisekharan-Ramakrishnan-Ramchandran plot

A peptid kötés ált. sík (ált. trans ill a prolinnál cis)

Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet

6-20 αR konformáció: α hélix

több β-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet

Másodlagos szerkezeti elemek előrejelzése

(53)

Másodlagos szerkezeti elemek előrejelzése Másodlagos szerkezeti elemek előrejelzése

 Hidrofil- és hidrofób oldalláncok váltakozása Hidrofil- és hidrofób oldalláncok váltakozása 2(β2(β) ill. 3,5() ill. 3,5(αα) aminosavanként) aminosavanként

 α helix hidrofil- és hidrofób oldala: Helical α helix hidrofil- és hidrofób oldala: Helical wheel

wheel

 Hosszabb (15-30 aa) hidrofób régió: TMHosszabb (15-30 aa) hidrofób régió: TM

 Az egyes aminosavaknak az egyes Az egyes aminosavaknak az egyes

másodlagos szerkezetekben való eloszlási másodlagos szerkezetekben való eloszlási valószínűsége különbözik

valószínűsége különbözik

 Sok egyébSok egyéb

 Tusnady GE, Dosztanyi Z, Tusnady GE, Dosztanyi Z, SimonSimon I. I.

TMDET

TMDET: web server for detecting transmembrane regions of : web server for detecting transmembrane regions of proteins by using their 3D coordinates.

proteins by using their 3D coordinates. BioinformaticsBioinformatics. 2005; . 2005;

21(7):1276-721(7):1276-7

(54)



A kicsiny energetikai különbségek miatt pontosan A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen)

nem lehet megjósolni (a határokat különösen)



A megbízhatóság növelése érdekében minden A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni

lehetséges információt fel kell használni

 Új modellek, új algoritmusok (pl HMM)Új modellek, új algoritmusok (pl HMM)

 Homológ fehérjeszekvenciák (Multiple Alignment)Homológ fehérjeszekvenciák (Multiple Alignment)

 Hasonló célú programok eredményeiHasonló célú programok eredményei



JPRED JPRED

 A módszerek értékeléseA módszerek értékelése

 CASP CASP

Másodlagos szerkezeti elemek Másodlagos szerkezeti elemek

előrejelzése

(55)

A harmadlagos szerkezet meghatározására több A harmadlagos szerkezet meghatározására több

független megközelítést alkalmaznak független megközelítést alkalmaznak

 (Ismert szerkezetű homológ esetén: homológia modellezés)(Ismert szerkezetű homológ esetén: homológia modellezés)



3D profiles ( 3D profiles (

Adott szerkezetekben az egyes aminosavak Adott szerkezetekben az egyes aminosavak környezete

környezete nem véletlen szerű. Az oldalláncok csoportosítása nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba

6 csoportba, és a másodlagos szerkezetek 3 csoportba

sorolása lehetővé teszi az aminosavak kódolását. Ezek között sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután

ezután „Fold„Foldiing Pattern”ng Pattern” keresést lehet végezni keresést lehet végezni

) )



Threading ( Threading (

készítsünk szerkezeteket a kérdéses készítsünk szerkezeteket a kérdéses

molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre

az ismert 3D szerkezetekre

) )



... ...

(56)

Harmadlagos szerkezetek osztályozása (

egymásra egymásra kereszthivatkozó

kereszthivatkozó

) speciális adatbázisokkal történik ) speciális adatbázisokkal történik

 CATH: protein domain szerkezetek hierarchikus osztályozása CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten:

négy szinten: Class(C)Class(C), , Architecture(A)Architecture(A), , Topology(T)Topology(T) and and Homologous superfamily (H)

Homologous superfamily (H). .

 SCOP: (Structural Classification of Proteins)SCOP: (Structural Classification of Proteins)

 Domains (a PDB adatbázisból)Domains (a PDB adatbázisból)

 Families (Homológ domének. Szekveniájuk, szerkezetük ill. Families (Homológ domének. Szekveniájuk, szerkezetük ill.

Funkciójuk hasonlósága közös őst valószínűsít) Funkciójuk hasonlósága közös őst valószínűsít)

 Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított)

ahol a rokonság valószínűsíthető, de nem bizonyított)

 Folds (hasonló topológiájú „Superfamilies”)Folds (hasonló topológiájú „Superfamilies”)

 CLASS (all-CLASS (all-αα; all-; all-ββ; ; αα//ββ; ; αα++β, multi-domβ, multi-doménén;; membrmembrán- és án- és sejtfelszín

sejtfelszín;; egyéb kis proteinek, peptidek egyéb kis proteinek, peptidek;;))

 ...

(57)

(58)

(59)

(60)

• Protein: Flavodoxin from Anabaena

• Lineage:

1. Root: scop

2. Class: Alpha and beta proteins (a/b) [51349]

Mainly parallel beta sheets (beta-alpha-beta units) 3. Fold: Flavodoxin-like [52171]

3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 4. Superfamily: Flavoproteins [52218]

5. Family: Flavodoxin-related [52219]

binds FMN

6. Protein: Flavodoxin [52220]

7. Species: Anabaena, pcc 7119 and 7120 [52223]

• PDB Entry Domains:

1. 1obo

complexed with fmn, so4; mutant

1. chain a [86776]

2. chain b [86777]

2. 1rcf [31170]

complexed with fmn, so4 3. 1dx9

apo form

complexed with so4; mutant

1. chain a [31171]

2. chain b [31172]

– chain c [31173]

(61)

(62)

A bioinformatika is kísérletes tudomány A bioinformatika is kísérletes tudomány

 KizárólagKizárólag ab inito ab inito módszerekkel (energetikai minimalizálással) a módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható teljes molekulák szerkezetének meghatározása nem megoldható

 „„Knowledge-based” módszereket alkalmazunkKnowledge-based” módszereket alkalmazunk

 A „knowledge” egyre bűvül A „knowledge” egyre bűvül  az ezen alapuló az ezen alapuló m móódszerek is dszerek is folyamatosan

folyamatosan fejlődnekfejlődnek

 A módszereket tesztelni kell (A módszereket tesztelni kell (in silico in silico KÍSÉRLET)KÍSÉRLET)



CASP: Critical Assessment of Techniques for CASP: Critical Assessment of Techniques for Protein Structure Prediction

Protein Structure Prediction

 2 évente végzett „blind test”2 évente végzett „blind test”

 Különböző nehézségi kategóriákban meghirdetett szekvenciákKülönböző nehézségi kategóriákban meghirdetett szekvenciák

 Titokban tartott, újonnan meghatározott szerkezetekkelTitokban tartott, újonnan meghatározott szerkezetekkel

(63)

(64)

A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat

példa:

HMMSPECTR

Két, hasonló funkciójú de

nagyon különböző szekvenciájú fehérje hasonló szerkezeti

elemeinek kimutatása:

(65)

A bioinformatikában igen gyakran

 több különálló programnak

 sok szekvenciával,

 sokszori futtatása során keletkező

 rengeteg, jellemzően szöveges file-t kell

» értelmezni,

» értékelni, ezek alapján

» dönteni a továbi lépésekről.

Ezt a tevékenységet gyakran célszerű (elkerülhetetlen) számítógépekre bízni