Bioinformatika Bioinformatika
Szekvenc
Szekvenc iák és biológiai funkciók iák és biológiai funkciók ill. genotipusok és fenotipusok ill. genotipusok és fenotipusok
egymáshoz rendelése egymáshoz rendelése
Kós Péter
2009.XI.
A BLAST korlátai A BLAST korlátai
1.1.
A BLAST tár- ill. időigénye O (n A BLAST tár- ill. időigénye O (n
xxm) m)
Nagyon hosszú szekvenciák (teljes genomok) Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas
összehasonlítására nem alkalmas
2.2.
Figyelembe veszi a vizsgált szekvenciá Figyelembe veszi a vizsgált szekvenciá k minden k minden elemét
elemét
Az egyes régiók súlyozására nincs lehetőség, így az esetleg Az egyes régiók súlyozására nincs lehetőség, így az esetleg
„felhígult” információt nem találja meg
„felhígult” információt nem találja meg
BLAST, FASTA Egyes molekulák
hasonlósága Genomok,
kromoszómák
Aktív helyek, molekula részek
1 2
Összehasonlító genomika Összehasonlító genomika
A genomok géntartalma, szerveződése A genomok géntartalma, szerveződése rengeteg információval szolgál
rengeteg információval szolgál
++ ++ -- ++ ++ ++ -- ++ ++ ++ ++ ++ -- -- ++
-
- -- ++ ++ --
++ ++ ++ -- ++
gén
genom
a b c d e
Genomok összehasonlítása: MegaBLAST Genomok összehasonlítása: MegaBLAST
„ „ Fösvény algoritmus” ( Fösvény algoritmus” (
Greedy algorithmGreedy algorithm) )
csak ott használ dinamikus programozást, csak ott használ dinamikus programozást, ahol az elkerülhetetlen
ahol az elkerülhetetlen
Összefűzött kérdő szekvenciák Összefűzött kérdő szekvenciák
a keresést egyszerre végzi, majd az a keresést egyszerre végzi, majd az
eredményből kiválogatja az egyes
eredményből kiválogatja az egyes
szekvenciákra vonatkozó adatokat
szekvenciákra vonatkozó adatokat
Genomok összehasonlítása: MUMmer Genomok összehasonlítása: MUMmer
A szekvencia ábrázolása toldalékfa (suffix tree) formájában A szekvencia ábrázolása toldalékfa (suffix tree) formájában
uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék)uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék)
O (n) időigényO (n) időigény
Maximal Unique Matches (MUM) meghatározásaMaximal Unique Matches (MUM) meghatározása
Szomszédos MUM-ok összekötéseSzomszédos MUM-ok összekötése
MUMer2 : MUMer2 :
Streaming query : 1 fa + sok kis kérdés Streaming query : 1 fa + sok kis kérdés sebesség, genom sebesség, genom sszzekvenálásekvenálás
Nucmer, prommer (nem 100%-s azonosság megtalálása)Nucmer, prommer (nem 100%-s azonosság megtalálása)
MUMmer3 MUMmer3
Tetszőleges ABC Tetszőleges ABC miniproteome miniproteome
javított nucmer, prommer, grafikus interfészjavított nucmer, prommer, grafikus interfész
Genomok összehasonlítása: MUMmer Genomok összehasonlítása: MUMmer
Delcher et al, 1999. NAR v. 27
Az Az agcgacgag agcgacgag toldalékfájanak felépítése toldalékfájanak felépítése
MUMmer2:
MUMmer2:
1 suffix tree, streaming query
1 suffix tree, streaming query
Genomok összehasonlítása a MUM meghatározás után Genomok összehasonlítása a MUM meghatározás után
5: Transzpozíció
3: Véletlen illeszkedés 6: MUM meghosszabbítás
genomok összehasonlítása MUMmerrel genomok összehasonlítása MUMmerrel
Fasta
25-mers
MUMmer
genomok összehasonlítása promerrel genomok összehasonlítása promerrel
nucmer promer
2. probléma:
2. probléma:
Egyes esetekben a rokon molekulák Egyes esetekben a rokon molekulák szekvenciájának csak egy része mutat szekvenciájának csak egy része mutat
homológiát.
homológiát.
Ilyenkor a teljes szekvenciára kiterjedő Ilyenkor a teljes szekvenciára kiterjedő homológia-keresés hibás eredményeket homológia-keresés hibás eredményeket
szolgáltathat
szolgáltathat
Mi a teendő nagy evolúciós távolságok esetén?
Mi a teendő nagy evolúciós távolságok esetén?
Ekkor azonos funkció mellett is alacsony szintű a homológia.
Ekkor azonos funkció mellett is alacsony szintű a homológia.
Mikor mondhatjuk, hogy az adott pontszám, %-os hasonlóság, vagy egyéb matematikai jellemző
biológiai jelentőséggel bír?
Hasonlóság mértéke:
E()
% azonos aminosavak
Mikor tekinjük szignifikánsnak a homológiát?
The The Twilight Zone Twilight Zone
Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”:: 5% azonosság
5% azonosság
A gyakorlatban, az aminosavak különböző gyakorisága következtében A gyakorlatban, az aminosavak különböző gyakorisága következtében
„minden-mindennel” átlag 8%-ban azonos
„minden-mindennel” átlag 8%-ban azonos: : Midnight ZoneMidnight Zone
kb. 45-50% AA azonosság mellett a szerkezetek ált. hasonlóak kb. 45-50% AA azonosság mellett a szerkezetek ált. hasonlóak (backbone rms
(backbone rms<1<1Å)Å): rokon funkciók: rokon funkciók homológ szekvenciák homológ szekvenciák (közös ős)
(közös ős)
~25% aminosav azonoss~25% aminosav azonosság alatt:ág alatt:
a “true positive” a “true positive” és „false positive” találatok különválasztása lehetetlenés „false positive” találatok különválasztása lehetetlen
a közös ős nemigen határozható meg puszán szekvencia-adatok a közös ős nemigen határozható meg puszán szekvencia-adatok alapján:
alapján:
Twilight Zone Twilight Zone
1. Szakértői módszerek
2. Automatizálható módszerek
3. További információk bevonása
Segítség:
„Több hasonló mint azonos”„Több hasonló mint azonos”
„Sequence-space-hopping”
Automatizálható módszerek alacsony homológiájú fehérje-párok Automatizálható módszerek alacsony homológiájú fehérje-párok
közül a „false nagativ”-ok elvetésére közül a „false nagativ”-ok elvetésére
Az evolúció során csökkenő szekvencia-homológia Az evolúció során csökkenő szekvencia-homológia
nem egyenletesen oszlik el a molekulában nem egyenletesen oszlik el a molekulában
Aktív molekula: 3D Aktív molekula: 3D
Részei: Részei:
Aktív hely(ek) Aktív hely(ek)
TÉRBEN közeli aminosavakTÉRBEN közeli aminosavak Minden számít Minden számít
Szerkezeti elemekSzerkezeti elemek
Az egyes aktív helyeketAz egyes aktív helyeket
megfelelő pozícióban tartják (α, β, C-C) megfelelő pozícióban tartják (α, β, C-C) A szerkezet számít
A szerkezet számít
EgyébEgyéb
Szelekciós nyomás konzerváltság
Pontosan illeszkedő, AZONOS aminosavak az aktív helyen
A szerkezet megtartását eredményező
esetleges mutációk
Máshol jelentős különbségek
Többszintű megoldás Többszintű megoldás ok ok Egyenként, vagy integráltan Egyenként, vagy integráltan
Továbbra is 1DTovábbra is 1D
Látható, vagy Látható, vagy láthatatlan láthatatlan motívumok motívumok felkutatása a felkutatása a primer
primer
szekvenciában szekvenciában
profile, profile, Pfam/Rfam, Pfam/Rfam, BLOCKS,
BLOCKS, CDD, CDD, CODCOD
Kb 2D Kb 2D
A másodlagos A másodlagos
szerkezet szerkezet előrejelzése:
előrejelzése:
alfa, beta, ACC, alfa, beta, ACC,
TM, ...
TM, ...
PHD..., Jpred, PHD..., Jpred,
Threader Threader
3D 3D
Harmadlagos szerkezetek Harmadlagos szerkezetek
hasonl
hasonlóságaósága DALI/FSSP
DALI/FSSP PROCAT
PROCAT (( A database of 3D enzyme A database of 3D enzyme active site templates
active site templates )) SCOP (
SCOP (Structural Classification of Structural Classification of Proteins
Proteins) )
CATHCATH ((Class, Architectre, Topology and Class, Architectre, Topology and Homologous superfamily
Homologous superfamily)) CDART
CDART ((protein homology by domain protein homology by domain architecture
architecture ))
HMM
Szerkezeti információk Szerkezeti információk megbízhatóbbá teszik a megbízhatóbbá teszik a homológok azonosítását homológok azonosítását Azonos funkci
Azonos funkcióhoz jobbára óhoz jobbára hasonló szerkezet járul hasonló szerkezet járul
Először csak azt vegyük Először csak azt vegyük
figyelembembe, hogy
figyelembembe, hogy nem nem minden
minden egymást követő egymást követő aminosav
aminosav homológiája homológiája egyformán fontos
egyformán fontos a szerkezet a szerkezet és funkció szempontjából.
és funkció szempontjából.
Melyik fontos?
A pontoz
A pontozásnál ne ásnál ne ((ne nagyonne nagyon))
vegyük figyelembe a biológiai vegyük figyelembe a biológiai funkcióban részt nem vevő funkcióban részt nem vevő aminosavakat, és a
aminosavakat, és a
konzerváltságnak megfelelő konzerváltságnak megfelelő mértékben pontozzuk vagy mértékben pontozzuk vagy súlyozzuk a lényegeseket!
súlyozzuk a lényegeseket!
DNS-kötő fehérjék AT-hook motívuma
Hogy tudhatjuk meg, hogy melyek a
fontos aminosavak?
Egy Egy fehérje: túl szemérmes. fehérje: túl szemérmes.
Néhány
Néhány : súg egy keveset. : súg egy keveset.
Hogyha
Hogyha mindet mindet megkérdezed, megkérdezed, hangos lesz a felelet.
hangos lesz a felelet.
Multiple Alignment !
Multiple Alignment !
Multiple Alignment Multiple Alignment
Szimultán módszerek (m szekvencia összehasonlítása m dimenziós Szimultán módszerek (m szekvencia összehasonlítása m dimenziós
mátrixban) rendkívül időigényesek lennének: O (n mátrixban) rendkívül időigényesek lennének: O (nmm))
Heurisztikus módszereket alkalmazunk
Heurisztikus többszörös rendezők Heurisztikus többszörös rendezők
(Multiple alignment) (Multiple alignment)
ClustalW, clustalv, clustalx (PC) ClustalW, clustalv, clustalx (PC)
(Thompson, Higgins, Gibson 1994)(Thompson, Higgins, Gibson 1994)
A szekvenciákból páronként távolságokat számít A távolságok A szekvenciákból páronként távolságokat számít A távolságok alapján filogenetikai törzsfát (vezérfát) készít.
alapján filogenetikai törzsfát (vezérfát) készít.
A vezérfa szerinti távolságok alapján állapítja meg a többszörös A vezérfa szerinti távolságok alapján állapítja meg a többszörös rendezés sorrendjét
rendezés sorrendjét
A közeli szekvenciákat kisebb súllyal veszi figyelembeA közeli szekvenciákat kisebb súllyal veszi figyelembe
A BLOSUM mátrixok közül a távolságok alapján választA BLOSUM mátrixok közül a távolságok alapján választ
Oldallánc- és pozícióspecifikus pontozásOldallánc- és pozícióspecifikus pontozás
MultAlin MultAlin : (Corpet, 1988) : (Corpet, 1988)
Rekurzív eljárás: Rekurzív eljárás:
a kapott eredménybõl újraszámolja a vezérfát, a kapott eredménybõl újraszámolja a vezérfát,
ezzel új rendezést végezezzel új rendezést végez
ezt addig ismétli, amíg a ezt addig ismétli, amíg a pontszám javulpontszám javul
Multiple Alignment !
E. coli tioredoxin
http://weblogo.berkeley.edu/
Multiple Alignment ! Multiple Alignment !
Egy adott funkcióval Egy adott funkcióval
kapcsolatba hozott állandó kapcsolatba hozott állandó (?) (?) aminosavak együttese:
aminosavak együttese: motifmotif
pl ATP/GTP-bontó fehérjék foszfátkötő helye:
P-loop
+ Kis adatbázis letölthető, tárolható;
Egyszerű keresés (grep, regex)
(FPAT, SCANPROSITE@ExPasy) - nem hordoz elég információt
Genbank mérete > 3x108 !! 8000 találat
Tioredoxin: WCGPC–[KR]
PROFILE PROFILE
Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az ismert szekvenciákhoz tökéletesen hasonlítsanak:
ismert szekvenciákhoz tökéletesen hasonlítsanak:
Valószínűségi módszereket kell alkalmaznunk, ésValószínűségi módszereket kell alkalmaznunk, és
Megfelelően Megfelelően nagy evolúciós távolságot átfogó,nagy evolúciós távolságot átfogó, reprezentatív mintából reprezentatív mintából származó aminosav-gyakoriságokat kell figyelembe venni
származó aminosav-gyakoriságokat kell figyelembe venni
Előfordulási valószínűség az adott pozícióban
Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM)
Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) × AA gyakoriság
PSSM: Position Speific Scoring Matrix
Számos adatbázis elérhető: COD, CDD, BLOCKS, Pfam, Rfam, ...
A profile-ok haszn
A profile-ok haszn álata megkönnyíti: álata megkönnyíti:
•Távoli homológok illesztését
•Az aktív helyek és a funkció meghatárzását
•Újabb homológok felkutatását
•A homológok osztályozását alcsoportokra
•Változékony aminosavak meghatározását (Ab)
•Térbeli szerkezetek meghatározását
Kár, hogy a mátrixot a keresés előtt meg kell adni
Rekurzió
Dinamikusan változtatott, menet közben Dinamikusan változtatott, menet közben automatikusan származtatott scoring mátrix automatikusan származtatott scoring mátrix
használata:
használata: PSI-Blast PSI-Blast
1.1. Gapped BLAST az adatbázisban, egymástól függetlenülGapped BLAST az adatbázisban, egymástól függetlenül
2.2. „„Multiple Alignment” táblázatMultiple Alignment” táblázat
3.3. „„Profile” előállítása ez utóbbibólProfile” előállítása ez utóbbiból
4.4. Újra vizsgálja az adatbázist a Profile-lalÚjra vizsgálja az adatbázist a Profile-lal
5.5. Megtartja a szignifikáns találatokatMegtartja a szignifikáns találatokat
6.6. Vissza a 2-es ponthoz, míg van változás, vagy a maximáils Vissza a 2-es ponthoz, míg van változás, vagy a maximáils ciklusszámig
ciklusszámig
(Position-Specifc Iterated BLAST)
További BLAST-rokon programok:
További BLAST-rokon programok:
blastpgp – protein profile előállítása blastpgp – protein profile előállítása
formatrpsdb – profile adatbázis előállítása formatrpsdb – profile adatbázis előállítása
PHI-BLAST – Pattern-Hit-Initiated BLAST PHI-BLAST – Pattern-Hit-Initiated BLAST
rpsblast, impala – reverse position-specific BLAST rpsblast, impala – reverse position-specific BLAST
KeresKeresés PSSM adatbázisban CDD és PSSM adatbázisban CDD
Ungapped találatok kiterjesztéseUngapped találatok kiterjesztése
PSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehetPSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehet
blastc blastc l l ust – automatikus szekvencia-”klaszterezés” ust – automatikus szekvencia-”klaszterezés”
bl2seq – két szekvencia között az optimális lokális bl2seq – két szekvencia között az optimális lokális illesztés
illesztés
A módszer, ami a BLAST-nál érzékenyebben talál rokonságot távoli homológok között tisztán szekvencia-
adatok alapján:
HMM
E. coli tioredoxin
H H idden idden M M arkov arkov M M odel odel
A pozícó-specifikus mátrixok használatának A pozícó-specifikus mátrixok használatának
továbbfejlesztése egy matematikai eljárás képében, továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak egyes aminosavaknak, inszerciónak és deléciónak
A matematkai módszer alkalmazható szekvencia- A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, illesztésre, homológia-keresésre, gén-keresésre, … …
... ... besz besz éd- ill. írás éd- ill. írás felismer felismer é é sre, sre, rádiózavarszűrésre, rádiózavarszűrésre, stb. stb.
A Hidden Markov Model általános szerkezete A Hidden Markov Model általános szerkezete
1.1.
A modellt A modellt fázisok, fázisok, átmenetek átmenetek és valószínűségek alkotják és valószínűségek alkotják
2.2.
Minden fázist sorban meglátogatunk Minden fázist sorban meglátogatunk
3.3.
Az egyes fázisok egy-egy Az egyes fázisok egy-egy jelet bocsátanak ki jelet bocsátanak ki
4.4.
Minden Minden átmenetnek átmenetnek és és kibocsátott jel kibocsátott jel nek meghatározott nek meghatározott valószínűsége
valószínűsége van; van ; Σ Σp p
ii=1 =1
5.5.
A kibocsátott jelek láthatóak, míg a meglátogatott A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett
fázisok sorrendje rejtett
6.6.
A felhasznált lépések valószínűségének szorzata adja A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott annak a valószínűségét, hogy a modell a kibocsátott
jelek megfigyelhető sorrendjét szolgáltatja jelek megfigyelhető sorrendjét szolgáltatja
7.7.
A valószínűségek az egyes fázisokban a többi fázistól A valószínűségek az egyes fázisokban a többi fázistól
függetlenek (távoli hatásokat nem vesz figyelembe)
függetlenek (távoli hatásokat nem vesz figyelembe)
1. példa
1. példa : : “ “ Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”
vagy GC-gazdag?”
A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van:
AT-gazdag (1) és AT-gazdag (1) és
GC-gazdag (2)GC-gazdag (2)
AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”)
(ezért „szakasz”)
AT-gazdag szakaszban is lehet G/C (és ford.)AT-gazdag szakaszban is lehet G/C (és ford.)
A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C
(ebben a kitalált esetben, ezen DNS-nek ezen a láncán) (ebben a kitalált esetben, ezen DNS-nek ezen a láncán)
A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszokA GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok
Ezek alapján három dolgot rendelünk egymáshoz:
A megfigyelt szekvenciát
A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt
(Ezek közül kettőből
TÖBB KÜLÖNBÖZŐ
harmadik lenne származtatható)
Megfigyelt szekvencia
Markov- lánc
Modell
Megfigyelések:
1. példa
1. példa : : “ “ Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”
vagy GC-gazdag?”
Két fázis
A Modell
Jelek és kibocsátási valószínűségeik
Fázis-átmeneti valószínűségek
Egy lehetséges Egy lehetséges
„Markov-chain”
A megfigyelt szekvencia
Kétféle szakasz:
Kétféle szakasz: AT-gazdag (1) és GC-gazdag (2)AT-gazdag (1) és GC-gazdag (2) Hasonló hasonlót követ …
Hasonló hasonlót követ …
AT-gazdag szakaszban is lehet G/C (és ford.) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C
A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok
Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ezez a HMM ezzelezzel a fázis-sorrenddel
ezt a szimbólum-szekvenciát generáljaezt
Két fázis
Fázis-átmeneti valószínűségek
Jelek és kibocsátási valószínűségeik
Egy lehetséges Egy lehetséges
„Markov-chain”
A Modell
A megfigyelt szekvencia
A megválaszolható kérdések A megválaszolható kérdések
1. Az adott HMM milyen valószínűséggel generálja az adott szekvenciát?
(Scoring)
2. Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment)
3. Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)
A kibocsátási és átmeneti valószínűségek meghatározása pl.
A kibocsátási és átmeneti valószínűségek meghatározása pl.
többszörös összerendezés (multiple alignment) alapján lehetséges többszörös összerendezés (multiple alignment) alapján lehetséges
Két fázis
Fázis-átmeneti valószínűségek
Jelek és kibocsátási valószínűségeik
Egy lehetséges Egy lehetséges
„Markov-chain”
A Modell
A megfigyelt szekvencia
Az előző péda paraméterei Az előző péda paraméterei
A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van:
AT-gazdag (1) és AT-gazdag (1) és
GC-gazdag (2)GC-gazdag (2)
AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”)
(ezért „szakasz”)
AT-gazdag szakaszban is lehet G/C (és ford.)AT-gazdag szakaszban is lehet G/C (és ford.)
A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C
(ebben a kitalált esetben, ezen DNS-nek ezen a láncán) (ebben a kitalált esetben, ezen DNS-nek ezen a láncán)
A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszokA GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok
2. példa
2. példa : : “ “ 5’ prime splice site 5’ prime splice site ” ”
Alignment
Scoring
Minden lehetséges út kiszámítása rendkívül időigényes lenne, Minden lehetséges út kiszámítása rendkívül időigényes lenne,
emiatt itt is speciális algoritmusokat alkalmazunk emiatt itt is speciális algoritmusokat alkalmazunk
Scoring: Scoring:
Forward algoritmus Forward algoritmus
A megelőző valószínűségek összege A megelőző valószínűségek összege
Alignment: Alignment:
Viterbi algoritmus Viterbi algoritmus
A megelőző valószínűségek legnagyobbika + back-tracking A megelőző valószínűségek legnagyobbika + back-tracking
Training Training
Forward-Backward algoritmus Forward-Backward algoritmus
Multiple alignment esetén lokális minimumok kivédésére Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”) további módszerek („noise injection”, „simulated annealing”)
Példa: Profile vs.HMM Példa: Profile vs.HMM
Vezérelv: Több adattal és alaposabb Vezérelv: Több adattal és alaposabb
módszerrel pontosabb eredményt lehet kapni módszerrel pontosabb eredményt lehet kapni
PROFILE
HMM
3. példa: gén keresés
Néhány alapvető HMM Néhány alapvető HMM
(ungapped)
Főbb HMM-en alapuló programok és rokon web szolgáltatások
A HMM hiányossága A HMM hiányossága
Az átmeneti- és kibocsátási valószínűségek csak csak az aktuális fázis függvényei
Emiatt távoli összefüggésekkel kapcsolatban nem használható
RNS másodlagos szerkezet
korrelált mutáció, pl. C-C
További információt kell bevonni a További információt kell bevonni a
távoli homológiák felderítesére:
távoli homológiák felderítesére:
másodlagos, harmadlagos
másodlagos, harmadlagos szerkezet szerkezet
Az evolúció során fellépő mutációk a fehérje Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat szerkezetében nem okoznak azonnal változásokat
• Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja
(kivétel: konvergens evolúció!!!)
• Így a szerkezet felderítése segíthet a
funkció megtalálásában
G=H-TS 3D szerkezet 3D szerkezet
a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét
Hasonló funkció Hasonló szerkezet
Hogyan határozhatjuk meg a szerkezetet a szekvenciából?
VIGYÁZAT!!!
A fehérje szerkezetek nem nagyon stabilak
Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H2O-H2O H-H kötés)
Közeli homológgal nem rendelkező fehérjék Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján funkciójának meghatározása homológia alapján
~50507 protein szerkezet ismert
(2008 dec. 11.)
A hasonlóság elve alapján
következtethetünk egyes sajátságokra
szekvencia
KÍSÉRLET
FASTA, BLAST PSI-BLAST, HMM
Másodlagos szerkezet Fold recognition
Vélt funkció
Mol.biol, Biochem
SCOP, ...
CASP
A fehérje molekula több
A fehérje molekula több doménből doménből épülhet fel épülhet fel
A domének szerkezetileg és részben funkcionálisan A domének szerkezetileg és részben funkcionálisan független egységek
független egységek
Szerkezetük ill. funkciójuk külön-külön vizsgálandó Szerkezetük ill. funkciójuk külön-külön vizsgálandó
Egy domén: gyakran több motif Egy domén: gyakran több motif
A domének független evoluciója következtében az egyes A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes domének magasabb homológiát mutathatnak, mint a teljes fehérje
fehérje
A fehérjéket domének szerint csoportosíthatjuk A fehérjéket domének szerint csoportosíthatjuk
(ld. később)(ld. később)Conserved Domain Database (CDD) (NCBI) ...
Simple Modular Architecture Research Tool (SMART) ...
Sasisekharan-Ramakrishnan-Ramchandran plot Sasisekharan-Ramakrishnan-Ramchandran plot
A peptid kötés ált. sík (ált. trans ill a prolinnál cis)
Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet
6-20 αR konformáció: α hélix
több β-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet
Másodlagos szerkezeti elemek előrejelzése
Másodlagos szerkezeti elemek előrejelzése
Másodlagos szerkezeti elemek előrejelzése Másodlagos szerkezeti elemek előrejelzése
Hidrofil- és hidrofób oldalláncok váltakozása Hidrofil- és hidrofób oldalláncok váltakozása 2(β2(β) ill. 3,5() ill. 3,5(αα) aminosavanként) aminosavanként
α helix hidrofil- és hidrofób oldala: Helical α helix hidrofil- és hidrofób oldala: Helical wheel
wheel
Hosszabb (15-30 aa) hidrofób régió: TMHosszabb (15-30 aa) hidrofób régió: TM
Az egyes aminosavaknak az egyes Az egyes aminosavaknak az egyes
másodlagos szerkezetekben való eloszlási másodlagos szerkezetekben való eloszlási valószínűsége különbözik
valószínűsége különbözik
Sok egyébSok egyéb
Tusnady GE, Dosztanyi Z, Tusnady GE, Dosztanyi Z, SimonSimon I. I.
TMDET
TMDET: web server for detecting transmembrane regions of : web server for detecting transmembrane regions of proteins by using their 3D coordinates.
proteins by using their 3D coordinates. BioinformaticsBioinformatics. 2005; . 2005;
21(7):1276-721(7):1276-7
A kicsiny energetikai különbségek miatt pontosan A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen)
nem lehet megjósolni (a határokat különösen)
A megbízhatóság növelése érdekében minden A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni
lehetséges információt fel kell használni
Új modellek, új algoritmusok (pl HMM)Új modellek, új algoritmusok (pl HMM)
Homológ fehérjeszekvenciák (Multiple Alignment)Homológ fehérjeszekvenciák (Multiple Alignment)
Hasonló célú programok eredményeiHasonló célú programok eredményei
JPRED JPRED
A módszerek értékeléseA módszerek értékelése
CASP CASP
Másodlagos szerkezeti elemek Másodlagos szerkezeti elemek
előrejelzése
előrejelzése
A harmadlagos szerkezet meghatározására több A harmadlagos szerkezet meghatározására több
független megközelítést alkalmaznak független megközelítést alkalmaznak
(Ismert szerkezetű homológ esetén: homológia modellezés)(Ismert szerkezetű homológ esetén: homológia modellezés)
3D profiles ( 3D profiles (
Adott szerkezetekben az egyes aminosavak Adott szerkezetekben az egyes aminosavak környezetekörnyezete nem véletlen szerű. Az oldalláncok csoportosítása nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba
6 csoportba, és a másodlagos szerkezetek 3 csoportba
sorolása lehetővé teszi az aminosavak kódolását. Ezek között sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután
ezután „Fold„Foldiing Pattern”ng Pattern” keresést lehet végezni keresést lehet végezni
) )
Threading ( Threading (
készítsünk szerkezeteket a kérdéses készítsünk szerkezeteket a kérdésesmolekulából, majd „gap”-ek közbeiktatásával illesszük ezeket molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre
az ismert 3D szerkezetekre
) )
... ...
Harmadlagos szerkezetek osztályozása (
Harmadlagos szerkezetek osztályozása (
egymásra egymásra kereszthivatkozókereszthivatkozó
) speciális adatbázisokkal történik ) speciális adatbázisokkal történik
CATH: protein domain szerkezetek hierarchikus osztályozása CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten:
négy szinten: Class(C)Class(C), , Architecture(A)Architecture(A), , Topology(T)Topology(T) and and Homologous superfamily (H)
Homologous superfamily (H). .
SCOP: (Structural Classification of Proteins)SCOP: (Structural Classification of Proteins)
Domains (a PDB adatbázisból)Domains (a PDB adatbázisból)
Families (Homológ domének. Szekveniájuk, szerkezetük ill. Families (Homológ domének. Szekveniájuk, szerkezetük ill.
Funkciójuk hasonlósága közös őst valószínűsít) Funkciójuk hasonlósága közös őst valószínűsít)
Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított)
ahol a rokonság valószínűsíthető, de nem bizonyított)
Folds (hasonló topológiájú „Superfamilies”)Folds (hasonló topológiájú „Superfamilies”)
CLASS (all-CLASS (all-αα; all-; all-ββ; ; αα//ββ; ; αα++β, multi-domβ, multi-doménén;; membrmembrán- és án- és sejtfelszín
sejtfelszín;; egyéb kis proteinek, peptidek egyéb kis proteinek, peptidek;;))
...
• Protein: Flavodoxin from Anabaena
• Lineage:
1. Root: scop
2. Class: Alpha and beta proteins (a/b) [51349]
Mainly parallel beta sheets (beta-alpha-beta units) 3. Fold: Flavodoxin-like [52171]
3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 4. Superfamily: Flavoproteins [52218]
5. Family: Flavodoxin-related [52219]
binds FMN
6. Protein: Flavodoxin [52220]
7. Species: Anabaena, pcc 7119 and 7120 [52223]
• PDB Entry Domains:
1. 1obo
complexed with fmn, so4; mutant
1. chain a [86776]
2. chain b [86777]
2. 1rcf [31170]
complexed with fmn, so4 3. 1dx9
apo form
complexed with so4; mutant
1. chain a [31171]
2. chain b [31172]
– chain c [31173]
A bioinformatika is kísérletes tudomány A bioinformatika is kísérletes tudomány
KizárólagKizárólag ab inito ab inito módszerekkel (energetikai minimalizálással) a módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható teljes molekulák szerkezetének meghatározása nem megoldható
„„Knowledge-based” módszereket alkalmazunkKnowledge-based” módszereket alkalmazunk
A „knowledge” egyre bűvül A „knowledge” egyre bűvül az ezen alapuló az ezen alapuló m móódszerek is dszerek is folyamatosan
folyamatosan fejlődnekfejlődnek
A módszereket tesztelni kell (A módszereket tesztelni kell (in silico in silico KÍSÉRLET)KÍSÉRLET)
CASP: Critical Assessment of Techniques for CASP: Critical Assessment of Techniques for Protein Structure Prediction
Protein Structure Prediction
2 évente végzett „blind test”2 évente végzett „blind test”
Különböző nehézségi kategóriákban meghirdetett szekvenciákKülönböző nehézségi kategóriákban meghirdetett szekvenciák
Titokban tartott, újonnan meghatározott szerkezetekkelTitokban tartott, újonnan meghatározott szerkezetekkel
A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat
példa:
HMMSPECTR
Két, hasonló funkciójú de
nagyon különböző szekvenciájú fehérje hasonló szerkezeti
elemeinek kimutatása:
A bioinformatikában igen gyakran
több különálló programnak
sok szekvenciával,
sokszori futtatása során keletkező
rengeteg, jellemzően szöveges file-t kell
» értelmezni,
» értékelni, ezek alapján
» dönteni a továbi lépésekről.
Ezt a tevékenységet gyakran célszerű (elkerülhetetlen) számítógépekre bízni