• Nem Talált Eredményt

Bioinformatika Bioinformatika

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Bioinformatika Bioinformatika"

Copied!
65
0
0

Teljes szövegt

(1)

Bioinformatika Bioinformatika

Szekvenc

Szekvenc iák és biológiai funkciók iák és biológiai funkciók ill. genotipusok és fenotipusok ill. genotipusok és fenotipusok

egymáshoz rendelése egymáshoz rendelése

Kós Péter

2009.XI.

(2)

A BLAST korlátai A BLAST korlátai

1.1.

A BLAST tár- ill. időigénye O (n A BLAST tár- ill. időigénye O (n

xx

m) m)

Nagyon hosszú szekvenciák (teljes genomok) Nagyon hosszú szekvenciák (teljes genomok) összehasonlítására nem alkalmas

összehasonlítására nem alkalmas

2.2.

Figyelembe veszi a vizsgált szekvenciá Figyelembe veszi a vizsgált szekvenciá k minden k minden elemét

elemét

Az egyes régiók súlyozására nincs lehetőség, így az esetleg Az egyes régiók súlyozására nincs lehetőség, így az esetleg

„felhígult” információt nem találja meg

„felhígult” információt nem találja meg

BLAST, FASTA Egyes molekulák

hasonlósága Genomok,

kromoszómák

Aktív helyek, molekula részek

1 2

(3)

Összehasonlító genomika Összehasonlító genomika

 A genomok géntartalma, szerveződése A genomok géntartalma, szerveződése rengeteg információval szolgál

rengeteg információval szolgál

++ ++ -- ++ ++ ++ -- ++ ++ ++ ++ ++ -- -- ++

-

- -- ++ ++ --

++ ++ ++ -- ++

gén

genom

a b c d e

(4)

Genomok összehasonlítása: MegaBLAST Genomok összehasonlítása: MegaBLAST

 „ „ Fösvény algoritmus” ( Fösvény algoritmus” (

Greedy algorithmGreedy algorithm

) )

csak ott használ dinamikus programozást, csak ott használ dinamikus programozást, ahol az elkerülhetetlen

ahol az elkerülhetetlen

 Összefűzött kérdő szekvenciák Összefűzött kérdő szekvenciák

a keresést egyszerre végzi, majd az a keresést egyszerre végzi, majd az

eredményből kiválogatja az egyes

eredményből kiválogatja az egyes

szekvenciákra vonatkozó adatokat

szekvenciákra vonatkozó adatokat

(5)

Genomok összehasonlítása: MUMmer Genomok összehasonlítása: MUMmer

A szekvencia ábrázolása toldalékfa (suffix tree) formájában A szekvencia ábrázolása toldalékfa (suffix tree) formájában

uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék)uvw : u-prefix (előtag), v-szöveg, w-suffix (toldalék)

O (n) időigényO (n) időigény

Maximal Unique Matches (MUM) meghatározásaMaximal Unique Matches (MUM) meghatározása

Szomszédos MUM-ok összekötéseSzomszédos MUM-ok összekötése

MUMer2 : MUMer2 :

Streaming query : 1 fa + sok kis kérdés Streaming query : 1 fa + sok kis kérdés sebesség, genom sebesség, genom sszzekvenálásekvenálás

Nucmer, prommer (nem 100%-s azonosság megtalálása)Nucmer, prommer (nem 100%-s azonosság megtalálása)

MUMmer3 MUMmer3

Tetszőleges ABC Tetszőleges ABC  miniproteome miniproteome

javított nucmer, prommer, grafikus interfészjavított nucmer, prommer, grafikus interfész

(6)

Genomok összehasonlítása: MUMmer Genomok összehasonlítása: MUMmer

Delcher et al, 1999. NAR v. 27

(7)

Az Az agcgacgag agcgacgag toldalékfájanak felépítése toldalékfájanak felépítése

(8)

MUMmer2:

MUMmer2:

1 suffix tree, streaming query

1 suffix tree, streaming query

(9)

Genomok összehasonlítása a MUM meghatározás után Genomok összehasonlítása a MUM meghatározás után

5: Transzpozíció

3: Véletlen illeszkedés 6: MUM meghosszabbítás

(10)
(11)

genomok összehasonlítása MUMmerrel genomok összehasonlítása MUMmerrel

Fasta

25-mers

MUMmer

(12)

genomok összehasonlítása promerrel genomok összehasonlítása promerrel

nucmer promer

(13)

2. probléma:

2. probléma:

Egyes esetekben a rokon molekulák Egyes esetekben a rokon molekulák szekvenciájának csak egy része mutat szekvenciájának csak egy része mutat

homológiát.

homológiát.

Ilyenkor a teljes szekvenciára kiterjedő Ilyenkor a teljes szekvenciára kiterjedő homológia-keresés hibás eredményeket homológia-keresés hibás eredményeket

szolgáltathat

szolgáltathat

(14)

Mi a teendő nagy evolúciós távolságok esetén?

Mi a teendő nagy evolúciós távolságok esetén?

Ekkor azonos funkció mellett is alacsony szintű a homológia.

Ekkor azonos funkció mellett is alacsony szintű a homológia.

Mikor mondhatjuk, hogy az adott pontszám, %-os hasonlóság, vagy egyéb matematikai jellemző

biológiai jelentőséggel bír?

Hasonlóság mértéke:

E()

% azonos aminosavak

Mikor tekinjük szignifikánsnak a homológiát?

(15)

The The Twilight Zone Twilight Zone

Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”Elvileg 2 tetszőleges AA szekvencia minden 20 aminosava „passzol”:: 5% azonosság

5% azonosság

A gyakorlatban, az aminosavak különböző gyakorisága következtében A gyakorlatban, az aminosavak különböző gyakorisága következtében

„minden-mindennel” átlag 8%-ban azonos

„minden-mindennel” átlag 8%-ban azonos: : Midnight ZoneMidnight Zone

kb. 45-50% AA azonosság mellett a szerkezetek ált. hasonlóak kb. 45-50% AA azonosság mellett a szerkezetek ált. hasonlóak (backbone rms

(backbone rms<1<1Å)Å): rokon funkciók: rokon funkciók homológ szekvenciák homológ szekvenciák (közös ős)

(közös ős)

~25% aminosav azonoss~25% aminosav azonosság alatt:ág alatt:

a “true positive” a “true positive” és „false positive” találatok különválasztása lehetetlenés „false positive” találatok különválasztása lehetetlen

a közös ős nemigen határozható meg puszán szekvencia-adatok a közös ős nemigen határozható meg puszán szekvencia-adatok alapján:

alapján:

Twilight Zone Twilight Zone

1. Szakértői módszerek

2. Automatizálható módszerek

3. További információk bevonása

Segítség:

(16)

„Több hasonló mint azonos”Több hasonló mint azonos”

„Sequence-space-hopping”

Automatizálható módszerek alacsony homológiájú fehérje-párok Automatizálható módszerek alacsony homológiájú fehérje-párok

közül a „false nagativ”-ok elvetésére közül a „false nagativ”-ok elvetésére

(17)

Az evolúció során csökkenő szekvencia-homológia Az evolúció során csökkenő szekvencia-homológia

nem egyenletesen oszlik el a molekulában nem egyenletesen oszlik el a molekulában

Aktív molekula: 3D Aktív molekula: 3D

Részei: Részei:

Aktív hely(ek) Aktív hely(ek)

TÉRBEN közeli aminosavakTÉRBEN közeli aminosavak Minden számít Minden számít

Szerkezeti elemekSzerkezeti elemek

Az egyes aktív helyeketAz egyes aktív helyeket

megfelelő pozícióban tartják (α, β, C-C) megfelelő pozícióban tartják (α, β, C-C) A szerkezet számít

A szerkezet számít

EgyébEgyéb

Szelekciós nyomás konzerváltság

(18)

Pontosan illeszkedő, AZONOS aminosavak az aktív helyen

A szerkezet megtartását eredményező

esetleges mutációk

Máshol jelentős különbségek

(19)

Többszintű megoldás Többszintű megoldás ok ok Egyenként, vagy integráltan Egyenként, vagy integráltan

Továbbra is 1DTovábbra is 1D

Látható, vagy Látható, vagy láthatatlan láthatatlan motívumok motívumok felkutatása a felkutatása a primer

primer

szekvenciában szekvenciában

profile, profile, Pfam/Rfam, Pfam/Rfam, BLOCKS,

BLOCKS, CDD, CDD, CODCOD

Kb 2D Kb 2D

A másodlagos A másodlagos

szerkezet szerkezet előrejelzése:

előrejelzése:

alfa, beta, ACC, alfa, beta, ACC,

TM, ...

TM, ...

PHD..., Jpred, PHD..., Jpred,

Threader Threader

3D 3D

Harmadlagos szerkezetek Harmadlagos szerkezetek

hasonl

hasonlóságaósága DALI/FSSP

DALI/FSSP PROCAT

PROCAT (( A database of 3D enzyme A database of 3D enzyme active site templates

active site templates )) SCOP (

SCOP (Structural Classification of Structural Classification of Proteins

Proteins) )

CATHCATH ((Class, Architectre, Topology and Class, Architectre, Topology and Homologous superfamily

Homologous superfamily)) CDART

CDART ((protein homology by domain protein homology by domain architecture

architecture ))

HMM

(20)

Szerkezeti információk Szerkezeti információk megbízhatóbbá teszik a megbízhatóbbá teszik a homológok azonosítását homológok azonosítását Azonos funkci

Azonos funkcióhoz jobbára óhoz jobbára hasonló szerkezet járul hasonló szerkezet járul

Először csak azt vegyük Először csak azt vegyük

figyelembembe, hogy

figyelembembe, hogy nem nem minden

minden egymást követő egymást követő aminosav

aminosav homológiája homológiája egyformán fontos

egyformán fontos a szerkezet a szerkezet és funkció szempontjából.

és funkció szempontjából.

Melyik fontos?

(21)

A pontoz

A pontozásnál ne ásnál ne ((ne nagyonne nagyon))

vegyük figyelembe a biológiai vegyük figyelembe a biológiai funkcióban részt nem vevő funkcióban részt nem vevő aminosavakat, és a

aminosavakat, és a

konzerváltságnak megfelelő konzerváltságnak megfelelő mértékben pontozzuk vagy mértékben pontozzuk vagy súlyozzuk a lényegeseket!

súlyozzuk a lényegeseket!

DNS-kötő fehérjék AT-hook motívuma

Hogy tudhatjuk meg, hogy melyek a

fontos aminosavak?

(22)

Egy Egy fehérje: túl szemérmes. fehérje: túl szemérmes.

Néhány

Néhány : súg egy keveset. : súg egy keveset.

Hogyha

Hogyha mindet mindet megkérdezed, megkérdezed, hangos lesz a felelet.

hangos lesz a felelet.

Multiple Alignment !

Multiple Alignment !

(23)

Multiple Alignment Multiple Alignment

Szimultán módszerek (m szekvencia összehasonlítása m dimenziós Szimultán módszerek (m szekvencia összehasonlítása m dimenziós

mátrixban) rendkívül időigényesek lennének: O (n mátrixban) rendkívül időigényesek lennének: O (nmm))

Heurisztikus módszereket alkalmazunk

(24)

Heurisztikus többszörös rendezők Heurisztikus többszörös rendezők

(Multiple alignment) (Multiple alignment)

ClustalW, clustalv, clustalx (PC) ClustalW, clustalv, clustalx (PC)

(Thompson, Higgins, Gibson 1994)(Thompson, Higgins, Gibson 1994)

A szekvenciákból páronként távolságokat számít A távolságok A szekvenciákból páronként távolságokat számít A távolságok alapján filogenetikai törzsfát (vezérfát) készít.

alapján filogenetikai törzsfát (vezérfát) készít.

A vezérfa szerinti távolságok alapján állapítja meg a többszörös A vezérfa szerinti távolságok alapján állapítja meg a többszörös rendezés sorrendjét

rendezés sorrendjét

A közeli szekvenciákat kisebb súllyal veszi figyelembeA közeli szekvenciákat kisebb súllyal veszi figyelembe

A BLOSUM mátrixok közül a távolságok alapján választA BLOSUM mátrixok közül a távolságok alapján választ

Oldallánc- és pozícióspecifikus pontozásOldallánc- és pozícióspecifikus pontozás

MultAlin MultAlin : (Corpet, 1988) : (Corpet, 1988)

Rekurzív eljárás: Rekurzív eljárás:

a kapott eredménybõl újraszámolja a vezérfát, a kapott eredménybõl újraszámolja a vezérfát,

ezzel új rendezést végezezzel új rendezést végez

ezt addig ismétli, amíg a ezt addig ismétli, amíg a pontszám javulpontszám javul

(25)
(26)

Multiple Alignment !

E. coli tioredoxin

(27)

http://weblogo.berkeley.edu/

(28)

Multiple Alignment ! Multiple Alignment !

Egy adott funkcióval Egy adott funkcióval

kapcsolatba hozott állandó kapcsolatba hozott állandó (?) (?) aminosavak együttese:

aminosavak együttese: motifmotif

pl ATP/GTP-bontó fehérjék foszfátkötő helye:

P-loop

+ Kis adatbázis letölthető, tárolható;

Egyszerű keresés (grep, regex)

(FPAT, SCANPROSITE@ExPasy) - nem hordoz elég információt

Genbank mérete > 3x108 !! 8000 találat

Tioredoxin: WCGPC–[KR]

PROFILE PROFILE

(29)

Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az Új homológok megtalálásához nem célszerű megkövetelni, hogy azok az ismert szekvenciákhoz tökéletesen hasonlítsanak:

ismert szekvenciákhoz tökéletesen hasonlítsanak:

Valószínűségi módszereket kell alkalmaznunk, ésValószínűségi módszereket kell alkalmaznunk, és

Megfelelően Megfelelően nagy evolúciós távolságot átfogó,nagy evolúciós távolságot átfogó, reprezentatív mintából reprezentatív mintából származó aminosav-gyakoriságokat kell figyelembe venni

származó aminosav-gyakoriságokat kell figyelembe venni

Előfordulási valószínűség az adott pozícióban

Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM)

Előfordulási valószínűség az adott pozícióban × Subst.Mátrix (PAM/BLOSUM) × AA gyakoriság

PSSM: Position Speific Scoring Matrix

Számos adatbázis elérhető: COD, CDD, BLOCKS, Pfam, Rfam, ...

(30)

A profile-ok haszn

A profile-ok haszn álata megkönnyíti: álata megkönnyíti:

•Távoli homológok illesztését

•Az aktív helyek és a funkció meghatárzását

•Újabb homológok felkutatását

•A homológok osztályozását alcsoportokra

•Változékony aminosavak meghatározását (Ab)

•Térbeli szerkezetek meghatározását

Kár, hogy a mátrixot a keresés előtt meg kell adni 

Rekurzió

(31)

Dinamikusan változtatott, menet közben Dinamikusan változtatott, menet közben automatikusan származtatott scoring mátrix automatikusan származtatott scoring mátrix

használata:

használata: PSI-Blast PSI-Blast

1.1. Gapped BLAST az adatbázisban, egymástól függetlenülGapped BLAST az adatbázisban, egymástól függetlenül

2.2. „„Multiple Alignment” táblázatMultiple Alignment” táblázat

3.3. „„Profile” előállítása ez utóbbibólProfile” előállítása ez utóbbiból

4.4. Újra vizsgálja az adatbázist a Profile-lalÚjra vizsgálja az adatbázist a Profile-lal

5.5. Megtartja a szignifikáns találatokatMegtartja a szignifikáns találatokat

6.6. Vissza a 2-es ponthoz, míg van változás, vagy a maximáils Vissza a 2-es ponthoz, míg van változás, vagy a maximáils ciklusszámig

ciklusszámig

(Position-Specifc Iterated BLAST)

(32)

További BLAST-rokon programok:

További BLAST-rokon programok:

blastpgp – protein profile előállítása blastpgp – protein profile előállítása

formatrpsdb – profile adatbázis előállítása formatrpsdb – profile adatbázis előállítása

PHI-BLAST – Pattern-Hit-Initiated BLAST PHI-BLAST – Pattern-Hit-Initiated BLAST

rpsblast, impala – reverse position-specific BLAST rpsblast, impala – reverse position-specific BLAST

KeresKeresés PSSM adatbázisban CDD és PSSM adatbázisban CDD

Ungapped találatok kiterjesztéseUngapped találatok kiterjesztése

PSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehetPSI-BLAST-nál kevésbé hatékony, de a BLAST-nál 100x gyorsabb lehet

blastc blastc l l ust – automatikus szekvencia-”klaszterezés” ust – automatikus szekvencia-”klaszterezés”

bl2seq – két szekvencia között az optimális lokális bl2seq – két szekvencia között az optimális lokális illesztés

illesztés

A módszer, ami a BLAST-nál érzékenyebben talál rokonságot távoli homológok között tisztán szekvencia-

adatok alapján:

HMM

(33)

E. coli tioredoxin

(34)

H H idden idden M M arkov arkov M M odel odel

A pozícó-specifikus mátrixok használatának A pozícó-specifikus mátrixok használatának

továbbfejlesztése egy matematikai eljárás képében, továbbfejlesztése egy matematikai eljárás képében, ahol minden pozícióban külön valószínűsége van az ahol minden pozícióban külön valószínűsége van az egyes aminosavaknak, inszerciónak és deléciónak egyes aminosavaknak, inszerciónak és deléciónak

A matematkai módszer alkalmazható szekvencia- A matematkai módszer alkalmazható szekvencia- illesztésre, homológia-keresésre, gén-keresésre, illesztésre, homológia-keresésre, gén-keresésre, … …

... ... besz besz éd- ill. írás éd- ill. írás felismer felismer é é sre, sre, rádiózavarszűrésre, rádiózavarszűrésre, stb. stb.

(35)

A Hidden Markov Model általános szerkezete A Hidden Markov Model általános szerkezete

1.1.

A modellt A modellt fázisok, fázisok, átmenetek átmenetek és valószínűségek alkotják és valószínűségek alkotják

2.2.

Minden fázist sorban meglátogatunk Minden fázist sorban meglátogatunk

3.3.

Az egyes fázisok egy-egy Az egyes fázisok egy-egy jelet bocsátanak ki jelet bocsátanak ki

4.4.

Minden Minden átmenetnek átmenetnek és és kibocsátott jel kibocsátott jel nek meghatározott nek meghatározott valószínűsége

valószínűsége van; van ; Σ Σp p

ii

=1 =1

5.5.

A kibocsátott jelek láthatóak, míg a meglátogatott A kibocsátott jelek láthatóak, míg a meglátogatott fázisok sorrendje rejtett

fázisok sorrendje rejtett

6.6.

A felhasznált lépések valószínűségének szorzata adja A felhasznált lépések valószínűségének szorzata adja annak a valószínűségét, hogy a modell a kibocsátott annak a valószínűségét, hogy a modell a kibocsátott

jelek megfigyelhető sorrendjét szolgáltatja jelek megfigyelhető sorrendjét szolgáltatja

7.7.

A valószínűségek az egyes fázisokban a többi fázistól A valószínűségek az egyes fázisokban a többi fázistól

függetlenek (távoli hatásokat nem vesz figyelembe)

függetlenek (távoli hatásokat nem vesz figyelembe)

(36)

1. példa

1. példa : : “ “ Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”

vagy GC-gazdag?”

A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van:

AT-gazdag (1) és AT-gazdag (1) és

GC-gazdag (2)GC-gazdag (2)

AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”)

(ezért „szakasz”)

AT-gazdag szakaszban is lehet G/C (és ford.)AT-gazdag szakaszban is lehet G/C (és ford.)

A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C

(ebben a kitalált esetben, ezen DNS-nek ezen a láncán) (ebben a kitalált esetben, ezen DNS-nek ezen a láncán)

A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszokA GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

Ezek alapján három dolgot rendelünk egymáshoz:

A megfigyelt szekvenciát

A DNS szakasz „tulajdonságát” (1 v. 2) (AT v. GC) A modellt

(Ezek közül kettőből

TÖBB KÜLÖNBÖZŐ

harmadik lenne származtatható)

Megfigyelt szekvencia

Markov- lánc

Modell

Megfigyelések:

(37)

1. példa

1. példa : : “ “ Egy (végtelen) szekvencia adott része Egy (végtelen) szekvencia adott része AT-gazdag AT-gazdag vagy GC-gazdag?”

vagy GC-gazdag?”

Két fázis

A Modell

Jelek és kibocsátási valószínűségeik

Fázis-átmeneti valószínűségek

Egy lehetséges Egy lehetséges

„Markov-chain”

A megfigyelt szekvencia

Kétféle szakasz:

Kétféle szakasz: AT-gazdag (1) és GC-gazdag (2)AT-gazdag (1) és GC-gazdag (2) Hasonló hasonlót követ …

Hasonló hasonlót követ …

AT-gazdag szakaszban is lehet G/C (és ford.) AT-gazdag szakaszban is lehet G/C (és ford.) A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C

A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

Ezen valószínűségek szorzata adja meg annak a valószínűségét, hogy ezez a HMM ezzelezzel a fázis-sorrenddel

ezt a szimbólum-szekvenciát generáljaezt

(38)

Két fázis

Fázis-átmeneti valószínűségek

Jelek és kibocsátási valószínűségeik

Egy lehetséges Egy lehetséges

„Markov-chain”

A Modell

A megfigyelt szekvencia

A megválaszolható kérdések A megválaszolható kérdések

1. Az adott HMM milyen valószínűséggel generálja az adott szekvenciát?

(Scoring)

2. Melyik az optimális fázis szekvencia, amit a HMM használna az adott szekvencia generálásához? (Alignment)

3. Egy nagy adathalmazt milyen paraméterekkel határozna meg legjobban az adott HMM? (Training)

(39)

A kibocsátási és átmeneti valószínűségek meghatározása pl.

A kibocsátási és átmeneti valószínűségek meghatározása pl.

többszörös összerendezés (multiple alignment) alapján lehetséges többszörös összerendezés (multiple alignment) alapján lehetséges

(40)

Két fázis

Fázis-átmeneti valószínűségek

Jelek és kibocsátási valószínűségeik

Egy lehetséges Egy lehetséges

„Markov-chain”

A Modell

A megfigyelt szekvencia

Az előző péda paraméterei Az előző péda paraméterei

A DNS szekvenciának kétFÉLE szakasza van: A DNS szekvenciának kétFÉLE szakasza van:

AT-gazdag (1) és AT-gazdag (1) és

GC-gazdag (2)GC-gazdag (2)

AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.)AT-gazdag régióhoz tartozó bázist jobbára hasonló fajta követ (és ford.) (ezért „szakasz”)

(ezért „szakasz”)

AT-gazdag szakaszban is lehet G/C (és ford.)AT-gazdag szakaszban is lehet G/C (és ford.)

A GC-gazdag régiókban kicsit több a G, mint a C A GC-gazdag régiókban kicsit több a G, mint a C

(ebben a kitalált esetben, ezen DNS-nek ezen a láncán) (ebben a kitalált esetben, ezen DNS-nek ezen a láncán)

A GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszokA GC-gazdag szakaszok rövidebbek, mint az AT-gazdag szakaszok

(41)

2. példa

2. példa : : “ “ 5’ prime splice site 5’ prime splice site ” ”

Alignment

Scoring

(42)

Minden lehetséges út kiszámítása rendkívül időigényes lenne, Minden lehetséges út kiszámítása rendkívül időigényes lenne,

emiatt itt is speciális algoritmusokat alkalmazunk emiatt itt is speciális algoritmusokat alkalmazunk

Scoring: Scoring:

Forward algoritmus Forward algoritmus

A megelőző valószínűségek összege A megelőző valószínűségek összege

Alignment: Alignment:

Viterbi algoritmus Viterbi algoritmus

A megelőző valószínűségek legnagyobbika + back-tracking A megelőző valószínűségek legnagyobbika + back-tracking

Training Training

Forward-Backward algoritmus Forward-Backward algoritmus

Multiple alignment esetén lokális minimumok kivédésére Multiple alignment esetén lokális minimumok kivédésére további módszerek („noise injection”, „simulated annealing”) további módszerek („noise injection”, „simulated annealing”)

(43)

Példa: Profile vs.HMM Példa: Profile vs.HMM

Vezérelv: Több adattal és alaposabb Vezérelv: Több adattal és alaposabb

módszerrel pontosabb eredményt lehet kapni módszerrel pontosabb eredményt lehet kapni

PROFILE

HMM

(44)

3. példa: gén keresés

(45)

Néhány alapvető HMM Néhány alapvető HMM

(ungapped)

(46)

Főbb HMM-en alapuló programok és rokon web szolgáltatások

(47)

A HMM hiányossága A HMM hiányossága

Az átmeneti- és kibocsátási valószínűségek csak csak az aktuális fázis függvényei

Emiatt távoli összefüggésekkel kapcsolatban nem használható

RNS másodlagos szerkezet

korrelált mutáció, pl. C-C

További információt kell bevonni a További információt kell bevonni a

távoli homológiák felderítesére:

távoli homológiák felderítesére:

másodlagos, harmadlagos

másodlagos, harmadlagos szerkezet szerkezet

(48)

Az evolúció során fellépő mutációk a fehérje Az evolúció során fellépő mutációk a fehérje szerkezetében nem okoznak azonnal változásokat szerkezetében nem okoznak azonnal változásokat

• Bizonyos szintű homológia mellett az adott funkciót hasonló szerkezet tartja

(kivétel: konvergens evolúció!!!)

• Így a szerkezet felderítése segíthet a

funkció megtalálásában

(49)

G=H-TS 3D szerkezet 3D szerkezet

a priori fizikai-kémiai módszerekkel (még) nem tudjuk meghatározni (kiszámolni) a fehérjék szerkezetét

Hasonló funkció Hasonló szerkezet

Hogyan határozhatjuk meg a szerkezetet a szekvenciából?

VIGYÁZAT!!!

A fehérje szerkezetek nem nagyon stabilak

Ált. 20-60kJ/mol (5-15kcal/mol) stabilabbak, mint a denaturált foma (1-2 H2O-H2O H-H kötés)

(50)

Közeli homológgal nem rendelkező fehérjék Közeli homológgal nem rendelkező fehérjék funkciójának meghatározása homológia alapján funkciójának meghatározása homológia alapján

~50507 protein szerkezet ismert

(2008 dec. 11.)

A hasonlóság elve alapján

következtethetünk egyes sajátságokra

szekvencia

KÍSÉRLET

FASTA, BLAST PSI-BLAST, HMM

Másodlagos szerkezet Fold recognition

Vélt funkció

Mol.biol, Biochem

SCOP, ...

CASP

(51)

A fehérje molekula több

A fehérje molekula több doménből doménből épülhet fel épülhet fel

A domének szerkezetileg és részben funkcionálisan A domének szerkezetileg és részben funkcionálisan független egységek

független egységek

Szerkezetük ill. funkciójuk külön-külön vizsgálandó Szerkezetük ill. funkciójuk külön-külön vizsgálandó

Egy domén: gyakran több motif Egy domén: gyakran több motif

A domének független evoluciója következtében az egyes A domének független evoluciója következtében az egyes domének magasabb homológiát mutathatnak, mint a teljes domének magasabb homológiát mutathatnak, mint a teljes fehérje

fehérje

A fehérjéket domének szerint csoportosíthatjuk A fehérjéket domének szerint csoportosíthatjuk

(ld. később)(ld. később)

Conserved Domain Database (CDD) (NCBI) ...

Simple Modular Architecture Research Tool (SMART) ...

(52)

Sasisekharan-Ramakrishnan-Ramchandran plot Sasisekharan-Ramakrishnan-Ramchandran plot

A peptid kötés ált. sík (ált. trans ill a prolinnál cis)

Az elvileg szabadon forgatható kötések energetikailag kedvező konformációi kijelölik kedvező másodlagos szerkezetet

6-20 αR konformáció: α hélix

több β-konformáció: „extended szerkezet” – β strand 2 v. több β strand: β sheet

Másodlagos szerkezeti elemek előrejelzése

Másodlagos szerkezeti elemek előrejelzése

(53)

Másodlagos szerkezeti elemek előrejelzése Másodlagos szerkezeti elemek előrejelzése

Hidrofil- és hidrofób oldalláncok váltakozása Hidrofil- és hidrofób oldalláncok váltakozása 2(β2(β) ill. 3,5() ill. 3,5(αα) aminosavanként) aminosavanként

α helix hidrofil- és hidrofób oldala: Helical α helix hidrofil- és hidrofób oldala: Helical wheel

wheel

Hosszabb (15-30 aa) hidrofób régió: TMHosszabb (15-30 aa) hidrofób régió: TM

Az egyes aminosavaknak az egyes Az egyes aminosavaknak az egyes

másodlagos szerkezetekben való eloszlási másodlagos szerkezetekben való eloszlási valószínűsége különbözik

valószínűsége különbözik

Sok egyébSok egyéb

Tusnady GE, Dosztanyi Z, Tusnady GE, Dosztanyi Z, SimonSimon I. I.

TMDET

TMDET: web server for detecting transmembrane regions of : web server for detecting transmembrane regions of proteins by using their 3D coordinates.

proteins by using their 3D coordinates. BioinformaticsBioinformatics. 2005; . 2005;

21(7):1276-721(7):1276-7

(54)

A kicsiny energetikai különbségek miatt pontosan A kicsiny energetikai különbségek miatt pontosan nem lehet megjósolni (a határokat különösen)

nem lehet megjósolni (a határokat különösen)

A megbízhatóság növelése érdekében minden A megbízhatóság növelése érdekében minden lehetséges információt fel kell használni

lehetséges információt fel kell használni

Új modellek, új algoritmusok (pl HMM)Új modellek, új algoritmusok (pl HMM)

Homológ fehérjeszekvenciák (Multiple Alignment)Homológ fehérjeszekvenciák (Multiple Alignment)

Hasonló célú programok eredményeiHasonló célú programok eredményei

JPRED JPRED

A módszerek értékeléseA módszerek értékelése

CASP CASP

Másodlagos szerkezeti elemek Másodlagos szerkezeti elemek

előrejelzése

előrejelzése

(55)

A harmadlagos szerkezet meghatározására több A harmadlagos szerkezet meghatározására több

független megközelítést alkalmaznak független megközelítést alkalmaznak

(Ismert szerkezetű homológ esetén: homológia modellezés)(Ismert szerkezetű homológ esetén: homológia modellezés)

3D profiles ( 3D profiles (

Adott szerkezetekben az egyes aminosavak Adott szerkezetekben az egyes aminosavak környezete

környezete nem véletlen szerű. Az oldalláncok csoportosítása nem véletlen szerű. Az oldalláncok csoportosítása 6 csoportba, és a másodlagos szerkezetek 3 csoportba

6 csoportba, és a másodlagos szerkezetek 3 csoportba

sorolása lehetővé teszi az aminosavak kódolását. Ezek között sorolása lehetővé teszi az aminosavak kódolását. Ezek között ezután

ezután „Fold„Foldiing Pattern”ng Pattern” keresést lehet végezni keresést lehet végezni

) )

Threading ( Threading (

készítsünk szerkezeteket a kérdéses készítsünk szerkezeteket a kérdéses

molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket molekulából, majd „gap”-ek közbeiktatásával illesszük ezeket az ismert 3D szerkezetekre

az ismert 3D szerkezetekre

) )

... ...

(56)

Harmadlagos szerkezetek osztályozása (

Harmadlagos szerkezetek osztályozása (

egymásra egymásra kereszthivatkozó

kereszthivatkozó

) speciális adatbázisokkal történik ) speciális adatbázisokkal történik

CATH: protein domain szerkezetek hierarchikus osztályozása CATH: protein domain szerkezetek hierarchikus osztályozása négy szinten:

négy szinten: Class(C)Class(C), , Architecture(A)Architecture(A), , Topology(T)Topology(T) and and Homologous superfamily (H)

Homologous superfamily (H). .

SCOP: (Structural Classification of Proteins)SCOP: (Structural Classification of Proteins)

Domains (a PDB adatbázisból)Domains (a PDB adatbázisból)

Families (Homológ domének. Szekveniájuk, szerkezetük ill. Families (Homológ domének. Szekveniájuk, szerkezetük ill.

Funkciójuk hasonlósága közös őst valószínűsít) Funkciójuk hasonlósága közös őst valószínűsít)

Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, Superfamilies (Hasonló szerkezetű és funkciójú fehérjék családjai, ahol a rokonság valószínűsíthető, de nem bizonyított)

ahol a rokonság valószínűsíthető, de nem bizonyított)

Folds (hasonló topológiájú „Superfamilies”)Folds (hasonló topológiájú „Superfamilies”)

CLASS (all-CLASS (all-αα; all-; all-ββ; ; αα/β; ; αα++β, multi-domβ, multi-doménén;; membrmembrán- és án- és sejtfelszín

sejtfelszín;; egyéb kis proteinek, peptidek egyéb kis proteinek, peptidek;;))

...

(57)
(58)
(59)
(60)

Protein: Flavodoxin from Anabaena

Lineage:

1. Root: scop

2. Class: Alpha and beta proteins (a/b) [51349]

Mainly parallel beta sheets (beta-alpha-beta units) 3. Fold: Flavodoxin-like [52171]

3 layers, a/b/a; parallel beta-sheet of 5 strand, order 21345 4. Superfamily: Flavoproteins [52218]

5. Family: Flavodoxin-related [52219]

binds FMN

6. Protein: Flavodoxin [52220]

7. Species: Anabaena, pcc 7119 and 7120 [52223]

PDB Entry Domains:

1. 1obo

complexed with fmn, so4; mutant

1. chain a [86776]

2. chain b [86777]

2. 1rcf [31170]

complexed with fmn, so4 3. 1dx9

apo form

complexed with so4; mutant

1. chain a [31171]

2. chain b [31172]

chain c [31173]

(61)
(62)

A bioinformatika is kísérletes tudomány A bioinformatika is kísérletes tudomány

KizárólagKizárólag ab inito ab inito módszerekkel (energetikai minimalizálással) a módszerekkel (energetikai minimalizálással) a teljes molekulák szerkezetének meghatározása nem megoldható teljes molekulák szerkezetének meghatározása nem megoldható

„„Knowledge-based” módszereket alkalmazunkKnowledge-based” módszereket alkalmazunk

A „knowledge” egyre bűvül A „knowledge” egyre bűvül  az ezen alapuló az ezen alapuló m móódszerek is dszerek is folyamatosan

folyamatosan fejlődnekfejlődnek

A módszereket tesztelni kell (A módszereket tesztelni kell (in silico in silico KÍSÉRLET)KÍSÉRLET)

CASP: Critical Assessment of Techniques for CASP: Critical Assessment of Techniques for Protein Structure Prediction

Protein Structure Prediction

2 évente végzett „blind test”2 évente végzett „blind test”

Különböző nehézségi kategóriákban meghirdetett szekvenciákKülönböző nehézségi kategóriákban meghirdetett szekvenciák

Titokban tartott, újonnan meghatározott szerkezetekkelTitokban tartott, újonnan meghatározott szerkezetekkel

(63)
(64)

A CASP4 eredményekkel összehasonlítva igen jó teljesítményt mutat

példa:

HMMSPECTR

Két, hasonló funkciójú de

nagyon különböző szekvenciájú fehérje hasonló szerkezeti

elemeinek kimutatása:

(65)

A bioinformatikában igen gyakran

több különálló programnak

sok szekvenciával,

 sokszori futtatása során keletkező

rengeteg, jellemzően szöveges file-t kell

» értelmezni,

» értékelni, ezek alapján

» dönteni a továbi lépésekről.

Ezt a tevékenységet gyakran célszerű (elkerülhetetlen) számítógépekre bízni

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

1. Laikusok elektrokonvulzív terápiával kapcsolatos attitűdje Magyarországon. Gazdag G, Asztalos M, Ungvari GS. Az elektrokonvulzív kezelés magyarországi elérhetősége.

As immune cells have steroid ( fi rst of all, estrogen) nuclear and plasma membrane receptors, which bind phytostrogens (genistein, daidzein, etc.), the development, lifespan,

Concha Győző 1864 és 1869 között hallgatott és tanult jogot a pesti Magyar Királyi Tudományegyetemen, midőn már a magyar lett az elsődleges tanítási nyelv – igaz,

31/A Mozart: G-dúr hegedû-brácsa duó 31/B Mozart: Jagd-Quartett. 31/C Mozart:

Míg a halálbüntetés az elmúlt fél évtizedben teljesen eltűnt a li- berális demokráciák jogrendszeréből, az Egyesült Államokban sok tagállami büntetőjogban létezik (ahogy

A kiállított munkák elsősorban volt tanítványai alkotásai: „… a tanítás gyakorlatát pe- dig kiragadott példákkal világítom meg: volt tanítványaim „válaszait”

(b) a reverz primer segítségével bevitt 40 nukleotid hosszú GC kapocs (CGCCG GG C GG - G CGGGGCGGGCGGGGCGGGGGCGCGGGGGG) a TTGE során megakadályozza az MC1R allélok PCR

Ugyanígy értelmezés dolga, hogy az értelmezéseket hozzárendeljük értelmező közösségekhez – hogy megítéljük, csoportosítsuk, rendezzük őket.. Maguk az értelmezések