• Nem Talált Eredményt

Bioinformatikai adatbázisok

és 13. fejezet). Fontos emlékeztetnünk rá, hogy az eukariótában a gének általában intronokat is

10. Bevezetés a bioinformatikába

10.1. Bioinformatikai adatbázisok

10.1.1. Bibliográfiai gyűjtemények

Az olvasóban első kérdésként bizonyára felmerül, hogy mi lehet az internetes oldalak haszna a biológiai kutatás számára. A válasz igen sokrétű. A legnagyobb előny a kísérletes adatokhoz való szabad hozzáférés  akár teljes cikkek alakjában, akár elemi adathalmazok formájában. Mielőtt hozzákezdünk bármilyen

kísérletsorozathoz, azt általában jelentős tervezői munka kell, hogy megelőzze. Ebben az első és legfontosabb forrásunk az irodalomban már publikált eredmények lesznek. A világ legnagyobb ilyen irodalmi adatbázisa az amerikai NCBI (National Center for Biotechnology Information) PubMed nevű gyűjteménye. A keresőprogramja nem túl látványos, de nagyon intelligens: kereshetünk kulcsszavakra, szerzők, vagy folyóiratok szerint is. Az egymásra hivatkozó, rokon cikkeket össze is fűzi a keresőprogram (a

"related" oszlopban tekinthetők meg). Mindemellett egyéb keresők, köztük a Google Scholar keresőfelület hasznosságát sem szabad lebecsülni, ha irodalmat kutatunk. A már leírt eredmények ismerete már csak azért is fontos, hogy ne ismételjük meg feleslegesen a már jól ismert tényeket bizonyító kísérleteket, illetve hogy ne állítsunk fel elvben is megvalósíthatatlan kísérleti terveket.

10.1.2. DNS szekvencia-adatbázisok: GenBank és Ensembl

Egy molekuláris biológiai laboratórium mindennapi munkája számára az egyik legfontosabb forrásként a gének és fehérjék pontos “képletei”, azaz szekvenciái szolgálnak. Az ezeket tároló és interneten

hozzáférhető gyűjteményeket nevezik elsődleges szekvencia-adatbázisoknak. Az ismert fajokból nyert elsődleges genetikai információ három nagy nemzetközi oldalon férhető hozzá: Ilyen az NIH intézménye, az NCBI által fenntartott GenBank adatbázis (USA), az EMBL (European Molecular Biology Laboratory) gyűjteménye, az ENA (European Nucleotide Archive) illetve a DDBJ (DNA Data Bank of Japan)

adatbankja. A gyakorlatban leginkább a GenBank adatbázist szoktuk használni. Itt a genomikus adatokon túl cDNS információkat is tárolnak. A cDNS szekvenciákat könnyen lefordíthatjuk aminosav

szekvenciákra, de a klónozási feladatokhoz is elengedhetetlen az ismeretük. A primerek tervezéséhez is ismerni kell a cDNS pontos szekvenciáját, akár a nem kódoló szakaszokat is beleértve. A GenBank adatbázisa lehetővé teszi a gének látványos megjelenítését is: ez a Map GeneViewer, amely a Google térképek szoftveres felületén alapszik (ld. 10.1. ábra).

124 10.1. ábra: Az NCBI grafikus „nézegető” felülete, a GeneViewer. A humán MEF2A gén részlete

A kijelölt génszakaszt felnagyítva (zoom) láthatóvá válik az egyedi nukleotid sorrend. A program külön jelöli az mRNS-re átíródó szakaszokat (az összes ismert variánst), és nemcsak az exonokat, de azok pontos aminosav-fordítását is megadja. Sőt, még a fiziológiás variánsokat (polimorfizmusokat) és a patológiás mutációkat is jelöli. Ez azonban nem az egyetlen genom-vizualizációs program.

Az európai Ensembl genom-adatbázis (amely főleg gerincesek és néhány modell gerinctelen élőlény teljes genom szekvenciáit tartalmazza) internetes felülete szintén könnyen kezelhető. Az utóbbi előnye, hogy tartalmazza például a génekben az eddig leírt potenciális mRNS szekvenciákat (azokat is, amelyekről nem történik fehérjeszintézis), az ismert epigenetikai módosításokat, továbbá rengeteg bioinformatikai jóslással (predikció) kapott információt is.

10.1.3. Fehérje-szekvencia adatbázisok: UniProt

A nukleotidokkal ellentétben, a jelenleg létező legjobb fehérje adatbázis nem az USA-ban található, hanem Európában. Ez nem más, mint a svájci UniProt gyűjteménye. Ezen adatbank nemcsak a sokféle előrejelző programnak köszönheti kiválóságát, hanem az adatok manuális feldolgozásának is. Az adatbázisban módunk van a fehérjék neve (akár szinonimák) vagy azonosítója alapján kutatni. A UniProt adott fehérjéi szekvencia hasonlóság alapján, a BLAST programmal is megkereshetőek (ld. 10.2.3. fejezet). A bennünket érdeklő találatokat a kijelölésük után kötegelve ("batch") is letölthetjük, további analízis céljából. A szekvenciák FASTA formátumban fognak megjelenni: kötelező ">" jel után a fejléc-sor tartalmazza a szekvencia azonosítóját, a fehérje nevét, és az organizmus nevének betűkódját. A második sortól következik csak a tényleges aminosav sorrend, egybetűs kódban.

A UniProt azonban nem csak a fehérjék szekvenciáját adja meg: az egy génhez rendelhető különféle

(alternatív splicing és alternatív iniciáció következtében keletkező) izoformák is közös oldalon találhatóak (a különbségekre az oldal külön felhívja a figyelmünket). Ezenkívül információt kapunk a kísérletesen

azonosított kötőpartnerekről, az egyes szerkezeti elemekről, és másodlagos (poszttranszlációs)

125 módosításokról is. A weboldalak rengeteg hasznos, direkt hivatkozást is tartalmaznak, más adatbázisokra, például a gén, mRNS és a térszerkezet kapcsán (ld. 10.2. ábra).

10.2. ábra: Az UniProt adatbázis egy oldala. A human ciklin C (CCNC) fehérje adatai

10.1.4. Az "omikák" világa. Fajonkénti adatbankok.

Az eddig említett néhány adatbázis csupán példa a molekuláris biológiai kutatási területek egyedi

adatgyűjteményeire. Az ilyen területek neveit divatos szóval "-omika" végződéssel szokás ellátni (s a mára a biológiai kutatások egyik fő irányává vált rendszerbiológia részét képezi), magát az adathalmazt pedig (etimológiailag nem teljesen helyes módon) "-om" végződéssel. A genomika a genomok vizsgálatának tudománya, a transzkriptomika az átírt nukleotidoké (mRNS), a proteomika a fehérjéké. Ezenkívül beszélhetünk többek között epigenomikáról (DNS-módosítások), metabolomikáról (anyagcsere

köztestermékek), lipidomikáról. Ezen résztudományok számára külön adatbázisok is rendelkezésre állnak.

Például a kinom (ami az összes protein-kináz enzimet jelöli) részletes leírására ott vannak a KinBase vagy a PhopsphoSitePlus adatbázisok. Hasonlóan, a glikom az összes biológiailag érdekes szénhidrátot jelöli (amivel a glikomika tudományterülete foglalkozik), külön adatbázisokkal (ilyen például a cukorlánc szerkezete alapján kereshető GlycomeDB). A lipideket kutató szakemberek szintén saját adatbankokat használhatnak (pl. Lipidmaps), amire elsősorban a poliketidek nagy variabilitása miatt van szükség. Az anyagcsere-utak nyomon követésére pedig ott a jól ismert KEGG (Kyoto Encyclopedia of Genes and Genomes), amely enzimenként és lépésenként tekinti át az egész intermedier anyagcserét, interaktív

térképekkel. Szak-adatbázisokat azonban nem csak az egész élővilágot áttekintő, integratív jelleggel hoztak létre. Léteznek egy-egy modell-organizmusra fókuszáló genetikai, proteomikai, és egyéb kísérletes adatokat összesítő adatbankok is. Ilyen például a Caenorhabditis elegansra fókuszáló WormBase, a Drosophila melanogaster (ecetmuslica) molekuláris biológiáját taglaló FlyBase, vagy a Saccharomyces cerevisiae (sörélesztő) genetikájával foglalkozó SGD adatbázis. Ezek az oldalak összehasonlításokkal is szolgálnak: az Interactive Fly például a rovaroktól emberig konzervált fehérje-rendszerek működésének az egyik létező legjobb leírását adja.

126

10.1.5. Szerkezeti és funkcionális adatbázisok

Az előző alfejezetben láttuk, hogy adatbázisokat nem csak az elsődleges DNS vagy fehérjeszekvenciákból lehet létrehozni. Rengeteg génről (illetve annak fehérjetermékéről) állnak rendelkezésre a szekvencián messze túlmutató szerkezeti és működési adatok. Sok fehérje harmadlagos szerkezetét is már meghatározták.

Ezeket (de a nukleinsavakét is) a Protein Data Bank (PDB) adatbázis összesíti. A PDB valójában három nagy szerkezeti genomikai kezdeményezés (USA, EU, Japán) kooperációjával jött létre; célja, hogy a makromolekulák térszerkezetei minden kutató számára szabadon elérhetőek legyenek. Ennél persze sokkal feldolgozottabb (másodlagos) adatbázisok is léteznek. A fehérjék szerkezettel bíró doménjeit a legtöbb esetben elegendő egy egyszerű doboz-modellel ábrázolni. Ilyeneket találunk a SMART (Simple Modular Architecture Research Tool) másodlagos adatbázisban, amely  nevének megfelelően  nagyon intelligens keresővel rendelkezik: a megkeresett fehérjében automatikusan bejelöli az ismert doméneket, az intron-exon határokat, sőt még listázza a nagy vonalakban hasonló domén felépítésű, rokon fehérjéket is (ld. 10.3. ábra).

10.3. ábra: A SMART adatbázis részlete. A human PSD-95 idegi szinapszis-szervező fehérje domén felépítése.

Ha csak a fehérje-fehérje kölcsönhatásokra vagyunk kíváncsiak, erre is számos, kiváló weboldal áll rendelkezésünkre. Ilyenek az IntAct vagy a BioGRID; de az egyik leglátványosabb (mind adatok, mind grafika tekintetében) a STRING adatbázis (ld. 10.4. ábra). Ez a kölcsönhatásokat, a SMART elemzéseit, sőt, a háromdimenziós szerkezeteket is egyetlen hatalmas gráf-modellbe integrálja. Minden esetben mód van szűrők beállítására: ha például csak a kísérletekkel megerősített kölcsönhatások után érdekelődünk, a nagy áteresztőképességű (hight-throughput) mérések és az adatbányászattal (data mining) nyert automatikus következtetésekre vagy jóslatokra nem, erre is megvan a mód. Az interakciós gráfot pedig tetszés szerint végigjárhatjuk, így az azonos funkcióhoz tartozó fehérjék biokémiai hálózata is megfigyelhető lesz. A fehérjék működésének legrészletesebb osztályozását egy másik adatbázis, a GO (Gene Ontology) ill. annak keresője (AMIGO) tartalmazza. A GO minden egyes fehérjéhez egy hierarchikusan felépített működési leírást ad. Például az emlős izomzat fejlődését szabályozó MEF2A transzkripciós faktorra egy alapszintű leírás a "transcription, DNA dependent" lehet, egy ennél jóval specifikusabb pedig a "heart development".

Ha a sejten belüli szabályozási mechanizmusok finom részletei érdekelnek bennünket, felkereshetjük a Reactome vagy a SignaLink oldalát is. Itt minden egyes biokémiai útvonalra külön gráf-modellt találunk. A színes folyamatábrák nagyban segíthetik a komplex biokémiai folyamatok megértését, de a kísérletek

tervezését is.

127 10.4. ábra: A STRING adatbázis részlete. A human PSD-95 fehérje fontosabb ismert kötőpartnerei.