• Nem Talált Eredményt

10. Géntechnológia

10.9. DNS-szekvenálás

Számos esetben szükséges a DNS-molekula bázissorrendjének meghatározása (DNS-szekvenálás). Az alábbiakban bemutatjuk a DNS-szekvenálás módszertanát.

A láncterminációs DNS-szekvenálás elvi háttere: A Sanger-Coulson-féle DNS-szekvenálás elvét az 1970-es évek végén dolgozták ki annak érdekében, hogy könnyen kivitelezhető, a korábbi eljárásokhoz képest gyorsabb és – nem utolsó sorban – olcsóbb módon lehessen DNS-molekulák bázissorrendjét meghatározni. Az eljárás során a szekvenálni kívánt kettőszálú DNS szálait magas hőmérsékleten denaturálják, majd a szétváló szálak közül az egyikhez az 5’-irányba leolvasni kívánt szakasz elé komplementer, rövid egyszálú DNS-szálat (primert, szekvenáló oligonukleotidot) párosítanak. Ezután négy párhuzamos szekvenáló reakciót állítanak össze. Minden reakcióelegybe kerül templát DNS és szekvenáló primer, polimeráz enzim és azonos mennyiségben négyféle dezoxinukleotid-trifoszfát (dNTP). A négy párhuzamos reakció mindegyikéhez négy különféle didezoxinukleotid-dezoxinukleotid-trifoszfát (ddNTP) molekula közül egyfélét kevernek. A ddNTP-k ribóz gyűrűjének –szemben a dNTP-molekulákkal – 3’-szénatomjához az -OH csoport helyett -H atom kapcsolódik (10.14. ábra). Példaként vegyük a reakciót, mely ddATP-t tartalmaz.

A polimeráz enzim a primer 3’-végétől indulva megkezdi a komplementer DNS-szál szintézisét, felhasználva egyaránt a dNTP- és ddATP-molekulákat. A leolvasni kívánt DNS-szakaszban található timin bázisokkal szemben a szintetizálódó új szálba dATP vagy ddATP épülhet be (a két nukleotid koncentrációjának arányától függő valószínűségekkel). Amennyiben dATP épül be, a szálszintézis folytatódik; viszont ha ddATP épül be, az új szál szintézise leáll a reaktív 3’-OH-csoport hiánya miatt. A reakció során tehát különböző hosszúságú új DNS-szakaszok keletkeznek, melyek hossza tükrözi a timin bázisok távolságát illetve pozícióját a primer 5’ végétől (10.15. ábra).

A ddGTP-vel, ddCTP-vel illetve ddTTP-vel végzett párhuzamos reakciók esetében a szintetizált szálak hossza rendre a citozin, guanin és adenin bázisok pozíciójától függ.

10.14. ábra. A didezoxi-nukleotid-trifoszfátok szerkezete.

10.15. ábra. Láncterminációs DNS-szekvenálás.

A DNS-láncok méret szerinti elválasztása poliakrilamid gélen:A négy különböző szekvenáló reakció során keletkező új DNS-láncok méreteinek ismeretében a templát DNS-szál bázissorrendjét meg lehet határozni. A 10.6 fejezetben bemutatásra került az agaróz géleketroforézis technika. Az agaróz gélelektroforézis csak nagyméretű (többnyire kétszálú) DNS-láncok esetében használható; a technika a legalább 100 nukleotid hossznyi eltérések kimutatására alkalmas. A rövidebb, egyszálú DNS-láncok nagy felbontású, méret szerinti elválasztására az urea-denaturációt alkalmazó poliakrilamid gélelektroforézis (polyacrylamide gel electrophoresis, PAGE) eljárást dolgozták ki. Az agaróz gélektroforézishez hasonlóan az eljárás szintén a negatív töltéssel rendelkező DNS-molekulák elektromos térben zajló, az anód felé irányuló vándorlását használja ki. A vándorlás azonban az agaróz gélnél kisebb pórusmérettel rendelkező poliakrilamid gélben történik, lehetővé téve ezáltal kisebb (akár egyetlen nukleotid-egységnyi) méretbeli különbségek elkülönítését is. A poliakrilamid gélek szintetikusan előállított akrilamid és

biszakrilamid (N,N'-metilén-biszakrilamid) keverékéből készülnek. Az akrilamid vizes közegben képes gyökös polimerizációra, amely során különféle méretű lineáris poliakrilamid-szálak jönnek létre. A biszakrilamid egy keresztkötő reagens, amely képes összekapcsolni a különálló poliakrilamid-szálakat. A keresztkötés során térhálós gélmátrix alakul ki. Az akrilamid polimerizációjának és a keresztkötések képződésének a sebességét a szabadgyökök jelenléte megnöveli, ezért a gél készítéséhez szabadgyök képző ammónium-perszulfáltot (APS) és a szabadgyököket stabilizáló tetrametilén-diamint (TEMED) használnak. A poliakrilamid gélek pórusméretét – és ezáltal a gél elválasztó-képességet – az akrilamid és biszakrilamid koncentrációja határozza meg. A szekvenáló gélek esetében az akrilamid koncentrációja 4-8 vegyes%, míg a biszakrilamid koncentrációja 0,2 vegyes%. Ebben a koncentráció-tartományban a primer méretétől közel 600 bázisig egyetlen bázis felbontással elválaszthatóak egymástól az egyszálú DNS-láncok. Mivel az egyszálú DNS-láncok esetében felmerül a lehetőség, hogy komplementer régióikkal egymással vagy önmagukkal kapcsolódjanak és különféle másodlagos szerkezettel rendelkező struktúrákat alakítsanak ki, a gélbe 7 M koncentrációban ureát tesznek. Az urea a DNS-re nézve denaturálószer, jelenlétében szétválnak párosodott bázisok, ezzel biztosítva, hogy a gélben való futás során tisztán egyszálú, lineáris DNS-láncok vándoroljanak.

A szekvenáló géleket rendszerint vertikális irányban futtatják: a gél alsó része a pozitív töltésű anód, míg felső része a negatív töltésű katód felé irányul (10.16. ábra). A gél felső részén mintatöltő zsebek vannak kialakítva. A szekvenálási reakcióban keletkező mintákhoz felvitel előtt kezelőoldatot adnak, amely jelzőfestékeket (brómfenolkéket és xylénkéket), valamint formamidot tartalmaz. A formamid szerves oldószer, amely képes denaturálni a szekvenáló reakcióban résztvevő polimeráz enzimet, ezáltal leállítva a reakciót. Mivel a mintában az újonnan keletkezett DNS-láncok a templát DNS-hez párosodva vannak, futtatás előtt ezeket szét kell választani.

A futtatni kívánt mintát ezért több percen keresztül 95°C-on hődenaturálják – a formamid jelenléte a kettősszálú DNS hőstabilitását jelentősen lecsökkenti, segítve ezzel a denaturációt és meggátolva a szálak újrapárosodását alacsonyabb hőmérsékleten. A négy párhuzamos, különböző ddNTP tartalmazó szekvenáló reakcióból származó kezelt mintát négy egymás melletti gélzsebbe töltik pipetta segítségével. A betöltés után a gélt TBE (TRIS (trisz-hidrolximetil-aminometán), borát, EDTA (etiléndiamin-tetraacetát)) pufferben 50°C hőmérsékleten magas elektromos térerősség mellett (5-20 V/cm) futtatják. A gélben a kisméretű DNS-láncok haladnak a leggyorsabban; a méret növekedésével a vándorlási sebesség csökken. A gélt addig futtatják, míg a brómfenolkék festék el nem éri a gél alsó részét.

10.16. ábra. Poliakrilamid gélelektroforézis.

A DNS detektálása, a bázissorrend leolvasása:A szekvenálógélben a DNS érzékeny kimutatása radiometrikus módszerrel történik. A szekvenálási reakció során a DNS-láncokat α-32P-dATP (α-32P-dezoxiadenozin-trifoszfát) használatával jelölik. A gélt futtatás után kiszárítják, majd fotópapírra helyezik. A32P β-bomló radioaktív izotóp:

a β-bomlás során elektron távozik az izotóp atommagjából. Ahol az elektronok kölcsönhatásba lépnek a fotópapírral, ott a papír filmrétege megfeketedik, ezáltal a DNS-láncok „lenyomata” láthatóvá válik a papíron (10.17. ábra).

Manapság a fotópapír helyett úgynevezettphosphorimagerkészüléket használnak, mely a fotópapírral ellentétben újrahasználható és nagyobb érzékenységgel rendelkezik. A radioaktív izotópot alkalmazó technikák előnye – az alacsony költségek mellet – a nagyon magas érzékenység, azonban alkalmazásuk potenciális veszélyességük (sugárterhelés illetve karcinogén hatás) miatt különös odafigyelést és számos, a felhasználó védelmét szolgáló szabály és feltétel betartását igényli.

10.17. ábra. A bázissorrend leolvasása.

A DNS detektálására további lehetőséget nyújt, ha a szekvenáló reakcióhoz használt primer 5’-végére fluoreszcens festék van kovalensen kapcsolva. A fluoreszcens festékek (fluorofórok), amennyiben egy, a festékre jellemző, adott hullámhosszú fénnyel kerülnek megvilágításra, gerjesztett állapotba kerülnek. A gerjesztett állapotú molekulák a gerjesztés után visszatérnek alapállapotukba, miközben magukból fényt bocsátanak ki – ez az alapja a fluoreszcencia jelenségének. A kibocsátott fény hullámhossza magasabb (energiája alacsonyabb), mint a gerjesztő fényé. Amennyiben a gélt a használt festéktől függő gerjesztési hullámhosszal megvilágítjuk, a DNS-láncokat tartalmazó helyeken fluoreszcenciát tapasztalunk.

Automatizált szekvenálás (10.18. ábra): A manapság legelterjedtebb módszer során a primer helyett a molekulákhoz kapcsolnak fluoreszcens festékeket, oly módon, hogy az jelentősen ne befolyásolja a jelölt ddNTP-nek a szintetizálódó láncba való beépülését. A négy különböző ddNTP-hez négy egymástól különböző fluorofórt kapcsolnak, amelyek gerjesztési és kibocsátott fény-hullámhossza eltérő. E módszer feleslegessé teszi, hogy négy párhuzamos szekvenáló reakciót kelljen futtatnunk. A mintákhoz egyszerre adják hozzá a négy jelölt ddNTP-molekulát. A polimeráz reakció lezajlása után a mintát egy gél zsebbe töltik. A gélelektroforézis után a gélt olyan leolvasóba teszik, mely képes mind a négy fluorofór különálló detektálására. A gél aljától a teteje felé haladva a templát DNS-szál bázissorrendje meghatározható annak ismeretében, hogy az adott csíkban mely fluorofórt detektáltuk.

10.18. ábra. Automatizált szekvenálás fluoreszcensen jelölt ddNTP-k felhasználásával.

A fluoreszcens ddNTP-k használata lehetővé tette a szekvenálás folyamatának teljes automatizálását. A szekvenálási reakcióban létrejövő DNS-láncokat az automatizált eljárás során a „lap” kivitelű gélelektroforézis helyett kapilláris gélelektroforézissel választják el (10.19. ábra). A kapilláris gélelektroforézis során egy 50-70 cm hosszú, 50-100 µm belső átmérővel rendelkező kapillárisban található a térhálós gélmátrix. A futtatni kívánt mintát a kapillárisba töltik, majd a kapilláris végeire elektromos feszültséget kapcsolnak, így a DNS az anód felé fog vándorolni. A vándorlás közben érvényesül a gélmátrix szűrőhatása, így a kisméretű molekulák haladnak a leggyorsabban. A kapilláris anód felőli végén folyamatosan történik a négyféle dideoxinukleotidhoz kötött fluoreszcencia-jel

detektálása, amelyet számítógép rögzít. A folyamatos detektálás eredménye egy kromatogram lesz, melyen időben láthatjuk, hogy adott időpillanatban mely fluorofór haladt át a detektor előtt, így meghatározhatjuk a templát DNS szekvenciáját (10.20. ábra).

10.19. ábra. Kapilláris gélelektroforézis.

10.20. ábra. Kapilláris gélelektroforézisből származó kromatogram.

Második generációs szekvenálási módszerek: Az automatizált eljárás segítségével egy reakció elvégzésekor a leolvasható DNS-szakasz maximális hossza nagyjából 1000 bázis. Egy teljes kapacitással működő automatizált berendezéssel (amely általában 96 párhuzamos reakciót futtatására képes) egy nap alatt közel 5 millió bázis leolvasása lehetséges. Az emberi genom mérete közel 3,2 milliárd bázispár – ideális esetben, ha egyetlen szekvenátor üzemidejével számolunk, közel három évig tartana az emberi genom egyszeri leolvasása. Az elmúlt évek során megjelentek az úgynevezett második generációs szekvenálási technikák, amelyek nagy előrelépést jelentettek a genomszekvenálás területén azáltal, hogy lehetővé tették egy kísérletben akár 105-106 különböző DNS-minta párhuzamos és gyors, automatizált leolvasását. Ezen eljárások során nincs szükség a DNS-láncok időigényes, méret szerinti elválasztására. A második generációs szekvenátorok gyártása és fejlesztése különálló iparággá nőtte ki magát. Számos biotechnológiai cég kínál egymástól eltérő módszereken alapuló szekvenátorokat.

szerző: Nyitray László

11.1. Bevezetés

Az utolsó tíz évben nagyobb mennyiségű biológiai ismeret halmozódott fel, mint a tudománytörténet elmúlt két és fél ezer éve alatt összesen. Ez az új keletű információ nagyobbrészt nukleinsav- és fehérjeszekvenciákat jelent, köszönhetően elsősorban annak a ténynek, hogy a „géntechnológiai forradalom” jóvoltából a DNS szekvenálás rutin eljárássá vált. A hatalmas mennyiségű szekvencia tárolására és feldolgozására született meg a 1980-as évek közepén az informatika és a molekuláris biológia határmezsgyéjén egy új tudományág, abioinformatika (in silico molekuláris biológia). A mai értelemben használt definíció szerint a bioinformatika mindazon matematikai algoritmusok és módszerekin silico,azaz számítógépes alkalmazása, amelyek segítségével kísérleti adatokból kiindulva biológia problémákra kívánunk választ kapni. Szélesebb értelemben bármilyen biológiai vonatkozású adat számítógépes feldolgozása a tárgykörébe tartozik, míg a molekuláris biológia szemszögéből nézve elsősorban a nukleinsav- és az általuk kódolt aminosav-szekvenciák tárolását, előhívását és analízisét értjük alatt. Vannak specializáltabb részterületei is, például a makromolekulák térszerkezetével a szerkezeti bioinformatika foglalkozik.

A szekvenáláson kívül ma már számos más, ún. nagy áteresztőképességű (HTP:high-throughput) módszerrel előállított adat is csak a bioinformatika segítségével kezelhető. Ide tartoznak többek között a génexpressziós, elektroforetikus, tömegspektrometriai adatok, és az ezek segítségével létrehozott genetikai, anyagcsere, jelátviteli, fehérje-fehérje kölcsönhatásokat leíró útvonalak, hálózatok.

A bioinformatika a molekuláris biológián túl az egyik fő eszköztárát biztosítja a születőfélben lévő rendszerbiológiának is. Ez a diszciplína a természettudomány hagyományos redukcionista megközelítését kiegészítő, többek között a HTP módszerekkel hatalmas mennyiségben előállított és feldolgozható információra alapozva holisztikus kérdésfelvetéseket is lehetővé tesz. A rendszerbiológia részét képezik az „omika” tudományok, amely a genomikával (agenom, azaz egy organizmus teljes genetikai állományának vizsgálata) indult, majd ennek a kifejezésnek a mintájára született meg a proteomika (a proteom, egy faj vagy például egy sejttípus összes fehérjéjének leírása és vizsgálata), a transzkriptomika (a teljes átíródott RNS készlet, atranszkriptomfeltárása), az interaktomika (egy faj vagy sejtípus összes fehérje-fehérje kölcsönhatását, az interaktomot feltáró kutatási terület). De folytatható a sor, hiszen vizsgálhatjuk az anyagcserében résztvevő összes metabolitot (metabolom), az összes biológia szereppel bíró lipidet (lipidom), az összes szénhidrátot (glikom), az összes protein-kináz enzimet (kinom) és így tovább.

Ebben a fejezetben bemutatjuk a nukleinasav és fehérje szekvenciákat valamint a térszerkezeteket tartalmazó, ún.

elsődleges adatbázisokat. Utána röviden összefoglaljuk a szekvenciaelemzés alapjait. A géntechnológiai kísérleteknél, a molekuláris klónozás során felmerülő bioinformatikai feladatokat (restrikciós helyek térképezése, oligonukleotid primerek tervezése) röviden érintjük, további részletekkel a Géntechnológia e-jegyzet foglalkozik. A szekvenciaelemzés első lépései a hasonlóságvizsgálat és a szekvenciaillesztés. Az utóbbiból már molekuláris evolúciós következtetéseket is le lehet vonni (például filogenetikai elemzés). A nukleotid és aminosav szekvenciákból predikciós (jósló) eljárásokkal a nukleinsavak és fehérjék szerkezeti és funkcionális elemeire lehet következtetni.

Ne feledjük, ezek azin silicoeredmények csak előrejelzések, amelyeket később kísérletesen is igazolni kell! Elvileg az aminosavak sorrendje meghatározza az adott fehérje térszerkezetét is (lásd az ezt bizonyító Anfinsen-kísérletet), de ezt az információt bioinformatikai módszerekkel ma még csak korlátozottan lehet kinyerni, a fehérjék térszerkezetét modellezni. Ezzel szemben egyszerű szerkezeti bioinformatikai feladat a fehérjék térszerkezetének ábrázolása. Ha az általunk ábrázolni kívánt fehérje térszerkezetét valamilyen kísérletes vagyin silicomódszerrel (röntgenkrisztallográfia, NMR spektroszkópia, homológia modellezés) már meghatározták, akkor a vizualizációhoz mindössze az adott fehérje térszerkezeti koordinátáit standardizált formában tartalmazó fájlra és egymolekuláris grafikai programra van szükségünk. Ezek rövid bemutatásával zárul a fejezet.

11.2. Szekvencia és térszerkezeti adatbázisok

Egy biológus számára a leggyakoribb bioinformatikai alkalmazás az interneten szabadon hozzáférhető ún. elsődleges adatbázisokban való keresés. Ebbe a kategóriába elsősorban a szekvencia és térszerkezeti adatbázisok tartoznak, de ide sorolhatók az „omika” tudományok kísérleteken alapuló adatait tároló adatbázisok is (például az összes

ismert fehérje-fehérje kölcsönhatást, az összes lipidet, szénhidrátot vagy a metabolitokat tartalmazó adatbázisok).

A DNS-szekvenciák legfontosabb adatbázisa, a GenBank, amely az Entrez bioinformatikai portál része. A legismertebb fehérjeszekvencia adatbázis azUniProt, amely azExPASyportál része. A polipeptidláncok aminosav szekvenciáját döntő többségében a nukleinsavak szekvenálásával (és nem a technikailag jóval nehezebb fehérje szekvenálással), bioinformatikai úton, a genetikai kódszótár ismeretébenin silicotranszlációval határozzák meg.

Ugyanakkor megemlítendő, hogy a kísérletes fehérjeszintű szekvenálás is egy elérhető lehetőség (pl. egy tömegspektroszkópián alapuló szekvenálásos módszerrel vagy Edman degradáció révén). A makromolekulák (fehérjék, nukleinsavak és komplexeik) kísérletesen meghatározott térszerkezeti adatainak kizárólagos tárhelye a Protein Data Bank(PDB). A szekvencia és/vagy térszerkezeti információ feldolgozásából származó adatokat tartalmaznak a másodlagos adatbázisok, amelyek közül néhányat szintén röviden tárgyalunk. A bioinformatika által vizsgált szekvenciák/szerkezetek és az adatbázisok összefüggését a11-1. ábrafoglalja össze.

11.1. ábra. Az információhordozó makromolekulák és az elsődleges adatbázisok összefüggése.

11.2.1. Genbank

A GenBank(ncbi.nlm.nih.gov/genbank) DNS szekvencia adatbázis, amelyet az USA Nemzeti Egészségügyi Hivatalához (NIH: National Institutes of Health) tartozó NCBI (National Center for Biotechnology Information) tart fenn. A GenBank jelenleg ~150 Gbp (milliárd bázispár) szekvenciát tartalmaz (2012 ősz). Redundáns adatbázis, tehát egy-egy DNS szekvencia többször is megtalálható benne (pl. egyedi klónozás vagy genom szekvenálás keretében is meghatározták). A DNS szekvencia adatbázisok méretét manapság elsősorban a genom projektek (egy organizmus teljes DNS állományának szekvenálása) növelik. Jelenleg már több mint ezer faj teljes genomját ismerjük, köztük a saját fajunkét is. 2003-ben fejeződött be a Humán Genom Program (www.ornl.gov/Human_Genome), azaz a 3,2 Gbp méretű emberi genom szekvenálása (pontosabban csak a genom

~90%-át kitevő, génekben gazdag eukromatint szekvenálták), amely a GenBank-ben és más publikus adatbázisokon keresztül mindenki számára szabadon hozzáférhető. A GenBank annotált adatbázis, ami az jelenti, hogy a „nyers”

szekvencia adatokhoz hozzárendelt információkat is tartalmaz (a szekvencia forrása, a szekvenciával kapcsolatos tudományos közlemények, gének illetve kódoló szekvenciák). Nukleinsav szekvenciákat és a bioinformatikai analízisükből levont következtetéseket csak a GenBank-be történő feltöltésük, azaz a tudományos közösség számára történő szabad hozzáférés biztosítása után szabad tudományos közleményben megjelentetni. Az NCBI honlap főoldalát a11.2. ábra,egy GenBank fájlt (a Taq polimeráz gén szekvenciáját tartalmazó fájl egy részlete) pedig a11.3. ábramutat be. Ismeretlen nukleinsav szekvencia azonosítására vagy hasonlóságvizsgálatára (a későbbiekben ismertetettBLASTprogrammal) leggyakrabban a GenBank adatbázist használjuk, s az eredmények az adatbázisban található szekvencia fájlok lesznek, amelyeket egy hozzáférési kóddal (accession number) azonosítuk (pl. D32013 a 11.3. ábrán).

11.2. ábra. Az NCBI honlapja (http://www.ncbi.nlm.nih.gov/). Megjelöltünk a szövegben szereplő néhány adatbázist illetve programot.

11.3. ábra. Példa egy GenBank fájlra.

A GenBank azEntrezportál (www.ncbi.nlm.nih.gov/sites/gquery) része, amely egy olyan integrált, adatbázisokat összefogó keresőfelület, ahonnan a molekuláris biológiával kapcsolatos szinte összes információ valamilyen formában elérhető. Ide tartozik aPubMed(ncbi.nlm.nih.gov/pubmed) publikációs adatbázis is, amelyen keresztül a biomedicina tárgykörébe tartozó (a biokémia és a molekuláris szintű biológia szinte összes folyóiratát lefedő)

>20 millió tudományos cikk bibliográfiai adatai és összefoglalója (abstract) olvasható. Egyre több esetben, többek között az ún. nyílt hozzáférésű (open access) folyóiratoknál, a teljes közlemények is ingyenesen olvashatók vagy letölthetők pdf formátumban. A Bookshelf online könyvtárban számos tankönyv (bár nem minden esetben a legújabb kiadás) teljes terjedelmében hozzáférhető (pl. Stryer: Biochemistry, Lodish et al.: Molecular Cell Biology, Alberts et al.: Molecular Biology of the Cell). A portálon elérhető adatbázisok keresőoldalát a11.4. ábramutatja be.

11.4. ábra. Az Entrez portál adatbázis kereső oldala (kiemelve azok, amelyek a szövegben említésre kerülnek).

Az Entrez portálon keresztül elérhető adatbázisok közül megemlítjük aGenomeadatbázist, amely teljes genom szekvenciákat tartalmaz; adbEST(Expressed Sequence Tag) adatbázist, amely cDNS szekvencia részleteket, azaz transzkriptumokat, a génekről átírt szekvenciákat tartalmaz; s végül azOMIM(Online Mendelian Inheretance in Man) adatbázist, amely az összes, humán betegségekkel kapcsolatba hozható génről tartalmaz részletes genetikai és biokémiai információkat. Genom szekvenciákat tárol azEnsembl(http://www.ensembl.org) adatbázis is, amelyet az Európai Molekuláris Biológiai Laboratóriumhoz (EMBL) tartozó Európai Bioinformatikai Intézet (EBI, http://www.ebi.ac.uk/) és a brit non-profit kutatóintézet, a Wellcome Trust Sanger Intézet tart fenn. Az EMBL egy nukleotid szekvencia adatbázist is fenntart, amely a GenBank-kel azonos adatokat tartalmaz.

11.2.2. UniProt

AzUniProt(uniprot.org) annotált, nem-redundáns, aminosav szekvencia adatbázis, amely két részadatbázisból épül fel. A Swiss-Prot adatbázis kizárólag kísérletesen is igazolt, fehérjékre vonatkozó, manuálisan annotált, szakmai hivatkozásokból összegyűjtött információt (jelenleg >500.000 annotált fájlban ~200 millió aminosav), a TrEMBL pedig az EMBL DNS adatbázisából automatikus transzlációval generált polipeptidlánc szekvenciákat (jelenleg ~8 milliárd aminosav 24 millió szekvenciában) tartalmaz. Az annotáció tartalmazza az adott fehérje alternatív változatait (amelyek alternatív splicing-gal jönnek létre), a szekvencia variációkat, a fehérjecsaládra vonatkozó információkat, szerkezeti és funkcionális elemeket, poszt-transzlációs módosításokat, kereszthivatkozásokat nukleotid, szerkezeti és másodlagos adatbázisokra, szakirodalmi hivatkozásokat. Fontos annotáció az ún. gén ontológia (GO: Gene Ontology), a génekre és géntermékekre vonatkozó standardizált funkcionális „szótár”, amely az adott fehérje biológiai szerepét (Biological process), molekuláris funkcióját (Molecular function) és lokalizációját (Cellular component) írja le. Egy UniProt mintafájlt (humán vázizom α-aktin, UniProt kód: P68133) a11.5. és 11.6. ábramutat be. Tudományos közleményekben a fehérjék szekvenciáira az UniProt kódjuk (6 alfanumerikus karakter) vagy a GenBank elérési kódjuk (1 betű és 5 szám vagy 2 betű és 6 szám) alapján szokás hivatkozni. Az adatbázis használatát a honlapján elérhető angol nyelvű animált oktatóprogram segítségével könnyen megérthetjük.

11.5. ábra. Egy UniProt fehérje szekvencia mintafájl (név, általános annotáció).

11.6. ábra. Egy UniProt fehérje szekvencia mintafájl (szekvencia, másodlagos szerkezet).

Az UniProt adatbázis azExPASy(Expert Protein Analysis System; expasy.org/) portálhoz kapcsolódik, amelyen keresztül számos proteomikai adatbázist, másodlagos adatbázisokat és online bioinformatikai programot (DNS→fehérje transzláció, molekulatömeg és izoelektromos pont számolás, szerkezeti és funkcionális motívum, poszt-transzlációs módosítások keresése, szerkezeti predikciók stb.) lehet elérni. A portál egy részletét a 11.7.

ábránmutatjuk be (adatbázisok és szekvencia analízis programok keresőfelülete).

11.7. ábra. Az ExPASy bioinformatikai portál egy részlete.

11.2.3. Protein Data Bank (PDB)

APDB(www.rcsb.org/pdb) adatbázisban jelenleg 75.000 röntgen-krisztallográfiai és közel 10.000 NMR szerkezetet tárolnak (ezzel a két módszerrel lehet a makromolekulák térszerkezetét atomi felbontásban meghatározni). Az annotált fájlok a térszerkezeti koordináta adatokon kívül számos további információt is tartalmaznak. Az adatbázis kezdőoldalát és egy szerkezeti fájl részletét a11.8. és 11.9. ábramutatja be. Az egyes térszerkezeteket egy számból és három betűből álló kód alapján lehet azonosítani (pl. 1GFL a GFP fehérje egyik térszerkezeti modellje). A szerkezeti modelleket online a Jmol elnevezésű kisalkalmazással (applet) vagy a koordináta fájlok letöltése után

APDB(www.rcsb.org/pdb) adatbázisban jelenleg 75.000 röntgen-krisztallográfiai és közel 10.000 NMR szerkezetet tárolnak (ezzel a két módszerrel lehet a makromolekulák térszerkezetét atomi felbontásban meghatározni). Az annotált fájlok a térszerkezeti koordináta adatokon kívül számos további információt is tartalmaznak. Az adatbázis kezdőoldalát és egy szerkezeti fájl részletét a11.8. és 11.9. ábramutatja be. Az egyes térszerkezeteket egy számból és három betűből álló kód alapján lehet azonosítani (pl. 1GFL a GFP fehérje egyik térszerkezeti modellje). A szerkezeti modelleket online a Jmol elnevezésű kisalkalmazással (applet) vagy a koordináta fájlok letöltése után