• Nem Talált Eredményt

Bevezetés a szekvenciák bioinformatikai analízisébe

11. Bioinformatika

11.3. Bevezetés a szekvenciák bioinformatikai analízisébe

11.3.1. Bioinformatikai feladatok a molekuláris klónozás során

Egyrekombináns DNSkonstrukció (lásd 10. fejezet) megtervezése során a vektorban illetve az inszertben található potenciális restrikciós endonukleáz felismerőhelyeket ismernünk kell. Megtalálásuk, amely a restrikciós térképezés része, a legegyszerűbben online elérhető programokkal lehetséges. Erre példák a NEBCutter vagy a RestrictionMapper programok. Célszerű a készülő rekombináns DNS konstrukcióról géntérképet rajzolni, amely célra szintén számos letölthető vagy online program alkalmas (pl. pDRAW, BioEdit). Egy másik gyakori bioinformatikia feladat például a PCR reakciókhoz,in vitromutagenezishez vagy szekvenáláshoz oligonukleotid primereket tervezni. Ezt a feladatot is könnyen megoldhatjuk online elérhető programok segítségével (pl. Primer3, Oligo). A polimeráz láncreakciók és számos más géntechnológiai feladat (szekvenálás, hely-specifikus mutagenezis, génkiütés, géncsendesítés stb.) kivitelezése előtt sokszor magunknak kell megterveznünk a kísérlethez szükséges oligonukleotid primereket. Erre a célra is számos szintén vagy letölthető vagy online elérhető program áll rendelkezésünkre (pl. Primer3, OligoCalc).

11.3.2. Hasonlóságvizsgálat és szekvencia-illesztés

A DNS szekvenciák hasonlóságvizsgálata segítségével megtudhatjuk, hogy például az általunk szekvenált DNS megtalálható-e már az adatbázisokban, másrészt hogy milyen szekvenciákkal áll evolúciós rokonságban (homológia vizsgálat). Az egyszerű hasonlóságvizsgálatnál egyetlen szekvenciát hasonlítunk össze egy teljes szekvencia adatbázissal (lásd BLAST program), míg a homológia vizsgálatára a többszörös szekvencia-illesztés módszer a legalkalmasabb (lásd ClustalW program). Akár nukleotid, akár aminosav szekvenciákat hasonlítunk össze, a különböző fajokban található, azonos funkciójú DNS/RNS vagy fehérjelánc egymásortológja, egy fajon belül génduplikációval keletkező, hasonló funkciójú gének és géntermékek pedig paralógok. Evolúciós törzsfák készítésével ebben a jegyzetben nem foglalkozunk, azokkal bioinformatikai kurzusokon ismerkedhetnek meg.

11.3.2.1. A BLAST program

Egy ismeretlen nukleotid-, vagy aminosav szekvencia azonosítását hasonlóságvizsgálattal kezdjük. Az interneten hozzáférhető programok közül aBLAST(Basic Local Alignment Search Tool) nevű programot ismertetjük, s ezt fogják használni a gyakorlaton is (az NCBI BLAST programja itt érhető el: http://blast.ncbi.nlm.nih.gov/Blast.cgi,

de számos más bioinformatikai szerver is tartalmazza). Ez a program egy ún. heurisztikus algoritmust használ, ami lehetővé teszi, hogy egy általunk megadott ún. kereső („query" vagy „target”) szekvenciát a hatalmas méretű adatbázisokkal nagyon gyorsan össze lehessen hasonlítani. Az algoritmus gyorsasága abban rejlik, hogy a keresőszekvenciát rövidebb szakaszokra („szavakra”) bontja, és a teljes szekvencia illesztése helyett ezeket a szavakat keresi meg az adatbázisból, majd egy pontozási táblázat segítségével a legrelevánsabb találatok illesztését terjeszti ki mindkét irányban. Fontos, hogy a kereső szekvenciát az ún. FASTA formátumban (11.10. ábra) kell bevinni a keresőprogramba.

11.10. ábra. A FASTA szekvencia formátum.

Amennyiben nukleotidszekvenciával keresünk, akkor a BLASTN alprogramot kell használnunk. Ha proteinszekvenciánk van, akkor a BLASTP alprogrammal fehérje adatbázisokban kereshetünk. A BLASTX alprogram a kereső nukleinsav szekvenciát mind a hat leolvasási keretben lefordítja és ezzel keres a fehérje adatbázisban. A TBLAST alprogramok segítségével lefordított nukleinsav adatbázisokban kereshetünk fehérje-(TBLASTN) vagy lefordított nukleinsav szekvenciákkal (TBLASTX). A keresési lehetőségeket az alábbi táblázat foglalja össze:

11.I. táblázat: A BLAST részprogramjai.

A BLAST futás eredményeként olyan találatokat kapunk, amelyek az adatbázisban tárolt szekvenciák közül szignifikáns hasonlóságot mutatnak a célszekvenciával. A program sorba állítja ezeket a szekvenciapárokat, kezdve a legnagyobb hasonlóságot mutatóval. A szignifikanciát egy E-vel jelölt, a véletlen hasonlóság mértékéhez viszonyított várható érték (expectation) jelzi, valamint egy „score” érték, ami az azonos, hasonló és „rés” (gap) pozíciókat számolja egy nukleotid vagy aminosav hasonlósági mátrix alapján. Ezek közül leggyakrabban az ún.

BLOSUM(BLOcksSUbstitutionMatrix) mátrixokat használják. Ha E < 0,01, akkor a két szekvencia minden bizonnyal homológ (azaz evolúciós rokonságot mutat, közös ősből származik). A nagy hasonlóságot mutató szekvenciák azonosító kódjuk (accession number) alapján megkereshetők az annotált adatbázisokban. A BLAST eredmény oldaláról közvetlen linkekkel is eljuthatunk a GenBank adatbázisba, ahol az adott fájl annotációjából már sokat megtudhatunk a keresett génről, cDNS-ről és az általa kódolt fehérjéről. További információhoz jutunk, ha az eddig fellelt adatok alapján megkeressük a fehérjénket az UniProt adatbázisban, ahonnan linkeken keresztül még számos adatbázist is felkereshetünk. Egy BLAST futtatás eredményét (részlet) a11.11. ábramutatja be (a BALSTP programmal UniProt fehérje adatbázison futtattuk le a humán vázizom aktin szekvenciáját).

11.11. ábra. BLAST programmal történő szekvencia hasonlóságvizsgálat eredménye (részlet).

Fontos megjegyezni, hogy atérszerkezetek összehasonlítása alapján könnyebb a távolabbi fehérje rokonságokat feltárni, mint a szekvenciák vizsgálatából(bár mint láttuk, sokkal több szekvencia, mint térszerkezeti információval rendelkezünk, tehát a fehérje evolúció kutatói többet foglalkoznak az elsődleges szekvenciák összehasonlításával).

A térszerkezeti hasonlóság vizsgálatával mesterszintű bioinformatikai kurzusokon ismerkedhetnek meg.

11.3.2.2. Többszörös szekvencia-illesztés

A hasonlóságvizsgálat „kifinomultabb” módja, ha több nukleinsav vagy fehérje szekvenciát megpróbálunk úgy egymás alá illeszteni, hogy a lehető legtöbb pozícióban azonos vagy egymáshoz hasonló nukleotidok/aminosavak legyenek. Az optimális illesztés érdekében megengedünk az egymás alatti sorokban „szóközöket” is (gap).

Amennyiben konzervatív régió(ka)t találunk a szekvencián belül, azok jó eséllyel valamilyen szerkezeti elem vagy funkcionális motívum jelenlétére utalnak. A többszörös illesztésre leggyakrabban a ClustalW programot és származékait használjuk, amely elérhető az ExPASy portálon (embnet.vital-it.ch/software/ClustalW.html) vagy az Európai Bioinformatikai Intézet portálján keresztül (ebi.ac.uk/Tools/msa/clustalw2/). A11.12. ábrána humán hemoglobin alfa és béta alegységeit és a mioglobin szekvenciáját illesztettük a ClustalW program segítségével. A szekvenciaillesztés legalsó sorában a csillag azonos (invariáns) aminosavakat jelöl az adott pozícióban, míg a kettőspont erősebben, a egyszeres pont pedig gyengébben konzervatív pozíciókat jelöl. Az illesztésen belül a kötőjelek a „rések”, amelyeket a program az optimális illesztés érdekében szúrt be a szekvenciákba.

11.12. ábra. A globin családba tartozó három fehérjelánc ClustalW programmal történő szekvencia illesztésének eredménye.

11.3.3. Fehérjeszekvenciák analízise

A fehérjeszekvenciákkal végezhető bioinformatikai elemzések lehetőségeit vázlatosan a11.13. ábrafoglalja össze (a legtöbb analízist nukleinsav szekvenciákkal is el lehet végezni). Egyrészt a szekvenciákat egymással és az adatbázisokban megtalálható szekvenciákkal hasonlíthatjuk össze, másrészt a polipeptidlánc fizikai és szerkezeti (valamint a belőle következő funkcionális) tulajdonságaira nézve tehetünk jóslásokat. Az összehasonlításokkal az

előző fejezetben foglalkoztunk (BLAST és ClustalW programok). Az ún. profil analízis során a vizsgálandó szekvenciánkat olyan másodlagos adatbázisokkal hasonlítjuk össze, amelyekben a fehérjecsaládokra, szerkezeti és funkcionális doménekre, modulokra, foszforilációs, glikolizációs és egyéb poszttranszlációs módosulások konszenzus szekvenciáira vonatkozó információkat és szekvenciákat tárolnak. Erre a célra is számos online program alkalmas, amelyeket a korábban ismertetett bioinformatikai portálokon lehet elérni. Például az EBI portálon keresztül elérhető InterPro másodlagos adatbázis (valójában számos másodlagos adatbázist összefogó

„szuperadatbázis”) az InterProScan programmal végezhető profil analízis, a PhosSitePlus adatbázisban pedig poszttranszlációs módosítások (foszforiláció, acetiláció) potenciális helyei kereshetők az analizálandó szekvenciában.

11.13. ábra. Fehérje szekvenciák bioinformatikai vizsgálatának lehetőségei.

11.4. Fehérjék térszerkezetének molekuláris