• Nem Talált Eredményt

A genomszekvenálás alapjai

és 13. fejezet). Fontos emlékeztetnünk rá, hogy az eukariótában a gének általában intronokat is

9. Genom projektek

9.1. A genomszekvenálás alapjai

A genom szekvenálása, vagyis nagyon hosszú, összefüggő DNS szakaszok szekvenciájának meghatározása jóval komplexebb feladat, mint egy rövid DNS darab bázissorendjének meghatározása. Ennek oka, hogy a szekvenálás eredményeként kapott néhány száz bázispár hosszúságú DNS szakaszokból össze kell állítani a nagyságrendekkel nagyobb genom (az egy-egy kromoszómának megfelelő DNS molekulák) teljes

szekvenciáját. Az összeállításra alapvetően két technikát különböztethetünk meg. Az egyik, korábban kifejlesztett és nagyon munkaigényes technika a térkép-alapú módszer. A másik az úgynevezett teljes genom shotgun („sörétes puska“) módszer, amely egyszerűbb, de nagyon komoly számítástechnikai

kapacitást igényel. A térkép-alapú módszert szokták „felülről-lefelé“ (top-down) módszernek is hívni, mivel ebben az esetben a nagyobb egységből (genom vagy kromoszómák térképezése) indulnak ki. A shotgun módszert ellenben „alulról-felfelé“ (bottom-up) módszernek is nevezik, mert a genom meghatározása gyakorlatilag vakon történik, néhány száz bp hosszúságú szekvencia részletek (read-ek) összerakásából áll össze a genom. Nagyméretű genomok esetén a két technika kombinációja a leghatékonyabb.

9.1.1. Térképezés

A térkép-alapú (vagy más szóval klón-kontig) módszer esetén a szekvenálás előtt elkészítik a genom fizikai és/vagy genetikai térképét, vagy már meglevő térképet használnak. A genom szekvenálás során a térkép segít a szekvenált DNS darabok genomban történő elhelyezésében. A fizikai térképezés egyik módszere, hogy a genomot, vagy nagyméretű genomok esetén a genom feldarabolásával létrehozott óriási DNS szakaszokat restrikciós enzimmel (pl. HindIII) hasítják, és a kapott darabokat gélelektroforézissel elválasztják. Az eredményként kapott hasítási mintázat („ujjlenyomat“: DNA fingerprint) elárulja, hogy mely DNS szakaszok tartalmaznak egymással átfedő részeket (hiszen ezeken a helyeken az ujjlenyomat megegyezik), és ez alapján meg lehet mondani, hogy az adott DNS szakasz hol helyezkedik el a genomban.

A fizikai térképezés így abszolút módon meghatározza, hogy egyes DNS szakaszok egymáshoz képest hogyan helyezkednek el, és hol találhatók (ld. 9.1. ábra).

A genetikai térképezés ezzel szemben az egyes DNS szakaszok egymáshoz viszonyított relatív helyzetéről ad információt. Az egymáshoz közel elhelyezkedő gének illetve régiók nagyobb valószínűséggel öröklődnek együtt, mint az egymástól távolabbiak. Vagyis az egymáshoz közeli DNS szakaszok rekombinációs

frekvenciája alacsony, míg a távolabbiaké magasabb. Több generáció vizsgálatával és megfelelő DNS markerek használatával feltérképezhető különböző gének egymáshoz viszonyított távolsága. Ilyen markerek lehetnek fenotípusosan megjelenő tulajdonságok is (ld. 9.1. ábra). Tipikus DNS markerek a restrikciós fragment hosszúság polimorfizmusok (RFLP: Restriction Fragment Length Polymorphism), a szekvencia hosszúság polimorfizmusok (SSLP: Simple Sequence Length Polymorphism), vagy az egyedi nukleotid polimorfizmusok (SNP: Single Nucleotide Polymorphism). Az RFLP-k esetén egy restrikciós endonukleáz hasítási mintázatát vizsgálják a két allélon. Ha ezek eltérnek, vagyis az egyik allélon hiányzik a hasítóhely egy mutáció miatt, az adott helyet markerként lehet használni. Az SSLP-k valamilyen ismétlődő

113 szekvenciarészletet tartalmaznak eltérő számban az allélokon, míg az SNP-k egy bázispár különbséget jeleznek (pl. az egyik allélon C, a másikon T található).

9.1. ábra: A genom szekvencia összeállítását jelentősen megkönnyíti, ha rendelkezésre áll genetikai és/vagy fizikai térkép. A) Fizikai térképezésre használhatók restrikciós endonukleáz hasítóhelyek. A nagyméretű klónok hasítási mintázata alapján összeállítható egy klón kontig, és az egyes szakaszok helye a genomban kijelölhető. B) A

gének és DNS markerek rekombinációs gyakorisága alapján megállapítható az egymáshoz viszonyított helyzetük.

A genetikai és a fizikai térképezés során kapott térkép, a két módszer közötti elvi különbség miatt, a legtöbb esetben jelentősen különbözik (ld. 9.2. ábra).

9.2. ábra: A genetikai és fizikai térkép viszonya. A genetikai és fizikai térképek nem teljesen egyformák, mert a genetikai térkép csak a markerek egymáshoz viszonyított helyzetéről ad információt.

114

9.1.2. Genomszekvenálás térkép-alapú módszerrel

A térkép-alapú szekvenáláskor a genomot nagyméretű, 40-200 kbp méretű darabokra hasítják. Az így kapott DNS fragmentumokat ezután olyan vektorokba klónozzák, amelyek képesek ilyen méretű szakaszokat is befogadni. Tipikusan ilyen vektorok a BAC vektorok, de kozmidok vagy YAC vektorok is használhatók (ld. 8.2.5. fejezet). Mivel a genom hasítása véletlenszerűen történt, a kapott DNS fragmentumok is véletlenszerűen találhatók meg a BAC-könyvtárban, és a fragmentumok egymással átfedő szakaszokat tartalmaznak. A következő lépés tehát az, hogy megállapítsák, mely DNS darabok fednek át egymással.

Ennek során a könyvtárban található klónok „ujjlenyomatát“ készítik el (ld. 9.1.1.). Ha ez rendelkezésre áll, már meg lehet határozni, hogy a sok DNS fragmentumból melyek azok, amelyeket felhasználva fel lehet építeni a teljes genomot. Ezt angol kifejezéssel „minimum tiling path“-nak hívják (magyarul a „legrövidebb kirakható út“). Miután a fizikai térkép elkészült, a hatalmas, már térképezett inszerteket tartalmazó BAC klónokat shotgun módszerrel szekvenálják. Ehhez a klónokat véletlenszerűen tovább darabolják maximum 1500 bp nagyságú szakaszokra, szubklónozzák (pl. M13 fág vagy plazmid vektorba), majd szekvenálják. A kapott szekvenciákat az átfedő régiók alapján egymáshoz illesztve meg lehet határozni az eredeti inszertek szekvenciáját, majd a térkép alapján a teljes genomszekvenciát (ld. 9.3. ábra).

Az összeillesztés természetesen nem mindig egyszerű. Ha az egyes DNS szakaszokat a rendelkezésre álló információk alapján nem lehet összeilleszteni, itt a szekvencia egy lyukat, „gap“-et tartalmaz. Azokat a nagyméretű, térképezett DNS szakaszokat, amelyeket az átfedő klónok alapján, „gap-mentesen“ össze lehet illeszteni, klón-kontignak nevezik (a contig elnevezés a contigous, magyarul összefüggő szóból ered). A klón-kontigok némileg különböznek a szekvencia kontigoktól, amikről a következő fejezetben lesz szó. Ezt a módszert használták a sörélesztő (Saccharomyces cerevisiae) és a Caenorhabditis elegans nevű fonálféreg genomjának meghatározásához, illetve a Humán Genom Program során is ezt a technikát használta az egyik kutatócsoport.

9.3. ábra: A genomszekvenálás módszerei. A klón-kontig stratégia esetén a kiinduló nagyméretű inszert helyzete ismert a genomon belül. Ezt shotgun módszerrel szekvenálják, majd a genomban elhelyezik. A kontigok genombeli

pozícióját a rajtuk található markerek segítségével próbálják meghatározni. A markerek nagyobb száma mindkét esetben jelentősen segítheti a végső szekvencia összeállítását.

115

9.1.3. A shotgun módszer

A shotgun módszer esetén előzetes, térképezésből származó információ nélkül történik a szekvenálás, ezért sokkal gyorsabb. A DNS-t itt is feldarabolják, de jóval kisebb szakaszokra. Készítenek egy kb. 2 kbp és egy kb. 10 kbp darabokból álló könyvtárat. Mivel a rövidebb inszertek miatt nincs szükség speciális vektorokra, plazmid vektorokat használnak, és a végeredmény egy sok százezer vagy akár millió tagból álló plazmid könyvtár. Az így kapott klónokat szekvenálják, és az átfedő szekvenciarészletek alapján szekvencia-kontigokat állítanak össze, majd a teljes genom „mester“ szekvenciáját. Fontos megemlíteni, hogy nagyméretű, komplex genomok esetén a végső szekvencia összeillesztésénél térképek felhasználása nagymértékben segíti a munkát (ld. 9.3. ábra).

9.2. Egy példa: a Haemophilus influenzae baktérium