• Nem Talált Eredményt

ANALÓGIÁK - ADATBANKOK

N/A
N/A
Protected

Academic year: 2022

Ossza meg "ANALÓGIÁK - ADATBANKOK"

Copied!
115
0
0

Teljes szövegt

(1)

ANALÓGIÁK - ADATBANKOK

Összahasonlítás már ismert elemekkel

(2)

GenBank

• 1979-ben alapítva, LANL (Los Alamos).

• 1992 óta az NCBI gondozza (Bethesda).

• Web szerver:

http://www.ncbi.nlm.nih.gov/

(3)

EMBL

• 1980-ban alapítva European Molecular Biology Laboratory Heidelberg.

• 1994 óta az Európai Bioiformatikai

Intézet tartja fenn, EBI- Cambridge.

• Web szerver:

http://www.ebi.ac.uk/embl

(4)

DDBJ

• Started, 1984 at the National Institute of Genetics (NIG) in Mishima.

• Still maintained in this institute a team led by Takashi Gojobori.

• Web server:

http://www.ddbj.nig.ac.jp

(5)

Mi az adatbázis ?

– struktúrált

– lehet benne keresni (indexelt) -> tartalom

– rendszeresen frissített, naprakész -> új kiadás

– komplex hálózatban (hyperlinks) -> linkek

• Kapcsolódó eszközök (szoftver)

hozzáférés, frissítés, törlés, hozzáadás, interaktív kapcsolat

adatgyűjtemény

(6)

Adatbázis típusok

• Elsődleges adatbázisok

– A kísérletezők eredeti elküldött anyagai – A tartalmáért a küldő a felelős

• példák: GenBank, SNP, GEO

• Származtatott (másodlagos) adatbázisok – Az elsődleges adatokból készül

– Tartalmáért egy harmadik partner a felelős (pl. NCBI)

• Examples: Refseq, TPA, RefSNP, UniGene, NCBI Protein,

Structure, Conserved Domain

(7)

Elsődlges adatbázisok

Nukleinsav

•EMBL

•GenBank

•DDBJ

Fehérje

•Swiss Prot

•TREMBL, GenPept,

G yakran más adatbázisokkal

integráltan

(8)

Integrált szekvencia és bibliografikai adatbázisok

Entrez

• Nukleinsav, fehérje szekvenciákat kapcsol össze irodalmi adatokkal (MEDLINE) és más

gyűjteményekkel

• Gyors, hatékony és felhasználóbarát

• Amerikai

SRS (sequence retrieval system)

• Univerzális kereső motor szekvencia és más adatbázisokhoz

• Európai, de világméretű

Keresés Boolean operátorokkal: AND, OR, NOT

Elválasztott karaktersorokkal

(9)

EBI

GenBank GenBank

DDBJ DDBJ

EMBL EMBL

EMBL EMBL

Entrez

SRS getentry

NIG NIG

CIB

NCBI

NIH NIH

•Submissions

•Updates •Submissions

•Updates

•Submissions

•Updates

Nemzetközi kooperáció az

adatbankok között

(10)

The National Center for Biotechnology Information

• Az NLM részeként alapították 1988-ban

– Nyilvános adatbázisok felállítása

• U.S. National DNA Sequence Database

– Kutatások: biológia számítógéppel

– Szoftverek fejlesztése szekvencia analízishez

– Disseminate biomedical information

(11)

NCBI indulólap

(12)

Genomes Taxonomy

Entrez: Integrált adatbázis kezelő

PubMed abstracts

Nucleotide sequences

Protein sequences

3-D Structure

3 -D Structure

Word weight

VAST

BLAST BLAST

Phylogeny

(13)

Entrez: élettudományi internet kereső

(14)

Entrez Nucleotides

(15)

Entrez Protein

(16)

GenBank: Az NCBI elsődleges szekvencia adatbázisa

139. közzététel 2003 december

30,968,418 szekvencia 36,553,368,485 Nukleotid >140,000 élőlény 138 Gigabyte 570 file

• kéthavonta teljes közzététel

• kumulatíve növekedő napi frissítés

• csak az interneten érhető el letölthető

ftp://ftp.ncbi.nih.gov/genbank/

(17)

S ze kv en ci ák s m a (m il lió ) Ö ss z b áz is p ár (m ill rd )

'82 '84 '85 '86 '87 '88 '90 '91 '92 '93 '95 '96 '97 '98 '00 '01 '02 '03

0 5 10 15 20 25 30 35

0 5 10 15 20 25 30 35 40

Szekvenciák száma

139 közzététel: 31.0 millió szekvencia 36.6 milliárd nukleotid

Átlagos duplázódás ≈ 12 hónap “osztódás”

Már sokkal kevesebb

Össz nukleotid szám

A GenBank adatainak növekedése

időben

(18)

Humán genomok száma

(19)

A GenBank szerveződése:

GenBank Divíziók

A szekvenciákat 17 alcsoportba (divíziókba) sorolják.

1 szabadalom

5 “High Throughput”

11 Tradicionális

Bulk Bulk Divisions: Divisions:

Batch Submission (Email and FTP)

nem pontos

gyengén jellemzett

EST Expressed Sequence Tag GSS Genome Survey Sequence HTG High Throughput Genomic STS Sequence Tagged Site

HTC High Throughput cDNA

(20)

A GenBank szerveződése:

GenBank Divíziók

A szekvenciákat 17 alcsoportba (divíziókba) sorolják.

1 szabadalom

5 “High Throughput”

11 Tradicionális Tradicion

Tradicion ális divíziók ális divíziók

közvetlen betáplálás (Sequin and BankIt)

pontos

jól jellemzett

PRI Primate

PLN Plant and Fungal

BCT Bacterial and Archeal INV Invertebrate

ROD Rodent VRL Viral

VRT Other Vertebrate

MAM Mammalian (ex. ROD and PRI) PHG Phage

SYN Synthetic (cloning vectors)

UNA Unannotated

(21)

LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds.

ACCESSION AF062069

VERSION AF062069.2 GI:7144484 KEYWORDS .

SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus

Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;

Xiphosura; Limulidae; Limulus.

REFERENCE 1 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998)

MEDLINE 98279067 PUBMED 9614231

REFERENCE 2 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE Direct Submission

JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA

REFERENCE 3 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE Direct Submission

JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA

REMARK Sequence update by submitter

COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.

A Traditional GenBank Record

(22)

LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds.

ACCESSION AF062069

VERSION AF062069.2 GI:7144484 KEYWORDS .

SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus

Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;

Xiphosura; Limulidae; Limulus.

REFERENCE 1 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998)

MEDLINE 98279067 PUBMED 9614231

REFERENCE 2 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE Direct Submission

JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA

REFERENCE 3 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE Direct Submission

JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA

REMARK Sequence update by submitter

COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.

GenBank: Locus

LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002

Molekula típus Divízió

Módosítás Dátum Lókusz név

Hossz

(23)

LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds.

ACCESSION AF062069

VERSION AF062069.2 GI:7144484 KEYWORDS .

SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus

Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;

Xiphosura; Limulidae; Limulus.

REFERENCE 1 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998)

MEDLINE 98279067 PUBMED 9614231

REFERENCE 2 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE Direct Submission

JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA

REFERENCE 3 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE Direct Submission

JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA

REMARK Sequence update by submitter

COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.

GenBank azonosítók

ACCESSION AF062069

VERSION AF062069.2 GI:7144484

(24)

LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds.

ACCESSION AF062069

VERSION AF062069.2 GI:7144484 KEYWORDS .

SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus

Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;

Xiphosura; Limulidae; Limulus.

REFERENCE 1 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998)

MEDLINE 98279067 PUBMED 9614231

REFERENCE 2 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE Direct Submission

JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA

REFERENCE 3 (bases 1 to 3808)

AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.

TITLE Direct Submission

JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA

REMARK Sequence update by submitter

COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.

GenBank Organizmus adatok

SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus

Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;

Xiphosura; Limulidae; Limulus.

NCBI’s Taxonómia

(25)

FEATURES Location/Qualifiers source 1..3808

/organism="Limulus polyphemus"

/db_xref="taxon:6850"

/tissue_type="lateral eye"

CDS 258..3302

/note="N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA"

/codon_start=1

/product="myosin III"

/protein_id="AAC16332.2"

/db_xref="GI:7144485"

/translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ BASE COUNT 1201 a 689 c 782 g 1136 t

ORIGIN

1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 3781 aagatacagt aactagggaa aaaaaaaa

//

GenBank Tulajdonság tábla

/protein_id="AAC16332.2"

/db_xref="GI:7144485"

GenPept IDs

(26)

GenPept: FASTA formátumban

>gi|7144485|gb|AAC16332.2| myosin III [Limulus polyphemus]

MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIY KAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAV QYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNY TCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQ EIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQPHEKIYVDDLAFLDSP TEEVVLENLEQRYRKGEIYTFAGDVLLTLNPGKVLPLYGDQTAVKYCERGRSDNPPHVFAVADRAYQQML HHKSPQAVILSGVSGSGKSFCTHQVIRHLAFLGAQNKEGMREKLEYLCPLLDTLGNAYTSTNPNSSHFVK ILEVTFTKTGKITGAILFTFLLEARRLTDIPKGERNFHVFYYFYEGLRSEGRLKEFGLEEKNYRYLPELK SSNSPEYVKGYQQFLRALTSLAFTEEEIFAIQKVLAAILLLGETEIQNSAAFKLLGAESSELENTLTQDV NARDVYARAMYLRLFSWIVAVVNRQLSFSRLVFGDVYSVTVIDSPGFENGLHNSLHQLCANVISDNLQNY IQQIIFFKELEEYGEEGVNVPFNLEGGVDHRTLVNKLMDSGQGLLTAISKATQYQRKGESGWMESLQEAD SEELVEFSNVNGKPIVSVKHIFRKVSYDATDLVKKNVEDKTRALTSTMQRSCDPRIRAIFSSENPSPFLS SPRRSSIQENMLLPERTVTDSLHSALSSVLNLASTEDPPHLILCMRPQKKELINDYDSKSVQIQLHALNV LETILIRQFGFARRISFVDFLNRYQYLAFDFNENVELTKENCRLLLLRLKMDGWTLGKNKVFLKYYSEEY LSRIYETHIKKIVKVQAIARKYFVKVRQSKTKPH

>gi|7144486|gb|AAA23731.2| metC peptide [Escherichia coli

MADKKLDTQLVNAGRSKKYSLGAVNSVIQRASSLVFDSVEAKKHATRNRANGELFYGRRGTLTHFSLQQA

MCELEGGAGCVLFPCGAAAVANSILAFIEQGDPRVPSSNS

(27)

Bulk Divíziók

• Expressed Sequence Tag

– 1

st

pass single read cDNA

• Genome Survey Sequence

– 1

st

pass single read gDNA

• High Throughput Genomic

– incomplete sequences of genomic clones

• Sequence Tagged Site

– PCR-based mapping reagents

• szakaszos Submission (email ésvagy ftp)

• Nem akkurátus

• Gyengén jellemzett, kevés info

(28)

EST Divízió: Expressed Sequence Tags

RNS géntermék

nucleus

30,000 gén

80-100,000 egyedi cDNA klón

- egyedi klónok

-Két végről szekvenálás

cDNA könyvtár

5’

3’

>IMAGE:275615 3', mRNA sequence

NNTCAAGTTTTATGATTTATTTAACTTGTGGAACAAAAATAAACCAGATTAACCACAACCATGCCTTA TTATCAAATGTATAAGANGTAAATATGAATCTTATATGACAAAATGTTTCATTCATTATAACAAATTT AATAATCCTGTCAATNATATTTCTAAATTTTCCCCCAAATTCTAAGCAGAGTATGTAAATTGGAAGTT CTTATGCACGCTTAACTATCTTAACAAGCTTTGAGTGCAAGAGATTGANGAGTTCAAATCTGACCAAG GTTGATGTTGGATAAGAGAATTCTCTGCTCCCCACCTCTANGTTGCCAGCCCTC

>IMAGE:275615 5' mRNA sequence

GACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCTACTCTCTCTTTCTGG

TGGAGGTATCCAGCGTACTCCAAAGATTCAGGTTTACTCACGTCATCCAGCAGAGAATGGAAAGTCAA

TTCCTGAATTGCTATGTGTCTGGGTTTCATCCATCCGACATTGAAGTTGACTTACTGAAGAATGGAGA

GAATTGAAAAAGTGGAGCATTCAGACTTGTCTTTCAGCAAGGACTGGTCTTTCTATCTCTTGTACTAC

TGAATTCACCCCCACTGAAAAAGATGAGTATGCCTGCCGTGTTGAACCATGTNGACTTTGTCACAGNC

AAGTTNAGTTTAAGTGGGNATCGAGACATGTAAGGCAGGCATCATGGGAGGTTTTGAAGNATGCCGCN

TTGGATTGGGATGAATTCCAAATTTCTGGTTTGCTTGNTTTTTTAATATTGGATATGCTTTTG

(29)

Genom szekvenálások: GSS, HTG, WGS

nyers szekvencia ( HTG divízió )

aprítás

BAC inszert (vagy genom)

Klónozás, izolálás összerakás

szekvenálás

GSS divízió

vagy “trace archive” egész genomos shotgun kontigok

(tradicionális divízió)

(30)

Trace Archive

• Elsődleges szekvencia olvasatok WGS and EST projektrekből

• Nem biztos, hogy a GenBank-ban megvan

• A legkorábbi hozzáférés genom adatokhoz

(31)

Shotgun Genom Projektek (WGS)

• Tradícionális GenBank Divíziók

• 118 projekt

– 1 Virus

– 78 Bacterium – 5 Archaea – 35 Eukarióta:

• Rat, Mouse, Dog, Chimpanzee, Human

• Honeybee, Anopheles, Fruit Flies (2)

• Nematode (C. briggsae)

• Yeasts (8), Aspergillus (2)

• Rice

(32)

NCBI Származtatott adatbázisok

TG AT TA AC

TTG AC A

G C G T TT AA CT GA

A

A T A T C G G C AC GTG C

AC GT GC A C G T G C

TTGACA

TT GA CA G TT

A AC

G C TG

A C G

TG A C G

T G A

A TT G A C TA

ATT GAC TA AT TG AC TA ATTGA CTA

TA TA GC CG TA TA

GC CG

TA TA G C C G TATA GCC G

GenBank

TATAGCCG TATAGCCG TATAGCCGTATAGCCG

AT GA

AT T C

A GAG AT T AT T

C C A GAG

AT T C C A GAG

AT C T A GAG

AT C T A GAG

AT T C C A GAG

AT T C C

UniGene RefSeq

Genome Assembly Labs

Curators

Algorithms

TATAGCCG AGCTCCGATA CCGATGACAA

(33)

RefSeq: NCBI Derivative Sequence Database

Curated transcripts and proteins

– reviewed

– human, mouse, rat, fruit fly, zebrafish, arabidopsis

Model transcripts and proteins

Assembled Genomic Regions (contigs)

– human genome – mouse genome

Chromosome records

– Human genome – microbial

– organelle

(34)

GenBank RefSeq

Not curated Curated

Author submits NCBI creates from existing data Only author can revise NCBI revises as new data emerge Multiple records for same loci

common Single records for each molecule of

major organisms Records can contradict each other

No limit to species included Limited to model organisms Data exchanged among INSDC

members Exclusive NCBI database

Akin to primary literature Akin to review articles

Proteins identified and linked Proteins and transcripts identified and linked

Access via NCBI Nucleotide

databases Access via Nucleotide & Protein databases

Genbank vs Refseq

(35)

RefSeq előnyei

• Nem redundáns

• expliciten kapcsolt nukleotid és fehérje szekvenciák

• Frissítve hogy tükrözze a kurrens szekvencia adatokat

• Adatok validálása

• Konzisztens formátum

• Elkülönített hozzáférési kód

• NCBI gyámság

(36)

Globál Entrez keresés

(37)

Szekvenciák adatbankokba küldése

NCBI, Genbank

Rövid kontigok: BankIT

Hosszú szekvenciák: Sequin

(38)

ENTREZ - Genomes

(39)

Map Viewer I.

(40)

Map Viewer II.

(41)

Map Viewer IIII.

(42)

Map Viewer IV.

(43)

European Bioinformatics Institute (EBI)

(44)

European Bioinformatics Institute (EBI)

(45)

Readseq: szekvencia formátum konvertáló

(46)

Szekvencia formátumok I.

>nameless_1 457 bp

GGCGAAGATTCGGCCAGGCAAAGAAGAGCGCGACGAATGGGAGCATGTA GCCATGGCTGTATTCCTCCGTACCCCATGCCCCAACCATGCGAGTCAAACC TTCGTGAAAGATCACCACGAGCAGCCCGAAGACGATGGCCATCCACACGA CGTGAATGAACCGCGCCCTCCATGCGGTCCGCGGTTTTTCAATGATCGAAA GGGAATCGGCAACTTGAGTGGAGTCAGTCATATCAGGAGTCCCTTTGGGA GATGCTTCAGAGAGCAAGGTTCGTTGCCTCGGACCTGCATCACCCAACCAT ACAGATGCTCGGTTCGCGACGGCCTGCGTTGATTGCGCTGAGGATACCCG GTTCCAGTCCGTGCGACGACCATTAATAAGGCGCTCCACAGTTCCCGCGG GACACTAGCCAACCGGGCAGTGTCCACTGGGCAGCGGGCAGGGTCTCCC CCGGGA

FASTA

nameless_1

nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178 ..

1 GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG 51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC 101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA 151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA 201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG 251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC 351 CGGTTCCAGT CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC 401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC 451 CCCGGGA

GCG

(47)

Szekvencia formátumok II.

GenBank

LOCUS nameless 457 bp ORIGIN

1 GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG CCATGGCTGT 61 ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC TTCGTGAAAG ATCACCACGA 121 GCAGCCCGAA GACGATGGCC ATCCACACGA CGTGAATGAA CCGCGCCCTC CATGCGGTCC 181 GCGGTTTTTC AATGATCGAA AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG 241 TCCCTTTGGG AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC CGGTTCCAGT 361 CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC GGGACACTAG CCAACCGGGC 421 AGTGTCCACT GGGCAGCGGG CAGGGTCTCC CCCGGGA

//

ID nameless standard; DNA; UNC; 457 BP.

SQ Sequence 457 BP;

GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG CCATGGCTGT 60 ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC TTCGTGAAAG ATCACCACGA 120 GCAGCCCGAA GACGATGGCC ATCCACACGA CGTGAATGAA CCGCGCCCTC CATGCGGTCC 180 GCGGTTTTTC AATGATCGAA AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG 240 TCCCTTTGGG AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 300 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC CGGTTCCAGT 360 CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC GGGACACTAG CCAACCGGGC 420 AGTGTCCACT GGGCAGCGGG CAGGGTCTCC CCCGGGA 457 //

EMBL

(48)

Readseq: szekvencia formátum konvertáló, fehérje

(49)

>P1;nameless_1

nameless_1 475 bases

MSRTVTIEPV TRIEGHARIT LQLGDAGEVE DAKFHLTQFR GFEKFCEGRP YREMPALTAR TCGICPVSHV LASNKACDHL LSVSIPPTGE KLRRIINLAQ LTQSHALSFF HLSSPDLLLG WDSDPVSRNI FGVMRQDPAL AKDGIRLRQI GQTIIETLGG KKIHPTWVVP GGVSEPLTQE KRDAMLKLIP EGLEIAKRTY AFFKTLVPKF KDEANHFGSQ PTMFLSLVSP KGHLEHYDGF LRLKDAQGRI LEDMVPPHEY ERLIGEAVED FSYMKFPYYK PHGYPNGIYR VGPLARLNNV DACGTPYADV ALAEFHMLQE SGPIASSFHY HYARLVEIIY ALEMMERLLK DPTILDARVR ARARSNRYEG IGVAEAPRGI LMHHYRIDDE GLITWVNLII ATGHNNLAMN QSIRQVADAY VDGNNLQEGM LNRVEAVIRC FDPCLSCASH AFGEMPLAIE LKDATGRVVD TLRRG*

NBRF

Szekvencia formátumok III. – fehérjék

\\\

ENTRY nameless_1

TITLE nameless_1 475 bases SEQUENCE

5 10 15 20 25 30 1 M S R T V T I E P V T R I E G H A R I T L Q L G D A G E V E 31 D A K F H L T Q F R G F E K F C E G R P Y R E M P A L T A R 61 T C G I C P V S H V L A S N K A C D H L L S V S I P P T G E 91 K L R R I I N L A Q L T Q S H A L S F F H L S S P D L L L G 121 W D S D P V S R N I F G V M R Q D P A L A K D G I R L R Q I 151 G Q T I I E T L G G K K I H P T W V V P G G V S E P L T Q E 181 K R D A M L K L I P E G L E I A K R T Y A F F K T L V P K F 211 K D E A N H F G S Q P T M F L S L V S P K G H L E H Y D G F 241 L R L K D A Q G R I L E D M V P P H E Y E R L I G E A V E D 271 F S Y M K F P Y Y K P H G Y P N G I Y R V G P L A R L N N V 301 D A C G T P Y A D V A L A E F H M L Q E S G P I A S S F H Y 331 H Y A R L V E I I Y A L E M M E R L L K D P T I L D A R V R 361 A R A R S N R Y E G I G V A E A P R G I L M H H Y R I D D E 391 G L I T W V N L I I A T G H N N L A M N Q S I R Q V A D A Y 421 V D G N N L Q E G M L N R V E A V I R C F D P C L S C A S H 451 A F G E M P L A I E L K D A T G R V V D T L R R G

///

PIR

(50)

KERESÉS AZ ADATBNKOKBAN:

HASONLÓSÁG

Elsődleges DNS vagy fehérje szekvencia összehasonlítása más elsődleges szekvenciákhoz

abban a reményben, hogy annak a funkciója ismert a kísérletek szükségessége

analogikus gondolkodás

ha valamilyen fehérje hasonlít valami ismert funkiójú fehérjéhez, akkor a funkció is hasonló

kérdés: mi hordozza a funkciót?

fehérje, vagy fehérje rész,

hány funkciója van egy fehérjének?

globalitás - lokalitás

(51)

Szekvencia illesztés

(52)

Illesztés - héttér

“For many protein sequences, evolutionary history can be traced back 1-2 billion

years”

-William Pearson

• When we align sequences, we assume that they share a common ancestor

– They are then homologous

• Protein fold is much more conserved than protein sequence

• DNA sequences tend to be less informative than protein

sequences

(53)

• Nagyon sok illesztés, alignment lehetséges.

• Két szekvenciát mindig lehet illeszteni

Kérdés: jó-e, valós hasonlóságot mutat-e az illesztése.

Ehhez

• az illesztések “jóságát” pontozni kell

• Gyakran több illeszkedés is jó, ugyanolyan ponttal

Szekvenciák illesztése

(54)

Szekvenciák illesztése….

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvencia 1 Szekvencia 2

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact

actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact

(55)

TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: : :::::

TEGNAP VELED---V---OLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: .:::::

TEGNAP-VELED---VOLTAM--- TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: .:::::

TEGNAP VELED ---VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::: :::: : .:::::

TEGNAP---VELE-D-VOLTAM

Globális

Lokális

TEGNAP VELED MAGOLTAM :::::::::::: .:::::

TEGNAP VELED---VOLTAM

TEGNAP VELED :::::: :::::

TEGNAP VELED

VELE DALOLTAM :::: : .:::::

VELE-D-VOLTAM

Globális – lokális

TEGNAP VELED VOLTAM

(56)

Pontozás

• Szekvencia szerkesztés:

AGGCCTC

– Mutációk AGGACTC

– Inszerciók AGGGCCTC – Deléciók

AGG.CTC

Pontozás:

Illeszkedés: +m Eltérés: -s

Lyuk: -d

Pont: F = (# illeszkedés)  m - (# eltérés)  s – (#lyukak)  d

(57)

DNS pontozási rendszer

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvencia1 Szekvencia 2

A G C T

A 1 0 0 0

G 0 1 0 0

C 0 0 1 0

T 0 0 0 1

Illik: 1

Nem illik: 0

pont = 5

(58)

DNS pontozási rendszer

Negatív érték bünteti az eltéréseket:

A T C G A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5

Illik: 5

Nem illik: 19

Score: 5 x 5 + 19 x (-4) = - 51

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Szekvencia1

Szekvencia 2

(59)

A T G C A 5 -4 -4 -4 T -4 5 -4 -4 G –4 -4 5 -4 C -4 -4 -4 5

A T G C S W R Y K M B V H D N U A 5 4 4 4 4 1 1 4 4 1 4 1 1 1 2 4 T 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5 G 4 4 5 4 1 4 1 4 1 4 1 1 4 1 2 4 C 4 4 4 5 1 4 4 1 4 1 1 1 1 4 2 4 S 4 4 1 1 1 4 2 2 2 2 1 1 3 3 1 4 W 1 1 4 4 4 1 2 2 2 2 3 3 1 1 1 1 R 1 4 1 4 2 2 1 4 2 2 3 1 3 1 1 4 Y 4 1 4 1 2 2 4 1 2 2 1 3 1 3 1 1 K 4 1 1 4 2 2 2 2 1 4 1 3 3 1 1 1 M 1 4 4 1 2 2 2 2 4 1 3 1 1 3 1 4 B 4 1 1 1 1 3 3 1 1 3 1 2 2 2 1 1 V 1 4 1 1 1 3 1 3 3 1 2 1 2 2 1 4 H 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1 D 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1 N 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 U 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5

- - - -

- - -

- -

- - - -

-

-

- - - - - - - -

-

- - -

- - - -

- - - -

- - - - - - - - - -

- - - - - - - - - - - -

- -

- -

- - - - - - - - - - - - - - - - - - - - - - - - -

-

- -

- - - - - - -- - - -

- - -

- - - - - - - -

- -

-

- - - - - - -

- - - -

- - - - - - - - - - - - - - - -

- -

- - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - -

- - -

- - - - - - - - - - - - -

-

- - - -

- - - - -

Illeszkedési Mátrix

Dotplots

Dotplots

(60)

A T G C A 5 -4 -4 -4 T -4 5 -4 -4 G –4 -4 5 -4 C -4 -4 -4 5

CCTCCTTTGT CCTCCTTTGT

Pont = 50

5 5 5 5 5 5 5 5

5 5

CCTCCTTTGG CCTCCCTTAG

5 5 -4 5 5 5 5

5 -4 5

Pont = 32

Pr o

Le u

Pr o

Le u

Dotplots

Dotplots

(61)

• Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket

C P

G G V A

I L

M F Y

W H K

R

E Q

D N

S T

C

SH

S+S

pozitív töltött

poláris alifás

aromás

kicsi pici

hidrofób

Protein pontozási rendszer

(62)

• Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket

• Pontozó mátrixnak tükröznie kell

• a kölcsönös szubsztitúciók valószínűségét

• az aminosavak előfordulási valószínűségét

• Általánosan használt mátrixok:

• PAM

• BLOSUM

Fehérje pontozási rendszer

(63)

PAM (Percent Accepted Mutations) mátrixok

• Fehérje családokból globál illesztéséből származik

•A család tagjai legalább 85%-osan azonosak ( Dayhoff et al., 1978 )

• Filogenetikus fa konstrukciója és ősi eredő szekvencia minden fehérje családra

• aminosav cserék számítógépes analízise

(64)

A R N D C Q E G H I L K M F P S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6

PAM 250

C

-8 17

W

W

(65)

• Távoli rokonságban álló fehérjék doménjeinek összehasonlításából ( Henikoff & Henikoff,1992 ).

• Minden blokk minden oszlopjában

minden aminosav előfordulását számolják

• Az összes blokkból származtatott számokat használják a

BLOSUM mátrixokhoz

A A C E C

A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1

BLOSUM (Blocks Substitution Matrix)

A A C E C

(66)

BLOSUM (Blocks Substitution Matrix)

• A szekvenciákat a blokkokban csoportosítják az azonossági szintjüknek megfelelően.

• A klasztereket egy szekvenciaként kezelik.

• A különböző BLOSUM mátrixok különböznek abban, hogy hány

százalékos szekvenciaazonosságot használtak a klaszterezés során.

• A mátrix neve mögötti szám (62 BLOSUM62 esetén) a százalékos szekvencia azonosságra utal a mátrix képzése során.

• Nagyobb számok kisebb evolúciós távolságra utalnak

(67)

BLOSUM 50 mátrix

H E A G A W G H E E

P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1

A -2 -1 5 0 5 -3 0 -2 -1 -1

W -3 -3 -3 -3 -3 15 -3 -3 -3 -3

H 10 0 -2 -2 -2 -3 -2 10 0 0

E 0 6 -1 -3 -1 -3 -3 0 6 6

A -2 -1 5 0 5 -3 0 -2 -1 -1

E 0 6 -1 -3 -1 -3 -3 0 6 6

(68)

Melyik mátrixot használjuk ?

• Általában lokális hasonlósg keresés során a BLOSUM mátrixok jobban használhatóak, mint PAM mátrixok ( Henikoff & Henikoff, 1993 ).

• Amikor közeli rokonságban álló fehérjéket hasonlítunk össze alacsonyabb számú PAM vagy magasabb számú BLOSUM mátrixok ajánlottak, távoli kapcsolatban álló fehérjék esetén a mátrix száma magasabb legyen PAM alacsonyabb BLOSUM mátrix esetén.

•A BLOSUM62 az “alapmátrix” (default) adatbázis kutatás esetén

(69)

Rat versus mouse RBP

Rat versus bacterial

lipocalin BLOSUM90

PAM30

BLOSUM45 PAM240 BLOSUM80

PAM120

BLOSUM62

PAM180

(70)

Blosum62 scoring matrix

A 4 R -1 5 N -2 0 6 D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4

A R N D C Q E G H I L K M F P S T W Y V

(71)

T A T G T G G A A T G A

Inszerciók és deléciók figyelembe vétele

A T G T - - A A T G C A A T G T A A T G C A

T A T G T G G A A T G A

Lyukak keletkezése negatív büntető pontokkal jár

inszerció / deléció

(72)

1 GTGATAGACACAGACCGGTGGCATTGTGG 29 ||| | | ||| | || || | 1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29

Hézagok szankcionálása

Hézag lehet, de büntetjük Score: 88 Lyuk nem megengedett Score: 10

1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29 ||| || | | | ||| || | | || || | 1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29

Match = 5

Mismatch = -4

(73)

• Két szekvencia optimális alignmentje általában

• maximálja az illeszkedések

• minimalizálja a lyukak számát.

• Inszerciók megengedése túl sok magas pontszámú illesztéshez vezetne  fals következtetés

• Néhány hézag viszont jót tesz az illesztésnek.

Hézagok büntetése

(74)

Hézagok büntetése matematikailag

Lineáris:

(g) = - gd

Két lépcsős büntetés (Affine gap) :

(g) = -d - (g -1)e

(g) = g hosszúságú lyuk büntetőpontja

d = lyuk nyitás

e = lyuk hosszabbítás büntetétőpontja

g = hézag hossz

(75)

Inszerciók és deléciók pontozása

A T G T T A T A C

T A T G T G C G T A T A Összpont: 4

Hézag paraméterek:

d = 3 (lyuk nyitás)

e = 0.1 (lyuk tágítás)

g = 3 (lyuk hossz)

(g) = -3 - (3 -1) 0.1 = -3.2

T A T G T G C G T A T A A T G T - - - T A T A C

inszerció / deléció

passzol = 1

nem passzol = 0

Összpont: 8 - 3.2 = 4.8

(76)

Alignment típusok

• Szigorú algoritmusok - időigényes

– Needleman-Wunsch – Smith-Waterman

• Heurisztikus algoritmusok - gyors

– BLAST

– FASTA

(77)

A dinamikus programozás alapelvei

- Alignment mátrix létrehozása

- Pontszámok lépésenként kalkulációja

- Visszanyomozás (backtracking)

(az optimális út megállapítása)

(78)

Az alignment additív

Két szekvenciarészlet összevetése

x

1

…x

i

x

i+1

…x

M

y

1

…y

j

y

j+1

…y

N

A két pontszám összeadódik:

F(x[1:M], y[1:N]) = F(x[1:i], y[1:j]) + F(x[i+1:M],

y[j+1:N])

(79)

Dinamikus programozás I.

• dinamikus programozási algoritmus

Tegyük fel, hogy az alábbi két szekvenciát már illesztettük

x

1

……x

M

y

1

……y

N

Legyen

F(i,j) = az illesztés optimális értéke x

1

……x

i

y

1

……y

j

(80)

Három lehetséges eset van:

1. x

i

passzintható y

j

x

1

……x

i-1

x

i

y

1

……y

j-1

y

j

2. x

i

hézaghoz illik x

1

……x

i-1

x

i

y

1

……y

j

-

3. y

j

hézaghoz illik x

1

……x

i

-

y

1

……y

j-1

y

j

m, ha x

i

= y

j

F(i,j) = F(i-1, j-1) +

s, ha nem

F(i,j) = F(i-1, j) - d

F(i,j) = F(i, j-1) - d

Dinamikus programozás II.

(81)

• Honnan tudjuk, mi a korrekt?

Induktív feltételezés:

F(i, j-1), F(i-1, j), F(i-1, j-1) optimális

Ekkor,

F(i-1, j-1) + s(x

i

, y

j

)

F(i, j) = max F(i-1, j) – d F( i, j-1) – d

Ahol s(x

i

, y

j

) = m, ha x

i

= y

j

; s(x

i

, y

j

) = s, ha x

i

 y

j

Dinamikus programozás III.

ld. mátrixok

F(i-1, j-1) F(i, j-1)

F(i-1,j) F(i, j)

-d -d

s(x

i

,y

j

)

(82)

Needleman-Wunsch Algoritmus

1. Kezdeti paraméterek.

a. F(0, 0) = 0

b. F(0, j) = - j  d

c. F(i, 0) = - i  d

2. Fő iterációk. A mátrix kitöltése

a. Minden i = 1……M Minden j = 1……N

F(i-1,j-1) + s(x

i

, y

j

) [1.

eset]

F(i, j) = max F(i-1, j) – d [2. eset]

F(i, j-1) – d [3. eset]

átló, [1. eset]

Ptr(i,j) = bal, [2. eset]

fel, [3.eset]

3. Termináció. F(M, N) az optimális pont, és

Ptr(M, N)-ből az optimális alignment visszanyomozható

(83)

H E A G A W G H E E 0

P A W H E A E

-8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8

-16 -24 -32

-40

-48

-56

F(j, 0) = -j d

Perem feltételek F(i, 0) = -i d

Az illesztési mátrix kitöltése

(84)

H E A G A W G H E E

0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

P -8

A -16 W -24

H -32 E -40

A -48 E -56

-2 -10

-9 -3

F(i, j) = F(i-1, j-1) + s(xi ,yj) F(i, j) = max F(i, j) = F(i-1, j) - d

F(i, j) = F(i, j-1) - d

F(0,0) + s(xi ,yj) = 0 -2 = -2

F(1,1) = max F(0,1) - d = -8 -8= -16 = -2 F(1,0) - d = -8 -8= -16

F(1,0) + s(xi ,yj) = -8 -1 = -9

F(2,1) = max F(1,1) - d = -2 -8 = -10 = -9 F(2,0) - d = -16 -8= -24

-8 -2 = -10

F(1,2) = max -16 -8 = -24 = -10 -2 -8 = -10

-2 -1 = -3

F(2,2) = max -10 -8 = -18 = -3 -9 -8 = -17

P-H=-2 E-P=-1 H-A=-2 E-A=-1

Az illesztési mátrix kitöltése

(85)

H E A G A W G H E E

0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80

P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

“Backtracking”

-5

1 -

A E E H H G - W W A A G - A P E - H - 0

-25

-5 -20

-13

-3

3 -8 -16

-17

Optimális globál alignment: E

E

(86)

Két különbség:

1.

2. Az alignment bárhol befejeződhet a mátrixban

Smith - Waterman

(lokális alignment)

Példa:

Szekvencia1 H E A G A W G H E E

Szekvencia2 P A W H E A E

Mátrix: BLOSUM

Lyuk büntetés: Lineáris, d=8

0

F(i, j) = F(i-1, j-1) + s(x

i

,y

j

) F(i, j) = F(i-1, j) - d

F(i, j) = F(i, j-1) - d

F(i, j) = max

(87)

H E A G A W G H E E

0 0 0 0 0 0 0 0 0 0 0

P 0 0 0 0 0 0 0 0 0 0 0 A 0 0 0 5 0 5 0 0 0 0 0 W 0 0 0 0 2 0 20 12 4 0 0 H 0 10 2 0 0 0 12 18 22 14 6 E 0 2 16 8 0 0 4 10 18 28 20 A 0 0 8 21 13 5 0 4 10 20 27

E 0 0 6 13 18 12 4 0 4 16 26

Smith - Waterman alignment

Optimal local alignment: A A

G -

E E H H W W

28 0

5

20 12

22

(88)

Extended Smith & Waterman

Több lokális alignment kapható:

• a legjobb útvonal körüli régió törlése

• ismételt visszanyomozás (backtracking)

(89)

H E A G A W G H E E

0 0 0 0 0 0 0 0 0 0 0

P 0 0 0 0 0 0 0 0 0

A 0 0 0 5 0 0 0 0 0 0 W 0 0 0 0 2 0 0 0 H 0 10 2 0 0 0

E 0 2 16 8 0 0

A 0 0 8 21 13 5 0

E 0 0 6 13 18 12 4 0 0

5

20 12 4

12 18 22 14 6 4 10 18 28 20 4 10 20 27 4 16 26

Extended Smith & Waterman

(90)

H E A G A W G H E E

0 0 0 0 0 0 0 0 0 0 0

P 0 0 0 0 0 0 0 0 0 0 A 0 0 0 5 0 0 0 0 0 0 W 0 0 0 0 2 0 0 0 H 0 10 2 0 0 0

E 0 2 16 8 0 0

A 0 0 8 21 13 5 0

E 0 0 6 13 18 12 4 0 Második legjobb lokális alignment:

0

21 10

16

H H

E E

A A

Extended Smith & Waterman

(91)

Heuristic Methods

• FastA (Pearson and Lipman)

• Blast / Blast2 (Altschul)

(92)

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése

2. Minden átló pontszámát meghatározzuk.

3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók).

A legmagasabb pontszám (score) init1.

4. Szomszédos kezdeti átlók összekötése.

A legmagasabb pontszám (score) initn.

5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket

számolunk.

6. Azokat a szekvenciákat listázzuk, amiknek az E() értéke

kisebb, mint egy adott küszöbérték

(93)

Rögzített hosszúságú azonos szavak keresése

FastA Példa:

1 lépés Példa:

1 lépés

adatbázis szekvencia

kereső szekvencia

Szó hossz:

DNS: 6 Protein: 2 Szó hossz:

DNS: 6

Protein: 2

(94)

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése

2. Minden átló pontszámát meghatározzuk.

3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók).

A legmagasabb pontszám (score) init1.

4. Szomszédos kezdeti átlók összekötése.

A legmagasabb pontszám (score) initn.

5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket

számolunk.

6. Azokat a szekvenciákat listázzuk, amiknek az E() értéke

kisebb, mint egy adott küszöbérték

(95)

FastA Példa:

2. lépés Példa:

2. lépés

Pontszám = 60

Átlók pontozása

DNS:

Passzol: 5 Eltérés: - 4 Protein:

Pontszám mátrixok DNS:

Passzol: 5 Eltérés: - 4 Protein:

Pontszám mátrixok

adatbázis szekvencia

kereső szekvencia

(96)

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése

2. Minden átló pontszámát meghatározzuk.

3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók).

A legmagasabb pontszám (score) init1.

4. Szomszédos kezdeti átlók összekötése.

A legmagasabb pontszám (score) initn.

5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket

számolunk.

6. Azokat a szekvenciákat listázzuk, amiknek az E() értéke

kisebb, mint egy adott küszöbérték

(97)

FastA Példa:

3. lépés Példa:

3. lépés

Pontszám > 60 (INIT1)

Az átlók pontozása

DNS:

Passzol: 5

Eltérés: - 4 Protein:

Pontszám mátrixok DNS:

Passzol: 5

Eltérés: - 4 Protein:

Pontszám mátrixok

adatbázis szekvencia

kereső szekvencia

(98)

FastA (Pearson and Lipman) 1. Rövid, rögzített hosszúságú azonos betűsor keresése

2. Minden átló pontszámát meghatározzuk.

3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók).

A legmagasabb pontszám (score) init1.

4. Szomszédos kezdeti átlók összekötése.

A legmagasabb pontszám (score) initn.

5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket

számolunk.

6. Azokat a szekvenciákat listázzuk, amiknek az E() értéke

kisebb, mint egy adott küszöbérték

(99)

A szomszédok átlós szakaszok összekötése

FastA Példa:

4. lépés Példa:

4. lépés

adatbázis szekvencia

kereső szekvencia

sárga sárga zöld

zöld

INITN = pont + pont - “kapcsolási büntetés”

(100)

FastA (Pearson and Lipman)

1. Rövid, rögzített hosszúságú azonos betűsor keresése

2. Minden átló pontszámát meghatározzuk.

3. A 10 legmagasabb pontszámú átlós régiót újrapontozzuk a pontszám táblázatok alapján (kezdeti régiók).

A legmagasabb pontszám (score) init1.

4. Szomszédos kezdeti átlók összekötése.

A legmagasabb pontszám (score) initn.

5. Azokra a szekvenciákra, ahol az initn pontszám meghalad egy küszöbértéket (treshold) opt-score, z-score, és E() értéket

számolunk.

6. Azokat a szekvenciákat listázzuk, amiknek az E() értéke

kisebb, mint egy adott küszöbérték

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

A homoktalajon a NaDS adszorpciójára három lépcső jellemző, a függvény kezdeti szakasza alapján L-típusú (Langmuir) izotermát eredményezve. Igazoltam, hogy a NaDS 100

O Kezdeti versenypozíció; olyan stratégia, amelyet arra a szcenárióra alapoznak, amelyik a leginkább illeszkedik a cég kezdeti pozícióihoz, sokkal

Következtetés: Kezdeti, kis esetszámnál nyert tapasztalataink alapján az indociánzöld jelölés emlőrák során végzett őrszemnyirokcsomó-biopszia esetén jól

Ugyan- úgy szükséges a projekt kezdeti alaposabb átgondolása, a bevezetési projekt kezdeti szakaszában kritériumok, rendszerrel szembeni elvárások, fokozatos, több

Az anyakönyvi bejegyzéseket vizsgálva megálla- píthatjuk, hogy a törvénytelenül maradt gyermekek több mint fele a világháború utáni években, tehát 1919-ben és

„Nézze csak a mult heti tárczairóinak jegyzékét s adjon tanácsot, melyiket kellett volna félretenni, hogy Ön esetleg korábban kerülhessen sorra” – így az üzenet, s utána

A fenti vizsgálatokat mind a fagyasztott-felolvasztott, mind pedig a fagyasztás nélküli kontrollmintákon elvé- geztük. A fagyasztott minták vizsgálatának eredményeit

Az ízületi punkció során bejuttatott kontrasztanyag radiológus által történt megítélése az elkészült képanyagon 26 esetben 89,9% jó pozíciót, valamint jó