ANALÓGIÁK - ADATBANKOK
Összahasonlítás már ismert elemekkel
GenBank
• 1979-ben alapítva, LANL (Los Alamos).
• 1992 óta az NCBI gondozza (Bethesda).
• Web szerver:
http://www.ncbi.nlm.nih.gov/
EMBL
• 1980-ban alapítva European Molecular Biology Laboratory Heidelberg.
• 1994 óta az Európai Bioiformatikai
Intézet tartja fenn, EBI- Cambridge.
• Web szerver:
http://www.ebi.ac.uk/embl
DDBJ
• Started, 1984 at the National Institute of Genetics (NIG) in Mishima.
• Still maintained in this institute a team led by Takashi Gojobori.
• Web server:
http://www.ddbj.nig.ac.jp
Mi az adatbázis ?
– struktúrált
– lehet benne keresni (indexelt) -> tartalom
– rendszeresen frissített, naprakész -> új kiadás
– komplex hálózatban (hyperlinks) -> linkek
• Kapcsolódó eszközök (szoftver)
hozzáférés, frissítés, törlés, hozzáadás, interaktív kapcsolat
adatgyűjtemény
Adatbázis típusok
• Elsődleges adatbázisok
– A kísérletezők eredeti elküldött anyagai – A tartalmáért a küldő a felelős
• példák: GenBank, SNP, GEO
• Származtatott (másodlagos) adatbázisok – Az elsődleges adatokból készül
– Tartalmáért egy harmadik partner a felelős (pl. NCBI)
• Examples: Refseq, TPA, RefSNP, UniGene, NCBI Protein,
Structure, Conserved Domain
Elsődlges adatbázisok
Nukleinsav
•EMBL
•GenBank
•DDBJ
Fehérje
•Swiss Prot
•TREMBL, GenPept,
G yakran más adatbázisokkal
integráltan
Integrált szekvencia és bibliografikai adatbázisok
Entrez
• Nukleinsav, fehérje szekvenciákat kapcsol össze irodalmi adatokkal (MEDLINE) és más
gyűjteményekkel
• Gyors, hatékony és felhasználóbarát
• Amerikai
SRS (sequence retrieval system)
• Univerzális kereső motor szekvencia és más adatbázisokhoz
• Európai, de világméretű
Keresés Boolean operátorokkal: AND, OR, NOT
Elválasztott karaktersorokkal
EBI
GenBank GenBank
DDBJ DDBJ
EMBL EMBL
EMBL EMBL
Entrez
SRS getentry
NIG NIG
CIB
NCBI
NIH NIH
•Submissions
•Updates •Submissions
•Updates
•Submissions
•Updates
Nemzetközi kooperáció az
adatbankok között
The National Center for Biotechnology Information
• Az NLM részeként alapították 1988-ban
– Nyilvános adatbázisok felállítása
• U.S. National DNA Sequence Database
– Kutatások: biológia számítógéppel
– Szoftverek fejlesztése szekvencia analízishez
– Disseminate biomedical information
NCBI indulólap
Genomes Taxonomy
Entrez: Integrált adatbázis kezelő
PubMed abstracts
Nucleotide sequences
Protein sequences
3-D Structure
3 -D Structure
Word weight
VAST
BLAST BLAST
Phylogeny
Entrez: élettudományi internet kereső
Entrez Nucleotides
Entrez Protein
GenBank: Az NCBI elsődleges szekvencia adatbázisa
139. közzététel 2003 december
30,968,418 szekvencia 36,553,368,485 Nukleotid >140,000 élőlény 138 Gigabyte 570 file
• kéthavonta teljes közzététel
• kumulatíve növekedő napi frissítés
• csak az interneten érhető el letölthető
ftp://ftp.ncbi.nih.gov/genbank/
S ze kv en ci ák s zá m a (m il lió ) Ö ss z b áz is p ár (m ill iá rd )
'82 '84 '85 '86 '87 '88 '90 '91 '92 '93 '95 '96 '97 '98 '00 '01 '02 '03
0 5 10 15 20 25 30 35
0 5 10 15 20 25 30 35 40
Szekvenciák száma
139 közzététel: 31.0 millió szekvencia 36.6 milliárd nukleotid
Átlagos duplázódás ≈ 12 hónap “osztódás”
Már sokkal kevesebb
Össz nukleotid szám
A GenBank adatainak növekedése
időben
Humán genomok száma
A GenBank szerveződése:
GenBank Divíziók
A szekvenciákat 17 alcsoportba (divíziókba) sorolják.
1 szabadalom
5 “High Throughput”
11 Tradicionális
Bulk Bulk Divisions: Divisions:
• Batch Submission (Email and FTP)
• nem pontos
• gyengén jellemzett
EST Expressed Sequence Tag GSS Genome Survey Sequence HTG High Throughput Genomic STS Sequence Tagged Site
HTC High Throughput cDNA
A GenBank szerveződése:
GenBank Divíziók
A szekvenciákat 17 alcsoportba (divíziókba) sorolják.
1 szabadalom
5 “High Throughput”
11 Tradicionális Tradicion
Tradicion ális divíziók ális divíziók
• közvetlen betáplálás (Sequin and BankIt)
• pontos
• jól jellemzett
PRI Primate
PLN Plant and Fungal
BCT Bacterial and Archeal INV Invertebrate
ROD Rodent VRL Viral
VRT Other Vertebrate
MAM Mammalian (ex. ROD and PRI) PHG Phage
SYN Synthetic (cloning vectors)
UNA Unannotated
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds.
ACCESSION AF062069
VERSION AF062069.2 GI:7144484 KEYWORDS .
SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus
Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;
Xiphosura; Limulidae; Limulus.
REFERENCE 1 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998)
MEDLINE 98279067 PUBMED 9614231
REFERENCE 2 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE Direct Submission
JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA
REFERENCE 3 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE Direct Submission
JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA
REMARK Sequence update by submitter
COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
A Traditional GenBank Record
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds.
ACCESSION AF062069
VERSION AF062069.2 GI:7144484 KEYWORDS .
SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus
Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;
Xiphosura; Limulidae; Limulus.
REFERENCE 1 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998)
MEDLINE 98279067 PUBMED 9614231
REFERENCE 2 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE Direct Submission
JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA
REFERENCE 3 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE Direct Submission
JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA
REMARK Sequence update by submitter
COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
GenBank: Locus
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002
Molekula típus Divízió
Módosítás Dátum Lókusz név
Hossz
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds.
ACCESSION AF062069
VERSION AF062069.2 GI:7144484 KEYWORDS .
SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus
Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;
Xiphosura; Limulidae; Limulus.
REFERENCE 1 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998)
MEDLINE 98279067 PUBMED 9614231
REFERENCE 2 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE Direct Submission
JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA
REFERENCE 3 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE Direct Submission
JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA
REMARK Sequence update by submitter
COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
GenBank azonosítók
ACCESSION AF062069
VERSION AF062069.2 GI:7144484
LOCUS AF062069 3808 bp mRNA linear INV 23-OCT-2002 DEFINITION Limulus polyphemus myosin III mRNA, complete cds.
ACCESSION AF062069
VERSION AF062069.2 GI:7144484 KEYWORDS .
SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus
Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;
Xiphosura; Limulidae; Limulus.
REFERENCE 1 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE A myosin III from Limulus eyes is a clock-regulated phosphoprotein JOURNAL J. Neurosci. 18 (12), 4548-4559 (1998)
MEDLINE 98279067 PUBMED 9614231
REFERENCE 2 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE Direct Submission
JOURNAL Submitted (29-APR-1998) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA
REFERENCE 3 (bases 1 to 3808)
AUTHORS Battelle,B.-A., Andrews,A.W., Calman,B.G., Sellers,J.R., Greenberg,R.M. and Smith,W.C.
TITLE Direct Submission
JOURNAL Submitted (02-MAR-2000) Whitney Laboratory, University of Florida, 9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA
REMARK Sequence update by submitter
COMMENT On Mar 2, 2000 this sequence version replaced gi:3132700.
GenBank Organizmus adatok
SOURCE Limulus polyphemus (Atlantic horseshoe crab) ORGANISM Limulus polyphemus
Eukaryota; Metazoa; Arthropoda; Chelicerata; Merostomata;
Xiphosura; Limulidae; Limulus.
NCBI’s Taxonómia
FEATURES Location/Qualifiers source 1..3808
/organism="Limulus polyphemus"
/db_xref="taxon:6850"
/tissue_type="lateral eye"
CDS 258..3302
/note="N-terminal protein kinase domain; C-terminal myosin heavy chain head; substrate for PKA"
/codon_start=1
/product="myosin III"
/protein_id="AAC16332.2"
/db_xref="GI:7144485"
/translation="MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQA NKKVALKIIGHIAENLLDIETEYRIYKAVNGIQFFPEFRGAFFKRGERESDNEVWLGI EFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAVQYLHENSIIHRDIRAANIMF SKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNYTCDVWSIG ITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYR PCIQEIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQ BASE COUNT 1201 a 689 c 782 g 1136 t
ORIGIN
1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt 3781 aagatacagt aactagggaa aaaaaaaa
//
GenBank Tulajdonság tábla
/protein_id="AAC16332.2"
/db_xref="GI:7144485"
GenPept IDs
GenPept: FASTA formátumban
>gi|7144485|gb|AAC16332.2| myosin III [Limulus polyphemus]
MEYKCISEHLPFETLPDPGDRFEVQELVGTGTYATVYSAIDKQANKKVALKIIGHIAENLLDIETEYRIY KAVNGIQFFPEFRGAFFKRGERESDNEVWLGIEFLEEGTAADLLATHRRFGIHLKEDLIALIIKEVVRAV QYLHENSIIHRDIRAANIMFSKEGYVKLIDFGLSASVKNTNGKAQSSVGSPYWMAPEVISCDCLQEPYNY TCDVWSIGITAIELADTVPSLSDIHALRAMFRINRNPPPSVKRETRWSETLKDFISECLVKNPEYRPCIQ EIPQHPFLAQVEGKEDQLRSELVDILKKNPGEKLRNKPYNVTFKNGHLKTISGQPHEKIYVDDLAFLDSP TEEVVLENLEQRYRKGEIYTFAGDVLLTLNPGKVLPLYGDQTAVKYCERGRSDNPPHVFAVADRAYQQML HHKSPQAVILSGVSGSGKSFCTHQVIRHLAFLGAQNKEGMREKLEYLCPLLDTLGNAYTSTNPNSSHFVK ILEVTFTKTGKITGAILFTFLLEARRLTDIPKGERNFHVFYYFYEGLRSEGRLKEFGLEEKNYRYLPELK SSNSPEYVKGYQQFLRALTSLAFTEEEIFAIQKVLAAILLLGETEIQNSAAFKLLGAESSELENTLTQDV NARDVYARAMYLRLFSWIVAVVNRQLSFSRLVFGDVYSVTVIDSPGFENGLHNSLHQLCANVISDNLQNY IQQIIFFKELEEYGEEGVNVPFNLEGGVDHRTLVNKLMDSGQGLLTAISKATQYQRKGESGWMESLQEAD SEELVEFSNVNGKPIVSVKHIFRKVSYDATDLVKKNVEDKTRALTSTMQRSCDPRIRAIFSSENPSPFLS SPRRSSIQENMLLPERTVTDSLHSALSSVLNLASTEDPPHLILCMRPQKKELINDYDSKSVQIQLHALNV LETILIRQFGFARRISFVDFLNRYQYLAFDFNENVELTKENCRLLLLRLKMDGWTLGKNKVFLKYYSEEY LSRIYETHIKKIVKVQAIARKYFVKVRQSKTKPH
>gi|7144486|gb|AAA23731.2| metC peptide [Escherichia coli
MADKKLDTQLVNAGRSKKYSLGAVNSVIQRASSLVFDSVEAKKHATRNRANGELFYGRRGTLTHFSLQQA
MCELEGGAGCVLFPCGAAAVANSILAFIEQGDPRVPSSNS
Bulk Divíziók
• Expressed Sequence Tag
– 1
stpass single read cDNA
• Genome Survey Sequence
– 1
stpass single read gDNA
• High Throughput Genomic
– incomplete sequences of genomic clones
• Sequence Tagged Site
– PCR-based mapping reagents
• szakaszos Submission (email ésvagy ftp)
• Nem akkurátus
• Gyengén jellemzett, kevés info
EST Divízió: Expressed Sequence Tags
RNS géntermék
nucleus
30,000 gén
80-100,000 egyedi cDNA klón
- egyedi klónok
-Két végről szekvenálás
cDNA könyvtár
5’
3’
>IMAGE:275615 3', mRNA sequence
NNTCAAGTTTTATGATTTATTTAACTTGTGGAACAAAAATAAACCAGATTAACCACAACCATGCCTTA TTATCAAATGTATAAGANGTAAATATGAATCTTATATGACAAAATGTTTCATTCATTATAACAAATTT AATAATCCTGTCAATNATATTTCTAAATTTTCCCCCAAATTCTAAGCAGAGTATGTAAATTGGAAGTT CTTATGCACGCTTAACTATCTTAACAAGCTTTGAGTGCAAGAGATTGANGAGTTCAAATCTGACCAAG GTTGATGTTGGATAAGAGAATTCTCTGCTCCCCACCTCTANGTTGCCAGCCCTC
>IMAGE:275615 5' mRNA sequence
GACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCTACTCTCTCTTTCTGG
TGGAGGTATCCAGCGTACTCCAAAGATTCAGGTTTACTCACGTCATCCAGCAGAGAATGGAAAGTCAA
TTCCTGAATTGCTATGTGTCTGGGTTTCATCCATCCGACATTGAAGTTGACTTACTGAAGAATGGAGA
GAATTGAAAAAGTGGAGCATTCAGACTTGTCTTTCAGCAAGGACTGGTCTTTCTATCTCTTGTACTAC
TGAATTCACCCCCACTGAAAAAGATGAGTATGCCTGCCGTGTTGAACCATGTNGACTTTGTCACAGNC
AAGTTNAGTTTAAGTGGGNATCGAGACATGTAAGGCAGGCATCATGGGAGGTTTTGAAGNATGCCGCN
TTGGATTGGGATGAATTCCAAATTTCTGGTTTGCTTGNTTTTTTAATATTGGATATGCTTTTG
Genom szekvenálások: GSS, HTG, WGS
nyers szekvencia ( HTG divízió )
aprítás
BAC inszert (vagy genom)
Klónozás, izolálás összerakás
szekvenálás
GSS divízió
vagy “trace archive” egész genomos shotgun kontigok
(tradicionális divízió)
Trace Archive
• Elsődleges szekvencia olvasatok WGS and EST projektrekből
• Nem biztos, hogy a GenBank-ban megvan
• A legkorábbi hozzáférés genom adatokhoz
Shotgun Genom Projektek (WGS)
• Tradícionális GenBank Divíziók
• 118 projekt
– 1 Virus
– 78 Bacterium – 5 Archaea – 35 Eukarióta:
• Rat, Mouse, Dog, Chimpanzee, Human
• Honeybee, Anopheles, Fruit Flies (2)
• Nematode (C. briggsae)
• Yeasts (8), Aspergillus (2)
• Rice
NCBI Származtatott adatbázisok
TG AT TA AC
TTG AC A
G C G T TT AA CT GA
A
A T A T C G G C AC GTG C
AC GT GC A C G T G C
TTGACA
TT GA CA G TT
A AC
G C TG
A C G
TG A C G
T G A
A TT G A C TA
ATT GAC TA AT TG AC TA ATTGA CTA
TA TA GC CG TA TA
GC CG
TA TA G C C G TATA GCC G
GenBank
TATAGCCG TATAGCCG TATAGCCGTATAGCCG
AT GA
AT T C
A GAG AT T AT T
C C A GAG
AT T C C A GAG
AT C T A GAG
AT C T A GAG
AT T C C A GAG
AT T C C
UniGene RefSeq
Genome Assembly Labs
Curators
Algorithms
TATAGCCG AGCTCCGATA CCGATGACAA
RefSeq: NCBI Derivative Sequence Database
• Curated transcripts and proteins
– reviewed
– human, mouse, rat, fruit fly, zebrafish, arabidopsis
• Model transcripts and proteins
• Assembled Genomic Regions (contigs)
– human genome – mouse genome
• Chromosome records
– Human genome – microbial
– organelle
GenBank RefSeq
Not curated Curated
Author submits NCBI creates from existing data Only author can revise NCBI revises as new data emerge Multiple records for same loci
common Single records for each molecule of
major organisms Records can contradict each other
No limit to species included Limited to model organisms Data exchanged among INSDC
members Exclusive NCBI database
Akin to primary literature Akin to review articles
Proteins identified and linked Proteins and transcripts identified and linked
Access via NCBI Nucleotide
databases Access via Nucleotide & Protein databases
Genbank vs Refseq
RefSeq előnyei
• Nem redundáns
• expliciten kapcsolt nukleotid és fehérje szekvenciák
• Frissítve hogy tükrözze a kurrens szekvencia adatokat
• Adatok validálása
• Konzisztens formátum
• Elkülönített hozzáférési kód
• NCBI gyámság
Globál Entrez keresés
Szekvenciák adatbankokba küldése
NCBI, Genbank
Rövid kontigok: BankIT
Hosszú szekvenciák: Sequin
ENTREZ - Genomes
Map Viewer I.
Map Viewer II.
Map Viewer IIII.
Map Viewer IV.
European Bioinformatics Institute (EBI)
European Bioinformatics Institute (EBI)
Readseq: szekvencia formátum konvertáló
Szekvencia formátumok I.
>nameless_1 457 bp
GGCGAAGATTCGGCCAGGCAAAGAAGAGCGCGACGAATGGGAGCATGTA GCCATGGCTGTATTCCTCCGTACCCCATGCCCCAACCATGCGAGTCAAACC TTCGTGAAAGATCACCACGAGCAGCCCGAAGACGATGGCCATCCACACGA CGTGAATGAACCGCGCCCTCCATGCGGTCCGCGGTTTTTCAATGATCGAAA GGGAATCGGCAACTTGAGTGGAGTCAGTCATATCAGGAGTCCCTTTGGGA GATGCTTCAGAGAGCAAGGTTCGTTGCCTCGGACCTGCATCACCCAACCAT ACAGATGCTCGGTTCGCGACGGCCTGCGTTGATTGCGCTGAGGATACCCG GTTCCAGTCCGTGCGACGACCATTAATAAGGCGCTCCACAGTTCCCGCGG GACACTAGCCAACCGGGCAGTGTCCACTGGGCAGCGGGCAGGGTCTCCC CCGGGA
FASTA
nameless_1
nameless_1 Length: 457 Nov 15, 2004 10:24 Check: 7178 ..
1 GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG 51 CCATGGCTGT ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC 101 TTCGTGAAAG ATCACCACGA GCAGCCCGAA GACGATGGCC ATCCACACGA 151 CGTGAATGAA CCGCGCCCTC CATGCGGTCC GCGGTTTTTC AATGATCGAA 201 AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG TCCCTTTGGG 251 AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC 351 CGGTTCCAGT CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC 401 GGGACACTAG CCAACCGGGC AGTGTCCACT GGGCAGCGGG CAGGGTCTCC 451 CCCGGGA
GCG
Szekvencia formátumok II.
GenBank
LOCUS nameless 457 bp ORIGIN
1 GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG CCATGGCTGT 61 ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC TTCGTGAAAG ATCACCACGA 121 GCAGCCCGAA GACGATGGCC ATCCACACGA CGTGAATGAA CCGCGCCCTC CATGCGGTCC 181 GCGGTTTTTC AATGATCGAA AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG 241 TCCCTTTGGG AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 301 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC CGGTTCCAGT 361 CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC GGGACACTAG CCAACCGGGC 421 AGTGTCCACT GGGCAGCGGG CAGGGTCTCC CCCGGGA
//
ID nameless standard; DNA; UNC; 457 BP.
SQ Sequence 457 BP;
GGCGAAGATT CGGCCAGGCA AAGAAGAGCG CGACGAATGG GAGCATGTAG CCATGGCTGT 60 ATTCCTCCGT ACCCCATGCC CCAACCATGC GAGTCAAACC TTCGTGAAAG ATCACCACGA 120 GCAGCCCGAA GACGATGGCC ATCCACACGA CGTGAATGAA CCGCGCCCTC CATGCGGTCC 180 GCGGTTTTTC AATGATCGAA AGGGAATCGG CAACTTGAGT GGAGTCAGTC ATATCAGGAG 240 TCCCTTTGGG AGATGCTTCA GAGAGCAAGG TTCGTTGCCT CGGACCTGCA TCACCCAACC 300 ATACAGATGC TCGGTTCGCG ACGGCCTGCG TTGATTGCGC TGAGGATACC CGGTTCCAGT 360 CCGTGCGACG ACCATTAATA AGGCGCTCCA CAGTTCCCGC GGGACACTAG CCAACCGGGC 420 AGTGTCCACT GGGCAGCGGG CAGGGTCTCC CCCGGGA 457 //
EMBL
Readseq: szekvencia formátum konvertáló, fehérje
>P1;nameless_1
nameless_1 475 bases
MSRTVTIEPV TRIEGHARIT LQLGDAGEVE DAKFHLTQFR GFEKFCEGRP YREMPALTAR TCGICPVSHV LASNKACDHL LSVSIPPTGE KLRRIINLAQ LTQSHALSFF HLSSPDLLLG WDSDPVSRNI FGVMRQDPAL AKDGIRLRQI GQTIIETLGG KKIHPTWVVP GGVSEPLTQE KRDAMLKLIP EGLEIAKRTY AFFKTLVPKF KDEANHFGSQ PTMFLSLVSP KGHLEHYDGF LRLKDAQGRI LEDMVPPHEY ERLIGEAVED FSYMKFPYYK PHGYPNGIYR VGPLARLNNV DACGTPYADV ALAEFHMLQE SGPIASSFHY HYARLVEIIY ALEMMERLLK DPTILDARVR ARARSNRYEG IGVAEAPRGI LMHHYRIDDE GLITWVNLII ATGHNNLAMN QSIRQVADAY VDGNNLQEGM LNRVEAVIRC FDPCLSCASH AFGEMPLAIE LKDATGRVVD TLRRG*
NBRF
Szekvencia formátumok III. – fehérjék
\\\
ENTRY nameless_1
TITLE nameless_1 475 bases SEQUENCE
5 10 15 20 25 30 1 M S R T V T I E P V T R I E G H A R I T L Q L G D A G E V E 31 D A K F H L T Q F R G F E K F C E G R P Y R E M P A L T A R 61 T C G I C P V S H V L A S N K A C D H L L S V S I P P T G E 91 K L R R I I N L A Q L T Q S H A L S F F H L S S P D L L L G 121 W D S D P V S R N I F G V M R Q D P A L A K D G I R L R Q I 151 G Q T I I E T L G G K K I H P T W V V P G G V S E P L T Q E 181 K R D A M L K L I P E G L E I A K R T Y A F F K T L V P K F 211 K D E A N H F G S Q P T M F L S L V S P K G H L E H Y D G F 241 L R L K D A Q G R I L E D M V P P H E Y E R L I G E A V E D 271 F S Y M K F P Y Y K P H G Y P N G I Y R V G P L A R L N N V 301 D A C G T P Y A D V A L A E F H M L Q E S G P I A S S F H Y 331 H Y A R L V E I I Y A L E M M E R L L K D P T I L D A R V R 361 A R A R S N R Y E G I G V A E A P R G I L M H H Y R I D D E 391 G L I T W V N L I I A T G H N N L A M N Q S I R Q V A D A Y 421 V D G N N L Q E G M L N R V E A V I R C F D P C L S C A S H 451 A F G E M P L A I E L K D A T G R V V D T L R R G
///
PIR
KERESÉS AZ ADATBNKOKBAN:
HASONLÓSÁG
Elsődleges DNS vagy fehérje szekvencia összehasonlítása más elsődleges szekvenciákhoz
abban a reményben, hogy annak a funkciója ismert a kísérletek szükségessége
analogikus gondolkodás
ha valamilyen fehérje hasonlít valami ismert funkiójú fehérjéhez, akkor a funkció is hasonló
kérdés: mi hordozza a funkciót?
fehérje, vagy fehérje rész,
hány funkciója van egy fehérjének?
globalitás - lokalitás
Szekvencia illesztés
Illesztés - héttér
“For many protein sequences, evolutionary history can be traced back 1-2 billion
years”
-William Pearson
• When we align sequences, we assume that they share a common ancestor
– They are then homologous
• Protein fold is much more conserved than protein sequence
• DNA sequences tend to be less informative than protein
sequences
• Nagyon sok illesztés, alignment lehetséges.
• Két szekvenciát mindig lehet illeszteni
Kérdés: jó-e, valós hasonlóságot mutat-e az illesztése.
Ehhez
• az illesztések “jóságát” pontozni kell
• Gyakran több illeszkedés is jó, ugyanolyan ponttal
Szekvenciák illesztése
Szekvenciák illesztése….
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Szekvencia 1 Szekvencia 2
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
actaccagttcatttgatacttctcaaa taccattaccgtgttaactgaaaggacttaaagact
TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: : :::::
TEGNAP VELED---V---OLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: .:::::
TEGNAP-VELED---VOLTAM--- TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: .:::::
TEGNAP VELED ---VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::: :::: : .:::::
TEGNAP---VELE-D-VOLTAM
Globális
Lokális
TEGNAP VELED MAGOLTAM :::::::::::: .:::::
TEGNAP VELED---VOLTAM
TEGNAP VELED :::::: :::::
TEGNAP VELED
VELE DALOLTAM :::: : .:::::
VELE-D-VOLTAM
Globális – lokális
TEGNAP VELED VOLTAM
Pontozás
• Szekvencia szerkesztés:
AGGCCTC
– Mutációk AGGACTC
– Inszerciók AGGGCCTC – Deléciók
AGG.CTC
Pontozás:
Illeszkedés: +m Eltérés: -s
Lyuk: -d
Pont: F = (# illeszkedés) m - (# eltérés) s – (#lyukak) d
DNS pontozási rendszer
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Szekvencia1 Szekvencia 2
A G C T
A 1 0 0 0
G 0 1 0 0
C 0 0 1 0
T 0 0 0 1
Illik: 1
Nem illik: 0
pont = 5
DNS pontozási rendszer
Negatív érték bünteti az eltéréseket:
A T C G A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5
Illik: 5
Nem illik: 19
Score: 5 x 5 + 19 x (-4) = - 51
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
Szekvencia1
Szekvencia 2
A T G C A 5 -4 -4 -4 T -4 5 -4 -4 G –4 -4 5 -4 C -4 -4 -4 5
A T G C S W R Y K M B V H D N U A 5 4 4 4 4 1 1 4 4 1 4 1 1 1 2 4 T 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5 G 4 4 5 4 1 4 1 4 1 4 1 1 4 1 2 4 C 4 4 4 5 1 4 4 1 4 1 1 1 1 4 2 4 S 4 4 1 1 1 4 2 2 2 2 1 1 3 3 1 4 W 1 1 4 4 4 1 2 2 2 2 3 3 1 1 1 1 R 1 4 1 4 2 2 1 4 2 2 3 1 3 1 1 4 Y 4 1 4 1 2 2 4 1 2 2 1 3 1 3 1 1 K 4 1 1 4 2 2 2 2 1 4 1 3 3 1 1 1 M 1 4 4 1 2 2 2 2 4 1 3 1 1 3 1 4 B 4 1 1 1 1 3 3 1 1 3 1 2 2 2 1 1 V 1 4 1 1 1 3 1 3 3 1 2 1 2 2 1 4 H 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1 D 1 1 1 4 3 1 1 3 1 3 2 2 2 1 1 1 N 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 U 4 5 4 4 4 1 4 1 1 4 1 4 1 1 2 5
- - - -
- - -
- -
- - - -
-
-
- - - - - - - -
-
- - -
- - - -
- - - -
- - - - - - - - - -
- - - - - - - - - - - -
- -
- -
- - - - - - - - - - - - - - - - - - - - - - - - -
-
- -
- - - - - - -- - - -
- - -
- - - - - - - -
- -
-
- - - - - - -
- - - -
- - - - - - - - - - - - - - - -
- -
- - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - -
- - -
- - - - - - - - - - - - -
-
- - - -
- - - - -
Illeszkedési Mátrix
Dotplots
Dotplots
A T G C A 5 -4 -4 -4 T -4 5 -4 -4 G –4 -4 5 -4 C -4 -4 -4 5
CCTCCTTTGT CCTCCTTTGT
Pont = 50
5 5 5 5 5 5 5 5
5 5
CCTCCTTTGG CCTCCCTTAG
5 5 -4 5 5 5 5
5 -4 5
Pont = 32
Pr o
Le u
Pr o
Le u
Dotplots
Dotplots
• Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket
C P
G G V A
I L
M F Y
W H K
R
E Q
D N
S T
C
SHS+S
pozitív töltött
poláris alifás
aromás
kicsi pici
hidrofób
Protein pontozási rendszer
• Az aminosavaknak különböző fizikai-kémiai tulajdonságaik vannan ezek befolyásolják a kicserélhetőségüket
• Pontozó mátrixnak tükröznie kell
• a kölcsönös szubsztitúciók valószínűségét
• az aminosavak előfordulási valószínűségét
• Általánosan használt mátrixok:
• PAM
• BLOSUM
Fehérje pontozási rendszer
PAM (Percent Accepted Mutations) mátrixok
• Fehérje családokból globál illesztéséből származik
•A család tagjai legalább 85%-osan azonosak ( Dayhoff et al., 1978 )
• Filogenetikus fa konstrukciója és ősi eredő szekvencia minden fehérje családra
• aminosav cserék számítógépes analízise
A R N D C Q E G H I L K M F P S T W Y V B Z A 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6
PAM 250
C
-8 17
W
W
• Távoli rokonságban álló fehérjék doménjeinek összehasonlításából ( Henikoff & Henikoff,1992 ).
• Minden blokk minden oszlopjában
minden aminosav előfordulását számolják
• Az összes blokkból származtatott számokat használják a
BLOSUM mátrixokhoz
A A C E C
A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1
BLOSUM (Blocks Substitution Matrix)
A A C E C
BLOSUM (Blocks Substitution Matrix)
• A szekvenciákat a blokkokban csoportosítják az azonossági szintjüknek megfelelően.
• A klasztereket egy szekvenciaként kezelik.
• A különböző BLOSUM mátrixok különböznek abban, hogy hány
százalékos szekvenciaazonosságot használtak a klaszterezés során.
• A mátrix neve mögötti szám (62 BLOSUM62 esetén) a százalékos szekvencia azonosságra utal a mátrix képzése során.
• Nagyobb számok kisebb evolúciós távolságra utalnak
BLOSUM 50 mátrix
H E A G A W G H E E
P -2 -1 -1 -2 -1 -4 -2 -2 -1 -1
A -2 -1 5 0 5 -3 0 -2 -1 -1
W -3 -3 -3 -3 -3 15 -3 -3 -3 -3
H 10 0 -2 -2 -2 -3 -2 10 0 0
E 0 6 -1 -3 -1 -3 -3 0 6 6
A -2 -1 5 0 5 -3 0 -2 -1 -1
E 0 6 -1 -3 -1 -3 -3 0 6 6
Melyik mátrixot használjuk ?
• Általában lokális hasonlósg keresés során a BLOSUM mátrixok jobban használhatóak, mint PAM mátrixok ( Henikoff & Henikoff, 1993 ).
• Amikor közeli rokonságban álló fehérjéket hasonlítunk össze alacsonyabb számú PAM vagy magasabb számú BLOSUM mátrixok ajánlottak, távoli kapcsolatban álló fehérjék esetén a mátrix száma magasabb legyen PAM alacsonyabb BLOSUM mátrix esetén.
•A BLOSUM62 az “alapmátrix” (default) adatbázis kutatás esetén
Rat versus mouse RBP
Rat versus bacterial
lipocalin BLOSUM90
PAM30
BLOSUM45 PAM240 BLOSUM80
PAM120
BLOSUM62
PAM180
Blosum62 scoring matrix
A 4 R -1 5 N -2 0 6 D -2 -2 1 6 C 0 -3 -3 -3 9 Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
A R N D C Q E G H I L K M F P S T W Y V
T A T G T G G A A T G A
Inszerciók és deléciók figyelembe vétele
A T G T - - A A T G C A A T G T A A T G C A
T A T G T G G A A T G A
Lyukak keletkezése negatív büntető pontokkal jár
inszerció / deléció
1 GTGATAGACACAGACCGGTGGCATTGTGG 29 ||| | | ||| | || || | 1 GTGTCGGGAAGAGATAACTCCGATGGTTG 29
Hézagok szankcionálása
Hézag lehet, de büntetjük Score: 88 Lyuk nem megengedett Score: 10
1 GTG.ATAG.ACACAGA..CCGGT..GGCATTGTGG 29 ||| || | | | ||| || | | || || | 1 GTGTAT.GGA.AGAGATACC..TCCG..ATGGTTG 29
Match = 5
Mismatch = -4
• Két szekvencia optimális alignmentje általában
• maximálja az illeszkedések
• minimalizálja a lyukak számát.
• Inszerciók megengedése túl sok magas pontszámú illesztéshez vezetne fals következtetés
• Néhány hézag viszont jót tesz az illesztésnek.
Hézagok büntetése
Hézagok büntetése matematikailag
Lineáris:
(g) = - gd
Két lépcsős büntetés (Affine gap) :
(g) = -d - (g -1)e
(g) = g hosszúságú lyuk büntetőpontja
d = lyuk nyitás
e = lyuk hosszabbítás büntetétőpontja
g = hézag hossz
Inszerciók és deléciók pontozása
A T G T T A T A C
T A T G T G C G T A T A Összpont: 4
Hézag paraméterek:
d = 3 (lyuk nyitás)
e = 0.1 (lyuk tágítás)
g = 3 (lyuk hossz)
(g) = -3 - (3 -1) 0.1 = -3.2
T A T G T G C G T A T A A T G T - - - T A T A C
inszerció / deléció
passzol = 1
nem passzol = 0
Összpont: 8 - 3.2 = 4.8
Alignment típusok
• Szigorú algoritmusok - időigényes
– Needleman-Wunsch – Smith-Waterman
• Heurisztikus algoritmusok - gyors
– BLAST
– FASTA
A dinamikus programozás alapelvei
- Alignment mátrix létrehozása
- Pontszámok lépésenként kalkulációja
- Visszanyomozás (backtracking)
(az optimális út megállapítása)
Az alignment additív
Két szekvenciarészlet összevetése
x
1…x
ix
i+1…x
My
1…y
jy
j+1…y
NA két pontszám összeadódik:
F(x[1:M], y[1:N]) = F(x[1:i], y[1:j]) + F(x[i+1:M],
y[j+1:N])
Dinamikus programozás I.
• dinamikus programozási algoritmus
Tegyük fel, hogy az alábbi két szekvenciát már illesztettük
x
1……x
My
1……y
NLegyen
F(i,j) = az illesztés optimális értéke x
1……x
iy
1……y
jHárom lehetséges eset van:
1. x
ipasszintható y
jx
1……x
i-1x
iy
1……y
j-1y
j2. x
ihézaghoz illik x
1……x
i-1x
iy
1……y
j-
3. y
jhézaghoz illik x
1……x
i-
y
1……y
j-1y
jm, ha x
i= y
jF(i,j) = F(i-1, j-1) +
s, ha nem
F(i,j) = F(i-1, j) - d
F(i,j) = F(i, j-1) - d
Dinamikus programozás II.
• Honnan tudjuk, mi a korrekt?
Induktív feltételezés:
F(i, j-1), F(i-1, j), F(i-1, j-1) optimális
Ekkor,
F(i-1, j-1) + s(x
i, y
j)
F(i, j) = max F(i-1, j) – d F( i, j-1) – d
Ahol s(x
i, y
j) = m, ha x
i= y
j; s(x
i, y
j) = s, ha x
i y
jDinamikus programozás III.
ld. mátrixok
F(i-1, j-1) F(i, j-1)
F(i-1,j) F(i, j)
-d -d
s(x
i,y
j)
Needleman-Wunsch Algoritmus
1. Kezdeti paraméterek.
a. F(0, 0) = 0
b. F(0, j) = - j d
c. F(i, 0) = - i d
2. Fő iterációk. A mátrix kitöltése
a. Minden i = 1……M Minden j = 1……N
F(i-1,j-1) + s(x
i, y
j) [1.
eset]
F(i, j) = max F(i-1, j) – d [2. eset]
F(i, j-1) – d [3. eset]
átló, [1. eset]
Ptr(i,j) = bal, [2. eset]
fel, [3.eset]
3. Termináció. F(M, N) az optimális pont, és
Ptr(M, N)-ből az optimális alignment visszanyomozható
H E A G A W G H E E 0
P A W H E A E
-8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8
-16 -24 -32
-40
-48
-56
F(j, 0) = -j d
Perem feltételek F(i, 0) = -i d
Az illesztési mátrix kitöltése
H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80
P -8
A -16 W -24
H -32 E -40
A -48 E -56
-2 -10
-9 -3
F(i, j) = F(i-1, j-1) + s(xi ,yj) F(i, j) = max F(i, j) = F(i-1, j) - d
F(i, j) = F(i, j-1) - d
F(0,0) + s(xi ,yj) = 0 -2 = -2
F(1,1) = max F(0,1) - d = -8 -8= -16 = -2 F(1,0) - d = -8 -8= -16
F(1,0) + s(xi ,yj) = -8 -1 = -9
F(2,1) = max F(1,1) - d = -2 -8 = -10 = -9 F(2,0) - d = -16 -8= -24
-8 -2 = -10
F(1,2) = max -16 -8 = -24 = -10 -2 -8 = -10
-2 -1 = -3
F(2,2) = max -10 -8 = -18 = -3 -9 -8 = -17
P-H=-2 E-P=-1 H-A=-2 E-A=-1
Az illesztési mátrix kitöltése
H E A G A W G H E E
0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80
P -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 A -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 W -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 H -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 E -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 A -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 E -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1
“Backtracking”
-5
1 -
A E E H H G - W W A A G - A P E - H - 0
-25
-5 -20
-13
-3
3 -8 -16
-17
Optimális globál alignment: E
E
Két különbség:
1.
2. Az alignment bárhol befejeződhet a mátrixban
Smith - Waterman
(lokális alignment)
Példa:
Szekvencia1 H E A G A W G H E E
Szekvencia2 P A W H E A E
Mátrix: BLOSUM
Lyuk büntetés: Lineáris, d=8