Basics in bioinformatics Basics in bioinformatics

(1)

Basics in bioinformatics Basics in bioinformatics

G G ábor Rákhely PhD. ábor Rákhely PhD.

Institute of Biophysics BRC HAS Institute of Biophysics BRC HAS

Department of Biotecnology Department of Biotecnology

University of Szeged University of Szeged

rakhely

rakhely @brc.hu @brc.hu (599)-726

(599)-726

(2)

This presentation can be found:

http://biotech.szbk.u-szeged.hu/bioinf/bioinfo_itc.html

Books are available in English

(3)

BIOINFORMATICS

INFORMATICS BIOINFORMATICS BIOLOGY

“The >99% of the ever-lived scientists is contemporary

It is true for data  revolution in informatics

(4)

INFORMATICS

- experiments  information  production of new information - treatment, classification (grouping) and displaying of data - harmonizing of data

Entering data, arrangement of data  databanks

Databanks:

- fast exchange of data

- interactive link between databanks

Processing, displaying and evaluation of data

 newer information  newer, other databanks

(5)

PREBIOINFORMATICS:

RESOLVING THE INFORMATION CARRIER

1866 Mendel: crossing experiments with peas  h eredity in units

1869 Miescher: purification of salmon sperm DNA

DNA as inheriting material

1903 WS Sutton the inheritable pattern is linked to the properties of chromosomes during proliferation

cytochemsitry: the chromosome consist of DNA and protein 1925-1928 F. Griffith mouse infections with Streptococcus pneumoniae

 transforming principle

1944 Avery: the transforming compound is DNA

(6)

PREBIOINFORMATICS:

RESOLVING THE INFORMATION CARRIER

1952. Hershey és Chase From T2 phage DNA enters into the cells

THE ROAD TO THE DOUBLE HELIX

Chargaff E.: the ratio of the nucleotides is equal in humans and E. coli Biophysical data: e.g. water content of DNA

Rosalind Franklin and Maurice Wilkins X-ray diffraction data

(7)

The double helical DNA

(8)

The central dogma and the main areas of the bioinformatics in molecular biology

degradation

Transcriptomics, transcriptome

proteomics, proteosome

Genomics

(9)

Genomics Genomics

 Basically to determine the nucleotide Basically to determine the nucleotide sequence of a genome or

sequence of a genome or extrachromosomal elements extrachromosomal elements

 In silico prediction of functional regions, In silico prediction of functional regions, including coding, regulatory regions, splice including coding, regulatory regions, splice

sites e.t.c.

(10)

The main three branches of the evolutionary tree

(by Woese and colleagues)

(11)

viruses plasmids

bacteria fungi

plants algae insects

mollusks

reptiles birds mammals

Genome sizes in nucleotide base pairs

10 ⁴ 10 ⁵ 10 ⁶ 10 ⁷ 10 ⁸ 10 ⁹ 10 ¹⁰ 10 ¹¹ The size of the human

genome is ~ 3 X 10 ⁹ bp;

almost all of its complexity is in single-copy DNA.

The human genome is thought to contain ~30,000-40,000 genes.

bony fish

amphibians

(12)

COMPARISON OF THE CELL ORGANIZATION IN

PROKARYOTES ANN EUKARYOTES

(13)

exon intron exon

upstream downstream

Start of the biological information (coding region)

End of biological information (coding region)

Regulatory elements

STRUCTURE OF GENES IN EUKARYOTES

altenative splicing

neurofibromatosis type I gene exons

introns

OGMP EVI2B EVI2A

Genes within genes

(14)

THE ORGANIZATION OF THE PROKARYOTE GENOME

The model of the E. coli

nucleoide

(15)

THE ORGANIZATION OF THE GENES IN

PROKARYOTES: polycistronic structure

(16)

DNS MANIPULTION

WITH COMPUTER

(17)

(18)

(19)

(20)

DNA sequencing according to SANGER

(21)

THE PRINCIPLE OF THE AUTOMATIC DNA

SEQUENCENG

(22)

GENOME SEQUENCING STRATEGIES

Shot gun

Primer walking

(23)

ALTERNATIVE SHOT GUN STRATEGIES

(24)

PRODUCTION OF BACTERIAL

SHOT GUN LIBRARY

(25)

Preparation of shotgun library Preparation of shotgun library

chromosomal DNA

broken DNA fragments

blunting the ends

Preparative gel electrophoresis

2-3,5 kb fragments

dephosphorylation

transformation electroporation

E. coli

(26)

Sequence analysis

checking, validation

Removal of vectorial and other contaminating sequences

SEQUENCE PROCESSING

Phrap

Vector_clipping SeqMan/DNASTAR

STADEN programme

(27)

Manual checking the sequences

(28)

2000 4000 6000

S11T7

S17T7 S19T7

S148T7 S17SK S19SK

orf1 S148O8

S148O14

pcaB S11SK

S148019

S148O20

S148O9 S12SK

orf2 S148O15

S148O21

S148O18 S148O17

macA S148O10

S148O13

S12T7 S148O22

orf-3 S13T7 S148O11

S148O7

S148O12

S16SK SC110T7

pcaH S13SK

S18SK

pcaG SC110SK

S14SK S148SK

ARRANGMENT OF PRIMARY SEQUENCES INTO CONTIG

an example

(29)

 Partial digestion of g enomic DNA with MboI (Sau3AI)

(compatible end with BamHI end)

 Size fractionation for 30 – 45 kb fragmnets

BamHI- XbaI digestion

cos cos

Amp

^r

ori

ligation

30 – 45 kb fragments

cos cos

in vitro packing with

GigaPack  extrackt Selection for ampicillin rezisztent clones

Cosmid library

COSMID LIBRARY

A tool for connecting non-overlapping

contigs

(30)

PRIMER WALKING

TEMPLATE GENERATING SYSTEMS

In cosmid, BAC, YAC libraries

(31)

- STS: sequence tagged site single 100-500 bp fragment - EST: expressed sequence tag

USEFUL TOOLS FOR ASSEMBLYING:

MAPPING

- genetic: positioning of genes and properties

- physical: arrangment of sequences and genes

(32)

ASSEMBLY OF THE CONTIGS: gap closure

(33)

DIFFICULTIES IN THE ASSEMBLY:

Abnormal genetic elements:

formation of pseudogenes B.

No regulatory region, driving elements of transcripion

The coding region is sérült

convencional pseudogene: loss of function mutation

A.

(34)

DIFFICULTIES IN THE ASSEMBLY

Retroelements and retrotransposition

(35)

DIFFICULTIES IN THE ASSEMBLY DNA transposons

the retrotransposons are rather characteristic

for Eukaryotes

(36)

1 chromosome

2 chromosome interspersed

repeats

tandem repeated DNA

Long Interspersed Nuclear Elements: LINE

microsatellites

(short tandem repeat, STR)

 13 bp repeat  150 bp long:

pl. CACACACACACA

On the average it occurs by 2 kb

Minisatellites

 25 bp repeat  20 kbp length

DIFFICULTIES IN THE ASSEMBLY

REPETITIVE SEQUENCES IN THE GENOMES

(37)

“THE COMEDY OF ERRORS”

(38)

A SEGMENT OF THE HUMAN GENOME

(39)

IF EVERYTHING OK, WE HAVE SEQUENCES

What does it contain, a gene or non-coding region?

How do we know we can find anything, e.g. a gene?

CTCGAGACGCTGTTTCTGGGGTCATTCATTCTTGGCGGGCTGCAACTGCTGGTGTGACCGACGCGACCTGGCAGGCCGCGGTGCGCAACTGGCCGGGCGGACTAATGGTGGAGCAAAAGA TCGGCATGTCCAGCGCACCTGAAGCTTGGGTGGTTGCTGCAATAGCAGCCTTCCTTATTGGCATGGCGAAGGGCGGTTTGGCCAATGTGGGGGTTATCGCCGTTCCCTTGATGTCCCTGG TCAAGCCGCCGCTTACCGCTGCCGGATTGCTGCTCCCGATCTATGTCGTTTCTGATGCATTCGGCGTCTGGCTTTATCGGCACCGGTATTCTGCCTCCAATCTGCGCATCCTGATTCCTT CGGGATTTTTTGGGGTCCTGATTGGCTGGTTATTGGCCGGGCAGATCTCCGACGCGATTGCCAGTGTCATTGTTGGTTTCACCGGCTGCGGCTTCGTGGCTGTGCTGCTGGCACGACGAG GGGTGCCATCGGTGCCGCGTCAAGCCAACGTGCCCAAAGGATGGTTTCTGGGGGTGGCCACCGGCTTTACCAGCTTTTTGACTCATTCCGGTGCGGCGACCTTCCAGATGTTCGTGCTGC CGCAACGGCTGGACAAGACCATGTTCGCGGGCACATCAACGCTTACCTTTGCTGCCATAAACCTATTCAAGATTCCGTCCTACTGGGCATTGGGACAGCTTTCGACTTCCTCGGTCATGT CCGCGCTAGTGTTGATTCCGGTGGCCGTGGCCGGGACGTTCGCAGGTGTTTTTGCGACGCGCAGGCTATCGACATCCTGGTTCTTCATTCTGGTCCAGGCGATGTTGCTGGTGGTCTCCA TTCAGCTTCTGTGGAGGGGAATGTCGGATATCCTGAACTAGCTGGAGATCGCAATGTCAGAACGCTCAATCAATCAGAATGTAATCTTGACATAGAATACCGTTCCGATTTATTGCTTCG AGTGAAGCTGCCCGTCCGCTGAGATGTCATGACATTTTCCCCGCTTGATTCCGCCCTGCTTGGACCGTTGTTCGCGACCGATGAAATGCGCACGGTCTTCTCCGAACGGCGTTTTTTGGC GGGAATGCTTCGTGTTGAAGTGGCCCTGGCGCGCGCGCAGGCGGCAGAGGGCCTTGTCAGTTCGGAATTGGCCGACGCGATCGAGGTTGTTGGTACTGCCGGGTTGGACCCCGAGGCGAT GGCGGCGACTACTCGCATGACAGGAGTGCCCGCAATATCGTTCGTCCGTGCGGTGCAATCGGCCCTGCCGCCCTCACTGGCGGGTGGATTTCATTTCGGCGCCACCAGTCAAGACATCGT GGATACGGCCCACGCGCTCCAGCTGGCCGAGGCACTCGATATTATAGAAGTCGATTTACACGCCACTGTCAGCGCAATGATGAATCTGGCCGCTGCTCACTGCAATACACCCTGTATCGG GCGCACGGCCTTGCAGCACGCAGCGCCAGTTACGTTCGGCTACAAGGCGTCCGGCTGGTGCGTTGCCCTGGCGGAGCATCTGGTGCAGCTTCCCGCGCTGCGAAAGCGGGTTCTGGTGGC GTCGCTAGGGGGGCCGGTTGGTACCCTTGCCGCGATGGAGGAGCGGGCCGACGCTGTACTGGAGGGTTTCGCTGCGGACCTGGGGTTGGCCATTCCCGCCCTGGCCTGGCACACGCAGCG GGCCCGGATCGTCGAGGTGGCCAGTTGGCTGGCCATATTGCTGGGAATTCTGGCAAAAATGGCCACCGATGTCGTTCACTTGTCCTCCACGGAAGTGCGCGAGCTTTCCGAACCTGTAGC GCCGGGCAGGGGGGGCTCCTCGGCGATGCCTCACAAGCGGAACCCGATTTCCTCGATTACCATCCTGTCCCAGCATGCTGCGGCAGGGGCCCAGCTCTCCATTCTCGTGAACGGCATGGC CAGTCTGCACGAACGTCCGGTGGGGGCGTGGCATTCGGAATGGTTGGCTCTGCCGACGCTGTTCGGCCTTGCCGGCGGTGCCGTGCGCGAGGGCAGGTTTCTGGCCGAGGGGCTGCTGGT CGATGCCGACCAGATGGGTCGCAATCTACAATTGACCAATGGCCTGATTTTCAGCGACGCGGTAGCCGGCCAGTTGGCAAAGCACTTGGGTCGGGCCGAGGCTTATGCCGCTGTCGAGGA TGCCGCCGCCGAGGTGTTGCGTTCAGGCGGCAGCTTTCAGGGTCAGCTGAACCAGCGCCTGCCCGATCACCGCGACGCTATCGCTATTGCTTTTGATACGACGCCGGCGATCCAGGCCGG GGCCGCCCGCTGCCGTAGTGCGCTGGATCATGTGGCTCGTATTCTTGGACCCGCCTCTACCATCGGATTTCAAGGAGGCTAATGACGTGACGACACTGTTTGAGGCGACGACCATCCCGA TTTGCGAGGGCCCGCGCGACCAGACCGCCGAGATCCTTTTCGAGATGCCGCCGGGTGCGTGGGATACCCATTTTCATGTTTTTGGCCCAGTTTCATCGTTTCCATACGCAGAACACAGGC TCTATTCCCCACCGGAGTCGCCACTTGAGGATTATCTGGTGTTGATGGAGGCTTTGGGGATCGAGCGCGGCGTTTGTGTCCATCCGAATGTTCATGGTGCCGACAATTCGGTGACGCTCG ACGCAGTTGCGCGGTCCGATGGTCGTCTGCTGGCGGTGATCAAGCCACATCACGAGATGACTTTTGTTCAGCTGCGGGACATGAAGGCGCAGGGGGTCTGCGGGGTACGTTTTGCCTTCA ATCCGCAGCATGGCTCGGGCGAGTTGGATACTCGTTTGTTCGAGCGTATGTTGGACTGGTGCCGCGACCTAGGCTGGTGCGTAAAATTGCATTTCGCGCCCGCTGCGCTGGACGGTCTGG CTGAACGTTTGGCGCGCGTCGATATTCCGATCATCATCGATCATTTCGGGCGGGTGGACACCGCGCAAGGTGTGGATCAGCCGCACTTCCTGCGTTTGCTCGATCTGGCCAAACTGGACC ATGTCTGGATCAAGCTTACGGGGGCAGATCGTATTAGCGGTTCCGGCGCGCCATATGACGATGTCGTGCCCTTCGCGCACGCTTTGGCAGATGTGGCGCCCGACCGCCTCCTCTGGGGTT CGGATTGGCCGCATTCAGGCTATTTCGATCCGAAGCACATACCCAATGACGGCGACTTGTTGAACCTTTTGGCGCGTTTTGCCCCCGATGCTGAACTGCGTCGTAAGATCCTTGTGGACA ACCCGCAGCGCCTGTTCGGGGCTGCTTGAGGAGCCGAGCCGATGCAACCTTTCGTCTACGAAACAGCCCCAGCGCGCGTCGTTTTCGGGCGCGGCACTTCGCAGAATCTGCGGCGGGAAC TTGAGGCCCTGAATTTTGGCAGGGCGCTGGTTCTTTCCACGCCCGACCAAAAAGAACAATCGCTGCGAATTGCCCAGGGCCTGGGTTCTCAGCTGGCGGGGTCGTTCCACGCCGCTGCCA TGCATACGCCTGTCGAGGTCACCTTGCAGGCGCTTGAGGTGCTGAAGGATGTGCAGGCCGATTGCATCGTGGCGATTGGCGGCGGCTCAACCATTGGGTTGGGCAAGGCACTGGCCCTGC GCACCGATCTGCCGCAGATCGTCGTCCCGACGACTTATGCCGGCTCGGAAATGACGCCGATCCTGGGAGAGACGGAAAACGGGCTGAAGACCACACAGCGTAATCCCAAAGTGCAGCCGA GGGTGGTTCTCTACGATGTGGACCTGACTGTGACGCTTCCGGTGCAGGCCTCGGTTACATCAGGCATGAATGCGATCGCCCATGCGGCCGAGGCATTATATGCGCGGGACGGCAATCCGG TGATCTCGCTGATGGCCGAAGAGGCGATCCGCGCGCTGGCCCATGCCCTGCCGCGTATCGTTGCCACTCCCGACGATATCGAAGCGCGCAGCGATGCCCTCTATGGCGCGTGGCTGTGCG GAACGTGCCTGGGTTCGGCCGGAATGGCGTTGCACCATAAGCTCTGCCACACCCTCGGCGGAAGTTTCGATTTGCCACATGCCCCGACCCACACGGTCATCCTCCCCTATGCGCTCGCCT ATAATAGTGATGCGGCCAGGCCCGCAATGGCAGCCATCGCGCGCGCGCTGGGCATGGCGGATGCAGCGATGGGCATGAGAGCGTTGTCCATGCGGTTGGGCGCCCCGACATCGCTGCGTG AGTTGGGCATGGCAGAAGCCGATCTTGACCGCGCCGCCGACCTGGCCACGCAAAATGCCTATTGGAACCCGCGACCCATCGAGCATGGGCCGATTCGTAACCTTCTGGGACGGGCCTGGG CTGGAACTCCGGTCTGAAGGACCTAGAGGACAGTCAATTCATTGATCTGAAGTCACCAACGAGGAGATATGGGATGAACGAGAACATTGCGATCCGCAAATTGGGCCGCCGACTCCGATT GGGCATTGCCGGTGGCGCGGGTCATTCGCTGATTGGTCCGGTTCACCGGGAGGCGGCTCGGCTTGACGATTTGTTCTCTCTCGATGCTGCGGTGCTGTCCAGTAACGCGGAACGCGGGGA TGCTGAGGCCGCGGCTCTCGGAATTCCGCGCTCCTATTCGTCCACCGCCGAGATGTTCGCAATGGAGAAGGCTAGGCCCGACGGTATTGAGGCCGTTGCCATAGCCACGCCGAATGACAG CCATTACCGGATTCTGTGCGAGGCGCTGGACGCCGGGTTGCATGTAATCTGCGACAAGCCTTTAACCTCCACGAAGGCCGAGGCCGACGACGTGCTGGTGCGGGCGAAGGCCGCGGGCAA GGTTGTGGTCCTGACCCACAATTATTCTGGCTACGCCATGGTACGCCAAGCCCGCGCCATGGTCGCCGCCGGTGAACTTGGGAAAATCCACCAGATTCACGGGGTCTACGCTCTGGGCCA GATGGGCCGTTTGTTCGAGGCCGACGAAGGGGGCGTGCCTCCGGGGATGCGTTGGCGGATTGATCCTGCGCGCGGTGGCGACAGTCACGCCCTGGTGGATATCGGCACCCATGTGCACCA TCTGGCTACCTTCATCACGCAGTTACAGGTCGTTGAGGTAATGGCCGATCTTGGGCCGGCGGTTCAAGGCCGCGCGGCCCATGACAGTGCCAACGTCATGTTCCGTATGGAAAACGGAGC TTTCGGATCGTTCTGGGCCACCAAGGCGGCATCGGGGGCCAGCAAGCTGGCGATCGAAGTCTACGGTGACAAGGGCGGCGTCCTGTGGGAGCAGGCCGACGCCAATAACTTGCTACATAT GCGGCAGGGCCAACCCCCAGCCCTGATTGGTCGACAAGTTGCCGGGCTGCATCCTGCGGCAATCCGCGCGATGCGGGGGCCGGGTTATCATTTCGTGGAAGGCTATCGCGAGGCCTTTGC GAATATGTACGTGGATTTCGCCGAACAGATCTTGGCCATGATGGGCAAGGGGGCCGCAGATCACCTGGCATTGGAAGCGCCGTCGGTCGTGGACGGCCTGCGCTCCATGGCGTTCATCGA AGCCTGTGTGGCGTCGTCGCAGGACCGCCAATGGCGGCAGGTGGAGCAAGTCAGTTGATCTCTCAGCGGCTTCGGCATTTTTCCCGGGCTGGCGGCTCCCCGCAGCTCCCTCCGGTGGAA AGAACGGGTAATCAAAATAATATTCTGATTTTAAAGGATGTTCCAGACAGCTGATTATTCCTGAAATTTAGGGCTCTTTCGGCTGTAGCAATTGACTAAAAGCCGAATTTAAGGGTAA TTAAACAAACGCTGTTCGTATTATTTAAACAGGTGAGTGATGGCGATATTCCTGGAAGGCTGGCCGATGGTTTCATCTGAATACCCGGCCAGAAGCGTTGAGGCGCACCCGGCCTATCTG AC

GCCAGACTATGTTTTCACGCGAAAGCGTGCGCCGACTCGACCGCTGCGGTTAATTCCTCAGTCTGCGACGGAGCTGTATGGCCCGGTTTATGGACAAGAGAGCGTCCGTCCGGGGGATAA CGACCTGACCCGTCAGCACGAAGCTGAGCCGGTGGGGGAGCGGATTCTGGTGACGGGGCGCGTGACCGACGAAGACGGGCGGGGTGTCCCTAATACGCTGCTAGAGATCTGGCAGGCCAA TGCCGCCGGTCGCTATATCCACAAGCTTGACCAGCATCTTGCCCCGCTTGATCCAAATTTCTCGGGGGCAGGGCGTACGGTTACGGGGGCTGATGGCTCTTATTCCTTCATCACGATCGT GCCGGGCGCCTATCCGGTCGTGGGGCTGCACAATGTCTGGCGCCCGCGCCACATCCATGTGTCGTTGTTCGGTCCGTCCTTCGTGACCCGCTTGGTTACCCAGATATATTTCGAGGGCGA TCCGCTGCTGAAATATGACACGATCTACAACACGGCGCCCGACATCTCGAAGCGCAGCATGGTGGCGCAGTTGGACATGGGCGCCACGCAATCCGAATGGGGCCTGACCTATCGCTTCGA CATCGTTCTGCGTGGGCGCAACGGCAGCTATTTCGAGGAACCCCATGACCACTAAGACCCCACTGACCATCACCCCCTCGCAGACTGTCGGGCCTTTCTATGCCTATTGCCTGACCCCGG AGGACTACGGGACGCTTCCACCGCTGTTCGGCGCGCAGCTTGCGACCGAGGACGCCGAAGGGGAACGGATTACGATCCAGGGAACGATCACGGACGGAGAGGGGGCCATGGTTCCCGATG CCTTGATCGAGATCTGGCAGCCGGACGGGCAGGGGCGTTTTGCTGGAGCCCATCCAGAGCTGCGGAATTCGGCCTTCAAGGGCTTCGGGCGCCGCCACTGTGACAAAAGCGGAAACTTCA GTTTCCAAACCGTGAAGCCTGGCCGGGTGCCCACTGCCGACGGCGTGATGCAGGCACCCCATATCGCTTTGTCGATCTTCGGCAAGGGATTGAACCGCCGGCTCTATACGCGGATCTACT TCGCAGACGAGGCATCGAATGCCGAGGACCCCGTTCTGTCGATGCTGTCCGAGGATGAGCGCGTGACCCTGATCGCCACCTCTGAATCGCCCGCCGCATATCGCCTCGACATCCGCCTGC AAGGCGACGGCGAAACGGTGTTTTTCGAGGCCTGAGTCGGCCGGCAAGTTTGCGGGGATCCGTCCGCCGCAATTGTGTTTCGCTATAGACGCCACGGCTGCCGCATGCCGCCGGGTGGAA GGGCCTTGCAAGGCCTGTCAACGGCGGAGTAAAATCCGGCCAGGCGGCGGAGTAAAACCAGGCCACTTGTGGCCCACGCATGAGACACCCGGGAGGGCGTAGCCCAAGCGGGGGTCTCAT GCGTGTGCGGCGGTTTTCTGGGGGTTCAGCCAGCCTTGCGGGCGCGGCTTTGAGCGAGACGATAGCTGTCGCCGTTCATCTCGAG

(40)

Comparison to known sequences Comparison to known sequences

 The sequence obtained can be co The sequence obtained can be co mpare mpare d d to known sequences in the databanks

to known sequences in the databanks

 Question: what is similar? Question: what is similar?

 What to compare DNA or protein What to compare DNA or protein ? ?

(41)

SIMILARITY

CTCGAGACGCTGTTTCTGGGGTCATTCATTCTTGGCGGG CTGCAACTGCTGGTGTGACCGACGCGACCTGGCAGGCCGC GGTGCGCAACTGGCCGGGCGGACTAATGGTGGAGCAAAA GATCGGCATGTCCAGCGCACCTGAAGCTTGGGTGGTTGC TGCAATAGCAGCCTTCCTTATTGGCATGGCGAAGGGCGG TTTGGCCAATGTGGGGGTTATCGCCGTTCCCTTGATGTC CCTGGTCAAGCCGCCGCTTACCGCTGCCGGATTGCTGCTC CCGATCTATGTCGTTTCTGATGCATTCGGCGTCTGGCTT TATCGGCACCGGTATTCTGCCTCCAATCTGCGCATCCTGA TTCCTTCGGGATTTTTTGGGGTCCTGATTGGCTGGTTAT TGGCCGGGCAGATCTCCGACGCGATTGCCAGTGTCATTG TTGGTTTCACCGGCTGCGGCTTCGTGGCTGTGCTGCTGGC ACGACGAGGGGTGCCATCGGTGCCGCGTCAAGCCAACGT GCCCAAAGGATGGTTTCTGGGGGTGGCCACCGGCTTTAC CAGCTTTTTGACTCATTCCGGTGCGGCGACCTTCCAGAT GTTCGTGCTGCCGCAACGGCTGGACAAGACCATGTTCGC GGGCACATCAACGCTTACCTTTGCTGCCATAAACCTATT CAAGATTCCGTCCTACTGGGCATTGGGACAGCTTTCGAC TTCCTCGGTCATGTCCGCGCTAGTGTTGATTCCGGTGGCC GTGGCCGGGACGTTCGCAGGTGTTTTTGCGACGCGCAGG CTATCGACATCCTGGTTCTTCATTCTGGTCCAGGCGATG TTGCTGGTGGTCTCCATTCAGCTTCTGTGGAGGGGAATG TCGGATATCCTGAACTAGCTGGAGATCGCAATGTCAGAA CGCTCAATCAATCAGAATGTAATCTTGACATAGAATAC CGTTCCGATTTATTGCTTCGAGTGAAGCTGCCCGTCCGC TGAGATGTCATGACATTTTCCCCGCTTGATTCCGCCCTGC TTGGACCGTTGTTCGCGACCGATGAAATGCGCACGGTCT TCTCCGAACGGCGTTTTTTGGC

the two sequences are (and look) the same

(42)

CTCGAGACGCTGTTTCTGGGGTCATTCATTCTTGGCGGG CTGCAACTGCTGGTGTGACCGACGCGACCTGGCAGGCCGC GGTGCGCAACTGGCCGGGCGGACTAATGGTGGAGCAAAA GATCGGCATGTCCAGCGCACCTGAAGCTTGGGTGGTTGC TGCAATAGCAGCCTTCCTTATTGGCATGGCGAAGGGCGG TTTGGCCAATGTGGGGGTTATCGCCGTTCCCTTGATGTC CCTGGTCAAGCCGCCGCTTACCGCTGCCGGATTGCTGCTC CCGATCTATGTCGTTTCTGATGCATTCGGCGTCTGGCTT TATCGGCACCGGTATTCTGCCTCCAATCTGCGCATCCTGA TTCCTTCGGGATTTTTTGGGGTCCTGATTGGCTGGTTAT TGGCCGGGCAGATCTCCGACGCGATTGCCAGTGTCATTG TTGGTTTCACCGGCTGCGGCTTCGTGGCTGTGCTGCTGGC ACGACGAGGGGTGCCATCGGTGCCGCGTCAAGCCAACGT GCCCAAAGGATGGTTTCTGGGGGTGGCCACCGGCTTTAC CAGCTTTTTGACTCATTCCGGTGCGGCGACCTTCCAGAT GTTCGTGCTGCCGCAACGGCTGGACAAGACCATGTTCGC GGGCACATCAACGCTTACCTTTGCTGCCATAAACCTATT CAAGATTCCGTCCTACTGGGCATTGGGACAGCTTTCGAC TTCCTCGGTCATGTCCGCGCTAGTGTTGATTCCGGTGGCC GTGGCCGGGACGTTCGCAGGTGTTTTTGCGACGCGCAGG CTATCGACATCCTGGTTCTTCATTCTGGTCCAGGCGATG TTGCTGGTGGTCTCCATTCAGCTTCTGTGGAGGGGAATG TCGGATATCCTGAACTAGCTGGAGATCGCAATGTCAGAA CGCTCAATCAATCAGAATGTAATCTTGACATAGAATAC

AAACTCGAGACGCTGTTTCTGGGGTCATTCATTCTTGGC GGGCTGCAACTGCTGGTGTGACCGACGCGACCTGGCAGG CCGCGGTGCGCAACTGGCCGGGCGGACTAATGGTGGAGC AAAAGATCGGCATGTCCAGCGCACCTGAAGCTTGGGTGG TTGCTGCAATAGCAGCCTTCCTTATTGGCATGGCGAAGG GCGGTTTGGCCAATGTGGGGGTTATCGCCGTTCCCTTGA TGTCCCTGGTCAAGCCGCCGCTTACCGCTGCCGGATTGCT GCTCCCGATCTATGTCGTTTCTGATGCATTCGGCGTCTG GCTTTATCGGCACCGGTATTCTGCCTCCAATCTGCGCATC CTGATTCCTTCGGGATTTTTTGGGGTCCTGATTGGCTGG TTATTGGCCGGGCAGATCTCCGACGCGATTGCCAGTGTC ATTGTTGGTTTCACCGGCTGCGGCTTCGTGGCTGTGCTG CTGGCACGACGAGGGGTGCCATCGGTGCCGCGTCAAGCC AACGTGCCCAAAGGATGGTTTCTGGGGGTGGCCACCGGC TTTACCAGCTTTTTGACTCATTCCGGTGCGGCGACCTTCC AGATGTTCGTGCTGCCGCAACGGCTGGACAAGACCATGT TCGCGGGCACATCAACGCTTACCTTTGCTGCCATAAACC TATTCAAGATTCCGTCCTACTGGGCATTGGGACAGCTTT CGACTTCCTCGGTCATGTCCGCGCTAGTGTTGATTCCGGT GGCCGTGGCCGGGACGTTCGCAGGTGTTTTTGCGACGCG CAGGCTATCGACATCCTGGTTCTTCATTCTGGTCCAGGC GATGTTGCTGGTGGTCTCCATTCAGCTTCTGTGGAGGGG AATGTCGGATATCCTGAACTAGCTGGAGATCGCAATGTC AGAACGCTCAATCAATCAGAATGTAATCTTGACATAGA

As now – but almost the same, but they seem to be dissimilar

SIMILARITY

(43)

Problems with DNA comparison Problems with DNA comparison

 Codon usage preference: various codons may Codon usage preference: various codons may code for the same amino acid,

code for the same amino acid,  

the DNA sequences are different, the protein the DNA sequences are different, the protein

sequences are the same

(44)

… AND DOES IT CODE FOR ANY PROTEIN?

Open reading frames:

Usually they start with ATG, but in softwares it’s option Length: default 100 aminoacid, but option

The result is hypothetical, it should be checked compared

to the existing data

(45)

Finding

Finding orfs orfs

(46)

Finding

Finding orfs orfs

(47)

(48)

… AND DOES IT CODE FOR ANY PROTEIN?

Open reading frames:

Usually they start with ATG, but in softwares it’s option Length: default 100 aminoacid, but option

The result is hypothetical, it should be checked compared

to the existing data

(49)

FRAME SHIFT MUTATION – A SOLUTION FOR IT

Translation in each open reading frame

Stop codons are not taken into account, just as missing aa It compares everything to everything at the protein level

example

BLASTX

(50)

Six frame translation

(51)

FRAMESHIFT

(52)

WHERE DOES IT START FROM?

2290 2300 2310 2320 2330 2340 GCCGCCCGCTGCCGTAGTGCGCTGGATCATGTGGCTCGTATTCTTGGACCCGCCTCTACC A A R C R S A L D H V A R I L G P A S T

M W L V F L D P P L P

2350 2360 2370 2380 2390 2400 ATCGGATTTCAAGGAGGCTAATGACGTGACGACACTGTTTGAGGCGACGACCATCCCGAT I G F Q G G *

S D F K E A N D V T T L F E A T T I P I

Who knows?

- Identification of other elements

(53)

GENOMIC CONTEXT

NH₃+

SO₃-

OH OH

SO₃-

COOCOO

SO₃

COO O O SO₃

COOCOO O

- -

^- -

- - HSO33-

O2

Sulfanilic acid 4-szulfocatechol

sulfomuconate

sulfolaktone

maleilacetate

TCA cycle

+

P340 II dioxygenase

sulfomuconate cycloisomerase

sulfolaktone hydrolase

maleilacetate redukase

gén

orf1 pcaB

orf2 macA

orf3

pcaH pcaG istB

funkcó

hypothetical conserved membrane protein, permease?

3-carboxy-cis-cis muconate cycloizomerase

Putative hydrolase

maleil acetate redukase

putative oxidase, dehydrogenase NAD binding domain

protocatechol-3,4 dioxygenase beta subunit

protocatechol-3,4 dioxygenase alpha subunit

hossz (aa)

259 ~ 450

319 359 395 245 195

19 IS21 transposase, C-terminal

homológia (%)

45 40-45

40 45-55

80, 67, <

60 64, 61,

100 40-45

orf1 pcaB orf2 macA orf3 pcaH pcaG istB pSC1/48 (7404bp)

Identification with MS In a genomic locus the neighboring genes

may be functionally/metabolically linked

(54)

CODON USAGE

The codon usage is characteristic for the organism, species

Codon usage tables, databanks

(55)

APPLICATION OF

APPLICATION OF CODON USAGE CODON USAGE FOR FOR

IDENTIFICATION OF CODING REGIONS

(56)

ESTABLISHMENT OF THE FUNCTION OF THE PREDICTED GENE PRODUCT– BY ANALOGY

Comparison to the known sequences available in the databanks

Similarity search can be made at the DNA or protein level

(57)

What is a database ?

• A collection of...

– structured

– searchable (index) -> table of contents – updated periodically (release) -> new edition

– cross-referenced (hyperlinks) -> links with other db

• Associated tools (software)

access, update, insertion, deletion….

(58)

Types of Databases Types of Databases

 Primary Databases Primary Databases

 Original submissions by experimentalists Original submissions by experimentalists

 Content controlled by the submitter Content controlled by the submitter

 Examples: Examples: GenBank, SNP, GEO GenBank, SNP, GEO

 Derivative Databases Derivative Databases

 Built from primary data Built from primary data

 Content controlled by third party (NCBI) Content controlled by third party (NCBI)

(59)

Sequence Databases

Main nucleic acid sequence databases

• EMBL

• GenBank

• DDBJ

Main protein sequence databases

• Swiss Prot

• also TREMBL, GenPept

Often integrated with other databases

(60)

EBI

GenBank GenBank

DDBJ DDBJ

EMBL EMBL

Entrez

CIB

NCBI

NIH NIH

•Submissions

•Updates •Submissions

•Updates

International Sequence

Database Collaboration

(61)

Integrating Sequence and Bibliographic Databases

Entrez

• Links nucleic acid sequences, protein sequences and MEDLINE

• Powerful and easy to use

• US-based: can be slow from Africa

SRS

• Universal system for searching sequence and other databases

• Available worldwide

(62)

The The (ever expanding) (ever expanding) Entrez Entrez System

System

Entrez Entrez

Structure

PubMed

Books 3D Domains

Taxonomy Protein

OMIM

CDD/CDART

Journals

PubMed Central

(63)

The Entrez System

(64)

GenBank:

GenBank: NCBI’s Primary Sequence NCBI’s Primary Sequence Database

Database

Release 139 December 2003

30,968,418 Records

36,553,368,485 Nucleotides >140,000 Species

138 Gigabytes 570 files

• full release every two months

• incremental and cumulative updates daily

(65)

S eq u en ce R ec o rd s (m ill io n s) T o ta l B as e P air s (b ill io n s)

'82 '84 '85 '86 '87 '88 '90 '91 '92 '93 '95 '96 '97 '98 '00 '01 '02 '03

0 5 10 15 20 25 30 35

0 5 10 15 20 25 30 35 40

Sequence records

Release 139: 31.0 million records

36.6 billion nucleotides

Average doubling time ≈ 12 months

Total base pairs

The Growth of GenBank

(66)

European Bioinformatics Institute (EBI)

(67)

SEARCHING IN THE DATABANKS:

SIMILARITY - ALIGNMENT

Comparison of primary DNA or protein sequences to other primary or secondary sequences

Expecting that the function of the similar sequence is known from experiments !!!

Thinking by analogy

Assuming that if the sequence is similar, the function is also similar question: what is responsible for the function?

the whole protein or its part

How many function (activity) does a protein have?

globality - locality

(68)

Alignment

Alignment - - background background

“ “ For many protein sequences, evolutionary For many protein sequences, evolutionary history can be traced back 1-2 billion

history can be traced back 1-2 billion years”

years”

-William Pearson -William Pearson

 When we align sequences, we assume that they share a When we align sequences, we assume that they share a common ancestor

common ancestor

 They are then homologous They are then homologous

(69)

• There are lots of possible alignments.

• Two sequences can always be aligned.

• Sequence alignments have to be scored.

• Often there is more than one solution with the same score.

Aligning Sequences….

(70)

Alignment methods Alignment methods

 Rigorous algorithms Rigorous algorithms

 Needleman-Wunsch Needleman-Wunsch

 Smith-Waterman Smith-Waterman

 Heuristic algorithms Heuristic algorithms

 BLAST BLAST

 FASTA FASTA

(71)

Pairwise comparison Pairwise comparison

 Local alignment Local alignment

 Identify the most similar region shared between Identify the most similar region shared between two sequences

two sequences

 Smith-Waterman Smith-Waterman

 Global alignment Global alignment

 Align over the length of both sequences Align over the length of both sequences

 Needleman-Wunsch Needleman-Wunsch

(72)

TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: : :::::

TEGNAP VELED---V---OLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: .:::::

TEGNAP-VELED---VOLTAM--- TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::::::::: .:::::

TEGNAP VELED ---VOLTAM TEGNAP VELED MAGOLTAM VELE DALOLTAM :::::: :::: : .:::::

TEGNAP---VELE-D-VOLTAM

Global

Global – local alignment

TEGNAP VELED VOLTAM

(73)

Parameters of Sequence Alignment

Scoring Systems:

• Each symbol pairing is assigned a numerical value, based on a symbol comparison table.

Gap Penalties:

• Opening: The cost to introduce a gap

• Extension: The cost to elongate a gap

(74)

DNA Scoring Systems

Negative scoring values to penalize mismatches:

A T C G A 5 -4 -4 -4

actaccagttcatttgatacttctcaaa

taccattaccgtgttaactgaaaggacttaaagact

Sequence 1

Sequence 2

(75)

A T G C A 5 -4 -4 -4 T -4 5 -4 -4 G –4 -4 5 -4 C -4 -4 -4 5

CCTCCTTTGT CCTCCTTTGT

Point = 50

5 5 5 5 5 5 5 5

5 5

CCTCCTTTGG CCTCCCTTAG

5 5 -4 5 5 5 5

5 -4 5 Point = 32

Pro Leu

Dotplots

(76)

• Amino acids have different biochemical and physical properties that influence their relative replaceability in evolution.

C P

G G V A

I L

M Y K E Q

D N

S T

C _SH

aliphatic S+S small

tiny

hydrophobic

Protein Scoring Systems

(77)

• Amino acids have different biochemical and physical properties that influence their relative replaceability in evolution.

• Scoring matrices reflect

• probabilities of mutual substitutions

• the probability of occurrence of each amino acid.

• Widely used scoring matrices:

• PAM

• BLOSUM

Protein Scoring Systems

(78)

Blosum62 scoring matrix

A 4

R -1 5

N -2 0 6

D -2 -2 1 6

C 0 -3 -3 -3 9

Q -1 1 0 0 -3 5

E -1 0 0 2 -4 2 5

G 0 -2 0 -1 -3 -2 -2 6

H -2 0 1 -1 -3 0 0 -2 8

I -1 -3 -3 -3 -1 -3 -3 -4 -3 4

L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4

K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5

M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5

F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6

P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7

(79)

Basic principles of dynamic programming

- Creation of an alignment path matrix - Stepwise calculation of score values

- Backtracking (evaluation of the optimal path)

(80)

FastA programs:

searches for similarity between a query sequence and searches for similarity between a query sequence and any group of sequences (DNA and Protein).

any group of sequences (DNA and Protein).

compares a peptide sequence against a set of nucleotid compares a peptide sequence against a set of nucleotid sequences.

sequences.

compares a nucleotide sequence against a protein compares a nucleotide sequence against a protein database taking frameshifts into account.

database taking frameshifts into account.

FastX FastX

TFastA TFastA

FastA

(81)

BLAST programs

Program Input Database

1 blastn DNA DNA

1 blastp protein protein 6

blastx DNA protein

6 tblastn protein DNA 36

tblastx DNA DNA

(82)

What program to use for What program to use for

searching?

1) 1) BLAST BLAST is fastest and easily accessed on the Web is fastest and easily accessed on the Web

 limited sets of databases limited sets of databases

 nice translation tools ( nice translation tools ( BLASTX, TBLASTN BLASTX, TBLASTN ) )

2) 2) FASTA FASTA works best in works best in GCG GCG

 integrated with integrated with GCG GCG

 precise choice of databases precise choice of databases

 more sensitive for DNA-DNA comparisons more sensitive for DNA-DNA comparisons

 FASTX FASTX and TFASTX and TFASTX can find similarities in sequences with can find similarities in sequences with

Basics in bioinformatics Basics in bioinformatics