Bioinfo - Grad - Aula 3

15
+ Bioinformática Alinhamentos de sequências Gabriel da Rocha Fernandes Universidade Católica de Brasília [email protected] - [email protected]

Transcript of Bioinfo - Grad - Aula 3

Page 1: Bioinfo - Grad - Aula 3

+

BioinformáticaAlinhamentos de sequências

Gabriel da Rocha FernandesUniversidade Católica de Brasília

[email protected] - [email protected]

Page 2: Bioinfo - Grad - Aula 3

+Arquivo de sequência - FASTA

2

>gi|197101743|ref|NP_001125556.1| myoglobin [Pongo abelii]MGLSDGEWQLVLNVWGKVEADIPSHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG

>gi|386872|gb|AAA59595.1| myoglobin [Homo sapiens]MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAEGAMNKALELFRKDMASNYKELGFQG

Page 3: Bioinfo - Grad - Aula 3

+Alinhamentos

nSimples X Múltiplo

n Local X Global

n Heurístico X Ótimo

3

Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 |||||||||||||||||||Sbjct: 680 gcgaaacttctctcagaaa 698

Page 4: Bioinfo - Grad - Aula 3

+Alinhamento simples

n Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas

4

Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus

Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

Page 5: Bioinfo - Grad - Aula 3

+Alinhamento multiplo

nAquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas

5

Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************

Page 6: Bioinfo - Grad - Aula 3

+Alinhamento global e local

nGlobal: as seqs são alinhadas de ponta a ponta

nLocal: pedaços das seqs é que são comparados

6

Page 7: Bioinfo - Grad - Aula 3

+Alinhamentos ótimos e heurísticos

nheurística -- do dicionário Houaiss

nmétodo de investigação baseado na aproximação progressiva de um dado problema

nAlinhamento ótimo: produz o melhor resultado computacionalmente possível

nAlinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

7

Page 8: Bioinfo - Grad - Aula 3

+Ferramentas de alinhamento

8

Page 9: Bioinfo - Grad - Aula 3

+Elementos do alinhamento

9

Page 10: Bioinfo - Grad - Aula 3

+Matrizes de substituição

10

A C G T

A 1 -2 -2 -2

C -2 1 -2 -2

G -2 -2 1 -2

T -2 -2 -2 1

A C G T

A 1 -2 -1 -2

C -2 1 -2 -1

G -1 -2 1 -2

T -2 -1 -2 1

Page 11: Bioinfo - Grad - Aula 3

+Matrizes de substituição

11

Page 12: Bioinfo - Grad - Aula 3

+BLAST

nBasic Local Alignment Search Tool

nFerramenta de alinhamento mais utilizada no mundo

nTodo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes)

nDiz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas

nÉ um algoritmo de alinhamento simples, heurístico e local

nAlinha um seqüência de entrada contra uma base de dados desejada

12

Page 13: Bioinfo - Grad - Aula 3

+Programas do BLAST

13

Formato da Seqüência de

Entrada

Banco de dados

Formato da seqüência que é comparado

Programa BLAST

adequado

Nucleotídeos

Nucleotídeos

Nucleotídeos

BLASTn

Proteínas

Proteínas

Proteínas

BLASTp

Nucleotídeos

Proteínas

Proteínas

BLASTx

Proteínas

Nucleotídeos

Proteínas

TBLASTn

Nucleotídeos

Nucleotídeos

Proteínas

TBLASTtx

Page 14: Bioinfo - Grad - Aula 3

+Alinhamento multiplo

14

conservation profile

conserved residues

secondary structure

Page 15: Bioinfo - Grad - Aula 3

+Filogenia a partir do alinhamento

nMatriz de distância entre as proteínas alinhadas

nClustal: 1 - (resíduos idênticos/resíduos alinhados)

15

- .17 - .59 .60 - .59 .59 .13 - .77 .77 .75 .75 - .81 .82 .73 .74 .80 - .87 .86 .86 .88 .93 .90 -

Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla

1 2 3 4 5 6 7

1 2 3 4 5 6 7