Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade...

67
Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO

Transcript of Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade...

Page 1: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Introdução à Bioinformática

Professores:Luciano MaiaAntonio Costa de Oliveira

Universidade Federal de PelotasFaculdade de Agronomia Eliseu Maciel

Programa de Pós-Graduação em AgronomiaCENTRO DE GENOMICA E FITOMELHORAMENTO

Page 2: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

ALINHAMENTO GLOBAL

Luciano Maia

Page 3: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

GENOMA

GENE

RNA

PROTEÍNA

PARA TODAS ESTAS ESTRATÉGIAS SÓ EXISTE UM CAMINHO…

...O ALINHAMENTO E ENTRE SEQÜÊNCIAS ENTRE DNA, RNA e PROTEÍNAS

Comparação entre seqüências...

Page 4: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

?

Page 5: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

A função de distância d(x,y) pode ser entendida como o menor número de operações (inserção, remoção e/ou substituição) que sejam capazes de transformar a seqüência x na seqüência y.

(Levenshtein, 1966)

Comparação de Seqüências

Alinhamento de seqüências...

Page 6: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

• distância de edição de Levenshtein– considera três operações de edição: InserçãoDeleção Substituição

• distância de edição de Damerau– considera quatro operações de edição: InserçãoDeleçãoSubstituição Transposição entre adjacentes

Duas das mais típicas distâncias de edição utilizadas

Alinhamento de seqüências...

Page 7: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento de seqüências...

Não é tão simples...

ALGORITIMO INGÊNUO - Formula de Stirling20 AA

1.099.511.627.776 NUMERO DE OPERAÇOES A FAZER2.000.000.000 OPERACOES/SEGUNDO PARA COMPUTADOR EXEMPLO

550 TOTAL SEGUNDOS9,16 MINUTOS DE PROCESSAMENTO

l

21 AA

4.398.046.511.104 NUMERO DE OPERAÇOES A FAZER2.000.000.000 OPERACOES/SEGUNDO PARA COMPUTADOR EXEMPLO

2.199 TOTAL SEGUNDOS37 MINUTOS DE PROCESSAMENTO

0,03 DIAS

300 AA

4,15E+180 NUMERO DE OPERAÇOES A FAZER2.000.000.000 OPERACOES/SEGUNDO PARA COMPUTADOR EXEMPLO

2,07E+171 TOTAL SEGUNDOS3,46E+169 MINUTOS DE PROCESSAMENTO2,40E+166 DIAS6,58E+163 ANOS

Joel Pothier - Université Paris

Page 8: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Qual o caminho mais fácil??

Alinhamento de seqüências...

The Traveling Salesman Problem O caixeiro viajante

Page 9: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento de seqüências...

Melhor solução computacional = Programação dinâmica

Técnica de programação aplicável quando um grande número de passos pode ser estruturado numa sucessão de cada um destes passos.

Um passo contém uma ou um número de soluções parciais.

Cada passo pode ser calculado por recorrência a um número fixo de soluções parciais de passos anteriores.

Programação dinâmica

Page 10: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

A programação dinâmica é aplicável sempre que um grande espaço de procura pode ser estruturado numa successão de passos, de tal forma que:

• o passo inicial contém as soluções triviais dos sub-problemas;

• cada solução parcial num passo posterior pode ser calculada por recorrência a um número fixo de soluções parciais de passos anteriores;

• o passo final contém a solução global.

Programação dinâmica e recursividade

Algoritmo mais apropriado é:

DE MANEIRA SIMPLÓRIA: isso quer dizer….Dá o primeiro passo e ver o resultado dele…utiliza o resultado do primeiro passopara direcionar o segundo passo…utiliza o resultado do segundo passo para direcionaro terceiro passo…etc…

DINAMICA = FAZER UMA COISA DE CADA VEZ, MAs…FAZER TODAS

RECURSIVIDADE = OLHAR UM PASSO ANTEIOR COMO ORIENTAÇÃO PARA O PRÓXIMO

Algoritmos em bioinformática

Page 11: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Algoritmos exatospara um determinado esquema de “score”determinam o alinhamento correspondente ao “score optimo”

alinhamento global

Algoritmos heurísticosmétodos aproximados, não existe garantia de obter alinhamentocorrespondente ao “score optimo”

blast (não o alinhamento local, mas sim o programa BLAST!!!)

Algoritmos em bioinformática

Page 12: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

E O QUE ISSO TEM A VER COM MINHAS SEQUENCIAS DE DNA???R: Diferentes problemas…diferentes soluções!

Procura Exaustiva (Exhaustive Search)Analisa todas as soluções; Algoritmos muito lentos,com aplicação a problemas de pequena dimensãoEx. Aplicação: DNA restriction mappingPesquisa de motivos

Algoritmos gananciosos (Greedy algorthms)Em cada interação, escolhe uma solução de acordo comum determinado critério, a solução “mais atractiva” nessa iteração. Não existegarantia de obter uma “boa” solução final!Ex. Aplicação: Rearranjamento de cromossomos

Programação Dinâmica (Dynamic Programming)Alinhamento GlobalAlinhamento Local

Divisão e Conquista (Divide-and-Conqer)Particiona o problema em subproblemas de menordimensão que consegue resolver. Combina as soluções dos subproblemaspara obter a solução do problema inicialEx: programa Blast (alinhamento local)

Algoritmos Aleatórios (Randomized Algrithms)Realizam escolhas aleatoriamente.Ex: Pesquisa de motivos (Gibbs Sampling)

Algoritmos em bioinformática

Page 13: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento de seqüências...

QUERIDA ROSA VERMELHA

ESTAS DUAS FRASES SÃO PARECIDAS? ?

QUERO UM AMOROSO VERME

QUANTO ENTRE ELAS É PARECIDO?

Page 14: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

1-QUERIDAROSAVERMELHA2-QUEROUMAMOROSOVERME

MUITO CUIDADO NOS ALINHAMENTOS

Comparação entre seqüências...

Page 15: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento Global

Alinhamento de seqüências...

Alinhamento Local

Page 16: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

VISÃO GERAL DIFERENÇAS ENTRE AS DUAS ABORDAGENS

Page 17: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

COMPONENTES DE UM ALINHAMENTO

Alinhamento de seqüências...

A-----TCCGGAATGCG

ACGCGCTGGGGAAT-CG

>Seq1 ATCCGGAATGCG>Seq2 ACGCGCTGGGGAATCG

MATCH

GAP EXTENSION

GAP OPEN

GAP OPEN

MISMATCH

Page 18: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Identidade(Match): duas letras idênticas numa mesma posição no alinhamento

Substituição(Mismatch): duas letras diferentes numa mesma posição no alinhamento

InDel

Gap(buraco):GAP OPEN espaços únicos

ou consecutivos em entre duas seqüência (gap extension)

COMPONENTES DE UM ALINHAMENTO

Alinhamento de seqüências...

Page 19: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Por quê InDel????

Inserção ou deleção??

COMPONENTES DE UM ALINHAMENTO

Alinhamento de seqüências...

Page 20: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

COMPONENTES DE UM ALINHAMENTO

Alinhamento de seqüências...

PAI

FILHO

ATCGGGTTAACCCMÃE ATCGGGTTAACCC

ATCG-GTTAACCC

NESTE CASO PODEMOS SABER QUE OS GENITORES CONTINHAM O NUCLEOTIDEO e NO FILHO ESTE NUCLEOTIDEO FOI PERDIDO.

(DELEÇÃO)

AVÓS ATCGGGTTAACCC

Page 21: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

COMPONENTES DE UM ALINHAMENTO

Alinhamento de seqüências...

NESTE CASO PODEMOS SABER QUE OS GENITORES NÃO CONTINHAM O NUCLEOTIDEO e NO FILHO ESTE NUCLEOTIDEO FOI ADICIONADO.

(INSERÇÃO)

PAI

FILHO

ATCGTTAACCCMÃE ATCGTTAACCC

ATCGGGTTAACCC

AVÓS ATCGTTAACCC

Page 22: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Por quê InDel????

COMPONENTES DE UM ALINHAMENTO

Alinhamento de seqüências...

JOÃZINHO - Brasil

MARY - Inglaterra

ATCG TTAACCCATCGGGTTAACCC

NÃO TEMOS COMO SABER, QUEM GANHOU ou QUEM PERDEU!!!!

INDEL

Page 23: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

COMPONENTES DE UM ALINHAMENTO

Alinhamento de seqüências...

ATCG TTAACCCATCGGGTTAACCC

NÃO TEMOS COMO SABER, QUEM GANHOU ou QUEM PERDEU!!!!

INDEL

Page 24: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

COMPONENTES DE UM ALINHAMENTO

Alinhamento de seqüências...

ATCGGGTTAACCCATCGTTAACCC

AQUI PODEMOS VER QUE O HOMEM GANHOU 2 NUCLEOTIDEOS(INSERÇÃO)

ATCGTTAACCC

Page 25: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento de seqüências...

ATCGGGTTAACCCATCGTGAACCC

SE NÃO CONHECEMOS O MODELO DE EVOLUÇÃONÃO PODEMOS DIZER SE É DELEÇÃO ou INSERÇÃO

ATCGTTAACCC

Por quê InDel????

Page 26: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

VISÃO GERAL

Assim existem 4 possibilidades:

Inserção de uma base é contabilizada negativamente

Remoção de uma base é contabilizada negativamente

Substituição de uma base por outra contabilizada negativamente

Coincidência de bases é contabilizada positivamente

Alinhamento de seqüências...

Page 27: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

ALINHAMENTO GLOBAL

Page 28: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento Global

Page 29: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

COMO É CONSTRUIDO UMAlinhamento Global ?

>> ALGOTIRIMO DE NEEDLEMAN e WUNSCH

Page 30: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento Global: Algoritmo Needleman-Wunsh (1969)

Idéia: Construir um alinhamento, utilizando a cada passo as soluções obtidas anteriormente para o trecho da subseqüência já alinhada

• Constrói uma matriz M com índices i e j, um para cada seqüência

• O valor M(i,j) representa a melhor solução obtida pela funçãode mérito para o alinhamento de x1...i com y1...j

Alinhamento Global

Page 31: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Considere duas sequencias a serem alinhadas:

1)Dadas as sequencias:A = GGATCGAB = GAATTCAGTTA

j = tamanho de A ► 7i = tamanho de B ► 11

2)Criar matriz M com coordenadas X[j+1] e Y[i+1];

x

y

Alinhamento Global – Algoritmo de Needleman-Wunsch

Page 32: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

1 2 3 4 5 6 7

X

123456789

1011

Y

2)Criar matriz M com coordenadas X[j+1] e Y[i+1]

Alinhamento Global – Algoritmo de Needleman-Wunsch

Page 33: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

1 2 3 4 5 6 7

G G A T C G A X

1 G2 A3 A4 T5 T6 C7 A8 G9 T

10 T11 A

Y

A = GGATCGAB = GAATTCAGTTA

3) Preencher as posições da matriz (M) com as sequencias

Alinhamento Global – Algoritmo de Needleman-Wunsch

Page 34: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 02 A 03 A 04 T 05 T 06 C 07 A 08 G 09 T 0

10 T 011 A 0

Y

A = GGATCGAB = GAATTCAGTTA

4) Preencher as posições X-1 ate Xj e Y-1 ate Yj com valor nulo (0)

Alinhamento Global – Algoritmo de Needleman-Wunsch

Page 35: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento Global – Algoritmo de Needleman-Wunsch

match +1 mismatch -1

Selecionar o MAIOR VALOR Qdo valores IGUAIS seleciona a DIAGONAL

5a) Preencher posiçoes da matriz

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 02 A 03 A 04 T 05 T 06 C 07 A 08 G 09 T 0

10 T 011 A 0

Y

1

G0 0

1 G 0

0 + 1 = 1

0 + 1 = 1

0 + 1 = 1

TESTAR SE1x = 1y 1x (G)= 1y (G)?

SIM Some 1 aos valores dos adjacentes

Page 36: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

match +1 mismatch -1

Selecionar o MAIOR VALOR Qdo valores IGUAIS seleciona a DIAGONAL

5b) Preencher posiçoes da matriz

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 12 A 03 A 04 T 05 T 06 C 07 A 08 G 09 T 0

10 T 011 A 0

Y

1 2

G G0 0 0

1 G 0 12 A 0 1 - 1 = 0

0 - 1 = -1

0 - 1 = -1

TESTAR SE1x = 2y 1x (G)= 2y (A)?

NAOSOME -1 AOSADJACENTES

Page 37: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

match +1 mismatch -1

Selecionar o MAIOR VALOR Qdo valores IGUAIS seleciona a DIAGONAL

5c) Preencher posiçoes da matriz

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 12 A 0 03 A 04 T 05 T 06 C 07 A 08 G 09 T 0

10 T 011 A 0

Y

1x (G)= 1y (G)?s

0 + 1 = 10 + 1 = 10 + 1 = 1

1x (G)= 2y (A) ?n

1 - 1 = 00 - 1 = -10 - 1 = -1

Page 38: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

match +1 mismatch -1

Selecionar o MAIOR VALOR Qdo valores IGUAIS seleciona a DIAGONAL

5d) Preencher posiçoes da matriz

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 12 A 0 03 A 0 -14 T 0 -15 T 0 -16 C 0 -17 A 0 -18 G 0 19 T 0 0

10 T 0 -111 A 0 -1

Y

1x (G)= 1y (G)?s

0 + 1 = 10 + 1 = 10 + 1 = 1

1x (G)= 2y (A) ?n

1 - 1 = 00 - 1 = -10 - 1 = -1

1x (G)= 3y (A) ?n

0 - 1 = -10 - 1 = -10 - 1 = -1

1x (G)= 4y (T) ?n

-1 - 1 = -2 0 - 1 = -1 0 - 1 = -1

1x (G)= 5y (C) ?n

-1 - 1 = -2 0 - 1 = -1 0 - 1 = -1

Page 39: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 02 A 0 0 1 3 2 1 0 23 A 0 -1 0 4 3 2 1 34 T 0 -1 -1 3 5 4 3 25 T 0 -1 -2 2 6 5 4 36 C 0 -1 -2 1 5 7 6 57 A 0 -1 -2 2 4 6 6 78 G 0 1 2 1 3 5 7 69 T 0 0 1 1 4 4 6 6

10 T 0 -1 0 0 5 4 5 511 A 0 -1 -1 1 4 4 4 6

Y

match +1 mismatch -1

5e) Preencher posiçoes da matriz

Alinhamento Global – Algoritmo de Needleman-Wunsch

TUDO CALCULADO……..

Page 40: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

6) BACK-TRACKING caminhamento contrario buscando os maiores valores

Alinhamento Global – Algoritmo de Needleman-Wunsch

Page 41: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

6) BACK-TRACKING – caminhamento contrario buscando os maiores valores

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 02 A 0 0 1 3 2 1 0 23 A 0 -1 0 4 3 2 1 34 T 0 -1 -1 3 5 4 3 25 T 0 -1 -2 2 6 5 4 36 C 0 -1 -2 1 5 7 6 57 A 0 -1 -2 2 4 6 6 78 G 0 1 2 1 3 5 7 69 T 0 0 1 1 4 4 6 6

10 T 0 -1 0 0 5 4 5 511 A 0 -1 -1 1 4 4 4 6

Y

SELECIONAR O MELHOR CAMINHAMENTOBACK TRACKING

Page 42: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

6) BACK-TRACKING – caminhamento contrario buscando os maiores valores

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 02 A 0 0 1 3 2 1 0 23 A 0 -1 0 4 3 2 1 34 T 0 -1 -1 3 5 4 3 25 T 0 -1 -2 2 6 5 4 36 C 0 -1 -2 1 5 7 6 57 A 0 -1 -2 2 4 6 6 78 G 0 1 2 1 3 5 7 69 T 0 0 1 1 4 4 6 6

10 T 0 -1 0 0 5 4 5 511 A 0 -1 -1 1 4 4 4 6

Y

SE VALORES IGUAIS, SELECIONA A DIAGONAL

5

5

4

Page 43: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

6) BACK-TRACKING – caminhamento contrario buscando os maiores valores

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 02 A 0 0 1 3 2 1 0 23 A 0 -1 0 4 3 2 1 34 T 0 -1 -1 3 5 4 3 25 T 0 -1 -2 2 6 5 4 36 C 0 -1 -2 1 5 7 6 57 A 0 -1 -2 2 4 6 6 78 G 0 1 2 1 3 5 7 69 T 0 0 1 1 4 4 6 6

10 T 0 -1 0 0 5 4 5 511 A 0 -1 -1 1 4 4 4 6

Y

SE VALORES IGUAIS, SELECIONA A DIAGONAL

Page 44: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

6) BACK-TRACKING – caminhamento contrario buscando os maiores valores

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 02 A 0 0 1 3 2 1 0 23 A 0 -1 0 4 3 2 1 34 T 0 -1 -1 3 5 4 3 25 T 0 -1 -2 2 6 5 4 36 C 0 -1 -2 1 5 7 6 57 A 0 -1 -2 2 4 6 6 78 G 0 1 2 1 3 5 7 69 T 0 0 1 1 4 4 6 6

10 T 0 -1 0 0 5 4 5 511 A 0 -1 -1 1 4 4 4 6

Y

SE VALORES IGUAIS, SELECIONA A DIAGONAL

6

4

4

Page 45: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

6) BACK-TRACKING – caminhamento contrario buscando os maiores valores

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 02 A 0 0 1 3 2 1 0 23 A 0 -1 0 4 3 2 1 34 T 0 -1 -1 3 5 4 3 25 T 0 -1 -2 2 6 5 4 36 C 0 -1 -2 1 5 7 6 57 A 0 -1 -2 2 4 6 6 78 G 0 1 2 1 3 5 7 69 T 0 0 1 1 4 4 6 6

10 T 0 -1 0 0 5 4 5 511 A 0 -1 -1 1 4 4 4 6

Y

SE VALORES IGUAIS, SELECIONA A DIAGONAL

Page 46: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

6) BACK-TRACKING – caminhamento contrario buscando os maiores valores

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 02 A 0 0 1 3 2 1 0 23 A 0 -1 0 4 3 2 1 34 T 0 -1 -1 3 5 4 3 25 T 0 -1 -2 2 6 5 4 36 C 0 -1 -2 1 5 7 6 57 A 0 -1 -2 2 4 6 6 78 G 0 1 2 1 3 5 7 69 T 0 0 1 1 4 4 6 6

10 T 0 -1 0 0 5 4 5 511 A 0 -1 -1 1 4 4 4 6

Y

SELECIONAR O MELHOR CAMINHAMENTOBACK TRACKING

Page 47: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

6) BACK-TRACKING – caminhamento contrario buscando os maiores valores

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 02 A 0 0 1 3 2 1 0 23 A 0 -1 0 4 3 2 1 34 T 0 -1 -1 3 5 4 3 25 T 0 -1 -2 2 6 5 4 36 C 0 -1 -2 1 5 7 6 57 A 0 -1 -2 2 4 6 6 78 G 0 1 2 1 3 5 7 69 T 0 0 1 1 4 4 6 6

10 T 0 -1 0 0 5 4 5 511 A 0 -1 -1 1 4 4 4 6

Y

SELECIONAR O MELHOR CAMINHAMENTOBACK TRACKING

Page 48: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

7) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 02 A 0 0 1 3 2 1 0 23 A 0 -1 0 4 3 2 1 34 T 0 -1 -1 3 5 4 3 25 T 0 -1 -2 2 6 5 4 36 C 0 -1 -2 1 5 7 6 57 A 0 -1 -2 2 4 6 6 78 G 0 1 2 1 3 5 7 69 T 0 0 1 1 4 4 6 6

10 T 0 -1 0 0 5 4 5 511 A 0 -1 -1 1 4 4 4 6 A

Y

Trazer para Y’ as bases de Y

Page 49: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

7) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 0 G2 A 0 0 1 3 2 1 0 2 A3 A 0 -1 0 4 3 2 1 3 A4 T 0 -1 -1 3 5 4 3 2 T5 T 0 -1 -2 2 6 5 4 3 T6 C 0 -1 -2 1 5 7 6 5 C7 A 0 -1 -2 2 4 6 6 7 A8 G 0 1 2 1 3 5 7 6 G9 T 0 0 1 1 4 4 6 6 T

10 T 0 -1 0 0 5 4 5 5 T11 A 0 -1 -1 1 4 4 4 6 A

Y

Trazer para Y’ as bases de Y

Page 50: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

7) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 0 G2 A 0 0 1 3 2 1 0 2 A3 A 0 -1 0 4 3 2 1 3 A4 T 0 -1 -1 3 5 4 3 2 T5 T 0 -1 -2 2 6 5 4 3 T6 C 0 -1 -2 1 5 7 6 5 C7 A 0 -1 -2 2 4 6 6 7 A8 G 0 1 2 1 3 5 7 6 G9 T 0 0 1 1 4 4 6 6 T

10 T 0 -1 0 0 5 4 5 5 T11 A 0 -1 -1 1 4 4 4 6 A

Y

NESTE CASO? QDO DOIS PASSOS ACONTECEM NA MESMA LINHA

Page 51: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

7) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0

1 G 0 1 2 1 0 -1 1 0 G2 A 0 0 1 3 2 1 0 2 A3 A 0 -1 0 4 3 2 1 3 A4 T 0 -1 -1 3 5 4 3 2 T5 T 0 -1 -2 2 6 5 4 3 T6 C 0 -1 -2 1 5 7 6 5 C7 A 0 -1 -2 2 4 6 6 7 A8 G 0 1 2 1 3 5 7 6 G9 T 0 0 1 1 4 4 6 6 T

10 T 0 -1 0 0 5 4 5 5 T11 A 0 -1 -1 1 4 4 4 6 A

Y

NESTE CASO? QDO DOIS PASSOS ACONTECEM NA MESMA LINHA

Page 52: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

8) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0 G

1 G 0 1 2 1 0 -1 1 0 -2 A 0 0 1 3 2 1 0 2 A3 A 0 -1 0 4 3 2 1 3 A4 T 0 -1 -1 3 5 4 3 2 T5 T 0 -1 -2 2 6 5 4 3 T6 C 0 -1 -2 1 5 7 6 5 C7 A 0 -1 -2 2 4 6 6 7 A8 G 0 1 2 1 3 5 7 6 G9 T 0 0 1 1 4 4 6 6 T

10 T 0 -1 0 0 5 4 5 5 T11 A 0 -1 -1 1 4 4 4 6 A

YNESTE CASO? QDO DOIS PASSOS ACONTECEM NA MESMA LINHAR: inserir um GAP…

Page 53: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

8) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0 G

1 G 0 1 2 1 0 -1 1 0 -2 A 0 0 1 3 2 1 0 2 A3 A 0 -1 0 4 3 2 1 3 A4 T 0 -1 -1 3 5 4 3 2 T5 T 0 -1 -2 2 6 5 4 3 T6 C 0 -1 -2 1 5 7 6 5 C7 A 0 -1 -2 2 4 6 6 7 A8 G 0 1 2 1 3 5 7 6 G9 T 0 0 1 1 4 4 6 6 T

10 T 0 -1 0 0 5 4 5 5 T11 A 0 -1 -1 1 4 4 4 6 A A

Y

Finalmente, fazer o alinhamento…SOBREPOR DUAS SEQUENCIAS…

Page 54: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

8) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0 G

1 G 0 1 2 1 0 -1 1 0 -2 A 0 0 1 3 2 1 0 2 A3 A 0 -1 0 4 3 2 1 3 A4 T 0 -1 -1 3 5 4 3 2 T5 T 0 -1 -2 2 6 5 4 3 T6 C 0 -1 -2 1 5 7 6 5 C7 A 0 -1 -2 2 4 6 6 7 A8 G 0 1 2 1 3 5 7 6 G9 T 0 0 1 1 4 4 6 6 T

10 T 0 -1 0 0 5 4 5 5 T G11 A 0 -1 -1 1 4 4 4 6 A A

Y

Page 55: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

8) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0 G

1 G 0 1 2 1 0 -1 1 0 -2 A 0 0 1 3 2 1 0 2 A3 A 0 -1 0 4 3 2 1 3 A4 T 0 -1 -1 3 5 4 3 2 T5 T 0 -1 -2 2 6 5 4 3 T6 C 0 -1 -2 1 5 7 6 5 C7 A 0 -1 -2 2 4 6 6 7 A8 G 0 1 2 1 3 5 7 6 G9 T 0 0 1 1 4 4 6 6 T G

10 T 0 -1 0 0 5 4 5 5 T -11 A 0 -1 -1 1 4 4 4 6 A A

Y

Page 56: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

8) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0 G

1 G 0 1 2 1 0 -1 1 0 -2 A 0 0 1 3 2 1 0 2 A3 A 0 -1 0 4 3 2 1 3 A4 T 0 -1 -1 3 5 4 3 2 T5 T 0 -1 -2 2 6 5 4 3 T6 C 0 -1 -2 1 5 7 6 5 C7 A 0 -1 -2 2 4 6 6 7 A8 G 0 1 2 1 3 5 7 6 G G9 T 0 0 1 1 4 4 6 6 T -

10 T 0 -1 0 0 5 4 5 5 T -11 A 0 -1 -1 1 4 4 4 6 A A

Y

Page 57: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

8) Montar o alinhamento

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0 G G

1 G 0 1 2 1 0 -1 1 0 - G2 A 0 0 1 3 2 1 0 2 A A3 A 0 -1 0 4 3 2 1 3 A -4 T 0 -1 -1 3 5 4 3 2 T T5 T 0 -1 -2 2 6 5 4 3 T -6 C 0 -1 -2 1 5 7 6 5 C C7 A 0 -1 -2 2 4 6 6 7 A -8 G 0 1 2 1 3 5 7 6 G G9 T 0 0 1 1 4 4 6 6 T -

10 T 0 -1 0 0 5 4 5 5 T -11 A 0 -1 -1 1 4 4 4 6 A A

Y

Page 58: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

1 2 3 4 5 6 7 8 9 10 11 12X G - A A T T C A G T T AY G G A - T - C - G - - A

RESULTADO

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0 G G

1 G 0 1 2 1 0 -1 1 0 - G2 A 0 0 1 3 2 1 0 2 A A3 A 0 -1 0 4 3 2 1 3 A -4 T 0 -1 -1 3 5 4 3 2 T T5 T 0 -1 -2 2 6 5 4 3 T -6 C 0 -1 -2 1 5 7 6 5 C C7 A 0 -1 -2 2 4 6 6 7 A -8 G 0 1 2 1 3 5 7 6 G G9 T 0 0 1 1 4 4 6 6 T -

10 T 0 -1 0 0 5 4 5 5 T -11 A 0 -1 -1 1 4 4 4 6 A A

Y

Page 59: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

1 2 3 4 5 6 7 8 9 10 11 12X G - A A T T C A G T T AY G G A - T - C - G - - A

RESULTADO

Tamanho = 12Match = 6IDENTIDADE = 6/12 = 50

Alinhamento Global – Algoritmo de Needleman-Wunsch

1 2 3 4 5 6 7

G G A T C G A X0 0 0 0 0 0 0 0 G G

1 G 0 1 2 1 0 -1 1 0 - G2 A 0 0 1 3 2 1 0 2 A A3 A 0 -1 0 4 3 2 1 3 A -4 T 0 -1 -1 3 5 4 3 2 T T5 T 0 -1 -2 2 6 5 4 3 T -6 C 0 -1 -2 1 5 7 6 5 C C7 A 0 -1 -2 2 4 6 6 7 A -8 G 0 1 2 1 3 5 7 6 G G9 T 0 0 1 1 4 4 6 6 T -

10 T 0 -1 0 0 5 4 5 5 T -11 A 0 -1 -1 1 4 4 4 6 A A

Y

Page 60: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

DANDO VALORES (PESO)Score de um Alinhamento

G A - C G G A T T A G G A T C G G A A T A G

score = [(9 ·1)+ (1·(-1) )+ (1·(-2) ]= 6

match 1*9mismatch -1*1gap -2*1

Alinhamento Global – Algoritmo de Needleman-Wunsch

Page 61: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento Global – Algoritmo de Needleman-Wunsch

G A - - - - C G G A T T A G G A T T T T C G G A A T A G

match 1 * 9mismatch -1 * 1gap -2 * 1gapextension -0.5 * 4

score = [(9 *1)+ (1*(-1) )+ (1*(-2)) + 4*(-0.5)]= 4

Score de um Alinhamento

Page 62: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

Alinhamento Global – Algoritmo de Needleman-Wunsch

OS PROGAMAS POSSIBILITAM MAIS DE UM ALINHAMENTO!!!

Page 63: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

http://www.ebi.ac.uk/help/formats.html

LETRAS (CARACTERES)???CORES?

Page 64: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.
Page 65: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

CONSENSUS SYMBOLS:

* = means that the residues or nucleotides in that column are identical in all sequences in the alignment.

: = conserved

. = semi-conserved

http://www.ebi.ac.uk/help/formats.html

AVFPMILW RED small, hydrophobic, aromatic DE BLUE acidic RK MAGENTA basic. STYHCNGQ GREEN hydroxyl, amine, amide, basic

Page 66: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

* = identical: = conserved. = semi-conserved

AVFPMILW RED DE BLUERK MAGENTA STYHCNGQ GREEN

Page 67: Introdução à Bioinformática Professores: Luciano Maia Antonio Costa de Oliveira Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa.

[email protected]

???!!!!