Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar...

26
Alinhamento de seqüências

Transcript of Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar...

Page 1: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Alinhamento de seqüências

Page 2: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Qual a importância do alinhamento de seqüências

• Permite estabelecer identidades entre sequências

• Permite a dedução de função de proteínas baseado em similaridade

• Permite a definição de domínios protéicos conservados

• Permite o estudo da evolução de proteínas (evolução de organismos?)

Page 3: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Introdução: princípios de alinhamento de nucleotídeos

Page 4: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Dot matrix

Cria-se uma matriz onde são marcadas regiões com nucleotídeos coincidentes entre as duas seqüências comparadas Linhas diagonais formadas representariam regiões que apresentam conservação entre as duas seqüências

Page 5: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Dynamic programing

Consegue prever o melhor alinhamento possível

Requer muito recurso computacional, não sendo aplicável para comparações extensivas

Algoritmos mais utilizados Needleman-Wunsch (global) e Smith-Waterman (local)

Page 6: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Exemplo do algoritimo

Scores= +5 match, -2 mismatch e -6 gap

Page 7: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Resolução da matriz

Traceback- a partir do melhor escore se refaz o caminho para dedução do alinhamento

Scores= +5 match-2 mismatch-6 gap

Page 8: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Alinhamento local X alinhamento global

Page 9: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Alinhamento local X alinhamento global

Alinhamento global- Busca o melhor alinhamento em toda a extensão das duas seqüências sendo comparadas Alinhamento local- busca somente alinhamento de regiões de alta similaridade, não importando as seqüências adjacentes a estas regiões

Page 10: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Ferramenta de busca em bancos de dados

Page 11: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Algoritmo do BLAST

Seqüência é dividida em fragmentos de 11 nucleotídeos e estes passam a ser procurados em todo o banco de dados.

ATCGTACAATAACGTG

ATCGTACAATA TCGTACAATAA CGTACAATAAC

GTACAATAACG TACAATAACGT ACAATAACGTG

Page 12: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Algoritmo do BLAST

ATCGTACAATA TCGTACAATAA CGTACAATAAC

GTACAATAACG TACAATAACGT ACAATAACGTG

AAATGTGTGTATCGTACAATATCGTG

Trecho encontrado em seqüências alvo é utilizado como “seed”

Page 13: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

ATCGTACAATAACGTG

AAATGTGTGTATCGTACAATATCGTG

Algoritmo do BLAST

Extensão do alinhamento utilizando os métodos para encontrar o alinhamento ótimo

Como é uma ferramenta de alinhamento local só será alinhado trechos que produzam um escore elevado

Page 14: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Alinhamento de seqüências protéicas

Page 15: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Considerações evolucionarias

• Proteínas evoluem juntamente com o organismo

• Após a divergência de duas espécies há uma diversificação da seqüência de proteínas ortologas (isto é com uma origem evolutiva em comum) devido a mutações sofridas no código genético do individuo

• Após a ocorrência de mutações tenderão a serem selecionadas negativamente aquelas que causarem alterações drásticas na estrutura da proteína

Page 16: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Os fenômenos de mutações não são totalmente randômicos havendo uma preferência por eventos de transição em relação a eventos de transversão.

Considerações evolucionarias

Purinas Pirimidinas

Page 17: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Considerações evolucionarias

Considerando a freqüência de mutações

de nucleotídeos a mutação

Isoleucina-> Valina seria mais freqüente

que Isoleucina-> Leucina

Page 18: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Considerações evolucionarias

Considerando o código genético é possível

notar que nem todas as mutações de

aminoácido podem ser obtidas a partir de

uma única mutação de nucleotídeo

Deste modo teremos algumas mutações

mais freqüentes que as outras

Considerando este aspecto a mutação

Isoleucina-> Valina seria mais freqüente que

Isoleucina->Alanina

Page 19: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Considerações evolucionarias

ATA->AGA

ATA->CTACadeia lateral apolar

Cadeia lateral apolar

Cadeia lateral polar

Neste caso apesar da

probabilidade da mutação

ocorrer ser a mesma é muito

mais provável que a primeira

mutação seja selecionada

negativamente, pois introduz

um aminoácido de cadeia

lateral de caráter muito

diferente da original.

Page 20: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Considerações evolucionarias

• Considerando todos estes fatores é concluir que a partir de um evento ancestral de divergência de duas proteínas ortologas, a taxa de conversão de um determinado aminoácido para outro não será igual e sim dependente do par que iremos avaliar

• Além disso a abundancia relativa dos aminoácidos é diferente, influenciando o resultado

Page 21: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

• Matrizes de comparação analisam as freqüências relativas com que ocorrem as diferentes substituições de aminoácidos

• Com bases nestas freqüências e com a abundancia relativa de cada aminoácido na proteína é possível atribuir um escore que reflete a probabilidade daquela mutação ocorrer (prováveis –escore positivo)

• Os dois tipos mais utilizados de matrizes são a PAM (Point Accepted Mutation) e a Blossum (Blocks Substitution Matrix)

Matriz de comparação

Page 22: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Matriz do tipo PAM

Analise de evolução de seqüências (por

métodos de parcimônia)

Calculo de uma matriz baseado nas taxas

de substituições dos aminoácidos

Page 23: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Matriz do tipo PAM

A matriz PAM 1foi produzida baseados um determinado tempo de evolução (PAM unit- tempo em que 1% dos aminoacidos mudam). Outras matrizes (PAM 100, PAM 250) foram derivadas a partir desta primeira matriz. Quanto maior a unidade de PAM a matriz seria mais adequada para comparar seqüências mais divergentes.

Matriz tipo PAM250 é representada acima mostra acima da diagonal o numero de substituições observadas e a diagonal e abaixo representam escores derivados. Caixas em cinza tem escore positivo e aquelas em preto são as mutações possíveis via a substituição de um único nucleotídeo

Page 24: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Matriz do tipo Blosum• Ao contrario da matriz PAM não se baseia em um modelo evolucionário

explicito, mas sim em analise de seqüências alinhadas par a par.

Matriz PAM

Matriz BlossumConsiderando a primeira coluna

teríamos 6X5= 30 conservações de T

6 mudanças T->I e seis mudanças I->T

Page 25: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Matriz do tipo Blosum

• Entretanto este tipo de abordagem é muito sensível a presença de seqüências muito semelhantes na comparação

• Para solucionar isso as seqüências são agrupadas em blocos baseado em seu nível de identidade e cada bloco terá o mesmo peso independente do numero de seqüências que o compõe

• Deste modo temos diferentes matrizes baseados no nível de identidade utilizado para construir os blocos (por exemplo a matriz blosum80 criou blocos com proteínas que são 80% idênticas)

Page 26: Alinhamento de seqüências - Portal IFSCrdemarco/FFI0760/Alinhamento.pdfCadeia lateral apolar ATA->CTA Cadeia lateral apolar Cadeia lateral polar Neste caso apesar da probabilidade

Equivalência entre matrizes

PAM100 ==> Blosum90

PAM120 ==> Blosum80

PAM160 ==> Blosum60

PAM200 ==> Blosum52

PAM250 ==> Blosum45

Apesar de serem construídas com metodologias diferentes e

portanto produzirem matrizes não equivalentes é possível

dizer que de modo genérico as matrizes Blosum e PAM

teriam as seguintes equivalências