Aula 2 - encontrando similaridades de sequências

Encontrando similaridades de sequências

Prof. Dr. Francisco Prosdocimi

Propagação de informação

• Como dados sobre a estrutura, função e evolução de biomoléculas estão mesclados na informação presente nas sequências de biomoléculas?

• Dada uma sequência A’ altamente similar a uma sequência A’’ e um pouco menos similar a uma sequência A’’’, o que se poderá dizer sobre o compartilhamento de função e estrutura entre estas moléculas?

Estrutura Função

Evolução

A’’’ A’’ A’

Limite da inferência?

Primeiros estudos filogenético-moleculares

• 1970 Estudos bioquímicos clássicos: proteína a proteína

• Similaridade de sequênciasem globinas foi visto como prova de ancestralidade comum– Propriedades fisico-químicas e

biológicas

• As hipóteses filogenéticas podem ser baseadas apenasnas sequências das biomoléculas?

Moléculas como documentos da história evolutiva

• Zuckerkandl e Pauling, 1965

• A análise da sequência de DNA e genomas carrega informação, os semantídeos

• Jamais discutiram como a busca por similaridades em semantídeos deveria ser realizada

Ecologia, linguagem, semântica molecular

Genes codificadores de proteínas, promotores, sítios de ligação a

fatores de transcrição, centrômeros, telômeros, micro-RNAs, etc.

Uma questão metodológica

• Embora esteja claro que as sequências das biomoléculas dão informações sobre estrutura, função e evolução, como proceder essa comparação?

• Zuckerkandl e Pauling (1965) não entram nesta questão

• O alinhamento de sequências

O alinhamento de sequências

Consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade

Comparação de strings

Identificação de substringscompartilhadas

Uma das mais poderosas técnicas da bioinformática

Tipos de alinhamento

• Simples X Múltiplo

• Local X Global

• Heurístico X ÓtimoScore = 276 bits (139), Expect = 3e-78

Identities = 139/139 (100%)

Strand = Plus / Plus

Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619

Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679

Query: 446 gcgaaacttctctcagaaa 464

|||||||||||||||||||

Sbjct: 680 gcgaaacttctctcagaaa 698

Alinhamento Simples

• Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas

Score = 652 bits (329), Expect = 0.0Identities = 240/240 (100%)Strand = Plus / Plus

Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

Interpretando os valores

Alinhamento múltiplo

• Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas

Seq1 ------------------------------------------------------------

Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq1 ------------------------------------------------------------

Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA

Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA

Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT

Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT



***************************************

Alinhamentos Global e Local

• Global: as seqs são alinhadas de ponta a ponta

• Local: pedaços das seqs é que são comparados

Qual deles é melhor?

Alinhamentos ótimo e heurístico

• heurística -- do dicionário HouaissAcepções

¦ substantivo feminino

1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos

1.1 Rubrica: história.

ramo da História voltado à pesquisa de fontes e documentos

1.2 Rubrica: informática.

método de investigação baseado na aproximação progressiva de um dado problema

1.3 Rubrica: pedagogia.

método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar

LOGO:

• Alinhamento ótimo: produz o melhor resultado computacionalmente possível

• Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

Ferramentas de alinhamento

ProgramaTipo de

AlinhamentoPrecisão do Alinhamento

Número de seqüências a serem alinhadas

BLAST2Sequences Local Heurístico 2

SWAT (Smith-Waterman)

Local Ótimo 2

ClustalW Global Heurístico N

Multalin Global Heurístico N

Needleman-Wunsch Global Ótimo 2

Desafios pragmáticos

• A escolha do tipo de alinhamento a ser usado depende se a similaridade observada entre as sequênciasque se deseja comparar é local ou global

• Que tipo de similaridade se busca?

– Diferença semântica entre unidades carregadoras de informação

– Algoritmos diferentes são necessários para alinhar tipos de diferentes de informação molecular

Desafios pragmáticos

• O alinhamento de maior escore é mesmo aquele que apresenta maior informação biológica?

• Se sabemos a função de A; se A parece com B; se B parece com C, podemos inferir que a função de C é igual à de A?– A questão do sinal e do ruído– A sujeira das bases de dados de

sequências– Similar, putative, close to

A B

B C

A C ?

OK!

OK!

Se (1) e (2), LOGO (3)?

Maior escore no alinhamento global

Confiança em alinhamentos

• Alinhamentos do tipo I– Rápidos, heurísticos, sujos

– Par a par

– Contra bases de dados grandes

• Alinhamentos do tipo II– Lentos, ótimos

– Otimizados manualmente

– Múltiplos

– Lida com uma quantidade limitada de sequências

SequenceDB

Query Seq

Métricas para o alinhamento

• Gibbs and McIntyre, 1970

• Diagrama 2D

• Similaridades observadasnas diagonais

• Permite identificar mutações,inserções, deleções, inversões, etc

Needleman-Wunsch

• Alinhamento global, 1970

• Baseado em técnicas computacionais de programação dinâmica– Quebra o problema em sub-problemas (recursividade)

– Máximo número de caracteres alinhados

• Passos– Montagem da tabela

• Produção de condições iniciais

• Definição de regras recursivas

– Definição de regra de conclusão

Preenchimento da Matriz de Similaridades

• Métricas de pontuação– Match

– Mismatch

– Gap

• Métricas de preenchimento da matriz

Regra de conclusão

• Comece do fim

• Volte sempre pelo menor número vizinho– Se houver mais de

uma possibilidade, há mais de um alinhamento ótimo

• Imprima o alinhamento

Needleman-Wunsch

• 1970: alinhamento simples, ótimo e global

• Complexidade algorítmica– Implementação original:

T(n) = O (n3)– Implementação moderna:

T(n) = O (n2)

• Questão biológica:– O programa vai sempre alinhar,

mas... qual a interpretação biológica do alinhamento?

E o alinhamento local?

• Adiciona-se duas regras simples– Na montagem da matriz

– Na resolução do problema

1. O número zero como valor alternativo ao preenchimento da matriz– Isso impede a matriz de ter números negativos

2. Na resolução obtém-se os resultados locais– Começa-se com a célula de maior pontuação e

retorna-se até o zero

Smith-Waterman

• 1981– Alinhamento local

• Definição de zonas de alta similaridade

• Definição de estatísticas de escore– Melhorado com

Altschul e o e-valuedo BLAST

http://download.boulder.ibm.com/ibmdl/pub/software/dw/java/j-seqalign-pdf.pdf

Temple Smith and Michael Waterman

• Algoritmo garante o alinhamento de maior escore

• HSP

– High-scoringsegment pair

Waterman and Smith

BLAST

• Basic Local Alignment Search Tool

• Heurística eficiente, permite busca rápida em bancos de dados enormes

• O segredo:– Cria uma semente de tamanho fixo

– O banco de dados do BLAST já possui dados pré-computados de todas as sementes (w=11 dna; w=4 prot)

• Faz busca das sementes

• Estende as sementes diagonalmente

Stephen Frank Altschul (1957-) é um matemático americano,

co-criador do BLAST

BLAST hit• O e-value

– Representa a chance estatística de um certo alinhamento ser encontrado ao acaso

– Normalizado pelo tamanho do banco de dados

E = Kmn-ʎS

• Número de HSP com escore pelo menos S que podem ocorrer ao acaso• m e n são os tamanhos das sequências alinhadas• K ajusta para o tamanho da base de dados• ʎ parâmetro de escala para o sistema de escores

• Trabalho mais citadoda década de 1990 (http://www.sciencewatch.com/july-aug2000/sw_july-aug2000_page3.htm)

http://www.sciencewatch.com/july-aug2000/sw_july-aug2000_page3.htm










História do alinhamento de sequências

• 1970: Needleman-Wunsch– Usavam só valores positivos– Matches positivos; mismatches = 0– Problemas com os gaps

• Fim dos anos 70– Os gaps não devem ser considerados como

mismatches, eles devem ser penalizados– Números negativos entram em cena

• 1981: Smith and Waterman

• 1985: Lipman & Pearson, FASTA algorigthm– Primeira tentativa de heurística

• 1990: Altschul et al., BLAST– Heurística mais eficiente, 3-4x + rápido que o FASTA– Estatística mais adequada

E o sistema de escores?

• Para alinhar nucleotídeos, um esquema simples de matches, mismatches e gaps pode ser adequado

• Mas e para o alinhamento de proteínas?

Um sistema de escores para proteínas

• 20 x 20 aminoácidos = 400 combinações– Qual o valor para as trocas?

• Proximidade físico-química das cadeias laterais dos aminoácidos

• Matrizes de substituição– Método dedutivo

• Teórico• Baseado em mutações no DNA

e no código genético

– Método indutivo• Tabulação dos dados

observados em proteínas reais

Zuckerkandl e Pauling

• Definiram primeiro sistema de métricas usando método dedutivo– Valores de 0, 1, 2 ou 3 eram

dados para diferentes alinhamentos aminoácidos de acordo com diferenças mutacionais entre seus códons

• Matrizes baseadas em código genético são hoje pouco usadas– Embora a evolução do código

genético seja uma área de grande interesse na biologia computacional

Outras matrizes dedutivas

• Baseadas em química de aminoácidos

• Deve levar em consideração apenas alguns aspectos, deixando de lado outros– Complexidade da estrutura

aminoacídica

– É impossível partir todos os aa’s em grupos sem sobreposição

Atlas da estrutura de proteínas

• 1965• Apresentava todas as

sequências de proteínas existentes

• Introduzia o conceito de famílias de proteínas

• Método indutivo:– As matrizes de aminoácidos

deveriam ser obtidas através da observação de frequências de substituição em proteínas reais

O atlas da estrutura de proteínas

• Continha sequências de proteínas de várias espécies– Insulinas, citocromos C– Vários mamíferos, vertebrados,

bactérias

• Definia a origem comum das sequências de proteínas

• Construção de alinhamentos múltiplos– Estudos das substituições e de sua

significância evolutiva

Margaret Belle (Oakley) Dayhoff (1925 – 1983) foi

uma físico-químicaamericana

Accepted Point Mutations (PAM)

• Observação de alinhamentos de famílias protéicas– Mutações aceitáveis seriam aquelas

observadas, não “retiradas” pela seleção natural

• 1982, o atlas prescrevia dois eventos distintos:– Ocorrência da mutação– Aceitação da mutação pela seleção natural

quer dizer melhora

• 1968, teoria neutralista de Kimura– A aceitação da mutação não

necessariamente quer dizer melhora

Motoo Kimura (1924-1994) foi um biólogo japonês

A busca por escores de substituição

• A matriz PAM

– Dayhoff, 1978

• 1,572 mutações em 71 famílias de proteínas

– 1 PAM = chance média de mutação em 1% dos aminoácidos

– 100 PAMs = chance de uma mutação por aminoácido

• Mesmo aminoácido pode mudar mais de uma vez

• Pode haver retorno ao estado inicial

A matrix PAM1• Para gerar as matrizes posteriores, basta

multiplicar a matriz por ela mesma N vezes

Adapted from Figure 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National Biomedical Research Foundation, 1979. (http://www.icp.ucl.ac.be/~opperd/private/pam1.html)

Problemas da PAM

• Assume proteína inteira quando se sabe que a proteína evolui em módulos

• Assume que a mutação em sequências próximas pode ser extrapolada para sequências distantes (através da multiplicação da matriz)

• Entrou em desuso em prol das matrizes BLOSUM

– Embora se diga que seja melhor para procurar similaridades em sequências proximamente relacionadas

Matrizes BLOSUM

• BLOcks Substitution Matrix

• Henikoff e Henikoff, 1992

• Seleção de fragmentos de alinhamentos (BLOCKS)– Representam regiões + conservadas

• Baseado num dataset muito maior do que o da matriz PAM– Captura informações mais distantes

evolutivamente

Stephen Henikoff

BLOSUM 62

• Tabulada pela similaridade das sequências a partir da qual foi construída

• Mais utilizada hoje: BLOSUM62

• Utilizada pelo BLAST

Alinhamento de sequências

• Várias variáveis influenciam o alinhamento e podem dar resultados diferentes

• É preciso compreender os programas para saber o que se está analisando

– Algoritmo de comparação (Local, global)

– Heurística

– Diferentes matrizes de substituição/pontuação

– Valores de pontuação para gaps

Calibragem dos gaps

• “Valores para gaps teem sido selecionados ao longo dos anos por tentativa e erro... A maioria dos programas de alinhamento apresenta um valor default para os gaps que tem uma relação com os valores dados para as substituições” (Altschul, 2006)

O problema do alinhamento de sequências

• Nenhum algoritmo pode, entretanto, resolver a questão biológica: a similaridade que observamos contém sinais biológicos importantes?– Elas representam ancestralidade

comum

– É possível fazer inferência de estrutura e função a partir do alinhamento?

Estrutura Função

Evolução

Sequência

Conclusões

• Os dois fatos– “Em sequências biomoleculares, alta similaridade de

sequência frequentemente implica em similaridade funcional ou estrutural”

– “Em sequências biomoleculares, alta similaridade de sequência frequentemente implica em relação evolutiva” (Mushegian, 2004)

• O alinhamento fornece subsídios para a inferência e ela é feita de forma razoavelmente subjetiva pelo pesquisador– A responsabilidade do pesquisador

Aula 2 - encontrando similaridades de sequências

Education

Transcript of Aula 2 - encontrando similaridades de sequências