Aula 2 - encontrando similaridades de sequências
-
Upload
francisco-prosdocimi -
Category
Education
-
view
1.746 -
download
2
description
Transcript of Aula 2 - encontrando similaridades de sequências
Encontrando similaridades de sequências
Prof. Dr. Francisco Prosdocimi
Propagação de informação
• Como dados sobre a estrutura, função e evolução de biomoléculas estão mesclados na informação presente nas sequências de biomoléculas?
• Dada uma sequência A’ altamente similar a uma sequência A’’ e um pouco menos similar a uma sequência A’’’, o que se poderá dizer sobre o compartilhamento de função e estrutura entre estas moléculas?
Estrutura Função
Evolução
A’’’ A’’ A’
Limite da inferência?
Primeiros estudos filogenético-moleculares
• 1970 Estudos bioquímicos clássicos: proteína a proteína
• Similaridade de sequênciasem globinas foi visto como prova de ancestralidade comum– Propriedades fisico-químicas e
biológicas
• As hipóteses filogenéticas podem ser baseadas apenasnas sequências das biomoléculas?
Moléculas como documentos da história evolutiva
• Zuckerkandl e Pauling, 1965
• A análise da sequência de DNA e genomas carrega informação, os semantídeos
• Jamais discutiram como a busca por similaridades em semantídeos deveria ser realizada
Ecologia, linguagem, semântica molecular
Genes codificadores de proteínas, promotores, sítios de ligação a
fatores de transcrição, centrômeros, telômeros, micro-RNAs, etc.
Uma questão metodológica
• Embora esteja claro que as sequências das biomoléculas dão informações sobre estrutura, função e evolução, como proceder essa comparação?
• Zuckerkandl e Pauling (1965) não entram nesta questão
• O alinhamento de sequências
O alinhamento de sequências
Consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade
Comparação de strings
Identificação de substringscompartilhadas
Uma das mais poderosas técnicas da bioinformática
Tipos de alinhamento
• Simples X Múltiplo
• Local X Global
• Heurístico X ÓtimoScore = 276 bits (139), Expect = 3e-78
Identities = 139/139 (100%)
Strand = Plus / Plus
Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619
Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679
Query: 446 gcgaaacttctctcagaaa 464
|||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698
Alinhamento Simples
• Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas
Score = 652 bits (329), Expect = 0.0Identities = 240/240 (100%)Strand = Plus / Plus
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315
Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
Interpretando os valores
Alinhamento múltiplo
• Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas
Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************
Alinhamentos Global e Local
• Global: as seqs são alinhadas de ponta a ponta
• Local: pedaços das seqs é que são comparados
Qual deles é melhor?
Alinhamentos ótimo e heurístico
• heurística -- do dicionário HouaissAcepções
¦ substantivo feminino
1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos
1.1 Rubrica: história.
ramo da História voltado à pesquisa de fontes e documentos
1.2 Rubrica: informática.
método de investigação baseado na aproximação progressiva de um dado problema
1.3 Rubrica: pedagogia.
método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar
LOGO:
• Alinhamento ótimo: produz o melhor resultado computacionalmente possível
• Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz
Ferramentas de alinhamento
ProgramaTipo de
AlinhamentoPrecisão do Alinhamento
Número de seqüências a serem alinhadas
BLAST2Sequences Local Heurístico 2
SWAT (Smith-Waterman)
Local Ótimo 2
ClustalW Global Heurístico N
Multalin Global Heurístico N
Needleman-Wunsch Global Ótimo 2
Desafios pragmáticos
• A escolha do tipo de alinhamento a ser usado depende se a similaridade observada entre as sequênciasque se deseja comparar é local ou global
• Que tipo de similaridade se busca?
– Diferença semântica entre unidades carregadoras de informação
– Algoritmos diferentes são necessários para alinhar tipos de diferentes de informação molecular
Desafios pragmáticos
• O alinhamento de maior escore é mesmo aquele que apresenta maior informação biológica?
• Se sabemos a função de A; se A parece com B; se B parece com C, podemos inferir que a função de C é igual à de A?– A questão do sinal e do ruído– A sujeira das bases de dados de
sequências– Similar, putative, close to
A B
B C
A C ?
OK!
OK!
Se (1) e (2), LOGO (3)?
Maior escore no alinhamento global
Confiança em alinhamentos
• Alinhamentos do tipo I– Rápidos, heurísticos, sujos
– Par a par
– Contra bases de dados grandes
• Alinhamentos do tipo II– Lentos, ótimos
– Otimizados manualmente
– Múltiplos
– Lida com uma quantidade limitada de sequências
SequenceDB
Query Seq
Métricas para o alinhamento
• Gibbs and McIntyre, 1970
• Diagrama 2D
• Similaridades observadasnas diagonais
• Permite identificar mutações,inserções, deleções, inversões, etc
Needleman-Wunsch
• Alinhamento global, 1970
• Baseado em técnicas computacionais de programação dinâmica– Quebra o problema em sub-problemas (recursividade)
– Máximo número de caracteres alinhados
• Passos– Montagem da tabela
• Produção de condições iniciais
• Definição de regras recursivas
– Definição de regra de conclusão
Preenchimento da Matriz de Similaridades
• Métricas de pontuação– Match
– Mismatch
– Gap
• Métricas de preenchimento da matriz
Regra de conclusão
• Comece do fim
• Volte sempre pelo menor número vizinho– Se houver mais de
uma possibilidade, há mais de um alinhamento ótimo
• Imprima o alinhamento
Needleman-Wunsch
• 1970: alinhamento simples, ótimo e global
• Complexidade algorítmica– Implementação original:
T(n) = O (n3)– Implementação moderna:
T(n) = O (n2)
• Questão biológica:– O programa vai sempre alinhar,
mas... qual a interpretação biológica do alinhamento?
E o alinhamento local?
• Adiciona-se duas regras simples– Na montagem da matriz
– Na resolução do problema
1. O número zero como valor alternativo ao preenchimento da matriz– Isso impede a matriz de ter números negativos
2. Na resolução obtém-se os resultados locais– Começa-se com a célula de maior pontuação e
retorna-se até o zero
Smith-Waterman
• 1981– Alinhamento local
• Definição de zonas de alta similaridade
• Definição de estatísticas de escore– Melhorado com
Altschul e o e-valuedo BLAST
http://download.boulder.ibm.com/ibmdl/pub/software/dw/java/j-seqalign-pdf.pdf
Temple Smith and Michael Waterman
• Algoritmo garante o alinhamento de maior escore
• HSP
– High-scoringsegment pair
Waterman and Smith
BLAST
• Basic Local Alignment Search Tool
• Heurística eficiente, permite busca rápida em bancos de dados enormes
• O segredo:– Cria uma semente de tamanho fixo
– O banco de dados do BLAST já possui dados pré-computados de todas as sementes (w=11 dna; w=4 prot)
• Faz busca das sementes
• Estende as sementes diagonalmente
Stephen Frank Altschul (1957-) é um matemático americano,
co-criador do BLAST
BLAST hit• O e-value
– Representa a chance estatística de um certo alinhamento ser encontrado ao acaso
– Normalizado pelo tamanho do banco de dados
E = Kmn-ʎS
• Número de HSP com escore pelo menos S que podem ocorrer ao acaso• m e n são os tamanhos das sequências alinhadas• K ajusta para o tamanho da base de dados• ʎ parâmetro de escala para o sistema de escores
• Trabalho mais citadoda década de 1990 (http://www.sciencewatch.com/july-aug2000/sw_july-aug2000_page3.htm)
História do alinhamento de sequências
• 1970: Needleman-Wunsch– Usavam só valores positivos– Matches positivos; mismatches = 0– Problemas com os gaps
• Fim dos anos 70– Os gaps não devem ser considerados como
mismatches, eles devem ser penalizados– Números negativos entram em cena
• 1981: Smith and Waterman
• 1985: Lipman & Pearson, FASTA algorigthm– Primeira tentativa de heurística
• 1990: Altschul et al., BLAST– Heurística mais eficiente, 3-4x + rápido que o FASTA– Estatística mais adequada
E o sistema de escores?
• Para alinhar nucleotídeos, um esquema simples de matches, mismatches e gaps pode ser adequado
• Mas e para o alinhamento de proteínas?
Um sistema de escores para proteínas
• 20 x 20 aminoácidos = 400 combinações– Qual o valor para as trocas?
• Proximidade físico-química das cadeias laterais dos aminoácidos
• Matrizes de substituição– Método dedutivo
• Teórico• Baseado em mutações no DNA
e no código genético
– Método indutivo• Tabulação dos dados
observados em proteínas reais
Zuckerkandl e Pauling
• Definiram primeiro sistema de métricas usando método dedutivo– Valores de 0, 1, 2 ou 3 eram
dados para diferentes alinhamentos aminoácidos de acordo com diferenças mutacionais entre seus códons
• Matrizes baseadas em código genético são hoje pouco usadas– Embora a evolução do código
genético seja uma área de grande interesse na biologia computacional
Outras matrizes dedutivas
• Baseadas em química de aminoácidos
• Deve levar em consideração apenas alguns aspectos, deixando de lado outros– Complexidade da estrutura
aminoacídica
– É impossível partir todos os aa’s em grupos sem sobreposição
Atlas da estrutura de proteínas
• 1965• Apresentava todas as
sequências de proteínas existentes
• Introduzia o conceito de famílias de proteínas
• Método indutivo:– As matrizes de aminoácidos
deveriam ser obtidas através da observação de frequências de substituição em proteínas reais
O atlas da estrutura de proteínas
• Continha sequências de proteínas de várias espécies– Insulinas, citocromos C– Vários mamíferos, vertebrados,
bactérias
• Definia a origem comum das sequências de proteínas
• Construção de alinhamentos múltiplos– Estudos das substituições e de sua
significância evolutiva
Margaret Belle (Oakley) Dayhoff (1925 – 1983) foi
uma físico-químicaamericana
Accepted Point Mutations (PAM)
• Observação de alinhamentos de famílias protéicas– Mutações aceitáveis seriam aquelas
observadas, não “retiradas” pela seleção natural
• 1982, o atlas prescrevia dois eventos distintos:– Ocorrência da mutação– Aceitação da mutação pela seleção natural
quer dizer melhora
• 1968, teoria neutralista de Kimura– A aceitação da mutação não
necessariamente quer dizer melhora
Motoo Kimura (1924-1994) foi um biólogo japonês
A busca por escores de substituição
• A matriz PAM
– Dayhoff, 1978
• 1,572 mutações em 71 famílias de proteínas
– 1 PAM = chance média de mutação em 1% dos aminoácidos
– 100 PAMs = chance de uma mutação por aminoácido
• Mesmo aminoácido pode mudar mais de uma vez
• Pode haver retorno ao estado inicial
A matrix PAM1• Para gerar as matrizes posteriores, basta
multiplicar a matriz por ela mesma N vezes
Adapted from Figure 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National Biomedical Research Foundation, 1979. (http://www.icp.ucl.ac.be/~opperd/private/pam1.html)
Problemas da PAM
• Assume proteína inteira quando se sabe que a proteína evolui em módulos
• Assume que a mutação em sequências próximas pode ser extrapolada para sequências distantes (através da multiplicação da matriz)
• Entrou em desuso em prol das matrizes BLOSUM
– Embora se diga que seja melhor para procurar similaridades em sequências proximamente relacionadas
Matrizes BLOSUM
• BLOcks Substitution Matrix
• Henikoff e Henikoff, 1992
• Seleção de fragmentos de alinhamentos (BLOCKS)– Representam regiões + conservadas
• Baseado num dataset muito maior do que o da matriz PAM– Captura informações mais distantes
evolutivamente
Stephen Henikoff
BLOSUM 62
• Tabulada pela similaridade das sequências a partir da qual foi construída
• Mais utilizada hoje: BLOSUM62
• Utilizada pelo BLAST
Alinhamento de sequências
• Várias variáveis influenciam o alinhamento e podem dar resultados diferentes
• É preciso compreender os programas para saber o que se está analisando
– Algoritmo de comparação (Local, global)
– Heurística
– Diferentes matrizes de substituição/pontuação
– Valores de pontuação para gaps
Calibragem dos gaps
• “Valores para gaps teem sido selecionados ao longo dos anos por tentativa e erro... A maioria dos programas de alinhamento apresenta um valor default para os gaps que tem uma relação com os valores dados para as substituições” (Altschul, 2006)
O problema do alinhamento de sequências
• Nenhum algoritmo pode, entretanto, resolver a questão biológica: a similaridade que observamos contém sinais biológicos importantes?– Elas representam ancestralidade
comum
– É possível fazer inferência de estrutura e função a partir do alinhamento?
Estrutura Função
Evolução
Sequência
Conclusões
• Os dois fatos– “Em sequências biomoleculares, alta similaridade de
sequência frequentemente implica em similaridade funcional ou estrutural”
– “Em sequências biomoleculares, alta similaridade de sequência frequentemente implica em relação evolutiva” (Mushegian, 2004)
• O alinhamento fornece subsídios para a inferência e ela é feita de forma razoavelmente subjetiva pelo pesquisador– A responsabilidade do pesquisador