Prof. Dr. Alessandro VaraniUNESP - FCAV
Comparação entresequências biológicas” Extraíndo e analisando os sinais
contidos em biopolímeros “( Alinhamentos )
→ Abordagens práticas para comparação de sequências;
Como comparar ?
→ Inferências biológicas e evolutivas geradas a partir da comparação de sequências.
Como analisar e interpretar os resultados ?
Objetivos
Parte 1Introdução e Conceitos
"Em sequências biomoleculares, uma alta similaridade de sequência frequentemente implica em grande similaridade funcional e estrutural."
"Em sequências biomoleculares, alta similaridade de sequência também implica, muito
frequentemente, em relação evolutiva."
”O primeiro fato na análise de sequências biológicas. Dan Gusfield (1997) ”
Tábuas da Saúde(Tacuinum sanitatis)
Prólogo (1): Conceitos BásicosDilema da causalidade “ovo ou a galinha?”
Estrutura de uma biomoléculaGenômica estrutural
→ Pode ser fisicamente definida:(a) Amostra pura da proteína;
(b) Um local apropriado para crescer os cristais;(c) Uma linha de luz sincroton.
Sítio catalítico da transposase Bacteriófago Mu
Função de uma biomoléculaGenômica Funcional (Bioquímica)
→ Não é somente uma característica física, mas a descrição de um determinado processo biológico;
→ Só pode ser determinada dentro de um contexto biológico; → A função também envolve interações com outras moléculas que também
precisam ser identificadas e com função desvendada;
Prólogo (2): Conceitos Básicos
Função de uma biomoléculaGenômica Funcional (Bioquímica)
→ Normalmente, para se definir a função biológica de uma biomolécula, é preciso verificar as interações de muitos componentes num extrato celular, na célula inteira, nos organismos vivos, ou dentro de um ecossistema no qual o organismo seja uma parte.
→ Logo que a função de uma proteína é realizada, sua estrutura pode mudar.
Protein Structural Change upon Ligand Binding Correlates with Enzymatic Reaction MechanismKoike et al., 2008
Prólogo (3): Conceitos Básicos
Estrutura e Função de uma Biomolécula
→ Apesar de serem geralmente observáveis, não é uma correlação trivial a ser feita !
Prólogo (4): Conceitos Básicos
→ Durante um projeto que envolva a análise e comparação de sequencias biomoleculares, levar em consideração todas as nuances possíveis entre a relação “estrutura e função” é de fundamental importância. Não basta apenas “apelar” para o
resultado que o computador fornece.
Com base na similaridade de sequencias:
Similaridade de estrutura
Similaridade de função
Ancestralidade comum
Hoffmann et al., PNAS (2010)
Prólogo (5): Conceitos Básicos
Prólogo (6):
→ A inferência de estrutura e função é inseparável da inferência evolutiva;
Conclusões
→ Quando sequências provenientes de duas biomoléculas são comparadas, nosso caminho a partir da similaridade de sequência até chegar à conclusão sobre similaridade funcional e estrutural nunca é direta;
→ Inversamente, sempre inferimos primeiramente a ancestralidade comum entre sequências e, só a partir daí é que se pode partir para a inferência de estrutura e função. Essa lógica não é óbvia quando a similaridade é muito alta, mas se duas sequências são mais distantemente e relacionadas uma à outra, essa cadeia de raciocínio precisa tornar-se explícita.
→ Medimos a similaridade entre sequências e imediatamente usamos estatísticas para comparar a similaridade observada com o que seria esperado ao acaso;
Prólogo (7): Conclusões
→ Se a similaridade é muito alta para ocorrer ao acaso, isso é frequentemente considerado suficiente para a realização de predições sobre a função protéica e estrutural. A única razão pela qual este raciocínio funciona é porque a única forma de uma similaridade de sequência não-aleatória ocorrer é através da descendência a partir de um ancestral comum das duas sequências. (O que é chamado de inferência por homologia) ;
→ Portanto, a inferência das relações evolutivas, torna-se um pré-requisito para a proposição de outras relações, como a estrutura e a função.
→ Proteínas com funções similares não precisam ter sequências similares, e proteínas com estruturas similares também podem apresentar sequências diferentes;
Prólogo (8): Em contrapartida …
→ Biomoléculas apresentando funções similares podem ter perdido a similaridade de sequência mas, de outra forma, elas podem não ter nunca compartilhado similaridades mas terem convergido para a mesma função a partir de sequências completamente divergentes evolutivamente. Este princípio se aplica a estruturas também: a similaridade de estruturas na ausência de similaridade de sequência pode representar tanto a extrema divergência de sequencias que foram inicialmente similares quanto a convergência de sequências que não eram similares inicialmente;
→ A distinção entre divergência e convergência em nível molecular é um dos problemas mais importantes.
A B C
Gene Pti1: Codifica uma serina/treonina
kinase
Somente “A” foi estudada
Praticamente idênticas
Parecida (bastante próxima)
Como inferir a ancestralidade comum, estrutura e função ?
→ Nem todos os resíduos de aminoácidos precisam ser conservados entre “A” e “B” para determinar o ancestralidade comum. Por exemplo, podemos não considerar os sítios conservados exclusivamente entre “A” e “B” porque não precisamos destes resíduos para reconhecer a similaridade entre “A” e a sequência mais distante “C”, tanto quanto a similaridade entre “B” e “C”.
A B C
Gene Pti1: Codifica uma serina/treonina
kinase
Somente “A” foi estudada
Praticamente idênticas
Parecida (bastante próxima)
→ De outra forma, quando fazemos a seguinte inferência: "as sequências proximamente relacionadas “A” e “B” são mais prováveis de apresentarem a mesma função, mas a sequência mais distante “C” pode apresentar uma função diferente" nós, na verdade, estamos usando a informação sobre os sítios conservados apenas entre “A” e “B”, mas não entre cada uma delas de “C”. Assim, as informações evolutivas, estruturais e funcionais estão entremeadas nas sequências de forma sutil.
Como inferir a ancestralidade comum, estrutura e função ?
Como inferir a ancestralidade comum, estrutura e função ?
LUCA Serina / treonina kinase
“Os biopolímeros contêm informação sobre sua evolução, estrutura e função; e esses três tipos de sinal podem interagir
em diferentes formas, algumas vezes aumentando e outras vezes interferindo umas com as outras.”
"Nothing in Biology Makes Sense Except in the Light of Evolution (1973)"
Theodosius Dobzhansky (1900 - 1975)
" Quase nada no campo da biologia computacional (bioinformática) faz sentido, exceto à luz da comparação de sequencias biomoleculares "
Definição de Conceitos
Kristensen D M et al. Brief Bioinform 2011;12:379-391
→ Homologia: Mesmo ancestral comum;
→ Analogia: Mesma função origem diferente;
→ Ortologia: Especiação;
→ Parálogos: Duplicação;
→ Xenólogos: Transferência Lateral
Introdução: A Semântica O Alfabeto→Aminoácidos e nucleotídeos
Nucleotídeos
http://www.russelllab.org/aas/aas.html
Introdução: A Semântica O Alfabeto→Aminoácidos
Introdução:A sintaxe: regras para a leitura da Inf. Biológica Código Genético→
ATGACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGTAA5' 3'
ATGACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGTAATGACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGTAA GACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGTAA
AATACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGGT AATACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGG
AATACCAATCAAATTACAATACCTAGTGGCCCCGACCTGATGATGCGGTA
+3+2+1
-1-2-3
Introdução: A sintaxe, regras para a leitura da inf. Biológica Quadros de Leitura→
Parte 2Alinhamentos de Sequências
Análise Comparativa: Alinhamentos
Objetivo
→ Encontrar sinais biológicos a respeito da evolução, estrutura e função através do estudo da similaridade entre as sequências (Ex. Alinhamento par-a-par );
→ Estudo de similaridades (identificação de domínios) entre sequências que já sabemos que são relacionadas, e que conhecemos, pelo menos em parte, de seus sinais biológicos (Ex. Alinhamento Múltiplo ).
Não é apenas a construção de um alinhamento...
Análise Comparativa: Alinhamentos
Demanda
→ Este é atualmente um dos problemas mais importante de toda a
bioinformática (biologia computacional), dado o número e
diversidade de seqüências existentes e dada a frequência com que
ele precisa ser resolvido diariamente pelo mundo a fora.
Alinhamentos
Análise por comparação entre sequências biomoleculares
→ Uso de algoritmos que permitem comparar uma sequência ‘objeto’ com um banco de dados de sequências biomoleculares;
→ A comparação é feita alinhando-se a sequência ‘objeto’ a sequências ‘alvo’ de um banco de dados;
→ A cada comparação é dado um valor, que é a medida de similaridade entre um par de sequências;
→ A discriminação entre pares reais e artificiais é feita através de uma estimativa da probabilidade que o pareamento tenha ocorrido ao acaso.
Algoritmos Conjunto finito de instruções, bem definidas e não ambíguas, sendo →executadas em um período de tempo finito e com a quantidade de esforço finito.
Algoritmo : Princípio
http://pt.wikipedia.org/wiki/Algoritmo
Algoritmo : Princípio
Alinhamentos
Análise por comparação entre sequências biomoleculares
Em termos simples: Fazer um “encaixe”
Alinhamentos
Conceito de escore (score ou pontuação)
→ Forma de quantificar os alinhamentos;
Caso Simples de Pontuação:
+1 para quando ocorrer o pareamento entre polímeros idênticos,
-1 quando não há pareamento,
-2 para quando houver um gap (abertura de uma lacuna para favorecer o pareamento em outra região)
Alinhamentos
Conceito de escore (score ou pontuação)
Matriz bidimensional de substituição
Logo voltamos a falar...
Alinhamentos
Conceito de escore (score ou pontuação)
Novo score
Alinhamentos: Conceitos e Desafios → Alinhamento pode ser entre “pares” de sequências ou “múltiplos” ;
→ Métodos de alinhamento de sequencias: GLOBAL ou LOCAL :
Global“Needleman-Wunsch”
1970
Local“Smith-Waterman”
1981
→ Estatísticas para alinhamentos LOCAIS são bem definidas, enquanto para alinhamentos GLOBAIS ainda não são (Altschul, 2006);
→ É importante definir se a similaridade é GLOBAL ou LOCAL.
Alinhamentos: Conceitos e Desafios
Exemplos: global vs local
Alinhamentos: Conceitos e Desafios
Alinhamento entre pares de sequências
→ Este método resolve o problema de otimização do algoritmo, porém não resolve o “X” biológico da questão;
→ Sensitividade tem que ser definida pela similaridade e distância entre as sequências que serão comparadas. <<Matriz de Pontuação>>
Programação Dinâmica
Busca por soluções de problemas por meio de uma sequências de sub problemas semelhantes
Menor número de operações para determinar a similaridade
Alinhamentos: Conceitos e Desafios
Programação Dinâmica (PD)
→ A abordagem convencional testa todos os possíveis alinhamentos e é exponencial ao tamanho da sequências ( n );
Se duas sequências a serem comparadas que tem 100bp a comparação leva 1 segundo, duas sequências de 1.000bp levariam = ?
PD procura por todas as soluções possíveis e encontra a solução ótima, e o tempo de processamento fica quadrático ( n );
n
2
→ Também pode ser muito lento e custoso em termos computacionais, dependendo do tamanho das sequências:
Se duas sequências de 100bp levam 1 segundo, duas de 1.000bp levaria 100 segundos, porém:
Por exemplo, a comparação entre o genoma de dois fungo com 20 Mb, levaria aproximadamente 750 anos.
Alinhamentos: Conceitos e Desafios
Problema do Caixeiro-Viajante
NP-Completo: Complexidade Exponencial
Alinhamentos: Conceitos e Desafios
Exemplo 1 - GLOBAL
Alinhando as palavras"PELICAN" and "COELACANTH."
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Iniciando a matrizde alinhamento!
Alinhamentos: Conceitos e Desafios
Iniciando o alinhamento:Direção -> Flanco superior esquerdo ao flanco inferior direitoMovimentos na vertical ou horizontal indicaram lacunas (gaps)
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
As setas indicam aorigem/direção do
alinhamento.
Alinhamentos: Conceitos e Desafios
Alinhando “P” com “C” e calculando o score+1 para semelhanças / -1 para diferenças
Cálculo do score: -1
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
+1 Match-1 Mismatch
Ordem:Azul escuro, verdevermelho
Maior valorIndica para
onde a seta vai apontar
Alinhamentos: Conceitos e Desafios
Continuando o processoScore = -2 (Verde + Azul Escuro) + o valor anterior
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
Alinhamentos: Conceitos e Desafios
Seguindo o mesmo método completa-se a matriz
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
Alinhamentos: Conceitos e Desafios
O melhor alinhamento é escolhido através do método de rastreamento
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
Exemplo 1 - GLOBAL
Começa aqui
COELACANTH || ||| -PELICAN--
Alinhamentos: Conceitos e Desafios
→ No alinhamento GLOBAL o alinhamento é construído a partir do extremo da matriz, enquanto no alinhamento LOCAL a primeira linha e coluna são inicializadas com zero e o alinhamento é construído a partir do maior score da matriz e para quando encontra zero.
CAGCA– CTTGGATTCTCGC
- - - CAGCGTGG - - - - - - - -
CAGCA – CTTGGATTCTCGC
CAGC - - - - - - G- T - - - - - -
Semi-global Global
→ Também há uma terceira modalidade de alinhamento chamada de “Alinhamento Semi-Global”, cujo princípio não penaliza as extremidades do alinhamento. (Ex. Montagem de Genomas, em programas como por exemplo phrap e CAP3)
Alinhamentos: Conceitos e Desafios
→ Mesmo utilizando-se boas metodologias de pontuação, o algoritmo de alinhamento irá alinhar qualquer coisas, contendo ou não um sinal biológico. O algoritmo nunca irá dizer se a “melhor pontuação” é boa o suficiente para indicar o sinal biológico que está sendo procurado;
→ Para escolher sinais biologicamente importantes é necessário uma abordagem estatística para avaliar os alinhamentos e compará-los com um padrão (O programa BLAST por exemplo);
→ Porém mesmo assim, muitos resultados de alinhamentos permanecem em uma região chamada de “twilight zone” ou na bordas da significância estatística. (ou seja, a homologia não é garantida!) – exemplos mais pra frente!
Alinhamentos: Conceitos e Desafios
Desafio
A B C
-> Se o alinhamento entre “A” e “B” apresenta uma pontuação alta e se o alinhamento entre “B” e “C” também apresentar uma pontuação boa, isso não informará absolutamente nada a respeito da pontuação entre “A” e “C”.
-> Porém em muitas buscas por comparação em banco de dados, muitos resultados indistinguíveis (twilight zone) não são mostrados (“A” e “C” ) a menos que o investigador já conheça a respeito da similaridade entre “A” e “B”.
Alinhamentos: Conceitos e Desafios
A questão da introdução de gaps (lacunas)
-> Durante o alinhamento, gaps são introduzidos deliberadamente de acordo com a regras de pontuação;
-> Processos biológicos de replicação, recombinação, e reparo, podem ocasionalmente levar a inserção ou deleção de nucleotídeos;
-> OK! Justificamos a função de introdução de gaps nos alinhamentos;
-> Porém quando introduzidos no alinhamento indicam sinais biológicos;
-> As garantias da qualidade da introdução de gaps depende também dos métodos de pontuação do alinhamento.
PAWHEAE---------HEAGAWGHEE
---PAW-HEAEHEAGAWGHEE-
Alinhamentos: Conceitos e Desafios
A questão da introdução de gaps (lacunas)
“Métodos de pontuação de gaps foram selecionados por tentativa e erro nos últimos anos.... e a maioria dos programas de alinhamento possuem um mesmo valor padrão de pontuação. Se os usuários precisarem utilizar pontuações diferentes, não haverá garantias que os resultados serão apropriados ...”
Uma pontuação alta para abertura de um gap e uma pontuação menor para extensão de um gap tem provado ser a melhor escolha ... “
(Altschul, 2006) Tutorial on-line do BLAST
PAWHEAE---------HEAGAWGHEE
---PAW-HEAEHEAGAWGHEE-
Alinhamentos: Conceitos e Desafios
Matrizes de pontuação
-> Associar a informação que temos a respeito da similaridade e distância dos sinais biológicos dos biopolímeros que estão sendo comparados para ser utilizado como forma de pontuar o alinhamento;
-> Contém valores proporcionais a probabilidade de um aminoácido “x” ser substituído por um aminoácido “y”;
-> 4x4 = 16 combinações possíveis para nucleotídeos
-> 20x20 = 400 Combinações possíveis para aminoácidos
Alinhamentos: Conceitos e Desafios
Matrizes de pontuaçãoInicialmente discutido no trabalho seminal de Zuckerkandl e Pauling em 1965 -
“Molecules as Documents of Evolutionary History” ;
-> Problema: Precisam ser valores numéricos, porém como quantificar ?
Ácido Aspártico e Glutâmico (D e E) apresentam grupos carboxila na cadeia lateral e são facilmente permutáveis
Lisina e Arginina (K e R) apresentam um grupo amino na cadeia lateral e podem ser permutáveis
Alinhamentos: Conceitos e Desafios
Matrizes de pontuação
Ácido AspárticoD
Ácido GlutâmicoE
LisinaK
ArgininaR
Uma mudança entre D para K altera a polaridade e tamanho da cadeia lateral deve receber uma pontuação bem diferente do que em relação uma alteração entre
D para E.
Mas a pontuação deve ser MUITO ou POUCA diferente,
como quantificar ?
Deve ser negativa ?
E a pontuação entre as trocas entre D->E e K->R ?
Como comparar D->K e E->R ? A pontuação deve ser
simétrica ???
Alinhamentos: Matrizes de pontuação
http://www.russelllab.org/aas/aas.html
Alinhamentos: Matrizes de pontuação
-> A solução surgiu a partir da era de sequenciamento de DNA e proteínas, entre 1960 e 1970
Margaret Oakley Dayhoff
Dayhoff e colaboradors redefiniram o problema em busca da melhor pontuação:
-> Ao invés de se perguntarem sobre o custo de cada tipo de substituição, eles se perguntaram sobre qual a
frequência que cada par de aminoácido é alinhado em famílias de proteinas relacionadas.
Foi a primeira a introduzir o termo “Score de Alinhamento"
Alinhamentos: Matrizes de pontuação
A questão: Como inventar uma matriz de pontuação boa o suficiente ?
É aqui que entra em cena as matrizes BLOSUM e PAM
PAM -> “Point Accepted Mutation”, ou “Percentage Accepted Mutation”
PAM 250
(Dayhoff et al., 1965; Dayhoff e Eck, 1968)
Alinhamentos: Matrizes de pontuação
PAM
-> São baseadas em alinhamentos globais de proteínas com parentesco próximo;
-> PAM 1 é a matriz calculada a partir da comparação entre sequências com menos de 1% de divergência (probabilidade de 1 aminoácido ser substituído a cada 100 aminoácidos) ;
-> Outras matrizes PAM são extrapoladas a partir da matriz PAM1
-> Como pode ter 250% (PAM250) de mudanças ? -> Saturação
Alinhamentos: Matrizes de pontuação
BLOSUM
-> Desenvolvida por Stephen e Jorja Henikoff de Centro de Pesquisa para o Câncer em Seattle e Howard Hughes Medical Institute a partir de um estudo de alinhamento de proteínas relacionadas (1992 e 1993);
-> Desenvolvida mais de 20 anos depois da matriz PAM (muito mais famílias proteicas estavam disponíveis);
-> BLOSUM = BLOCK SUBSTITUTION MATRIX
-> Os valores são baseados nas observações das frequências de substituição, em bloco de alinhamentos locais de proteínas relacionadas (Focado em fragmentos “BLOCOS” do alinhamento escolhidos a “dedo”) .
Alinhamentos: Matrizes de pontuação
BLOSUM
-BLOSUM62 = Calculada a partir de comparações entre sequências, com divergência mínima de 62%
Alinhamentos: Matrizes de pontuação
BLOSUM
-> Inicialmente cada BLOCO foi gerado a partir do banco de dados BLOCKS que foi baseado em padrões do PROSITE (Bairoch, 1992);
-> A principal razão do PROSITE ser utilizado na construção dos BLOCOS estava relacionada ao fato que cada padrão do PROSITE foi manualmente curado e verificado e usualmente apresentavam uma função molecular conhecida.
Alinhamentos: Matrizes de pontuação
Vantagens e desvatagens
BLOSUM
-> São baseadas em observações reais;
-> Detectam melhor sequências com relações biológicas (detectam melhor domínios conservados entre proteínas);
-> Não é possível gerar um modelo evolutivo.
Alinhamentos: Matrizes de pontuação
Vantagens e desvatagens
PAM
-> É possível montar um modelo evolutivo e assim gerar novas matrizes a partir da primeira;
-> Preferencialmente usadas para determinar questões evolutivas (Rastrear proteínas ancestrais) ;
-> São baseadas na frequência de substituição encontrada em proteínas de parentesco muito próximo. Portanto são melhores
para detectar relações próximas entre proteínas.
Alinhamentos: Matrizes de pontuação
Vantagens e desvantagens
→ Sensitividade tem que ser definida pela similaridade e distância entre as sequências que serão comparadas. <<Matriz de Pontuação>>
No dia-a-dia a matriz BLOSUM62 tem demonstrado ótimos resultadosÉ a matriz padrão para o programa BLAST
Para comparar seqs mais divergentes (30-40% similar)
Para comparar seqs mais parecidas (80-
90% similar)
Alinhamentos: Conceitos e Desafios
Similaridade ou Homologia ?
-> O grau de similaridade pode ser estimado, por exemplo duas proteína podem ser 75% idênticas;
-> Homologia é uma afirmação sobre a história evolucionária de um caractere;
Duas sequências são 75% homólogas
“mais homólogo”
Duas sequências são 75% idênticas ou similares
60% da proteína é homóloga a 34% de outra proteína
Alinhamentos
Alinhamento Múltiplos
-> Processo utilizado para a elucidação de temas biologicamente significantes
(estudo de domínios e motivos protéicos por exemplo) .
-> O alinhamento múltiplo é uma generalização “natural” do caso de par de
sequências. O objetivo é transformar, por meio de gaps, todas as sequências
em outras de mesmo comprimento.
Alinhamentos
Alinhamento Múltiplos
-> O alinhamento pode ser visto na forma de uma tabela onde cada
linha está associada a uma sequência.
-> É uma técnica utilizada em sequências de proteínas.
Alinhamentos
Alinhamento Múltiplos
Motivações:
-> Detecção de regiões conservadas em grande número de sequências;
-> Definição de famílias protéicas;
-> Detecção de resíduos conservados (sítios de fosforilação, glicosilação, ligação com metal, com substrato, com íon, localização celular);
-> Predição estrutural;
-> Passo para reconstrução filogenética;
Alinhamentos
Alinhamento Múltiplos: Conceitos
-> Motivo: sítios catalíticos, resíduos estruturais importantes;
-> Domínio: relacionados a uma função da proteína, pressupõem homologia;
-> Família: grupo de proteínas relacionadas evolutivamente;
-> Padrão: sintaxe (expressão regular) descrevendo combinações possíveis de resíduos;
-> Profile: descreve variabilidade dentro de uma família protéica;
Alinhamentos Múltiplos
Como são construídos os alinhamentos múltiplos?
PD: analisa todos alinhamentos possíveis (100n segundos para n seqüências);
Progressive pairwise alignment: analisa todos pares de sequências, constrói uma matriz e uma árvore NJ, seleciona um par inicial e vai adicionando as outras seqs (segundo a árvore). Ex: Clustal, T-Coffee
Iterative alignment: começa com um alinhamento feito, e passos consecutivos de iterações são feitos até que o alinhamento não possa mais ser melhorado. Ex: Muscle
Anchor-based: partem de subseqüências comuns, e regiões não alinhadas são tratadas posteriormente. Ex: MAFFT
Probabilistic methods: pré-computam probabilidades de substituição baseando-se em alinhamentos conhecidos, e procuram aquele com o maior número esperado de predições corretas. Ex: ProbCons
Alinhamento Múltiplos
Visualização pode parecer fácil
Alinhamento Múltiplos
Ou um “pouco” mais complicado...
Alinhamento Múltiplos
Problemas....Proteínas com muitos domínios, e com rearranjos, não são possíveis de alinhar.
Difícil alinhar as proteínas em toda sua extensão.
Não funciona abaixo de ~30% de similaridade (twilight zone): isso pode ser corrigido se houver informação de estrutura
Como fazer um bom alinhamento?Seleção correta de sequências (>30% similaridade)
>80 sítios
Identificação de resíduos importantes (por mutantes ou estrutura 3D)
Baseado em estrutura secundária
Alinhamentos: Para terminar ...
-> Alinhamento GLOBAL e LOCAL exemplos práticos de uso:
http://www.ebi.ac.uk/Tools/psa/
-> LOCAL: WATER, MATCHER, LALIGN-> GLOBAL: NEEDLE, STRETCHER
Ambos utilizam Programação Dinâmica, para garantir o melhor resultado
Porém o custo computacional é alto, e devido a necessidade atual (NGS) e das últimas décadas, de se realizar comparações, essa abordagem se torna inviável.
Desta forma foi criada uma abordagem alternativa para comparação de sequências (alinhamento)
-> Nesta abordagem alternativa não é garantido encontrar o melhor alinhamento, porém é significativamente mais rápida em termos computacionais, e em termos
práticos também é muito eficiente.
HEURÍSTICA
Parte 3BLAST
BLAST
Basic Local Alignment Search Tool
Segundo o Google Acadêmico
Artigo de 1990 -> 40.332 citaçõesArtigo de 1997 -> 41.055 citações
BLAST
-> É um conjunto de algoritmos que busca um alinhamento local ótimo da seqüência objeto
com seqüência alvo de um banco de dados;
->O algoritmo BLAST é extremamente simples e se baseia no conceito de “par de
segmentos”;
-> Dada duas seqüêcias, um par de segmentos é definido como um par de sub sequêcias
de mesmo comprimento que forma um alinhamento sem gap;
-> Este algoritmo determina todos os pares de segmentos entre as sequêcias do banco de
dados e a sequência em exame que apresentam um score acima de um valor limiar pré-
fixado pelo usuário;
-> Os pares de segmentos (do inglês HSP, High Scoring Pairs) são apresentados como
resultado do programa, assim como os valores estatísticos associados;
-> A grande inovação do BLAST foi relacionada a capacidade de calcular uma
significância estatística para cada resultado de alinhamento;
BLAST
Number of Hits to DB: 3816
Number of Sequences: 63
Number of extensions: 123
Number of successful extensions: 1
Number of sequences better than 1.0e-01: 0
Number of HSP's better than 0.1 without gapping: 0
Number of HSP's successfully gapped in prelim test: 0
Number of HSP's that attempted gapping in prelim test: 1
Number of HSP's gapped (non-prelim): 0
length of query: 152
length of database: 12,629
effective HSP length: 45
High Scoring PairsSummary
Geralmente apresentado no final da visualização da busca
BLAST
Método-> Utiliza um subconjunto de sequencias, da sequencia objeto, denominadas palavras
ou “W” (word), para criar as sementes do alinhamento;
-> Busca fragmentos indênticos a “W”, com um valor mínimo de “T” (threshold),
utlizando a matriz de substituição;
-> Se “T” é alcançado, “W” é extendido em ambas as direções, tentando gerar um
alinhamento com um valor “S” (score) inicial.
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
BLAST
Método-> Quando maior o valor para “W” haverá menores
possibilidades para matches ;
-> Uma vez alinhada a semente, o programa extende o
alinhamento em ambas as direções e este é o processo
que mais consome tempo;
-> Estas variáveis podem ser administradas pelo usário.
http://www.nature.com/scitable/topicpage/basic-local-alignment-search-tool-blast-29096
BLAST
Método: Exemplo
BLAST
BLAST
BLAST
Significância estatística
E-Value (expect value) : Calculado para cada alinhamento, proporciona uma estimativa do número de falsos positivos esperados em uma busca
-> Altos valores de E sugerem grande chance do alinhamento ocorrer de forma randômica
De uma maneira geral, quando mais próximo a “0” melhor.
E< 10 -100 -> Provavelmente homólogos ou identicos
E<10 -3 -> Podem ser relacionados
E>1 Provavelmente não há relação
0,5 < E < 1 -> Twilight Zone
BLAST
Analisando os Resultados
BLAST
Analisando os Resultados
BLAST
Analisando os Resultados
BLAST
Analisando os Resultados
BLAST
Tipos de comparações
Query BD Compara Programant nt nt blastn
nt (trad) aa aa blastxaa aa aa blastpaa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
BLAST
PHI-BLAST e PSI-BLAST
-> PHI-BLAST : É um BLASTP refinado: Opção de indicar uma sequencia curta ou padrão para ser utilizado como referência
para a construção do alinhamento
-> PSI-BLAST: É também um BLASTP refinado, só que aqui o blastp é interativo. É reconstruída uma matriz com base nos alinhamentos resultantes da primeira consulta . É útil para
encontrar membros distantes de famílias protéicas.
-> Blast2Seq: Compara duas sequencias <<alinhamento par-a-par>>
Epílogo: Busca em banco de dados e alinhamentos
Informações evolutivas, estruturais e funcionais
Dúvidas, perguntas ?