Alinhamento
description
Transcript of Alinhamento
AlinhamentoAlinhamento
Definições e tipos de Definições e tipos de alinhamento.alinhamento.
O uso do BLASTO uso do BLAST
Banco de dadosBanco de dados
Um banco de dados organiza e estrutura as informações de modo a facilitar consultas, atualizações e deleções de dados.
A grande maioria dos bancos de dados é atrelado a um sistema denominado SGBD (Sistema de Gerenciamento de Banco de Dados).– MySQL;– postgreSQL;– SQL Server;– Oracle.
AlgoritmoAlgoritmo
““Um Um algoritmoalgoritmo é uma seqüência é uma seqüência finita e não ambígua de finita e não ambígua de instruções para solucionar um instruções para solucionar um problema ”problema ”
Loops e decisões lógicas Loops e decisões lógicas http://pt.wikipedia.org/wiki/Algorithttp://pt.wikipedia.org/wiki/Algorit
momo
Problema do caixeiro Problema do caixeiro viajanteviajante Problema: Qual o menor caminho Problema: Qual o menor caminho
para passar por todas as cidades para passar por todas as cidades e depois voltar a inicial?e depois voltar a inicial?
Problema do caixeiro Problema do caixeiro viajanteviajante Solução “ótima”: Calcular a Solução “ótima”: Calcular a
distância total de todos os distância total de todos os caminhos possíveis.caminhos possíveis.
Alta complexidade, (n-1)!Alta complexidade, (n-1)!
HeurísticaHeurística
““heurísticaheurística e e método método heurísticoheurístico são denominações são denominações para o algoritmo que fornece para o algoritmo que fornece soluções sem um limite formal de soluções sem um limite formal de qualidade, tipicamente avaliado qualidade, tipicamente avaliado empiricamente em termos de empiricamente em termos de complexidade (média) e complexidade (média) e qualidade das soluções”qualidade das soluções”
Similaridade X Similaridade X HomologiaHomologia SimilaridadeSimilaridade é a observação é a observação
empírica das semelhanças entre empírica das semelhanças entre duas seqüências e pode ser duas seqüências e pode ser quantificada. quantificada.
HomologiaHomologia implica implica ancestralidade comum entre duas ancestralidade comum entre duas seqüências, podendo apenas ser seqüências, podendo apenas ser inferida e nunca quantificada. inferida e nunca quantificada.
Seqüências ortólogas e Seqüências ortólogas e parálogasparálogas seqüências ortólogas: as quais têm seqüências ortólogas: as quais têm
origem em um ancestral comum origem em um ancestral comum seqüências parálogas: as quais têm seqüências parálogas: as quais têm
origem em uma duplicação gênicaorigem em uma duplicação gênica– Ex: Hemoglobina F e Hemoglobina AEx: Hemoglobina F e Hemoglobina A
http://adi-38.bio.ib.usp.br/sismo/http://adi-38.bio.ib.usp.br/sismo/tipos.htmltipos.html
AlinhamentoAlinhamento
Comparação de duas ou mais Comparação de duas ou mais sequências por meio de buscas sequências por meio de buscas de uma série de caracteres ou de uma série de caracteres ou padrões de caracteres que estão padrões de caracteres que estão na mesma ordemna mesma ordem
Tipos de alinhamento:Tipos de alinhamento:– GlobalGlobal– LocalLocal– MúltiploMúltiplo
Para que fazer um Para que fazer um alinhamento?alinhamento? FilogeniaFilogenia Busca de similaridadeBusca de similaridade Anotação de seqüênciasAnotação de seqüências Busca em bancos de dados de Busca em bancos de dados de
seqüênciasseqüências
Alinhamento localAlinhamento local
O alinhamento localiza O alinhamento localiza fragmentos de sequências que fragmentos de sequências que são mais similaressão mais similares
Query: 1 ALINHA 6Query: 1 ALINHA 6
||||||||||||
Sbjct: 1 ALINHA 6Sbjct: 1 ALINHA 6
Alinhamento globalAlinhamento global
O alinhamento global se estende O alinhamento global se estende por toda a seqüência:por toda a seqüência:
ALINHAMENTOALINHAMENTO
|||||| ||||||| |
ALINHAVAD_OALINHAVAD_O
Alinhamento múltiploAlinhamento múltiplo
Pode usar alinhamento local ou Pode usar alinhamento local ou global (normalmente global) para global (normalmente global) para alinhar múltiplas seqüências.alinhar múltiplas seqüências.
Normalmente alinha duas a duas, Normalmente alinha duas a duas, e posteriormente vai juntando as e posteriormente vai juntando as mais similaresmais similares
Parâmetros para Parâmetros para avaliar um avaliar um alinhamentoalinhamento Programação dinâmicaProgramação dinâmica Concodante - “match”Concodante - “match” Discordante - “mismatch”Discordante - “mismatch” Ausente - “gap”Ausente - “gap”
ALINHAMENTOALINHAMENTO|||||| ||||||| |ALINHAVAD_OALINHAVAD_O
Algoritmo básico de Algoritmo básico de pprogramação dinâmicarogramação dinâmica
SSi,ji,j = MAX[ = MAX[ SSi-1, j-1i-1, j-1 + s(a + s(ai,i,bbjj)) ((match/mismatchmatch/mismatch),),
SSi,j-1i,j-1 + w + w ((gap seq #1gap seq #1),), SSi-1,ji-1,j + w + w ((gap seq #2gap seq #2))
]]
Variáveis do programa:Variáveis do programa: s(as(aiibbjj) = +5 if a) = +5 if aii = b = bjj (match score) (match score) s(as(aiibbjj) = -3 if a) = -3 if aiibbjj (mismatch score) (mismatch score) w = -4 (gap penalty)w = -4 (gap penalty)
Matrizes de Matrizes de substituiçãosubstituição http://mcb.berkeley.edu/labs/king/blast/http://mcb.berkeley.edu/labs/king/blast/
docs/matrix_info.htmldocs/matrix_info.html PAMPAM
– The rapid generation of mutation data The rapid generation of mutation data matrices from protein sequences.matrices from protein sequences. Jones DT, Jones DT, Taylor WR, Thornton JM. Comput Appl Biosci. 1992 Taylor WR, Thornton JM. Comput Appl Biosci. 1992 Jun;8(3):275-82. PMID: 1633570 Jun;8(3):275-82. PMID: 1633570
– http://www.bioinformatics.nl/tools/pam.htmlhttp://www.bioinformatics.nl/tools/pam.html BLOSUMBLOSUM
– Amino acid substitution matrices from Amino acid substitution matrices from protein blocks. protein blocks. Henikoff S, Henikoff JG. Henikoff S, Henikoff JG. Proc Natl Proc Natl Acad Sci U S A. Acad Sci U S A. 1992 Nov 15; 89(22): 10915-10919. 1992 Nov 15; 89(22): 10915-10919. PMCID: 50453 PMCID: 50453
Matrizes de Matrizes de substituiçãosubstituição Henikoff S. e Henikoff J.G. (1993) Henikoff S. e Henikoff J.G. (1993)
indicam a matriz BLOSUM62 como a indicam a matriz BLOSUM62 como a matriz de substituição com melhores matriz de substituição com melhores resultados para aplicações gerais no resultados para aplicações gerais no artigo “Performance evaluation of artigo “Performance evaluation of amino acid substitution matrices.”amino acid substitution matrices.”
PS: Eles “inventaram” a BLOSUM62...PS: Eles “inventaram” a BLOSUM62...
BLOSUM 62BLOSUM 62http://www.icb.ufmg.br/~lbcd/grupo1/tabela1.htmlhttp://www.icb.ufmg.br/~lbcd/grupo1/tabela1.html - Tabela do código dos aminoácidos- Tabela do código dos aminoácidos
A R N D C Q E G H I L K M F P S T W Y VA R N D C Q E G H I L K M F P S T W Y VA 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
Algoritmo do BLASTAlgoritmo do BLAST
O algorítimo BLAST é um mO algorítimo BLAST é um método de busca heurística étodo de busca heurística que busca por palavras de comprimento W (por que busca por palavras de comprimento W (por padrão W = 3 no padrão W = 3 no in blastp)in blastp) que tenham valor de que tenham valor de alinhamento (score) de pelo menos alinhamento (score) de pelo menos T T quando quando alinhados com a seqüência consulta de acordo com a alinhados com a seqüência consulta de acordo com a matriz de substituição utilizada. matriz de substituição utilizada. Palavras no banco de Palavras no banco de dados com valor igual ou maior à T são extendidas dados com valor igual ou maior à T são extendidas nas duas direções na tentativa de localizar um nas duas direções na tentativa de localizar um alinhamento ótimo local sem “gaps” alinhamento ótimo local sem “gaps” oouu HSP (high HSP (high scoring pair)scoring pair) com um valor (“score”) de pelo menos S com um valor (“score”) de pelo menos S ou um E value menor que o especificado como limite ou um E value menor que o especificado como limite superior.superior. HSPs HSPs que estiverem dentro desses critérios que estiverem dentro desses critérios serão reportadas pelo BLAST, desde que seu número serão reportadas pelo BLAST, desde que seu número não seja maior que o limite especificado de descrições não seja maior que o limite especificado de descrições ou alinhamtentos a serem reportados.ou alinhamtentos a serem reportados.
Algoritmo do BLASTAlgoritmo do BLAST