Post on 13-Dec-2018
1
Métodos Filogenéticos
Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados
Máxima verossimilhança: Seleciona a árvore com maiorprobabilidade de ter gerado os dados observados
Parcimônia: Seleciona a árvore que infere o menor númerode substituições (eventos mutacionais)
Comparação de seqüências de aminoácidos
leu arg phe cys ser argleu gap phe cys phe argleu gap phe cys phe argleu arg ile cys ser argleu arg ile cys ser argleu arg phe cys ser arg
serserserseralaile
Seqüência 1Seqüência 2Seqüência 3Seqüência 4Seqüência 5Seqüência 6
leu arg phe cys ser arg
leu gap phe cys ser arg
ser
serSeqüência 1Seqüência 2
leu arg phe cys ser arg
leu phe cys ser arg
ser
serSeqüência 1Seqüência 2
Medição de divergência de seqüência
Seqüências de aa de cadeias alfa de hemoglobina No. de Taxa : 6 Gaps/Dados ausentes : Deleção completa Método de distância : AA corrigida Poisson No. de Sítios : 140 d : Estimativa
1 2 3 4 5 6[1] Homem -[2] Cavalo 0.13 -[3] Vaca 0.13 0.13 -[4] canguru 0.21 0.23 0.20 -[5] Salamandra 0.57 0.64 0.60 0.64 -[6] Carpa 0.66 0.65 0.62 0.71 0.75 -
Homem Cavalo
Vaca Canguru
Salam Carpa
0.1
Divergência pode ser usada para se agrupar
1 2 3 4 5 6[1] Homem -[2] Cavalo 0.13 -[3] Vaca 0.13 0.13 -[4] canguru 0.21 0.23 0.20 -[5] Salamandra 0.57 0.64 0.60 0.64 -[6] Carpa 0.66 0.65 0.62 0.71 0.75 -
O modelo de Jukes-Cantor desubstituição de nucleotídeos
Commonancestor ofhuman and orang.
t time units
human (now)
Matriz infinitesimal
Q =
A G C T
A -3α α α αG α -3α α αC α α -3α αT α α α -3 α
Considere o nt na 2a posição da α-globin2 Alu1
α = Taxa de substituição de nt,assumido como constante
2
O modelo de 2 parâmetros de Kimurapara mudança de nucleotídeos
A G
TC
Taxas de transição: Horizontal: a Diagonal e vertical: b Self: c = −a −2b
c a b b
a c b b
b b c a
b b a c
A G C TA
G
C
T
c
cc
ca
a
bb b
Métodos de Filogenia Molecular
• Métodos de Distância
• Matriz de diferenças (ou semelhanças)• Agrupamento UPGMA
• não permite taxas de evolução diferentes
• Agrupamentos Vizinhos
Neighbor Joining (Saitou e Nei, 1987) permite taxas de evolução diferentes nos ramos
Similaridade vs. relacionamento evolutivo
Similar: ser semelhante (uma constatação)
Relacionado: Ter genes idênticos por descendênciauma inferência histórica
Taxon B
Taxon C
Taxon A
Taxon D
6
1
1
1
3
5
C é mais similar a A (d=3)do que a B (d=7), embora Ce B sejam maisrelacionados
Dois taxa podem ser mais similares do que taxas relacionados
“Taxa não são relacionados porque sãosimilares, eles são similares por seremrelacionados”
Medição de divergência de seqüência Métodos Filogenéticos
Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados
Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados
Parcimônia: Seleciona a árvore que infere o menor número desubstituições (eventos mutacionais)
3
Máxima Verossimilhança• Maximum likelihood procura obter o modelo mais
provável de ter gerado os dados obtidos através docálculo de várias verossimilhanças
• Tenta reconstruir a filogenia a partir de um modeloexplícito de evolução que pode ser testado
• Por envolver um trabalho computacional intenso,mesmo modelos simples podem se tornar inviáveis e éo mais lento dos métodos filogenéticos
Métodos Filogenéticos
Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados
Máxima verossimilhança: Seleciona a árvore com maiorprobabilidade de ter gerado os dados observados
Parcimônia: Seleciona a árvore que infere o menor númerode substituições (eventos mutacionais)
Caráter derivado Taxon
Mandíbula Pulmão Unhas ou garras
Penas Pelos Gls mamárias
Coração de 4 câmaras
Lampreia - - - - - - - Perca + - - - - - - Salamandra + + - - - - - Lagarto + + + - - - - Crocodilo + + + - - - + Pombo + + + + - - + Rato + + + - + + + Chimpanzé + + + - + + +
Obtendo uma filogenia a partir de caracteres
4
Lampreia
Perca
Salamandra
Lagarto
Crocodilo
Pombo
Rato
Chimpanzé
Mandíbula
Pulmões
Unhas ougarras
Coração de 4câmaras
Pelo, glândulasmamárias
Penas
Uma filogenia simples
Tempo evolutivo relativoEventos antigos Eventos recentes
Monofilético
Parafilético
Polifilético
Taxa Monofilético inclui todos os descendentes de um ancestral comumTaxa Parafilético inclui alguns, mas não todos, os descendentesTaxa Polifilético inclui membros com mais de um ancestral comum mais recente
Grupo externo
Grupo externo Uma linhagem proximamente relacionada ao grupo focal
Árvores filogenéticas
Dobzhansky & Sturtevant (1936): Árvorede inversão para Drosophila pseudoobscura
(A) e D.persimilis (B)
Máxima parcimôniaA navalha de Occam
Q uando propositio verificatur pro rebus, siduae res sufficiunt ad eius veritatem ,superfluum est ponere tertiam
Pluralitas non est ponenda sine necessitate
William de Occam (1300-1349)
Quando uma coisa se mostra verdade, se duas coisas são suficientepara demonstrar esta verdade, uma terceira é supérflua
Pluralidade não deve ser inferida a menos que necessariamente
A melhor árvore é a que requer o menor número de substituições
A navalha de Occam
“Teorias devem ser tão simples quanto possível, mas não as m ais sim ples”
Máxima parcimônia
Albert Einstein (1879-1955)
A essência da Máxima Parcimônia (MP):
A árvore que assume o menor número de mudanças é preferida
NÃO cremos que evolução seja sempre parcimoniosa,mas sim que os caracteres que escolhemos evoluem de talforma que a máxima parcimônia oferece o melhor modelopara se recuperar as relações filogenéticas corretas.
Comprimento da árvore se torna o nosso critério:
escolha a árvore mais curta!
5
A B C D E
Árvore 2
A B C D E
Árvore 1Caracteres
Comprimentoda árvore
ABCDE
1 2 3 4 5
Taxa
G G G G GT G G G TT T T TGT T T TT T T T
GG
Árvore 2 1 1 1 1 2 6Árvore 1 71 2 2 1 1
Parcimônia na prática
Destas 2 árvores, a 2 tem o menor comprimento logo é amais parcimoniosa
Ambas requerem alguma homoplasia
Parcimônia pode ser inconsistente• Felsenstein (1978) criou um modelo simples com 4 taxa e uma
mistura de ramos curtos e longos• Neste modelo a parcimônia irá produzir uma árvore errada
A B
C D
Model tree
p pq
q q
Rates or Branch lengths
p >> q
A
B
C
D
Parsimony tree
Wrong
• Mais dados não resolverão melhor a árvore, pelo contrário,portanto parcimônia é estatisticamente inconsistente
• Este problema é comum a quase todos métodos filogenéticos eum dos maiores impecilhos à inferência filogenética
Ramos longos sãoatraídos mas asimilaridade éhomoplástica
Floresta pode ser habitada por vários “localminima” e ilhas de árvores subótimas
GLOBAL MINIMUM
LocalMinimum
LocalMinima
Comprimentoda árvore
Adição aleatória de taxa
SucessoFalha Falha
Branch SwappingBranch Swapping
Branch Swapping
Métodos de consenso estrito
A B C D E F G A B C E D F G
Duas árvores fundamentais
A B C D E F G
Árvore de consenso estrito
(Strict consensus)
6
Consenso da regra da maioria
Árvore consenso da regra da maioria (majority-rule)
A B C D E F G A B C E D F GA B C E F D G
A B C E D F G
10066
66
66
66
3 Árvores fundamentais
Números indicam a freqüência declados nas árvores fundamentais
(Majority rule consensus)
Métodos de consenso por redução2 Árvores fundamentais
A B C D E F G A G B C D E F
Árvore reduzida de consenso estrito Táxon G é excluído
A B C D E FA B C D E F G
Árvore consenso estritoCompletamente não resolvida
Estrutura de testes de randomização• Rejeita a hipótese nula se mais do que 5% de permutações
aleatórias tiverem medidas tão boas ou melhores do queos dados reais
95% cutoff
Medida da qualidade dos dadosBoa Má
Fre
qüên
cia
PassaTeste
Rejeita a hipótese nula
Não passao teste
Testes de Randomização das Matrizes
Real data
Randomly permuted
Ciliate SSUrDNA
OchromonasSymbiodiniumProrocentrumLoxodesTracheloraphisSpirostomumGruberiaEuplotesTetrahymena
OchromonasSymbiodiniumProrocentrumLoxodesTetrahymenaTracheloraphisSpirostomumEuplotesGruberia
Consenso estrito
1 MPTL = 618CI = 0.696 RI = 0.714PTP = 0.01PC-PTP = 0.001Significantemente não aleatório
3 MPTsL = 792CI = 0.543RI = 0.272PTP = 0.68PC-PTP = 0.737Não significativamentediferente do aleatório
Min = 430Max = 927
Enviesamento da distribuição decomprimentos de árvores
• Estudos com dados aleatórios(e filogeneticamente nãoinformativos) mostram que adistribuição tende a ser normal
• Em contraste, dadosfilogeneticamente informativosproduzem uma distribuiçãoenviesada, com poucas árvoresmais curtas
Núm
ero
de á
rvor
esN
úmer
o de
árv
ores
Árvoremais curta
Comprimento da árvore
Comprimento da árvore
Árvoremais curta
Árvores filogenéticas
Dentista com HIV
Freeman and Herron, 1998
pac
iente
B-x
pac
iente
B-y
pac
iente
A-x
pac
iente
E-y
pac
iente
E-x
pac
iente
C-x
pac
iente
C-y
Den
tist
a-y
pac
iente
A-y
pac
iente
G-x
pac
iente
G-y
Den
tist
a X
LC02-x
LC03-x
LC02-y
LC09
LC35
pac
iente
D-x
pac
iente
D-y
LC03-y
pac
iente
F-x
pac
iente
F-y
HIV
LI
7
Investigando hipóteses filogenéticas
Vários métodos têm sido propostos que estabelecem valoresnuméricos a ramos internos em árvores que têm o intuito deprover uma medida do grau de suporte daqueles ramos e dosgrupos correspondentes:
· métodos de reamostragem de caracteres-bootstrap e jackknife
· análises de decaimento (decay index)· Testes de randomização adicionais
Qual a confiança que a árvore está correta? Bootstrapping (não-paramétrico)
• Bootstrapping é umatécnica estatística modernaque usa reamostragem dosdados para se determinar oerro amostral ou intervalode confiança para algumparâmetro estimado
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20Aus C G A C G G T G G T C T A T A C A C G ABeus C G G C G G T G A T C T A T G C A C G GCeus T G G C G G C G T C T C A T A C A A T ADeus T A A C G A T G A C C C G A C T A T T G
Dados originaiscom n caracteres.
2 3 13 8 3 19 14 6 20 20 7 1 9 11 17 10 6 14 8 16Aus G A A G A G T G A A T C G C A T G T G CBeus G G A G G G T G G G T C A C A T G T G CCeus G G A G G T T G A A C T T T A C G T G CDeus A A G G A T A A G G T T A C A C A A G T
Retire n caracteresaleatoriamente comsubstituição.Repita mvezes.
m pseudo-réplicas, cadauma com n characters.
Aus
Beus
Ceus
Deus
Análise original,p.ex. MP, ML, NJ.
Aus
Beus
Ceus
Deus
75%
Avalie osresultads das manálises.
Aus
Beus
Ceus
Deus
Aus
Beus
Ceus
Deus
Aus
Beus
Ceus
Deus
Aus
Beus
Ceus
Deus
Aus
Beus
Ceus
Deus
Aus
Beus
Ceus
Deus
Repita análise original emcada um dos dadospseudo-replicados.
Bootstrap Bootstrapping Dados originais
CaracteresTaxa 1 2 3 4 5 6 7 8A R R Y Y Y Y Y YB R R Y Y Y Y Y YC Y Y Y Y Y R R RD Y Y R R R R R ROutgp R R R R R R R R
A B C D12 1
2
345
678
A B C D
122
55
668
Outgroup Outgroup
Dados reamostrados
CaracteresTaxa 1 2 2 5 5 6 6 8A R R R Y Y Y Y YB R R R Y Y Y Y YC Y Y Y Y Y R R RD Y Y Y R R R R ROutgp R R R R R R R R
Reamostre os caracters aleatoriamente, com substituição,para criar várias réplicas bootstrap do mesmo tamanho queos dados originais - analise cada conjunto de dadosreplicado
Sumarize os resultados dasmúltiplas análises através deuma árvore consenso damaioria. Proporções deboostrap são a freqüênfciacom que cada grupo éencontrado nas análises dosdados replicados
A B C D
Outgroup
96%
66%
Bootstrapping - um exemploCiliate SSUrDNA - bootstrap de parcimônia
Consenso da Maioria
Ochromonas (1)
Symbiodinium (2)
Prorocentrum (3)
Euplotes (8)
Tetrahymena (9)
Loxodes (4)
Tracheloraphis (5)
Spirostomum (6)
Gruberia (7)
100
96
84
100
100
100
Wim de Grave et al. Fiocruz bioinformatics training course
Bootstrapping - dados aleatórios
Consenso da maioria (com componentes da minoria)
OchromonasSymbiodiniumProrocentrumLoxodesSpirostomumumTetrahymenaEuplotesTracheloraphisGruberia
71
26
1659
1621
OchromonasSymbiodiniumProrocentrumLoxodesTracheloraphisSpirostomumumEuplotesTetrahymenaGruberia
71
59
Wim de Grave et al. Fiocruz bioinformatics training course
8
O que os valores de bootstrapsignificam?
• Valores de Bootstrap não seguem comportamentoestatístico padrão
• Valores de Bootstrap de 95% são na verdadepróximos de 100% de confiança no ramo
• Valores de Bootstrap de 75% são próximos aos95% de confianca
• Valores de Bootstrap de 60% são muito maisbaixos
Limitações do Bootstrap
• Pelo fato de estarmos reamostrando dedados existentes, não podemos terpseudoreplicados com colunas nãoobservadas nos dados originais
• Pode levar a superestimativas de valores debootstrap para ramos particulares
Suporte do Ramo(Bremer 1988, 1994)
= “Decay Index” ou índice de decaimento deDonoghue et al. 1992)
O número de passos adicionais que devem seradicionados para descobrir um cladograma que nãotenha o grupo em questão
Análise de Decaimento
• Na análise de parcimônia, uma forma de se determinarsuporte para um grupo é verificar se este grupo ocorre emárvores um pouco menos parcimoniosas
• A diferença entre uma árvore mais curta incluindo o grupoe a mais curta que não inclua o grupo é o índice dedecaimento.
• Equivale ao número de passos a mais que a árvore terá pornão ter um grupo
Análise de Decaimento
OchromonasSymbiodiniumProrocentrumLoxodesTracheloraphisSpirostomumGruberiaEuplotesTetrahymena
OchromonasSymbiodiniumProrocentrumLoxodesTetrahymenaTracheloraphisSpirostomumEuplotesGruberia
Dados de Ciliados SSUrDNA Dados permutados
+27
+15 +8
+3
+1+1+45
+7
+10
Índices de Decaimento
• Geralmente quanto maior o decaimento, maior o suporterelativo para o grupo
• Como boostrap, decaimento pode não ser confiável, sedados não são confiáveis
• Ao contrário de bootstrap, dados não estão em escala (0-100) sendo menos claro o que é um índice de decaimentoaceitável
• Magnitude do decaimento e bootstrap estão geralmentecorrelacionados
• Apenas grupos que são encontrados em todas árvores maisparcimoniosas tem decaimento > zero
9
Decaimento vs valores de Bootstrap
0102030405060708090
100
0 5 10 15 20 25Índice de Decaimento
Val
ores
de
Boo
tstra
p
= Monocotiledôneas (Davis 1995)
= Josiini (Miller et al. 1997)
Outros métodos de confiança na árvore
• Jackknifing – remove seqüências individuais oupartes do alinhamento
• Bootstrap Paramétrico – dados construídos baseadosem um modelo evolutivo específico
• Testes de likelihood ratio – compara averossimilhança de duas (ou mais) árvores rivais
O que é um “bom” método?
• Eficiência• Poder• Consistência
• Robustês• Falsificabilidade
– Tempo para se achar a/uma solução
– Taxa de convergência/ quantos dados precisam
– Converge na solução “correct” a medida que dados
são acrescidos
– Performance quando pressupostos são violados
– Rejeição do modelo quando inadequado0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
10 100 1000 10000 100000
Lakes invariants Parsim onny, uniformUPG M A, Kim ura NJ, Kim uraM L, Kim ura Parsim ony, weighted
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
10 100 1000 10000 100000
UPGMA, Kimura
NJ, percentage
Parsimony, unifo
Parsimony,weightedNJ, Kimura
ML, Kimura
Freqüência deinferências corretas
Comprimento da seqüência
Todos 0.50
0.30 e0.05 respectivamente
Desempenho em dados simulados
Prós e contras de alguns métodos• Distância, como UPGMA e Neighbor-joining
+ Rápido+ Modelos podem ser usados quando transformando em distância- Informação é perdida quando transformando em distância par a par- Uma árvore será gerada, mas não teremos medida de quão boa para se
comparar com outras hipóteses
• Parcimônia+ Filosoficamente atraente – Navalha de Occam+ Permite estudo de evolução de caracteres particulares- Pode ser inconsistente- Pode ser lento de se computar
• Máxima verossimilhança+ Baseado em modelo- Baseado em modelo- MUITO lento de se computar
O que pode dar errado?
• Erros amostrais– medidos, p.ex., pelo bootstrap
• Erros sistemáticos (métodos inconsistentes)– Testes de adequação dos modelos usados
• Realidade– Uma árvore pode ser um modelo infiel da história real– Informação foi perdida por mudanças evolutivas
subseqüentes
• Árvores de genes vs. árvores de espécies
10
B
Espécie B
A
**
Hibridação introgressivaHibridação introgressivaIinhagens ancestrais
Iinhagens atuais
tf
t0
Tem
po d
e G
eraç
ão
Sorteamento incompletoSorteamento incompleto de delinhagenslinhagens
Iinhagens ancestrais
B
A
Iinhagens atuais
Espécie BEspécie A
• Uma ou mais (talvezvárias) árvores podemdescrever os dados.
• Árvores igualmenteparcimoniosas/prováveispodem não serconsistentes.
• Árvores de genes e árvoresde espécies: uma árvorede gene pode não sernecessariamente refletiruma árvore da espécie. J. C. Avise: Phylogeography:
the history and formation of species
Métodos de Reconstrução de árvores: O que pode dar errado?
• Erros amostrais– medidos, p.ex., pelo bootstrap
• Erros sistemáticos (métodos inconsistentes)– Testes de adequação dos modelos usados
• Realidade– Uma árvore pode ser um modelo infiel da história real– Informação foi perdida por mudanças evolutivas
subseqüentes
• Árvores de genes vs. árvores de espécies
Canis MusGadus
O que está errado com esta árvore?
• Erro amostral mínimo(em cada seqüência)
• Árvore estimada porum método consistente
100
100 Duplicação gênica
Árvore da espécie
“Árvore dos genes
A árvore esperada
11
Canis Mus Gadus Gadus Mus Canis
Duas cópias (parálogas) presentes nos genomas
Parálogos
Ortólogos Ortólogos
Canis Gadus Mus
O que foi estudado...