No Slide Titleevolucao/grad/filogenet2.pdf · O modelo de Jukes-Cantor de substituição de...

Métodos Filogenéticos

Distância: Seleciona a árvore que melhor representa as distâncias entre os pares de organismos observados

Máxima verossimilhança: Seleciona a árvore com maiorprobabilidade de ter gerado os dados observados

Parcimônia: Seleciona a árvore que infere o menor númerode substituições (eventos mutacionais)

Comparação de seqüências de aminoácidos

leu arg phe cys ser argleu gap phe cys phe argleu gap phe cys phe argleu arg ile cys ser argleu arg ile cys ser argleu arg phe cys ser arg

serserserseralaile

Seqüência 1Seqüência 2Seqüência 3Seqüência 4Seqüência 5Seqüência 6

leu arg phe cys ser arg

leu gap phe cys ser arg

serSeqüência 1Seqüência 2

leu arg phe cys ser arg

leu phe cys ser arg

serSeqüência 1Seqüência 2

Medição de divergência de seqüência

Seqüências de aa de cadeias alfa de hemoglobina No. de Taxa : 6 Gaps/Dados ausentes : Deleção completa Método de distância : AA corrigida Poisson No. de Sítios : 140 d : Estimativa

1 2 3 4 5 6[1] Homem -[2] Cavalo 0.13 -[3] Vaca 0.13 0.13 -[4] canguru 0.21 0.23 0.20 -[5] Salamandra 0.57 0.64 0.60 0.64 -[6] Carpa 0.66 0.65 0.62 0.71 0.75 -

Homem Cavalo

Vaca Canguru

Salam Carpa

Divergência pode ser usada para se agrupar

1 2 3 4 5 6[1] Homem -[2] Cavalo 0.13 -[3] Vaca 0.13 0.13 -[4] canguru 0.21 0.23 0.20 -[5] Salamandra 0.57 0.64 0.60 0.64 -[6] Carpa 0.66 0.65 0.62 0.71 0.75 -

O modelo de Jukes-Cantor desubstituição de nucleotídeos

Commonancestor ofhuman and orang.

t time units

human (now)

Matriz infinitesimal

A G C T

A -3α α α αG α -3α α αC α α -3α αT α α α -3 α

Considere o nt na 2a posição da α-globin2 Alu1

α = Taxa de substituição de nt,assumido como constante

O modelo de 2 parâmetros de Kimurapara mudança de nucleotídeos

Taxas de transição: Horizontal: a Diagonal e vertical: b Self: c = −a −2b

c a b b

a c b b

b b c a

b b a c

A G C TA

Métodos de Filogenia Molecular

• Métodos de Distância

• Matriz de diferenças (ou semelhanças)• Agrupamento UPGMA

• não permite taxas de evolução diferentes

• Agrupamentos Vizinhos

Neighbor Joining (Saitou e Nei, 1987) permite taxas de evolução diferentes nos ramos

Similaridade vs. relacionamento evolutivo

Similar: ser semelhante (uma constatação)

Relacionado: Ter genes idênticos por descendênciauma inferência histórica

Taxon B

Taxon C

Taxon A

Taxon D

C é mais similar a A (d=3)do que a B (d=7), embora Ce B sejam maisrelacionados

Dois taxa podem ser mais similares do que taxas relacionados

“Taxa não são relacionados porque sãosimilares, eles são similares por seremrelacionados”

Medição de divergência de seqüência Métodos Filogenéticos

Máxima verossimilhança: Seleciona a árvore com maior probabilidade de ter gerado os dados observados

Parcimônia: Seleciona a árvore que infere o menor número desubstituições (eventos mutacionais)

Máxima Verossimilhança• Maximum likelihood procura obter o modelo mais

provável de ter gerado os dados obtidos através docálculo de várias verossimilhanças

• Tenta reconstruir a filogenia a partir de um modeloexplícito de evolução que pode ser testado

• Por envolver um trabalho computacional intenso,mesmo modelos simples podem se tornar inviáveis e éo mais lento dos métodos filogenéticos

Métodos Filogenéticos

Máxima verossimilhança: Seleciona a árvore com maiorprobabilidade de ter gerado os dados observados

Parcimônia: Seleciona a árvore que infere o menor númerode substituições (eventos mutacionais)

Caráter derivado Taxon

Mandíbula Pulmão Unhas ou garras

Penas Pelos Gls mamárias

Coração de 4 câmaras

Lampreia - - - - - - - Perca + - - - - - - Salamandra + + - - - - - Lagarto + + + - - - - Crocodilo + + + - - - + Pombo + + + + - - + Rato + + + - + + + Chimpanzé + + + - + + +

Obtendo uma filogenia a partir de caracteres

Lampreia

Salamandra

Lagarto

Crocodilo

Chimpanzé

Mandíbula

Pulmões

Unhas ougarras

Coração de 4câmaras

Pelo, glândulasmamárias

Uma filogenia simples

Tempo evolutivo relativoEventos antigos Eventos recentes

Monofilético

Parafilético

Polifilético

Taxa Monofilético inclui todos os descendentes de um ancestral comumTaxa Parafilético inclui alguns, mas não todos, os descendentesTaxa Polifilético inclui membros com mais de um ancestral comum mais recente

Grupo externo

Grupo externo Uma linhagem proximamente relacionada ao grupo focal

Árvores filogenéticas

Dobzhansky & Sturtevant (1936): Árvorede inversão para Drosophila pseudoobscura

(A) e D.persimilis (B)

Máxima parcimôniaA navalha de Occam

Q uando propositio verificatur pro rebus, siduae res sufficiunt ad eius veritatem ,superfluum est ponere tertiam

Pluralitas non est ponenda sine necessitate

William de Occam (1300-1349)

Quando uma coisa se mostra verdade, se duas coisas são suficientepara demonstrar esta verdade, uma terceira é supérflua

Pluralidade não deve ser inferida a menos que necessariamente

A melhor árvore é a que requer o menor número de substituições

A navalha de Occam

“Teorias devem ser tão simples quanto possível, mas não as m ais sim ples”

Máxima parcimônia

Albert Einstein (1879-1955)

A essência da Máxima Parcimônia (MP):

A árvore que assume o menor número de mudanças é preferida

NÃO cremos que evolução seja sempre parcimoniosa,mas sim que os caracteres que escolhemos evoluem de talforma que a máxima parcimônia oferece o melhor modelopara se recuperar as relações filogenéticas corretas.

Comprimento da árvore se torna o nosso critério:

escolha a árvore mais curta!

A B C D E

Árvore 2

A B C D E

Árvore 1Caracteres

Comprimentoda árvore

1 2 3 4 5

G G G G GT G G G TT T T TGT T T TT T T T

Árvore 2 1 1 1 1 2 6Árvore 1 71 2 2 1 1

Parcimônia na prática

Destas 2 árvores, a 2 tem o menor comprimento logo é amais parcimoniosa

Ambas requerem alguma homoplasia

Parcimônia pode ser inconsistente• Felsenstein (1978) criou um modelo simples com 4 taxa e uma

mistura de ramos curtos e longos• Neste modelo a parcimônia irá produzir uma árvore errada

Model tree

Rates or Branch lengths

p >> q

Parsimony tree

• Mais dados não resolverão melhor a árvore, pelo contrário,portanto parcimônia é estatisticamente inconsistente

• Este problema é comum a quase todos métodos filogenéticos eum dos maiores impecilhos à inferência filogenética

Ramos longos sãoatraídos mas asimilaridade éhomoplástica

Floresta pode ser habitada por vários “localminima” e ilhas de árvores subótimas

GLOBAL MINIMUM

LocalMinimum

LocalMinima

Comprimentoda árvore

Adição aleatória de taxa

SucessoFalha Falha

Branch SwappingBranch Swapping

Branch Swapping

Métodos de consenso estrito

A B C D E F G A B C E D F G

Duas árvores fundamentais

A B C D E F G

Árvore de consenso estrito

(Strict consensus)

Consenso da regra da maioria

Árvore consenso da regra da maioria (majority-rule)

A B C D E F G A B C E D F GA B C E F D G

A B C E D F G

3 Árvores fundamentais

Números indicam a freqüência declados nas árvores fundamentais

(Majority rule consensus)

Métodos de consenso por redução2 Árvores fundamentais

A B C D E F G A G B C D E F

Árvore reduzida de consenso estrito Táxon G é excluído

A B C D E FA B C D E F G

Árvore consenso estritoCompletamente não resolvida

Estrutura de testes de randomização• Rejeita a hipótese nula se mais do que 5% de permutações

aleatórias tiverem medidas tão boas ou melhores do queos dados reais

95% cutoff

Medida da qualidade dos dadosBoa Má

qüên

PassaTeste

Rejeita a hipótese nula

Não passao teste

Testes de Randomização das Matrizes

Real data

Randomly permuted

Ciliate SSUrDNA

OchromonasSymbiodiniumProrocentrumLoxodesTracheloraphisSpirostomumGruberiaEuplotesTetrahymena

OchromonasSymbiodiniumProrocentrumLoxodesTetrahymenaTracheloraphisSpirostomumEuplotesGruberia

Consenso estrito

1 MPTL = 618CI = 0.696 RI = 0.714PTP = 0.01PC-PTP = 0.001Significantemente não aleatório

3 MPTsL = 792CI = 0.543RI = 0.272PTP = 0.68PC-PTP = 0.737Não significativamentediferente do aleatório

Min = 430Max = 927

Enviesamento da distribuição decomprimentos de árvores

• Estudos com dados aleatórios(e filogeneticamente nãoinformativos) mostram que adistribuição tende a ser normal

• Em contraste, dadosfilogeneticamente informativosproduzem uma distribuiçãoenviesada, com poucas árvoresmais curtas

Árvoremais curta

Comprimento da árvore

Árvoremais curta

Árvores filogenéticas

Dentista com HIV

Freeman and Herron, 1998

LC02-x

LC03-x

LC02-y

LC03-y

Investigando hipóteses filogenéticas

Vários métodos têm sido propostos que estabelecem valoresnuméricos a ramos internos em árvores que têm o intuito deprover uma medida do grau de suporte daqueles ramos e dosgrupos correspondentes:

· métodos de reamostragem de caracteres-bootstrap e jackknife

· análises de decaimento (decay index)· Testes de randomização adicionais

Qual a confiança que a árvore está correta? Bootstrapping (não-paramétrico)

• Bootstrapping é umatécnica estatística modernaque usa reamostragem dosdados para se determinar oerro amostral ou intervalode confiança para algumparâmetro estimado

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20Aus C G A C G G T G G T C T A T A C A C G ABeus C G G C G G T G A T C T A T G C A C G GCeus T G G C G G C G T C T C A T A C A A T ADeus T A A C G A T G A C C C G A C T A T T G

Dados originaiscom n caracteres.

2 3 13 8 3 19 14 6 20 20 7 1 9 11 17 10 6 14 8 16Aus G A A G A G T G A A T C G C A T G T G CBeus G G A G G G T G G G T C A C A T G T G CCeus G G A G G T T G A A C T T T A C G T G CDeus A A G G A T A A G G T T A C A C A A G T

Retire n caracteresaleatoriamente comsubstituição.Repita mvezes.

m pseudo-réplicas, cadauma com n characters.

Análise original,p.ex. MP, ML, NJ.

Avalie osresultads das manálises.

Repita análise original emcada um dos dadospseudo-replicados.

Bootstrap Bootstrapping Dados originais

CaracteresTaxa 1 2 3 4 5 6 7 8A R R Y Y Y Y Y YB R R Y Y Y Y Y YC Y Y Y Y Y R R RD Y Y R R R R R ROutgp R R R R R R R R

A B C D12 1

A B C D

Outgroup Outgroup

Dados reamostrados

CaracteresTaxa 1 2 2 5 5 6 6 8A R R R Y Y Y Y YB R R R Y Y Y Y YC Y Y Y Y Y R R RD Y Y Y R R R R ROutgp R R R R R R R R

Reamostre os caracters aleatoriamente, com substituição,para criar várias réplicas bootstrap do mesmo tamanho queos dados originais - analise cada conjunto de dadosreplicado

Sumarize os resultados dasmúltiplas análises através deuma árvore consenso damaioria. Proporções deboostrap são a freqüênfciacom que cada grupo éencontrado nas análises dosdados replicados

A B C D

Outgroup

Bootstrapping - um exemploCiliate SSUrDNA - bootstrap de parcimônia

Consenso da Maioria

Ochromonas (1)

Symbiodinium (2)

Prorocentrum (3)

Euplotes (8)

Tetrahymena (9)

Loxodes (4)

Tracheloraphis (5)

Spirostomum (6)

Gruberia (7)

Wim de Grave et al. Fiocruz bioinformatics training course

Bootstrapping - dados aleatórios

Consenso da maioria (com componentes da minoria)

OchromonasSymbiodiniumProrocentrumLoxodesSpirostomumumTetrahymenaEuplotesTracheloraphisGruberia

OchromonasSymbiodiniumProrocentrumLoxodesTracheloraphisSpirostomumumEuplotesTetrahymenaGruberia

Wim de Grave et al. Fiocruz bioinformatics training course

O que os valores de bootstrapsignificam?

• Valores de Bootstrap não seguem comportamentoestatístico padrão

• Valores de Bootstrap de 95% são na verdadepróximos de 100% de confiança no ramo

• Valores de Bootstrap de 75% são próximos aos95% de confianca

• Valores de Bootstrap de 60% são muito maisbaixos

Limitações do Bootstrap

• Pelo fato de estarmos reamostrando dedados existentes, não podemos terpseudoreplicados com colunas nãoobservadas nos dados originais

• Pode levar a superestimativas de valores debootstrap para ramos particulares

Suporte do Ramo(Bremer 1988, 1994)

= “Decay Index” ou índice de decaimento deDonoghue et al. 1992)

O número de passos adicionais que devem seradicionados para descobrir um cladograma que nãotenha o grupo em questão

Análise de Decaimento

• Na análise de parcimônia, uma forma de se determinarsuporte para um grupo é verificar se este grupo ocorre emárvores um pouco menos parcimoniosas

• A diferença entre uma árvore mais curta incluindo o grupoe a mais curta que não inclua o grupo é o índice dedecaimento.

• Equivale ao número de passos a mais que a árvore terá pornão ter um grupo

Análise de Decaimento

OchromonasSymbiodiniumProrocentrumLoxodesTracheloraphisSpirostomumGruberiaEuplotesTetrahymena

OchromonasSymbiodiniumProrocentrumLoxodesTetrahymenaTracheloraphisSpirostomumEuplotesGruberia

Dados de Ciliados SSUrDNA Dados permutados

+15 +8

+1+1+45

Índices de Decaimento

• Geralmente quanto maior o decaimento, maior o suporterelativo para o grupo

• Como boostrap, decaimento pode não ser confiável, sedados não são confiáveis

• Ao contrário de bootstrap, dados não estão em escala (0-100) sendo menos claro o que é um índice de decaimentoaceitável

• Magnitude do decaimento e bootstrap estão geralmentecorrelacionados

• Apenas grupos que são encontrados em todas árvores maisparcimoniosas tem decaimento > zero

Decaimento vs valores de Bootstrap

0102030405060708090

0 5 10 15 20 25Índice de Decaimento

= Monocotiledôneas (Davis 1995)

= Josiini (Miller et al. 1997)

Outros métodos de confiança na árvore

• Jackknifing – remove seqüências individuais oupartes do alinhamento

• Bootstrap Paramétrico – dados construídos baseadosem um modelo evolutivo específico

• Testes de likelihood ratio – compara averossimilhança de duas (ou mais) árvores rivais

O que é um “bom” método?

• Eficiência• Poder• Consistência

• Robustês• Falsificabilidade

– Tempo para se achar a/uma solução

– Taxa de convergência/ quantos dados precisam

– Converge na solução “correct” a medida que dados

são acrescidos

– Performance quando pressupostos são violados

– Rejeição do modelo quando inadequado0

10 100 1000 10000 100000

Lakes invariants Parsim onny, uniformUPG M A, Kim ura NJ, Kim uraM L, Kim ura Parsim ony, weighted

10 100 1000 10000 100000

UPGMA, Kimura

NJ, percentage

Parsimony, unifo

Parsimony,weightedNJ, Kimura

ML, Kimura

Freqüência deinferências corretas

Comprimento da seqüência

Todos 0.50

0.30 e0.05 respectivamente

Desempenho em dados simulados

Prós e contras de alguns métodos• Distância, como UPGMA e Neighbor-joining

+ Rápido+ Modelos podem ser usados quando transformando em distância- Informação é perdida quando transformando em distância par a par- Uma árvore será gerada, mas não teremos medida de quão boa para se

comparar com outras hipóteses

• Parcimônia+ Filosoficamente atraente – Navalha de Occam+ Permite estudo de evolução de caracteres particulares- Pode ser inconsistente- Pode ser lento de se computar

• Máxima verossimilhança+ Baseado em modelo- Baseado em modelo- MUITO lento de se computar

O que pode dar errado?

• Erros amostrais– medidos, p.ex., pelo bootstrap

• Erros sistemáticos (métodos inconsistentes)– Testes de adequação dos modelos usados

• Realidade– Uma árvore pode ser um modelo infiel da história real– Informação foi perdida por mudanças evolutivas

subseqüentes

• Árvores de genes vs. árvores de espécies

Espécie B

Hibridação introgressivaHibridação introgressivaIinhagens ancestrais

Iinhagens atuais

Sorteamento incompletoSorteamento incompleto de delinhagenslinhagens

Iinhagens ancestrais

Iinhagens atuais

Espécie BEspécie A

• Uma ou mais (talvezvárias) árvores podemdescrever os dados.

• Árvores igualmenteparcimoniosas/prováveispodem não serconsistentes.

• Árvores de genes e árvoresde espécies: uma árvorede gene pode não sernecessariamente refletiruma árvore da espécie. J. C. Avise: Phylogeography:

the history and formation of species

Métodos de Reconstrução de árvores: O que pode dar errado?

• Erros amostrais– medidos, p.ex., pelo bootstrap

• Erros sistemáticos (métodos inconsistentes)– Testes de adequação dos modelos usados

• Realidade– Uma árvore pode ser um modelo infiel da história real– Informação foi perdida por mudanças evolutivas

subseqüentes

• Árvores de genes vs. árvores de espécies

Canis MusGadus

O que está errado com esta árvore?

• Erro amostral mínimo(em cada seqüência)

• Árvore estimada porum método consistente

100 Duplicação gênica

Árvore da espécie

“Árvore dos genes

A árvore esperada

Canis Mus Gadus Gadus Mus Canis

Duas cópias (parálogas) presentes nos genomas

Parálogos

Ortólogos Ortólogos

Canis Gadus Mus

O que foi estudado...

No Slide Titleevolucao/grad/filogenet2.pdf · O modelo de Jukes-Cantor de substituição de...

Documents

Transcript of No Slide Titleevolucao/grad/filogenet2.pdf · O modelo de Jukes-Cantor de substituição de...

2.Human Mobile

Master of Laws - Human Rights

Human rights, environment and sustainability

Human Activity Recognition

Introdução à anatomia human enfermagem

Desenho - Corpo Humano - Human Body

Apresentação apply human strategic

Anatomia Human A

Greenfields human capital 6out2015

The human body

Human rights

HUMAN POWER

4.6 – Entropia · 2020. 12. 2. · sua entropia. A variação infinitesimal de entropia dS durante um processo reversível infinitesimal em uma temperatura absoluta T é definida

Cristina Ferreira - Human Habitat 2011

Human Right 2015

Hermeneutica Efetividade Human Rights

Human Centered Design (em português)

180hub Human-centered business

Corpo humano the human body

Human Dignaty - Dignidade Humana