Métodos geométricos (baseados em distância). Cálculo de Distâncias As distâncias evolutivas...

Post on 17-Apr-2015

116 views 2 download

Transcript of Métodos geométricos (baseados em distância). Cálculo de Distâncias As distâncias evolutivas...

Métodos geométricos(baseados em

distância)

Cálculo de DistânciasAs distâncias evolutivas são

calculadas para todos os pares de taxa (ou OTUs) e a árvore é construída considerando as relações entre estes valores

www.megasofware.net

Estatísticas das Seqüências

Conteúdo de basesDistância das sequências par a partransiçoes/transversões (0,5)

Ou 2x trans/transv (1,0)

Todas estas estatísticas são levadas em conta na escolha do modelo de substituição a ser utilizado

Cálculo de DistânciasDistância p

n

pppV

)1()(

n

ndp

Distância pSe as seqüências forem muito

distintas, p pode ser subestimado por homoplasiasCom isso, algumas correções são

necessáriasComo regra geral:

se p > 0,3 a distância calculada por p é uma subestimativa

Se p > 0,5 – metade dos aa são diferentes...Se p > 0,15 – utilizar algum modelo de

substituição para corrigir a estimativa

Jukes-Cantor (d) - JCCorreção que leva em conta a

possibilidade de substituições de bases

A T C G A - α α α T α - α α C α α - α G α α α -

Substituições ocorrem com igual frequência em todos os nn, e que cada nn muda para qualquer outro com uma probabilidade α por ano (r = 3 α)

r é a taxa de substituição por sítio e por ano.

Considere duas sequencias, X e Y que divergiram de um ancestral há t anos Seja qt a proporção de sítios idênticos e

pt a proporção de sítios diferentes (1 – qt)

Jukes-Cantor (d) - JC

Proporção de sítios idênticos em t+1:Probabilidade de que um sítio idêntico

em t continue idêntico em t+1:(1 – r)2 = 1 – 2r + r2 1 – 2r

probabilidade de que um sítio diferente em t se torne idêntico em t+1

2r/3

Jukes-Cantor (d) - JC

Seja Xi e Yj em t:

Para que sejam idênticos em t+1:Xi Xj e Yj Yj ;

α (1 – r) ou

Xi Xi e Yj Yi ; (1 – r) α

2 . α (1 – r) = 2 . r/3 (1-r) = 2r/3 – 2r2/3 2r/3

Então:

Ou:

)1(3

2)21(1 ttt qrqrq

ttt qrr

qq3

8

3

21

Jukes-Cantor (d) - JC

Então:

Ou:

)1(3

2)21(1 ttt qrqrq

ttt qrr

qq3

8

3

21

Jukes-Cantor (d) - JCSítio idêntico em t que continua

idêntico

Então:

Ou:

)1(3

2)21(1 ttt qrqrq

ttt qrr

qq3

8

3

21

Jukes-Cantor (d) - JCSítio idêntico em t que continua

idêntico

Sítio não idêntico em t que passou a ser idêntico

Representando qt+1 – qt por dq/dt:

Em condições iniciais q = 1 em t = 0:

qrr

dt

dq

3

8

3

2

)1(4

31 3/8rteq

Jukes-Cantor (d) - JC

Se p = (1 - q)

Sendo d a proporção de nn que se modificaram com o tempo: d = 2r . t

)1(4

3 )3/8rtep

rtrteep

23

4

3

8

113

4

dep 3

4

13

4

)3

41ln(

4

3 pd

Jukes-Cantor (d) - JC

dep 3

4

13

4

3

4

3

41

d

ep

Ae A ln

AeA ln

3

4

ln)3

41ln(

d

ep

3

4)

3

41ln(

dp

)3

41ln(

4

3 pd

)3

41ln(

4

3 pd

np

ppdV

2)43(

)1(9)ˆ(

Jukes-Cantor (d) - JC

Kimura 2 parâmetros – K80

Correção que leva em conta probabilidades diferentes de transições e transversões

A T C G A - β β α T β - α β C β α - β G α β β -

r = α + 2βTransiçõesAs transversões

)21)(4

1( 8)(4 tt eeP

)1)(2/1( 8 teQ

)21ln()4

1()21ln()

2

1(

422

QQP

ttrtd

Kimura 2 parâmetros – K80

Tamura Leva em conta as diferenças em transições

e transversões (α e β), além da frequência diferencial de CG.

A T C G A - βθ2 βθ1 αθ1

T βθ2 - αθ1 βθ1

C βθ2 αθ2 - βθ1

G αθ2 βθ2 βθ1 -θ1 = frequência de CG

θ2 = freqüência de AT

Tamura-Nei (TrN) Leva em conta as diferenças em transições

e transversões (α e β), além da frequência diferencial de bases (g).

A T C G A - βgT βgC αα11ggGG

T βgA - αα22ggCC βgG

C βgA αα22ggTT - βgG

G αα11ggAA βgT βgC -

gA, gT, gC, gG = frequência de cada uma das bases

Tajima-Nei (F81) Leva em conta apenas as diferentes

freqüências das bases: A T C G

A - αgT αgC α1gG

T αgA - αgC α1gG

C αgA αgT - α1gG

G αgA αgT αgC -

gA, gT, gC, gG = frequência de cada uma das bases

General Time Reversible (GTR)

Leva em conta diferentes freqüências de bases e de substituições

A T C G A - agT bgC cgG

T agA - dgC egG

C bgA dgT - fgG

G cgA egT fgC -

gA, gT, gC, gG = frequência de cada uma das basesa, b, c, d, e, f = probabilidade de substituição

Distâncias GammaNas distâncias consideradas

anteriormente, assume-se que a taxa de substituições nucleotídicas é a mesma para todos os sítios...

Na verdade, isso dificilmente é assim, e esta taxa varia de sítio para sítio.

Parâmetro a ser ajustado = α

Distâncias Gamma

α=0,2

α=1α=2

α=5

α=10

UPGMA (Unweighted Pair-Group Method with Arithmetic Mean)

É o mais simples e intuitivo dos métodos

Se baseia nas médias das distâncias entre as OTUs

Parte do princípio de que o relógio molecular está “funcionando”

A

B

D

E

F

G

HI C

Tempo

Exemplo numéricoLocalizar a menor distância:

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

Exemplo numéricoLocalizar a menor distância:

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

Exemplo numéricoLocalizar a menor distância:

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

A

B

00,51,0

Calcular médias

AB

C D E F

AB

X

C X

D 4 X

E 2 4 X

F 3 5 3 X

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB

C D E F

AB

X

C 4,5 X

D 4 X

E 2 4 X

F 3 5 3 X

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB

C D E F

AB

X

C 4,5 X

D 4,5 4 X

E 2 4 X

F 3 5 3 X

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB

C D E F

AB

X

C 4,5 X

D 4,5 4 X

E 9 2 4 X

F 3 5 3 X

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB

C D E F

AB

X

C 4,5 X

D 4,5 4 X

E 9 2 4 X

F 7,5 3 5 3 X

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB

C D E F

AB

X

C 4,5 X

D 4,5 4 X

E 9 2 4 X

F 7,5 3 5 3 X

AB

C D E F

AB

X

C 4,5 X

D 4,5 4 X

E 9 2 4 X

F 7,5 3 5 3 X

A

B

C

E

00,51,01,5

AB

C D E F

AB

X

C 4,5 X

D 4,5 4 X

E 9 2 4 X

F 7,5 3 5 3 X

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB CE D F

AB X

CE X

D X

F 5 X

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB CE D F

AB X

CE X

D X

F 5 X

(dAC+dAE+dBC=dBE)/4

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB CE D F

AB X

CE 6,75

X

D X

F 5 X

(dAC+dAE+dBC=dBE)/4

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB CE D F

AB X

CE 6,75

X

D 4,5 X

F 7,5 5 X

Repetindo a matriz anterior

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB CE D F

AB X

CE 6,75

X

D 4,5 X

F 7,5 5 X

(dCD+dED)/2

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB CE D F

AB X

CE 6,75

X

D 4,5 4 X

F 7,5 5 X

(dCD+dED)/2

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

AB CE D F

AB X

CE 6,75

X

D 4,5 4 X

F 7,5 3 5 X

(dCF+dEF)/2

AB CE D F

AB X

CE 6,75

X

D 4,5 4 X

F 7,5 3 5 X

A

B

C

E

F

00,51,01,52,0

AB CEF

D

AB X

CEF 7 X

D 4,5 4,3 X

A

B

C

E

F

D

00,51,01,52,02,5

Calcular as médias (dAC+dAE+dAF+dBC+dBE+dBF)/6;

(dCD+dED+dFD)/3

AB

CEFD

AB X

CEFD

6.3

X

A

B

C

E

F

D

00,51,01,52,02,53,03,5

Calcular a média (dAC+dAD+dAE+dAF+dBC+dBD+dBE+dB

F)/8

Matriz cofenéticaA

B

C

E

F

D

00,51,01,52,02,53,03,5

A B C D E F

A X

B 1 X

C 6,3

6,3

X

D 6,3

6,3

4,3 X

E 6,3

6,3

2 4,3

X

F 6,3

6,3

3 4,3

3 X

Comparação entre matrizes...

Original Cofenética A B C D E F

A X

B 1 X

C 6,3

6,3

X

D 6,3

6,3

4,3

X

E 6,3

6,3

2 4,3

X

F 6,3

6,3

3 4,3

3 X

A B C D E F

A X

B 1 X

C 4 5 X

D 6 3 4 X

E 9 9 2 4 X

F 7 8 3 5 3 X

Quando a taxa de substituição de nucleotídeos varia de uma linhagem para a outra, o UPGMA fornece a topologia incorreta

Nestes casos é necessário utilizar métodos que permitam taxas evolutivas diferentes entre os organismos

UPGMA - Limitações

Evolução MínimaMétodo que busca, dentre todas as

árvores possíveis, aquela cuja soma dos tamanhos de ramos é a menor (parte do princípio que a árvore verdadeira seria a que contém os menores tamanhos de ramos)Limitações: como o número de

topologias possíveis é muito grande, a busca pode tornar-se lenta

Neighbor Joining (NJ)Saitou & Nei (1987)Método baseado no princípio da

evolução mínimaNão examina todas as

topologias, mas requer o princípio da EM em todos os estágios (é uma simplificação da EM)

Conceito de “vizinhos” – dois taxa conectados por um único nó numa árvore não enraizada (1,2 e 5,6)

Neighbor Joining (NJ)

Neighbor Joining (NJ)

Algoritmo: Início com uma topologia em estrela Somar todos os tamanhos de ramos da

árvore inicial (S0) Tomar um par de vizinhos, estabelecer a

distância entre este par e todos os outros Estimar Si,j

Repetir o procedimento para todos os pares de vizinhos até encontrar o menor S.

Neighbor Joining (NJ)

Neighbor Joining (NJ)

)1( m

T

m

jiij

m

iix d

mLS

1

1

10

Neighbor Joining (NJ)

m

iiYXYXX LLLLS

32112

Neighbor-Joining

Testes Estatísticos

Bootstrap: é o mais utilizado, faz uma reamostragem dos sítios com reposição:

G

AAA

AA

CC

C AT

TTTTTT

TTCCCC

GGGGG

TTT

C

CC

AAA

AA

TTTT

TT

TN

GGGG

GGGG

e b o k e f e h c j k f m n i AA

A

AA

CCCC

G

AAA

AA

AAA

AA

CC

C AT

TTTTTTTTCCCC

AAA

AA

GGGGG

TTT

C

CC

AAA

AA

TTTT

TT

TN

GGGG

GGGG

a b c d e f g h i j k l m n o

a b c d c f g h d j o l m n o

G

AAA

AA

AAA

AA

CC

CT

TTTT

CCCC

AAA

AA

GGGGG

C

CC

AAA

AA

TTTT

TT

TN

GGGG

GGGG

CC

CT

GGGG

TTT

T

Bibliografia

Li W-H. 1997. Molecular Evolution. Sinauer Ass. Publish.

Matioli, S.R. 2001. Biologia Molecular e Evolução. Editora Holos, São Paulo.

Nei, M. & Kumar, S. 2000. Molecular Evolution and Phylogenetics. Oxford University Press.