Métodos estatísticos II

48
Métodos estatísticos II Almir R. Pepato (Aula preparada com a ajuda daquelas disponibilizadas por Fred(rik) Ronquist)

description

Métodos estatísticos II. Almir R. Pepato (Aula preparada com a ajuda daquelas disponibilizadas por Fred(rik) Ronquist). Resolução do exemplo numérico. 0 1 0 0. 0 0 1 0. 0 1 0 0. 0 1 0 0. Resolução do exemplo numérico. 0 1 0 0. 0 0 1 0. 0 1 0 0. 0 1 0 0. - PowerPoint PPT Presentation

Transcript of Métodos estatísticos II

Page 1: Métodos estatísticos II

Métodos estatísticos II

Almir R. Pepato(Aula preparada com a ajuda daquelas disponibilizadas por Fred(rik) Ronquist)

Page 2: Métodos estatísticos II

Resolução do exemplo numérico

0100

0010

0100

0100

Page 3: Métodos estatísticos II

Resolução do exemplo numérico

0100

0010

0100

0100

0.000970.028280.028280.00097

Page 4: Métodos estatísticos II

Resolução do exemplo numérico

0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026

Page 5: Métodos estatísticos II

Resolução do exemplo numérico

0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026 0.0218338

Page 6: Métodos estatísticos II

Resolução do exemplo numérico

0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026 0.02183380.0000259

Page 7: Métodos estatísticos II

Resolução do exemplo numérico

0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026 0.02183380.00002590.0000026

Page 8: Métodos estatísticos II

Resolução do exemplo numérico

0100

0010

0100

0100

0.000970.028280.028280.00097

0.0000026 0.02183380.00002590.0000026

Page 9: Métodos estatísticos II

Inferência BayesianaExemplo Simples, comparando dois modelos.Há dois sapos de origami, Joe e Herman. Por experiências anteriores sabe-se que Joe cai 60% das vezes em pé, enquanto Herman cai apenas 20% das vezes. O nome dos sapos foi apagado. Como podemos inferir qual é Joe apenas fazendo-os saltar?

Primeiro lançamento, caiu em pé:

Page 10: Métodos estatísticos II

Inferência BayesianaSegundo lançamento, caiu em pé:

Terceiro lançamento, caiu de costas:

Page 11: Métodos estatísticos II

Inferência Bayesiana aplicada à filogenias

Grupo externo:

Page 12: Métodos estatísticos II

A

B

C

Inferência Bayesiana aplicada à filogenias

Page 13: Métodos estatísticos II

Inferência Bayesiana aplicada à filogenias

Probabilidade

Probabilidade

Probabilidade a priori

Probabilidade a posteriori

Dados

Page 14: Métodos estatísticos II

Inferência Bayesiana aplicada à filogenias

tree 1 tree 2 tree 3

)|( Xf

Espaço paramétrico

Prob

abili

dade

pos

terio

r

Page 15: Métodos estatísticos II

( ) ( | )( | )( ) ( | ) df f Df Df f D

ProbabilidadePosterior

Prior ”Verossimilhança”

Constante Normalizadora

D = Dados = Parâmetros do modelo

Inferência Bayesiana aplicada à filogenias

Page 16: Métodos estatísticos II

Monte Carlo-Cadeia de Markov

1-Inicia-se em um ponto arbitrário (θ)2-Faz-se uma pequena modificação propondo um novo estado (θ*)3-Calcula-se a razão r entre novo estado θ*, e θ:(a) r>1: novo estado é aceito.(b) R<1: novo estado é aceito com uma probabilidade r.

)|()|(

)|()|(

)()(

)|()|(

)(/)|()()(/)|()(

)|()|(

)|()|(

*

***

*

***

*

**

ff

DfDf

ff

ff

DfDffDfDff

ff

DfDfr

Page 17: Métodos estatísticos II

Monte Carlo-Cadeia de Markov1-Inicia-se em um ponto arbitrário (θ)2-Faz-se uma pequena modificação propondo um novo estado (θ*)3-Calcula-se a razão r entre novo estado θ*, e θ:(a) r>1: novo estado é aceito.(b) R<1: novo estado é aceito com uma probabilidade r.

tree 1 tree 2 tree 3

Sempre aceito

Aceito às vezesO tempo que a MCMC passa amostrando uma região do espaço paramétrico é uma estimativa da densidade da probabilidade posterior naquela região.

1

2b

2a

20 % 48 % 32 %

Page 18: Métodos estatísticos II

Regulando a cadeia de Markov

• Tipicamente um ou poucos parâmetros são modificados por vez.

• Uma geração é um ciclo completo ou uma nova proposta tomada ao acaso.

Novos valores são retirados uniformemente de uma janela de tamanho δ e centrada em x. Para lances mais “ousados”: aumente δ, mas isso também diminuirá as chances de novos estados serem aceitos...

Page 19: Métodos estatísticos II

Regulando a cadeia de Markov

”burn-in”“Mixing”: capacidade da cadeia de explorar adequadamente as regiões de maior probabilidade posterior do espaço paramétrico

Não adianta amostrar todas as gerações. As mais próximas estão muito correlacionadas.

Page 20: Métodos estatísticos II

Valo

res

amos

trad

os

Distribuição esperada

Lances muito acanhados: taxa de aceitação dos novos estados altos. “Mixing” deficiente.

Lances muito ousados: taxa de aceitação muito baixa. “Mixing” deficiente.

Lances “na medida”Bom “mixing”

Regulando a cadeia de Markov

Page 21: Métodos estatísticos II

ConvergênciaConvergência é o grau em que a cadeia convergiu para a distribuição de máxima probabilidade posterior.

Trocando em miúdos: MCMC é uma técnica heurística, precisamos algo que nos dê segurança a respeito da busca.

Indicadores de convergência:

1- A cadeia atingiu um platô.2- O comportamento da busca parece adequado:

Através do ESS (Effective Sample Size ):

O número de amostras realmente independentes da distribuição posterior à que a cadeia de Markov é equivalente.

Page 22: Métodos estatísticos II

Convergência

Telas do programa TRACER

Page 23: Métodos estatísticos II

Convergência entre corridas• Topologias:

– Compara as probabilidades dos clados (”split frequencies”), a diferença entre o desvio padrão das duas ou mais corridas deve tender a zero.

• Variáveis contínuas– ”Potential scale reduction factor” (PSRF). Compara

variância dentro e entre as corridas. Deve tender a zero na medida em que as corridas convergem.

Page 24: Métodos estatísticos II

Convergência

Telas do programa AWTY (Are We There Yet)

Comparação das probabilidades posteriores dos clados de duas corridas.

Esta análise funciona como que parando a corrida em pontos a intervalos regulares e verificando as probabilidades posteriores até aquele ponto.

Page 25: Métodos estatísticos II

MC3: Metropolis Coupling Markov Chain Monte Carlo

iT 1/1 1,...,1,0 ni

62.0

71.0

83.0

00.1

|62.03|71.02|83.01|00.10

Distr.

XfXfXfXf

Ti

T é a temperatura, é o coeficiente de aquecimento

Exemplo para = 0.2:

Cadeia fria

Cadeia aquecida

A idéia consiste em introduzir uma série de cadeias rodando em paralelo e acopladas, ou seja, trocando valores entre si. Algumas dessas cadeias’ são aquecidas, isto é: a sua probabilidade posterior é elevado a um número menor que 1. Assim o espaço de probabilidades aparece como que aplainado.

Determinar a melhor temperatura é crucial.

Page 26: Métodos estatísticos II

Cadeia fria

Cadeia aquecida

MC3: Metropolis Coupling Markov Chain Monte Carlo

Page 27: Métodos estatísticos II

Cadeia fria

Cadeia aquecida

Page 28: Métodos estatísticos II

Cadeia fria

Cadeia aquecida

Page 29: Métodos estatísticos II

Cadeia fria

Cadeia aquecida

Page 30: Métodos estatísticos II

Troca mal sucedida

Cadeia fria

Cadeia aquecida

Page 31: Métodos estatísticos II

Cadeia fria

Cadeia aquecida

Page 32: Métodos estatísticos II

Cadeia fria

Cadeia aquecida

Page 33: Métodos estatísticos II

Troca bem sucedida

Cadeia fria

Cadeia aquecida

Page 34: Métodos estatísticos II

Sumarizando as árvores• Árvore de Maior Probabilidade Posterior

– Pode ser difícil de encontrar– Pode ter baixa probabilidade para alguns clados (não reflete suporte)

• Árvore de consenso de Maioria– Reflete melhor a probabilidade posterior dos clados– Distribuição de comprimento de ramos pode ser multimodal

• Intervalo de credibilidade de árvores– Incluí as árvores em ordem decrescente de probabilidade até obter

um intervalo de credibilidade de, e.g., 95 %

Page 35: Métodos estatísticos II

Consenso de maioria

Frequências representam a probabilidade posterior dos clados

Page 36: Métodos estatísticos II

Sumarizando os parâmetros

• Média, mediana, variância são os mais comuns

• intervalo de credibilidade de 95 %: descarte os 2.5 % superiores e inferiores

• Intervalo de 95 % de maior densidade posterior: encontre a menor região contendo 95 % da probabilidade posterior

Page 37: Métodos estatísticos II

Média e o intervalo de credibilidade de 95% para os parâmetros do modelo.

Page 38: Métodos estatísticos II

PriorsAntes de falar dos priors é necessário revisar as principais distribuições contínuas e discretas.

Distribuições contínuas

• Normal • Beta • Gama• Dirichlet • Exponencial• Uniforme• Lognormal

Distribuições discretas

• Uniforme• Binomial • Multinomial • Poisson

Page 39: Métodos estatísticos II

Espaço amostral

{1,2,,k}

1

2

3

4

5

6

Função da distribuição

m()

Distribuição uniforme discretaDistribuições uniformes são utilizadas quando quer se expressar ausência completa de conhecimento a respeito de um parâmetro que tem impacto uniforme sobre a verossimilhança. A uniforme discreta é utilizada para as topologias, por exemplo.

Page 40: Métodos estatísticos II

Espaço Amostral(um intervalo)

0,1

Disco com circumferência 1

f (x) Função da densidade de probabilidades(e.g. Uniforme (0,1))

Pr(E) f (x)xE dx Probabilidade

E a,b Evento (um subespaço do espaço amostral)

a b

Distribuição contínua

Page 41: Métodos estatísticos II

f (x)e x

Média:

1/

= taxa de decaimento

Exp()X ~

Parametros:

Distribuição exponencialLembram dessas equações?

Nelas percebemos que a probabilidade, base do calculo da verossimilhança é uma função exponencial negativa do comprimento do ramo. Nada mais natural portanto que usar uma distribuição exponencial para seu prior.

Page 42: Métodos estatísticos II

f (x) x 1e x

Média:

/

= formato

Gamma(,)X ~

Parâmetros:

= escalar

Gama escalonado:

Gama escalonado

Distribuição Gama

Como vimos na aula sobre modelos, a distribuição gama é utilizada para descrever a variação na taxa de evolução entre sítios.

Na verdade, aqui temos um Hiperprior , isto é, α dita a distribuição a priori das taxas de variação e é retirado de uma distribuição (uniforme por exemplo) .

Page 43: Métodos estatísticos II

f (x) x1 1(1 x)2 1

Modo:

1 1 i 1

i

1,2 = formato

Beta(1,2)X ~

Parâmetros:

Distribuição Beta

É utilizada para parâmetros que descrevem proporções de um todo, com apenas dois eventos possíveis. Por exemplo: proporção de invariáveis e razão de Transversões/Transições.

Page 44: Métodos estatísticos II

f (x) x i i 1

i

= vetor de k shapes

Dir() : 1,2,..., k X ~

Parâmetros:

Definida como k proporções de um todo

Dir(1,1,1,1)

Dir(300,300,300,300)

Distribuição Dirichet

Semelhante à Beta, mas para várias classes de eventos: descreve a frequência de nucleotídeos e as taxas no GTR por exemplo.

Page 45: Métodos estatísticos II

Porque usar análises Bayesianas

tree 1 tree 2 tree 3

20% 48% 32%

Nós podemos focar em qualquer parâmetro de interesse (não existem parâmetros “sem uso”) marginalizando a probabilidade posterior por sobre outros parâmetros (integrando a incerteza dos outros parâmetros)

(Porcentagens mostram a probabilidade marginal das árvores)

Page 46: Métodos estatísticos II

Porque usar análises Bayesianas

32.048.020.038.014.019.005.033.006.022.005.029.012.007.010.0

3

2

1

321

Probabilidades conjuntas

Probabilidades marginais

árvores

Com

prim

ento

s dos

ram

os

Page 47: Métodos estatísticos II

Porque usar análises Bayesianas

•Capaz de implementar modelos altamente parametrizados.

•A estimativa da incerteza da árvore e a hipótese filogenética são obtidas ao mesmo tempo.

•As probabilidades posteriores são de interpretação intuitiva

•Pode incorporar conhecimento prévio a respeito do problema (através do Prior)

Page 48: Métodos estatísticos II

Possível problema

Os Priors!