M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M...

18
etodos Computacionais para Inferˆ encia Estat´ ıstica Cap´ ıtulo 6 - T´ opicos Adicionais - Clonagem de Dados Paulo Justiniano Ribeiro Jr. Wagner Hugo Bonat Elias Teixeira Krainski Walmes Marques Zeviani LEG: Laborat´orio de Estat´ ıstica e Geoinforma¸ ao Universidade Federal do Paran´ a 20 o SINAPE , 30-31/07/2012 Bonat et. al (LEG/UFPR) MCIE 20 o SINAPE , 30-31/07/2012 1/1

Transcript of M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M...

Page 1: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Metodos Computacionais para Inferencia EstatısticaCapıtulo 6 - Topicos Adicionais - Clonagem de Dados

Paulo Justiniano Ribeiro Jr.Wagner Hugo Bonat

Elias Teixeira KrainskiWalmes Marques Zeviani

LEG: Laboratorio de Estatıstica e GeoinformacaoUniversidade Federal do Parana

20oSINAPE , 30-31/07/2012

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 1 / 1

Page 2: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Motivacao

Clonagem de dados (data cloning)

Lele (2007) e Lele (2010)

(Outras referencias)

Implementacao: algoritmos MCMC

Pacote R: clone (Solymos, 2010)

utiliza JAGS, BUGS ou OpenBUGS

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 2 / 1

Page 3: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Intuicao

Clonagem de dados (data cloning)

Busca conciliar obtencao da verossimilhanca com flexibilidade dosalgoritmos de Inf. Bayesiana (MCMC)

Dados ”abundantes”dominam a priori

Posteriori reflete a verossimilhanca

Proposta: Clonar dados (K vezes): preserva informacao essencial

Media da posteriori : converge para EMVK vezes a variancia de posteriori : converge para variancia assintoticado MLE

Especificacao de modelos e identificabilidade

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 3 / 1

Page 4: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Construcao - Generica

Modelo hierarquico (Bayesiano)

1 [Y |b,X ] ∼ f (µ, φ)

2 g(µ) = Xβ + Zb

3 b ∼ NMV (0,Σ).

4 priori : [β,Σ, φ].

Posteriori informa sobre verossimilhanca clonada LK (β,Σ, φ)

πK (β,Σ, φ|yij) =[∫fi (yi |β,Σ, φ)f (bi |Σ)dbi ]

Kπ(β)π(Σ)π(φ)

C (K ; yij)

C (K ; yij) =

∫[

∫fi (yi |β,Σ, φ)f (bi |Σ)dbi ]

Kπ(β)π(Σ)π(φ)dβdΣdφ

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 4 / 1

Page 5: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Passos

Especificar modelo completo (Bayesiano)

Clonar dados (K vezes)

MCMC em dados clonados

Repetir para diferentes K

Verificar comportamento

Resumos da posteriori informam sobre:

LK (·)L(·) (assintoticamente)

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 5 / 1

Page 6: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Algoritmo

1 Dados K -clonado Y k = (Y ,Y , . . . ,Y )2 Gerar amostras (MCMC) da posteriori [β,Σ,φ] utilizando dados

clonados Y k

Gere estado atual (β,Σ,φ)∗ de [β,Σ,φ]Gere K valores dos efeitos aleatorios b, digamos b1, b2, . . . ,bK de[b|θ∗].Calcule q∗ = f (y |b1,φ∗)f (y |b2,φ∗), . . . , f (y |bK ,φ∗) e faca q1 = q∗

Repita (a) e (b) obtendo novos valores (β,Σ,φ)@ e q@.

Gere uma U(0,1) e calcule p = min(1, q@

q1). Se U > p

(β,Σ,φ)j+1 = (β,Σ, φ)j caso contrario (β,Σ,φ)j+1 = (β,Σ,φ)@.Repita (d) e (e) muitas vezes.

3 Calcule as medias e as variancias amostrais para (θ,φ)j .

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 6 / 1

Page 7: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Identificabilidade

1 Estudar a identificabilidade de modelos em geral e nao trivial.

2 Por vezes modelos sao ajustados como se fossem identificaveis.

3 A atribuicao de priori’s pode tornar um modelo ’identificavel’.

Sob clonagem dos dados:

1 Parametros sao nao-estimaveis: posteriori converge para a prioritruncada no espaco de nao-identificabilidade dos parametros quandoaumenta-se o numero de clones

2 Maior autovalor da matriz de variancia-covariancia a posteriori naoconverge para 0.

3 Se a variancia a posteriori de um parametro converge para 0 quandoaumentamos o numero de clones, ele e estimavel.

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 7 / 1

Page 8: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo I: Poisson com efeito aleatorio

1 Modelo:

Yij |bi ∼ P(λi )log(λi ) = β0 + bibi ∼ N(0, 1/τ 2)τ 2 ∼ G (1; 0,1)

2 Codigo

mod.poisson <- function(){for(j in 1:n.ua){

for(i in 1:n.rep){Y[j,i] ~ dpois(lambda[j,i])

log(lambda[j,i]) <- beta0 + b[j]}b[j] ~ dnorm(0,tau)

}beta0 ~ dnorm(0, 0.001)tau ~ dgamma(1, 0.01)

}

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 8 / 1

Page 9: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo I: Poisson com efeito aleatorio (cont)

dados.list <- list(Y = t(matrix(dados$y, 10, 10)), n.ua = 10, n.rep = 10)clone<-dc.fit(data=dados.list, model=mod.poisson, params=c("beta0","tau"),

n.clones=c(1,5,10,20,30,40,50), multiply="n.ua", unchanged="n.rep",n.iter= 10000, n.adapt = 500, n.update = 500, thin =5)

β0

Number of clones

Est

imat

e

● ● ● ● ● ●

1 5 10 20 30 40 50

0.8

1.0

1.2

1.4

1.6

1.8

2.0

x

x x x x x xx x x x x x x

τ2

Number of clones

Est

imat

e

● ● ● ● ● ●

1 5 10 20 30 40 50

010

2030

4050

6070

R.hat >= 1.1R.hat < 1.1

x

x x x x x x

x

xx

x x x x

●●

β0

Number of clones

log(

Sca

led

Var

ianc

e)

1 5 10 20 30 50

−6

−5

−4

−3

−2

−1

0 ●

τ2

Number of clones

log(

Sca

led

Var

ianc

e)

1 5 10 20 30 50

−4

−3

−2

−1

0●

R.hat >= 1.1R.hat < 1.1

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 9 / 1

Page 10: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo II: Normal sem replicacoes

1 Modelo:

Yi ∼ N(µi , 1/σ2)

log(µi ) = β0 + bibi ∼ N(0, 1/τ 2)σ2 ∼ G (0,5; 0,5) ; τ 2 ∼ G (0,5; 0,5)

2 Codigo

model.normal <- function(){for(i in 1:n){Y[i] ~ dnorm(mu[i], 1/sigma2)mu[i] <- b0 + b[i]b[i] ~dnorm(0, 1/tau2)

}b0 ~ dnorm(0, 0.01)sigma2 ~ dgamma(0.5, 0.5)tau2 ~ dgamma(0.5, 0.5)soma <- sigma2 + tau2

}

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 10 / 1

Page 11: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo II: Normal sem replicacoes (cont)

k <- c(1,5,10,20,30,40,50)Gclone1 <- dc.fit(data = dat.gauss, params= c("b0","tau2", "sigma2"),

model = model.normal, n.clones=k, multiply="n",n.iter= 5000, n.adapt = 1000, n.update = 100, thin = 5)

Gclone2 <- dc.fit(data = dat.gauss, params= c("soma"),model = model.normal, n.clones=k, multiply="n",n.iter= 5000, n.adapt = 1000, n.update = 100, thin = 5)

φ = σ2 + τ2

β0

Number of clones

Est

imat

e

● ● ● ● ● ● ●

1 5 10 20 30 40 50

4.8

4.9

5.0

5.1

5.2

R.hat >= 1.1R.hat < 1.1

x

xx

x x x x

x

xx x x x x

σ2

Number of clones

Est

imat

e

● ●

● ●●

1 5 10 20 30 40 50

0.0

0.5

1.0

1.5

2.0

R.hat >= 1.1R.hat < 1.1

x x xx

xx x

x

x xx x x x

τ2

Number of clones

Est

imat

e

●●

● ●●

1 5 10 20 30 40 500.

00.

51.

01.

5

R.hat >= 1.1R.hat < 1.1

x x x x x x x

x

x x

xx

x x

τ2 + σ2

Number of clones

Est

imat

e

●● ● ● ● ● ●

1 5 10 20 30 40 50

1.4

1.6

1.8

2.0

2.2 ●

R.hat >= 1.1R.hat < 1.1

x

xx x x x x

x

xx

x x x x

●●

β0

Number of clones

log(

Sca

led

Var

ianc

e)

1 5 10 20 40

−3

−2

−1

0

R.hat >= 1.1R.hat < 1.1

σ2

Number of clones

log(

Sca

led

Var

ianc

e)

1 5 10 20 40

−1.

2−

0.8

−0.

40.

0

R.hat >= 1.1R.hat < 1.1

τ2

Number of clones

log(

Sca

led

Var

ianc

e)

1 5 10 20 40

−1.

0−

0.6

−0.

2

R.hat >= 1.1R.hat < 1.1

●●

τ2 + σ2

Number of cloneslo

g(S

cale

d V

aria

nce)

1 5 10 20 40

−4

−3

−2

−1

0

R.hat >= 1.1R.hat < 1.1

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 11 / 1

Page 12: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo II: Normal sem replicacoes (cont)

Cadeias MCMC:

1000 2000 3000 4000 5000 6000

4.92

4.96

5.00

5.04

Trace of b0

4.95 5.00 5.05

05

1015

20

Density of b0

1000 2000 3000 4000 5000 6000

0.0

0.5

1.0

1.5

Trace of sigma2

0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

1.0

Density of sigma2

1000 2000 3000 4000 5000 6000

0.5

1.0

1.5

Trace of tau2

0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

Density of tau2

1000 2000 3000 4000 5000 6000

1.55

1.65

1.75

Trace of soma

1.55 1.60 1.65 1.70 1.75 1.80

02

46

810

Density of soma

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 12 / 1

Page 13: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo III: Normal com replicacoes

1 Modelo:

Yij ∼ N(µi , 1/σ2)

log(µi ) = β0 + bibi ∼ N(0, 1/τ 2)σ2 ∼ G (1; 0,01) ; τ 2 ∼ G (1; 0.01)

2 Codigo

mod.gauss.rep <- function(){for(j in 1:n.ua){

for(i in 1:n.rep){Y[j,i] ~ dnorm(mu[j,i], sigma2)mu[j,i] <- beta0 + b[j]

}b[j] ~ dnorm(0,tau2)

}beta0 ~ dnorm(0,0.01)tau2 ~ dgamma(1,0.01)sigma2 ~ dgamma(1,0.01)

}

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 13 / 1

Page 14: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo III: Normal com replicacoes (cont)

GcloneR<- dc.fit(data=dados.list, params= c("beta0","tau2", "sigma2"),model = mod.gauss.rep, n.clones=c(1,5,10,20,30,40,50),multiply="n.ua", unchanged = "n.rep",n.iter= 5000, n.adapt = 1000, n.update = 100, thin = 5)

β0

Number of clones

Est

imat

e ● ●● ● ● ● ●

1 5 10 20 30 40 50

4.5

5.0

5.5

6.0

xx

xx x x x

x

xx

x x x x

σ2

Number of clones

Est

imat

e

●● ● ● ● ● ●

1 5 10 20 30 40 50

1.0

1.2

1.4

1.6

x

xx

x x x x

x

xx

x x x x

τ2

Number of clones

Est

imat

e

● ● ● ● ● ●

1 5 10 20 30 40 50

0.5

1.0

1.5

2.0

2.5

3.0

R.hat >= 1.1R.hat < 1.1

xx

x x x x x

x

xx

x x x x

●●

β0

Number of clones

log(

Sca

led

Var

ianc

e)

1 5 10 20 30 50

−1.

5−

1.0

−0.

50.

0 ●

σ2

Number of clones

log(

Sca

led

Var

ianc

e)

1 5 10 20 30 50

−4

−3

−2

−1

0 ●

●●

τ2

Number of clones

log(

Sca

led

Var

ianc

e)

1 5 10 20 30 50

−3.

5−

2.5

−1.

5−

0.5

R.hat >= 1.1R.hat < 1.1

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 14 / 1

Page 15: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo III: Normal com replicacoes (cont)

Cadeias MCMC

0 1000 2000 3000 4000 5000

2.5

3.5

4.5

5.5

Iterations

Trace of beta0

2.5 3.0 3.5 4.0 4.5 5.0 5.5

02

46

8

N = 1000 Bandwidth = 0.01103

Density of beta0

0 1000 2000 3000 4000 5000

1.20

1.25

1.30

1.35

Iterations

Trace of sigma2

1.15 1.20 1.25 1.30 1.35

02

46

810

N = 1000 Bandwidth = 0.00642

Density of sigma2

0 1000 2000 3000 4000 5000

0.2

0.6

1.0

1.4

Iterations

Trace of tau2

0.2 0.4 0.6 0.8 1.0 1.2 1.4

01

23

4

N = 1000 Bandwidth = 0.01926

Density of tau2

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 15 / 1

Page 16: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo III: Normal com replicacao (cont)

Cuidado com as interpretacoes das saıdas!

summary(GcloneR)

Iterations = 105:5100Thinning interval = 5Number of chains = 3Sample size per chain = 1000Number of clones = 50

1. Empirical mean and standard deviation for each variable,plus standard error of the mean:

Mean SD DC SD Naive SE Time-series SE R hatbeta0 5.231 0.22414 1.5849 0.0040922 0.0165402 1.007sigma2 1.263 0.03004 0.2124 0.0005484 0.0005426 1.000tau2 1.108 0.13144 0.9294 0.0023998 0.0075793 1.000

2. Quantiles for each variable:

2.5% 25% 50% 75% 97.5%beta0 5.1332 5.220 5.254 5.289 5.354sigma2 1.2046 1.242 1.263 1.282 1.322tau2 0.9265 1.055 1.117 1.176 1.301

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 16 / 1

Page 17: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Exemplo IV: Regressao Beta com efeitos aleatorios

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 17 / 1

Page 18: M etodos Computacionais para Infer^encia Estat sticapaulojus/mcie/sinape2012/06-Apresentac...M etodos Computacionais para Infer^encia Estat stica Cap tulo 6 - Topicos Adicionais -

Clonagem de dados

Bibliografia

Lele, S.; Dennis, B. ; Lutscher, F.Data cloning: easy maximum likelihood estimation for complexecological models using Bayesian Markov chain Monte Carlo methods.Ecology Letter 10: 551-563 (2007)

Solymos, P.dclone: Data Cloning in R.The R Journal 2: 29-37 (2010)

Lele, S. ; Nadeem, K. ; Schmuland, B.Estimability and Likelihood Inference for Generalized Linear MixedModels Using data Cloning.Journal of the American Statistical Association 105:1617-1625 (2010)

Bonat et. al (LEG/UFPR) MCIE 20oSINAPE , 30-31/07/2012 18 / 1