Modelos não-lineares para dados longitudinais provenientes de … · 2011. 2. 9. · A secret aria...

207
Universidade de São Paulo Escola Superior de Agricultura “Luiz de Queiroz” Modelos não-lineares para dados longitudinais provenientes de experimentos em blocos casualizados abordagem bayesiana Everton Batista da Rocha Dissertação apresentada para obtenção do título de Mestre em Ciências. Área de concentração: Estatística e Experimentação Agronômica Piracicaba 2010

Transcript of Modelos não-lineares para dados longitudinais provenientes de … · 2011. 2. 9. · A secret aria...

  • Universidade de São Paulo

    Escola Superior de Agricultura “Luiz de Queiroz”

    Modelos não-lineares para dados longitudinais provenientes de

    experimentos em blocos casualizados

    abordagem bayesiana

    Everton Batista da Rocha

    Dissertação apresentada para obtenção do título de Mestre

    em Ciências. Área de concentração: Estatística e

    Experimentação Agronômica

    Piracicaba

    2010

  • Everton Batista da Rocha

    Bacharel em Estatística

    Modelos não-lineares para dados longitudinais provenientes de

    experimentos em blocos casualizados

    abordagem bayesiana

    Orientadora:

    Profa . Dra. ROSELI APARECIDA LEANDRO

    Dissertação apresentada para obtenção do título de Mestre

    em Ciências. Área de concentração: Estatística e

    Experimentação Agronômica

    Piracicaba

    2010

  • Dados Internacionais de Catalogação na Publicação

    DIVISÃO DE BIBLIOTECA E DOCUMENTAÇÃO - ESALQ/USP

    Rocha, Everton Batista da Modelos não-lineares para dados longitudinais provenientes de experimentos em blocos

    casualizados abordagem bayesiana / Everton Batista da Rocha. - - Piracicaba, 2010. 205 p. : il.

    Dissertação (Mestrado) - - Escola Superior de Agricultura “Luiz de Queiroz”, 2010. Bibliografia.

    1. Análise de dados longitudinais 2. Curvas de crescimento 3. Delineamento experimental 4. Eucalipto 5. Inferência bayesiana 6. Modelos não lineares (Planejamento e Pesquisa) 7. Planejamento em blocos I. Título

    CDD 634.9734 R672m

    “Permitida a cópia total ou parcial deste documento, desde que citada a fonte – O autor”

  • 3

    Dedicatória

    Dedico este trabalho em memória de minha mãe, Anaides B.

    da Rocha, que, em vida, foi a pessoa que mais me apoiou em

    todos os momentos, me impulsionando a buscar a vida nova

    a cada dia. Meus agradecimentos por ter aceito se privar de

    minha companhia durante os meus estudos, concedendo a mim

    a oportunidade de me realizar ainda mais.

  • 4

  • 5

    AGRADECIMENTOS

    A minha mãe (in memoriam) por ter-me trazido ao mundo e na sua simplicidade

    ter me ensinado a conviver com o próximo, em respeito, amor e harmonia e por ter sempre

    acreditado em mim, me incentivando e dando todo seu apoio. E onde quer que ela esteja, sei

    que ainda olha por mim.

    Ao meu pai, David R. da Rocha, pelos ensinamentos sólidos de vida e pelo

    incansável apoio nos momentos dif́ıceis.

    A minha irmã, Ana Paula B. da Rocha, pelo apoio e fortalecimento no trilhar

    diário, sendo testemunho de zelo e amor.

    Aos professores que me deram aula durante esse curso de Pós-Graduação em

    Estat́ıstica e Experimentação Agronômica, pois sem eles, eu não estaria concluindo este curso

    - Roseli A. Leandro, Clarice G. B. Demétrio, Śılvio S. Zocchi, César G. de Lima, Sônia M. D.

    S. Piedade, Carlos Tadeu dos S. Dias, Edwin M. M. Ortega.

    Ao CNPq - Conselho Nacional de Desenvolvimento Cient́ıfico e Tecnológico -

    pela bolsa de mestrado concedida.

    Com muito carinho aos amigos que me mostraram o valor das amizades ver-

    dadeiras, me acompanhando durante os momentos fáceis e dif́ıceis nesses 2 anos do curso de

    mestrado, me fazendo sorrir quando me vinha a tristeza e secando minhas lágrimas quando

    elas insistiam em cair, em especial Shelly B. de Souza, Mariana R. Urbano, Luciana Mina-

    mihara, Carol Coelho, Henrique Kawamura, Carlos R. Ferraz, Caio Temer, Renato Piselli e

    Táıza Seron.

    A Profa. Dra. Roseli A. Leandro, de maneira muito especial, pelos conhecimen-

    tos compartilhados, enquanto professora, pela orientação e incentivo durante todo transcorrer

    do meu curso de mestrado. Pela confiança e amizade em mim depositada, fonte de inspiração

    para a vida cient́ıfica e particular, sendo um exemplo de ética e seriedade no trabalho.

    A Profa. Dra. Terezinha A. Guedes, por ter sido minha professora e orientadora

    no peŕıodo da graduação, contribuindo para a formação do meu conhecimento cient́ıfico na área

    de Estat́ıstica. Pela amizade compartilhada ao longo desses anos, e que se tem mostrado cada

    vez mais forte e viva, sempre me mostrando que amizades verdadeiras vencem as distâncias e

  • 6

    o tempo.

    Ao Prof. Dr. Silvio S. Zocchi, pela colaboração e apoio durante o curso.

    Ao grupo de estudos GEMMix, pelos conhecimentos e amizade compartilhados.

    A todos os alunos do curso de Pós-Graduação em Estat́ıstica e Experimentação

    Agronômica da ESALQ/USP, com os quais compartilhei essa fase da minha vida.

    Aos funcionários do LCE/ESALQ/USP, em especial as secretárias pelo apoio e

    dedicação no transcorrer do curso.

    A secretária da Pós-Graduação em Estat́ıstica e Experimentação Agronômica,

    Luciane Brajão, pelo apoio, amizade, simplicidade e atenção, que em muito contribui para que

    este sonho se tornasse realidade.

    A secretária do LCE, Solange Paes de Assis Sabadin, que durante o primeiro ano

    do meu curso de mestrado foi secretária da Pós-Graduação em Estat́ıstica e Experimentação

    Agronômica e em muito contribui para que o transcorrer do mesmo fosse o mais paćıfico

    posśıvel.

    E por fim, a Deus, por ter me dado o dom da vida, ter me permitido viver essa

    fase inesquećıvel que foi o meu curso de mestrado, onde conheci muitas pessoas e aprendi que

    amizade e solidariedade se aprendem e conquistam com o tempo.

  • 7

    SUMÁRIO

    RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2 DESENVOLVIMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.1 Revisão de Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.1.1 Planejamentos Longitudinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.1.2 O Modelo de Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    2.1.3 Modelos Não-Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    2.1.3.1 Abordagem Clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    2.1.3.2 Modelagem do Efeito de Bloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    2.1.4 Estat́ıstica Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    2.1.4.1 Prinćıpio de Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    2.1.4.2 Distribuição a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    2.1.4.2.1 Priori Conjugada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    2.1.4.2.2 Priori Não-Informativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    2.1.4.2.3 Prioris Hierárquicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    2.1.4.2.4 O uso de Prioris Informativas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    2.1.4.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    2.1.4.4 Critério de Informação da Deviance Bayesiana - DIC . . . . . . . . . . . . . . . 44

    2.1.4.5 Aspectos Computacionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    2.1.4.5.1 Método de Monte Carlo via Cadeias de Markov . . . . . . . . . . . . . . . . . 46

    2.1.4.5.2 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . . . . 47

    2.1.4.5.3 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.1.4.6 Análise de Convergência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    2.1.5 O programa WinBUGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    2.1.6 O programa R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    2.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

  • 8

    2.2.1 Dados do volume sólido com casca de árvores de eucalipto . . . . . . . . . . . . . 65

    2.2.2 Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    2.2.2.1 Modelo 1: Estrutura de Independência . . . . . . . . . . . . . . . . . . . . . . . 66

    2.2.2.2 Modelo 2: Estrutura Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    2.2.3 Modelando o Efeito de Bloco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    2.2.3.1 Modelo Hierárquico Bayesiano de Três Estágios . . . . . . . . . . . . . . . . . . 72

    2.2.3.1.1 Inferência para o Modelo Hierárquico Bayesiano . . . . . . . . . . . . . . . . . 74

    2.2.3.2 Uma Alternativa para a Estrutura de Variância-Covariância . . . . . . . . . . . 77

    2.2.3.2.1 Inferência para a Estrutura de Variância-Covariância Alternativa . . . . . . . . 78

    3 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    3.1 Análise Exploratória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    3.2 Ajuste 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    3.3 Ajuste 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

    3.4 Ajuste 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

    3.5 Ajuste 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

    4 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

    4.1 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

    4.2 Pesquisas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

    REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

    APÊNDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

  • 9

    RESUMO

    Modelos não-lineares para dados longitudinais provenientes

    de experimentos em blocos casualizados

    abordagem bayesiana

    Dados consistindo de medidas repetidas tomadas em um mesmo indiv́ıduo são

    muito comuns na agricultura e biologia. A modelagem de dados desta natureza usualmente

    envolvem a caracterização da relação entre medidas repetidas e covariáveis. Em muitas

    aplicações, a relação proposta entre as medidas repetidas tem um comportamento não-linear

    nos parâmetros desconhecidos de interesse. Por exemplo, em estudo de crescimento de árvores,

    geralmente o comportamento da variável resposta é melhor descrito por um modelo não-linear

    nos parâmetros porque estes modelos caracterizam melhor a realidade dos fenômenos biológicos

    em estudo e porque é posśıvel uma interpretação biológica dos parâmetros. A presença de me-

    didas repetidas em um indiv́ıduo requer um cuidado particular na caracterização da variação

    entre medidas dentro de uma mesma unidade experimental e entre unidades. Dados observados

    na mesma unidade experimental são correlacionados, e é provável que essa correlação decaia

    ao longo do tempo e que haja variações entre as medidas. Neste trabalho considera-se duas

    estruturas de covariâncias: erros aleatórios e independentes com média zero e variância σ2, esta

    formulação não incorpora uma posśıvel dependência entre as observações tomadas no mesmo

    indiv́ıduo, que é comum em estudos longitudinais. Portanto, é importante ter modelos que

    acomodem a dependência (entre e dentre dos indiv́ıduos) e a heterocedasticidade na sua for-

    mulação. Então, considerou-se outra estrutura de covariância, chamada não-estruturada, com

    a finalidade de permitir que os dados “contribuam”na estrutura da matriz de covariâncias.

    Neste trabalho analisou-se um delineamento em blocos casualizados assumindo um modelo

    bayesiano hierárquico de três estágios. No primeiro estágio, modelou-se a variação dentro do

    indiv́ıduo, no segundo estágio a variação entre indiv́ıduos. Este estágio da hierarquia dá uma

    relação expĺıcita entre os parâmetros aleatórios do modelo. No terceiro estágio foi incorpo-

    rada a incerteza relativa as quantidades desconhecidas no modelo. Para a análise estat́ıstica,

    utilizou-se um conjunto de dados de um experimento conduzido pela Klabin Fabricadora de

    Papel e Celulose S.A., do Paraná, Brasil, involvendo duas espécies de eucaliptos e espaçamentos

  • 10

    que foram completamente aleatorizados em blocos; em que a variável resposta, definida como

    o volume sólido com casca, foi observada em 16 indiv́ıduos, e quatro indiv́ıduos foram alea-

    torizados para cada um dos quatro tratamentos. O modelo de Gompertz foi utilizado para

    representar o crescimento esperado das árvores de eucaliptos. Usando o modelo de Gompertz

    é posśıvel ter uma interpretação biológica dos parâmetros. Considerando diferentes estruturas

    de covariância entre as observações, um programa para a análise de dados foi implementado

    no WinBUGS.

    Palavras-chave: Modelo bayesiano hierárquico; Medidas repetidas; WinBUGS; Eucalipto

  • 11

    ABSTRACT

    Nonlinear models for longitudinal data

    from experiments in randomized block design

    a bayesian framework

    Data consisting of repeated measurements taken on each of a number of indivi-

    dual arise commonly in agricultural and biological applications. Modeling data of this kind

    usually involves the characterization of the relationship between the measured response and

    covariate. In many application,the proposed systematic relationship between the measured

    response is nonlinear in unknown parameters of interest. For example, in growing studies of

    trees, generally the behavior of the response variable over time is best described by a nonli-

    near model in the parameters of interest because this model characterizes better the reality

    of biological phenomenon in study and because is possible to do a biological interpretation of

    the parameters. The presence of repeated observations on an individual requires particular

    care in characterizing the random variation among measurements within a given individual

    and random variation among individuals. Likely the observations made on the same unit are

    correlated, probability decreasing over time and possible the variances are growth among the

    serial measurements. In this work we considerer two covariance structure namely: independent

    random error vectors whose elements are also independent with mean zero and variance σ2,

    but this formulation does not incorporate possible dependence among the observation taken on

    the same subject neither that in longitudinal studies it is quite common to have the variances

    varying along the ordered dimension. Therefore, it is important to have models that allow

    for both dependences (within and between subjects) and also for heteroscedasticity in their

    formulations. Then we considerer other covariance structure namely: the structure is a non

    structure which permit that the data set “tells”about the covariance structure. In this work

    we analyzed a randomized block design assuming a three-stage Bayesian hierarchical model.

    On the first stage, we model the intra-individual variation, on the second stage, we model the

    inter-individual variation. This stage of hierarchy gives an explicit relationship between the

    random parameters. On the third stage, we define the hyperprior distribution to incorporate

    the uncertainty about the unknown parameters. For the statistical analysis we used a data set

  • 12

    from a experiment conducted at Klabin Fabricadora de Papel e Celulose S.A. from Paraná,

    Brazil, involving two Eucalyptus species and two spacings in a complete randomized design;

    where the response variable, defined as the solid volume with bark, was evaluated for each of 16

    subjects (groups of Eucalyptus trees), and four subjects were randomly assigned to one of four

    treatments. To represent the expected growing function of the Eucalyptus’s tree Gompertz

    nonlinear model was used. Using the Gompertz nonlinear model is possible to a biological

    interpretation of the parameters. Considering different structures covariance within subjects,

    a program for the analysis of the data set was implemented in WinBUGS.

    Keywords: Bayesian hierarchical model; Repeated measurements; WinBUGS; Eucalyptus

    nada

  • 13

    LISTA DE FIGURAS

    Figura 1 - Janela do aplicativo Specification Tool . . . . . . . . . . . . . . . . . . . . . 59

    Figura 2 - Janela do aplicativo Update Tool . . . . . . . . . . . . . . . . . . . . . . . . 60

    Figura 3 - Janela do aplicativo Sample Monitor Tool . . . . . . . . . . . . . . . . . . . 61

    Figura 4 - Resumo a posteriori para o parâmetro θ . . . . . . . . . . . . . . . . . . . . 62

    Figura 5 - Autocorrelação a posteriori para o parâmetro θ . . . . . . . . . . . . . . . . 63

    Figura 6 - Traço e histórico das cadeias para o parâmetro θ . . . . . . . . . . . . . . . 64

    Figura 7 - Quantis das cadeias para o parâmetro θ . . . . . . . . . . . . . . . . . . . . 64

    Figura 8 - Box plot para os tratamentos . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    Figura 9 - Perfil individual para cada uma das árvores de eucalipto . . . . . . . . . . . 88

    Figura 10 -Perfil individual para cada uma das árvores de eucalipto, agrupadas por bloco 89

    Figura 11 -Autocorrelação serial para os parâmetros σ e τ - ajuste 1 . . . . . . . . . . 96

    Figura 12 -Autocorrelação serial para os parâmetros do modelo - ajuste 1 . . . . . . . 96

    Figura 13 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 1 . . 97

    Figura 14 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 1 . . 98

    Figura 15 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 1 . . 99

    Figura 16 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 1 . . 100

    Figura 17 -Histórico e densidades a posteriori para σ e τ - ajuste 1 . . . . . . . . . . . 101

    Figura 18 -Curvas para o ajuste 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

    Figura 19 -Autocorrelação serial para os parâmetros do modelo - ajuste 2 . . . . . . . 114

    Figura 20 -Autocorrelação serial para Σi - ajuste 2 . . . . . . . . . . . . . . . . . . . . 115

    Figura 21 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 2 . . 116

    Figura 22 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 2 . . 117

    Figura 23 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 2 . . 118

    Figura 24 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 2 . . 119

    Figura 25 -Histórico e densidades a posteriori para Σi - ajuste 2 . . . . . . . . . . . . 120

    Figura 26 -Curvas para o ajuste 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

    Figura 27 -Autocorrelação serial para os parâmetros do modelo - ajuste 3 . . . . . . . 131

    Figura 28 -Autocorrelação serial para τ e τb - ajuste 3 . . . . . . . . . . . . . . . . . . 131

    Figura 29 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 3 . . 132

  • 14

    Figura 30 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 3 . . 133

    Figura 31 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 3 . . 134

    Figura 32 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 3 . . 135

    Figura 33 -Histórico e densidades a posteriori para τ e τb - ajuste 3 . . . . . . . . . . . 136

    Figura 34 -Curvas para o ajuste 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

    Figura 35 -Autocorrelação serial para os parâmetros do modelo - ajuste 4 . . . . . . . 146

    Figura 36 -Autocorrelação serial para Σi - ajuste 4 . . . . . . . . . . . . . . . . . . . . 147

    Figura 37 -Autocorrelação serial para τb - ajuste 4 . . . . . . . . . . . . . . . . . . . . 148

    Figura 38 -Histórico e densidades a posteriori associados ao tratamento 1 - ajuste 4 . . 148

    Figura 39 -Histórico e densidades a posteriori associados ao tratamento 2 - ajuste 4 . . 149

    Figura 40 -Histórico e densidades a posteriori associados ao tratamento 3 - ajuste 4 . . 150

    Figura 41 -Histórico e densidades a posteriori associados ao tratamento 4 - ajuste 4 . . 151

    Figura 42 -Histórico e densidades a posteriori para Σi - ajuste 4 . . . . . . . . . . . . 152

    Figura 43 -Histórico e densidade a posteriori para τb - ajuste 4 . . . . . . . . . . . . . 153

    Figura 44 -Curvas para o ajuste 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

    Figura 45 -Curvas para os ajustes 1 e 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 158

    Figura 46 -Curvas para os ajustes 2 e 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 159

    Figura 47 -Curvas para os ajustes 3 e 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 160

    Figura 48 -Curvas para os ajustes 1, 2, 3 e 4 . . . . . . . . . . . . . . . . . . . . . . . 161

  • 15

    LISTA DE TABELAS

    Tabela 1 - Estrutura de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    Tabela 2 - Volume sólido com casca (m3/ha) das árvores de eucaliptos . . . . . . . . . 66

    Tabela 3 - Medidas resumo para o tratamento 1 . . . . . . . . . . . . . . . . . . . . . . 85

    Tabela 4 - Medidas resumo para o tratamento 2 . . . . . . . . . . . . . . . . . . . . . . 86

    Tabela 5 - Medidas resumo para o tratamento 3 . . . . . . . . . . . . . . . . . . . . . . 86

    Tabela 6 - Medidas resumo para o tratamento 4 . . . . . . . . . . . . . . . . . . . . . . 86

    Tabela 7 - Variâncias, covariâncias e correlações . . . . . . . . . . . . . . . . . . . . . . 87

    Tabela 8 - Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 1 . . . . . . . . 93

    Tabela 9 - Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 1 . . . . . . . . 94

    Tabela 10 -Teste de Gelman e Rubin - ajuste 1 . . . . . . . . . . . . . . . . . . . . . . 95

    Tabela 11 -Medidas resumo para os parâmetros - ajuste 1 . . . . . . . . . . . . . . . . 102

    Tabela 12 -Intervalos de credibilidade 95% para os contrastes - ajuste 1 . . . . . . . . 106

    Tabela 13 -Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 2 . . . . . . . . 110

    Tabela 14 -Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 2 . . . . . . . . 111

    Tabela 15 -Teste de Gelman e Rubin - ajuste 2 . . . . . . . . . . . . . . . . . . . . . . 113

    Tabela 16 -Medidas resumo para os parâmetros - ajuste 2 . . . . . . . . . . . . . . . . 121

    Tabela 17 -Intervalos de credibilidade 95% para os contrastes - ajuste 2 . . . . . . . . 123

    Tabela 18 -Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 3 . . . . . . . . 128

    Tabela 19 -Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 3 . . . . . . . . 129

    Tabela 20 -Teste de Gelman e Rubin - ajuste 3 . . . . . . . . . . . . . . . . . . . . . . 130

    Tabela 21 -Medidas resumo para os parâmetros - ajuste 3 . . . . . . . . . . . . . . . . 137

    Tabela 22 -Medidas resumo para os efeitos aleatórios - ajuste 3 . . . . . . . . . . . . . 137

    Tabela 23 -Intervalos de credibilidade 95% para os contrastes - ajuste 3 . . . . . . . . 139

    Tabela 24 -Teste de Diagnóstico de Raftery e Lewis (cadeia 1) - ajuste 4 . . . . . . . . 143

    Tabela 25 -Teste de Diagnóstico de Raftery e Lewis (cadeia 2) - ajuste 4 . . . . . . . . 144

    Tabela 26 -Teste de Gelman e Rubin - ajuste 4 . . . . . . . . . . . . . . . . . . . . . . 145

    Tabela 27 -Medidas resumo para os parâmetros - ajuste 4 . . . . . . . . . . . . . . . . 153

    Tabela 28 -Medidas resumo para os efeitos aleatórios - ajuste 4 . . . . . . . . . . . . . 154

    Tabela 29 -Intervalos de credibilidade 95% para os contrastes - ajuste 4 . . . . . . . . 156

  • 16

  • 17

    1 INTRODUÇÃO

    Na experimentação, quer seja ela agronômica, biológica, tecnológica, ou outra

    qualquer, é muito comum se encontrarem dados provenientes de planejamentos longitudinais.

    Esses dados, chamados de dados longitudinais, são caracterizados pela observação repetida

    de uma ou mais variáveis respostas na mesma unidade experimental, em diferentes idades,

    diferentes ocasiões ou em alguma outra dimensão espećıfica. Esses dados podem ser de natureza

    discreta ou cont́ınua e exigem esforços no acompanhamento das unidades experimentais durante

    a realização do estudo, entretanto tem o atrativo de “economizar”unidades experimentais pois

    cada uma delas pode gerar diversas unidades de observação. Cada um desses conjunto de

    observação pode ser entendido como um perfil individual de respostas, pois contêm os valores

    da(s) variável(eis) resposta(s) em cada uma das ocasiões de observação.

    Usualmente, na experimentação de campo ou de casas de experimentação,

    utiliza-se o delineamento em blocos casualizados para controlar a variabilidade devido à algum

    fator, por exemplo, na experimentação agronômica de campo, é comum o uso de blocos para

    controlar a variabilidade do solo devido a diferenças de fertilidade, ou à declividade do terreno.

    O delineamento de um experimento planejado em blocos casualizados consiste no agrupamento

    das unidades experimentais (parcelas) similares, formando-se os blocos. O efeito de blocos deve

    ser levado em consideração na análise estat́ıstica de dados, uma vez que o não uso deste efeito

    pode comprometer os resultados da análise, pois a variabilidade devido a bloco será totalmente

    incorporada ao reśıduo, inflacionando-o.

    Neste trabalho os dados são longitudinais e proveninentes de um experimento

    casualizado em blocos, o qual é irregular em relação ao tempo, entretanto balanceado (com

    relação ao tempo) e completo, ou seja, não houve ausência de informação para nenhuma

    unidade observacional. A idéia para esta pesquisa surgiu de um estudo de modelos não-lineares

    para dados longitudinais provenientes de experimentos em blocos casualizados sob o ponto de

    vista da inferência clássica, proposto por Ogliari (1998).

    Ogliari (1998) salientou que: em crescimento de árvores, por exemplo, geralmente

    o comportamento da variável resposta no tempo é melhor descrito por um modelo não-linear,

    principalmente pelo interesse que se há nos parâmetros destes tipos de modelos, que em geral,

    possuem uma interpretação ligada a fenômenos biológicos intŕısecos ao estudo. E ainda, que

  • 18

    os delineamentos casualizados em blocos são muito frequentes na pesquisa agŕıcola e o efeito

    de bloco deve ser considerado no modelo estat́ıstico, devido a variabilidade relacionada a

    blocagem.

    Diante disto, o principal objetivo deste trabalho é a aplicação de métodos baye-

    sianos para a obtenção de resumos a posteriori de interesse no estudo de modelos não-lineares

    para dados longitudinais provenientes de experimentos em blocos casualizados.

    Os objetivos espećıficos do trabalho foram:

    i - Avaliar o crescimento das árvores de eucalipto, através do ajuste de curvas não-lineares,

    considerando a variável volume sólido com casca dada em (m3/ha).

    ii - Estudar as diferentes densidades de plantio.

    iii - Estudar as espécies e procedências de eucalipto para a produção de celulose e papel.

    Para a análise estat́ıstica foram utilizados dados de natureza cont́ınua que são

    oriundos de um experimento com árvores de eucalipto, cujo objetivo é o estudo do compor-

    tamento de diferentes espécies sob diferentes espaçamentos de plantio. Esse experimento foi

    conduzido pela empresa KLABIN FABRICADORA DE PAPEL CELULOSE S.A., no mu-

    nićıpio de Telemanco Borba, Paraná, Brasil, tendo sido instalado em janeiro de 1986.

    O delineamento experimental usado foi o de blocos casualizados num esquema

    fatorial 2 × 2. Foram utilizados 4 blocos, com o objetivo de controlar a heterogeneidade do

    solo, sendo 4 tratamentos aleatoriamente designados às unidades experimentais.

    O crescimento das árvores de eucaliptos foi avaliado aos 3, 4, 5 e 9 anos de idade,

    que correspondem aos anos de 1989, 1990, 1991 e 1995, respectivamente.

    Para o ajuste do modelo, considerou-se o modelo proposto por Ogliari (1998), o

    modelo de Gompertz, com três parâmetros, uma vez que os parâmetros deste modelo possuem

    uma interpretação biológica.

    Uma vez que os dados são longitudinais, é importante reconhecer explicitamente

    duas fontes de variação, a variação aleatória entre medidas dentro de uma dada unidade expe-

    rimental e a variação aleatória entre unidades experimentais. Além disso, uma caracteŕıstica

    importante desses tipos de dados é que, como as medidas são tomadas num mesmo indiv́ıduo,

  • 19

    espera-se que haja correlação entre as mesmas e que as variações não sejam constantes ao longo

    do tempo. Entretanto, apesar desse fato, é comum pesquisadores fazerem o ajuste de mode-

    los não-lineares supondo que os reśıduos sejam independentes, normalmente distribúıdos com

    variâncias homogêneas. Essa estrutura pode ser empregada em estudos onde sua adequação

    seja indicada através do estudo da matriz de covariância amostral. No presente trabalho, serão

    apresentadas duas formas para a matriz de covariância, uma estrutura de independência e uma

    estrutura mais geral, não-estruturada.

    Neste trabalho, a interação bloco × tempo não será adicionada no modelo, pois

    geralmente o número de blocos é pequeno e esse fato pode acarretar problemas na estimação

    dos parâmetros da matriz de covariâncias.

    Para a análise estat́ıstica dos dados foram desenvolvidas rotinas espećıficas no

    programa WinBUGS para modelos não-lineares no delineamento em blocos casualizados. En-

    tretanto, para os resultados gráficos, utilizou-se uma interface entre os programas WinBUGS

    e R, uma vez que este último apresenta uma melhor resolução gráfica.

  • 20

  • 21

    2 DESENVOLVIMENTO

    2.1 Revisão de Literatura

    2.1.1 Planejamentos Longitudinais

    É muito comum na área de experimentação, quer seja ela agronômica, biológica,

    tecnológica, ou outra qualquer, a ocorrência de medições (observações) em uma mesma unidade

    experimental, repetidas vezes, em diferentes ocasiões, profundidades, distanceamentos, pontos

    no espaço, etc. Essas medidas observadas na mesma parcela são comumente chamadas medidas

    repetidas.

    Os planejamentos com medidas repetidas onde a variável resposta é medida

    repetidas vezes na mesma unidade experimental ou em repetidas condições de avaliação são

    chamados de planejamentos longitudinais. Considerando-se que a obtenção da variável resposta

    é feita de maneira sistemática, por exemplo, no tempo, pressupõe-se uma correlação não nula

    entre as medidas, sobretudo entre duas medições, porém espera-se que esta decresça ao longo

    do tempo. É esperada, também, uma heterocedasticidade de variâncias. Com base nisso,

    vários estudos tem sido realizados com propostas para modelar variáveis observadas ao longo

    do tempo, sobretudo, propostas com diferentes estruturas de variâncias e covariâncias que

    acomodem essa correlação entre as medidas, uma vez que a estrutura de covariâncias tem uma

    influência direta sobre as estimativas da variabilidade dos parâmetros associados às médias e

    em alguns casos, pode afetar as próprias estimativas desses parâmetros (Lima, 1996).

    Em planejamentos longitudinais, em geral, o interesse está em estudar o com-

    portamento de uma ou mais variáveis resposta ao longo do tempo. Essas variáveis respostas

    podem ser cont́ınuas, por exemplo, alturas de árvores, ganho de peso, ou discretas, por exem-

    plo, número de ovos, número de brotos. As unidades experimentais podem constituir grupos

    segundo um ou mais tratamentos ou fatores, e cada uma dessas unidades pode gerar diver-

    sas unidades observacionais, de forma que cada um desses conjuntos de observações pode ser

    compreendido como um perfil individual de respostas à variável em pesquisa. O estudo desses

    perfis individuais servem como um ind́ıcio inicial do uso de efeitos aleatórios no modelo.

    Os dados provenientes de planejamentos longitudinais são chamandos de regu-

    lares, em relação ao tempo, quando todas as diferenças entre os tempos de duas medidas

  • 22

    quaisquer forem constantes. Serão considerados balanceados se as observações em todas as

    unidades experimentais forem feitas no mesmo instante de tempo. E quando o experimento

    não apresentar nenhuma observação perdida, a estrutura de dados será dita completa. Uma

    vez que estudos delineados de forma longitudinal podem durar dias, semanas, meses e/ou

    até mesmo anos, é comum a ocorrência de estudos longitudinais irregulares no tempo, não

    balanceados e incompletos , e por esse motivo, recentemente tem havido maior interesse no

    desenvolvimento de métodos estat́ısticos que possam ser utilizados em casos mais gerais.

    Os experimentos conduzidos sob planejamentos longitudinais permitem:

    i - a redução de recursos, com a não obtenção de novas unidades observacionais no decorrer

    do experimento;

    ii - redução do erro experimental;

    iii - em estudos onde há efeito residual dos tratamento, é posśıvel determinar e/ou eliminar

    este efeito, ou seja, proporcionam condições adequadas para controlar fatores acessórios

    que possam influenciar na resposta;

    iv - estudo das tendências de respostas aos tratamentos, pois cada conjunto de unidades de

    observações pode ser entendido como um perfil individual de respostas;

    v - aumento do tamanho amostral do experimento;

    vi - a melhoria, em geral, da precisão das estimativas de contrastes associados às diferenças

    entre os valores médios das respostas e de diferentes ocasiões.

    Em planejamentos longitudinais, em geral, o objetivo da análise é estudar o

    comportamento das variáveis ao longo do tempo, ou seja, estudar o perfil das variáveis ao

    longo do tempo, e comparar assim o efeito dos tratamentos, isto é, verificar se existe efeito dos

    fatores em estudo, tais como espécies, espaçamento, épocas, e assim por diante. Essa análise é

    feita através da comparação dos parâmetros das respectivas curvas. Essa metodologia de ajuste

    de curvas é conhecida como Análise de Curvas de Crescimento e uma maior versatilidade na

    aplicação desta técnica de análise de dados longitudinais é conseguida com a possibilidade de

    modelar a estrutura de covariâncias, buscando estruturas intermediárias entre a completamente

  • 23

    parametrizada e a uniforme, através da especificação de modelos de efeitos mistos, que tem o

    atrativo adicional de tratar situações em que dados não são balanceados em relação ao tempo

    (Lima, 1996). O ajuste dessas curvas de crescimento possibilita fazerem-se previsões da variável

    resposta média ao longo do tempo. Situações t́ıpicas de modelos de crescimento não-lineares

    ocorrem em estudos de crescimento de plantas e animais (Ogliari, 1998).

    Tabela 1 - Estrutura de dados

    Tratamentos Blocos Tempos

    1 2 · · · t

    1 1 y111 y112 · · · y11t1 2 y121 y122 · · · y12t...

    ......

    ......

    ...

    1 b y1b1 y1b2 · · · y1bt2 1 y211 y212 · · · y21t2 2 y221 y222 · · · y22t...

    ......

    ......

    ...

    2 b y2b1 y2b2 · · · y2bt...

    ......

    ......

    ...

    g 1 yg11 yg12 · · · yg1tg 2 yg21 yg22 · · · yg2t...

    ......

    ......

    ...

    g b ygb1 ygb2 · · · ygbt

    A presença de delineamentos em blocos casualizados nos planejamento longitudi-

    nais, em geral, é comum na experimentação agronômica. Este tipo de delineamento consiste no

    agrupamento das unidades experimentais (parcelas) similares, formando-se os blocos. O efeito

    de bloco deve ser considerado na análise estat́ıstica dos dados, caso contrário, pode ocorrer um

    comprometimento dos resultados finais, pois a variabilidade devida a bloco estará totalmente

    inclusa no efeito residual, inflacionando o mesmo.

  • 24

    A estrutura básica de um conjunto de dados longitudinais proveninentes de um

    planejamento em blocos casualizados, pode ser representada através de uma matriz de dados,

    como apresentado por Lima (1996), e indicada na Tabela 1, em que yijk representa a medida da

    variável resposta obtida no tratamento i (i = 1, · · · , g), bloco j (j = 1, · · · , b) e tempo k (k =

    1, · · · , t). Considerando a estrutura apresentada na Tabela 1, a cada unidade experimental (ij)

    está associado um vetor y′

    ij = [yij1, yij2, · · · , yijt] de dimensão t, o qual é denominado perfil

    individual de respostas, cujos componentes são os valores observados da variável resposta ao

    longo do tempo.

    Andreoni (1989), Lima (1996), Brandão (1996), Ogliari (1998) e Barbosa (2009)

    discutiram que as técnicas de análise usualmente empregadas na análise de planejamentos lon-

    gitudinais procuram descrever o comportamento da variável de interesse em função do tempo,

    através de curvas, e comparar efeitos de tratamentos através da comparação dos parâmetros

    das respectivas curvas. Assim, por exemplo, se em um experimento deseja-se comparar o ganho

    de peso de animais, submetidos a duas dietas nutricionais, ajusta-se, por exemplo, uma reta

    para cada grupo de animais submetidos a cada dieta, e a diferença entre a eficiência das duas

    dietas pode ser avaliada através da comparação dos coeficientes lineares e angulares das duas

    retas. Estas técnicas de análise podem ser facilmente obtidas nos principais pacotes de análise

    estat́ıstica, como o SAS, R, S-Plus, dentre outros.

    2.1.2 O Modelo de Gompertz

    Em muitos planejamentos longitudinais onde a variável resposta é o crescimento

    de uma determinada unidade observacional ao longo do tempo, por exemplo, crescimento de

    árvores, crescimento de indiv́ıduos ou crescimento de colônias de bactérias, o uso de modelos

    não-lineares tem sido muito empregado, com desempenho satisfatório na descrição dos dados.

    Dentre os modelos não-lineares comumente utilizados na modelagem estat́ıstica,

    pode-se citar o loǵıstico, exponencial, Richards, Von Bertalanfly, Jenss e Gompertz. Estes

    modelos, na literatura estat́ıstica, são conhecidos como modelos de crescimento, pelo fato de

    incorporarem as informações sobre o processo de crescimento, o que os diferencia dos modelos

    polinomais.

    A diferença entre os modelos polinomiais e os modelos não-lineares, além do fato

  • 25

    dos modelos não-lineares não apresentarem linearidade nos parâmetros, encontra-se na flexibili-

    dade dos modelos não-lineares em incorporar informações sobre o processo de crescimento, pois

    ao contrário dos modelos polinomais, os parâmetros dos modelos não-lineares possuem uma

    interpretação diretamente ligada ao experimento, por exemplo, alguma interpretação biológica,

    f́ısica, e assim por diante.

    Em relação a possibilidade de descrever curvas de crescimento, um modelo muito

    discutido na literatura, é o modelo de Gompertz. Nokoe, 1980 apud Ogliari 1998, utilizou este

    modelo com sucesso no ajuste de dados de volume com idade para Pseudotsuga menziesii

    (Mrb). As curvas do modelo apresentam a forma de uma sigmóide (forma de S), assim como

    o modelo loǵıstico.

    Neste trabalho será considerada para o modelo de Gompertz a paramentrização

    dada por,

    y = α1 exp

    {− exp

    {−α3

    (x− α2

    α3

    )}}. (1)

    Considerando o modelo de Gompertz, como descrito em (1), com domı́nio R+,

    tem-se que,

    limx→+∞

    (α1 exp

    {− exp

    {−α3

    (x− α2

    α3

    )}})= α1. (2)

    Assim, observa-se que o modelo de Gompertz apresenta asśıntota horizontal, a reta y = α1.

    A primeira derivada da função dada em (1) é dada por:

    y′= α1α3 exp

    {−α3

    (x− α2

    α3

    )}exp

    {− exp

    {−α3

    (x− α2

    α3

    )}}que pode ser simplificada para,

    y′= α1α3 exp {−α3x+ α2 − exp {−α3x+ α2}} .

    E assim, pode-se verificar que se a derivada é positiva ∀x ∈ R+, o modelo de Gompertz define

    uma função crescente. A segunda derivada da função em (1) é dada por:

    y′′

    = −α1α23 exp{−α3

    (x− α2

    α3

    )}exp

    {− exp

    {−α3

    (x− α2

    α3

    )}}+

    +α1α23

    (exp

    {−α3

    (x− α2

    α3

    )})2exp

    {− exp

    {−α3

    (x− α2

    α3

    )}}

  • 26

    que pode ser simplificada para,

    y′′

    = −α1α23(exp {−α3x+ α2 − exp {−α3x+ α2}} −

    − exp {−2α3x+ 2α2 − exp {−α3x+ α2}}).

    Assim, igualando a segunda derivada à zero, tem-se,

    y′′

    = 0⇒ x = α2α3. (3)

    Desta forma, o ponto de inflexão do modelo de Gompertz é expresso porα2α3

    , o que implica que

    o crescimento é rápido até o valor de x atingirα2α3

    e depois existe uma mudança no crescimento,

    ele se torna menos veloz.

    2.1.3 Modelos Não-Lineares

    2.1.3.1 Abordagem Clássica

    Em geral, modelos não-lineares para medidas repetidas podem ser expressos da

    seguinte forma

    yi = f(Xi, ai, αi) + �i, i = 1, · · · , n (4)

    em que yi = [yi1, · · · , yipi ]′

    é um vetor pi × 1 de medidas repetidas na i-ésima unidade expe-

    rimental; n é o número de unidades experimentais; X é a matriz modelo, pi × t, de variação

    entre os indiv́ıduos; ai é um vetor q × 1 de covariação entre indiv́ıduos; αi é um vetor r × 1

    de parâmetros para o i-ésimo indiv́ıduo; f é alguma função espećıfica de (Xi, ai, αi) e �i é

    um vetor pi × 1 correspondente ao erro aleatório. Cada modelo apresentado neste trabalho

    representa um caso especial de (4) e são derivados pela especificação de uma estrutura apro-

    priada para αi e �i. Especificamente, o modelo em (4) foi utilizado na abordagem clássica para

    derivar versões não-lineares dos modelos GMANOVA e dos modelos lineares mistos, (Vonesh e

    Chinchilli, 1997). Vonesh e Chinchilli (1997) focaram primeiramente na estimação e inferência

    estat́ıstica associada a versões não-lineares dos modelos GMANOVA e lineares mistos para

    dados normalmente distribúıdos.

  • 27

    2.1.3.2 Modelagem do Efeito de Bloco

    Ogliari (1998), do ponto de vista clássico, introduziu o efeito de bloco no modelo

    como um fator extra de forma linear,

    yi = f (Xi, αi) + 1piδi + Λ1/2i �i, i = 1, 2, · · · , b (5)

    onde

    1. yi = [yi1, yi2, · · · , yini]′

    é um vetor ni × 1, da variável resposta para o i-ésimo bloco,

    i = 1, · · · , b, e ni é o número de unidades experimentais dentro do bloco i.

    2. yij =[yij1, yij2, · · · , yijpij

    ]′é um vetor pij × 1, das medidas repetidas para a j-ésima

    unidade experimental dentro do bloco i, j = 1, · · · , ni.

    3.

    Xi =

    X i1

    X i2

    · · ·

    X i4

    ,

    é a matriz modelo, de dimensão pi × t que acomoda a variação dentro das unidades

    experimentais para todos as unidades dentro do bloco i,∑ni

    j=1 pij eX ij é a matriz modelo

    de dimensão pij × t de variação dentro das unidades para a j-ésima unidade dentro do

    i-ésimo bloco.

    4. αi é um vetor de parâmetros para o bloco i, de dimensão ri × 1.

    5. fi (Xi, αi) é um vetor funcional pi × 1 que é possivelmente não-linear em αi.

    6. �i = [�i1, �i2, · · · , �ini]′

    onde �ij =[�ij1, �ij2, · · · , �ijpij

    ]′são vetores de dimensão

    pi × 1 que acomoda o erro-aleatório dentro do bloco consistindo de componentes eijque são independentes e identicamente distribúıdos (i.i.d.) e independentes de bi, �i ∼

    Npi(0, Ini

    ⊗[σ2Ipij

    ]), j = 1, · · · , ni

    7. 1pi = [1, 1, · · · , 1]′

    é um vetor de dimensão pi × 1.

  • 28

    8. δi é o efeito do bloco i, i = 1, · · · , b que são variáveis aleatórias (i.i.d.) com média zero

    e variância σ2b , e independente dos outros termos.

    9. n =∑b

    i=1 ni é o número de unidades experimentais.

    10. Λi = Ini⊗

    Λij é uma matriz pi × pi conhecida que é função dos αi e Λ1/2i é a Decom-

    posição de Cholesky da matriz Λi.

    Assim,

    E [Y ] = f (Xi, αi) e V ar [Y ] = Σi (α, θ) (6)

    onde,

    Σi = σ2b1pi1

    pi+ Ini

    ⊗(σ2Λij), i = 1, · · · , b e j = 1, · · · , ni.

    Se Σi = Ipij , a formulação em (5) induz a uma estrutura de variância-

    covariâncias uniforme para as observações tomada no mesmo bloco, o que não é esperado

    para este tipo de dados. Em particular, também não é esperado que as observações tomada no

    mesmo sujeito (indiv́ıduo) sejam iguais as correlações entre observações tomadas em indiv́ıduos

    diferentes do mesmo bloco. É necessário inserir um especificação geral para Σi. Seja Σij uma

    matriz de covariâncias de dimensão pi× pi de yij, como se os dados tivessem sido coletados de

    um experimento inteiramente casualizado, então,

    Σij = σ2b1pi1

    pi+ Ini

    ⊗(σ2Λij), j = 1, · · · , b e i = 1, · · · , nj.

    onde diferentes especificações para Σi podem ser obtidas de diferentes estruturas de Λij

    (Ogliari, 1998).

    Ogliari(1998) também inseriu o efeito de blocos no modelo de forma não-linear,

    como,

    yi = f(Xi, α

    ∗i

    )+ �i, i = 1, 2, · · · , b (7)

    com α∗i = g (ai,αi) + Biδi, δi ∼ N(0, σ2b ), Bi é um vetor qj × 1 conhecido, e yi, fi e �icomo definidos no ińıcio desta seção. Em ambos os modelos, (6) e (7) o efeito de bloco foi

    considerado como aleatório. Os modelos (6) e (7) foram utilizados por Ogliari (1998) com

  • 29

    diferentes estruturas de covariância do ponto de vista clássico e três métodos de estimação: 1)

    método dos mı́nimos quadrados generalizados (GLS); 2) método da máxima verossimilhança

    (ML) e 3) método da máxima verossimilhança restrista (REML). Pela comparação dos modelos

    com e sem efeito aleatório de bloco, foi observado que o modelo (7) estima com mais precisão

    que o modelo (6). Ogliari (1998) também observou que existe diferença entre os tratamentos,

    formados pela combinação de espaçamento e espécie, mas não observou interação entre eles.

    2.1.4 Estat́ıstica Bayesiana

    No estudo de dados provenientes de planejamentos longitudinais, do ponto de

    vista clássico, Crowder e Hand (1990), Vonesh e Chinchilli (1997), Molenberghs e Verbeke

    (2000), Verbeke e Molenberghs (2005) apud Barbosa (2009), apresentaram uma evolução

    histórica da utilização de modelos lineares mistos na análise de dados longitudinais, sendo

    que a estimação dos parâmetros neste tipo de modelo é baseada na verossimilhança dos dados.

    E quando os dados não são normalmente distribúıdos, algumas abordagens envolvendo mo-

    delos lineares generalizados foram propostas por Venezuela (2003), Verbek (2005), de acordo

    com Barbosa (2009).

    Para Lindley (1990) apud Paulino et al.( 2003), a substituição dos métodos

    clássicos pelos métodos bayesianos de análise representam uma verdadeira revolução cient́ıfica.

    Para Paulino (2003) o ińıcio do paradigma bayesiano foi lançado por Richard Price quando em

    1763 publicou a obra póstuma do Rev. Thomas Bayes intitulada “An Essay Towards Solving

    a Problem in the Doctrine of Chances”.

    Entretanto, em relação propriamente as idéias bayesianas e a sua aplicação à mo-

    delagem estat́ıstica, deve citar-se Harold Jeffreys (mais citado nas obras apenas como Jeffreys)

    que, reagindo contra a posição predominante clássica em meados de 1939, sem apoio, e segundo

    Paulino (2003), solitário, conseguiu ressuscitar o bayesianismo dar-lhe status lógico e avançar

    com soluções de problemas estat́ısticos que naquele tempo persistiam sem uma solução, do

    ponto de vista clássico. A partir dáı a lista de bayesianos foi aumentando sucessivamente e,

    na impossibilidade de citar todos, merecem realce os nomes Good, Savage e Lindley.

    Dentro da Estat́ıstica Bayesiana, o Teorema de Bayes ocupa lugar crucial. Consi-

    dere inicialmente um espaço de probabilidades (Ω, ζ, P ), em que:

  • 30

    i - Ω é um conjunto não-vazio com elementos ω, ω ∈ Ω, e subconjuntos A, A ⊆ Ω;

    ii - ζ é uma σ-álgebra de subconjuntos de Ω;

    iii - P é uma probabilidade para os acontecimentos (eventos) A ⊆ Ω, A ∈ ζ, em que P (A) é

    a probabilidade da ocorrência de A.

    Considere uma partição finita ou infinita de Ω

    A1, A2, · · · , Am, P (Ai) > 0, Ai ∩ Aj = ∅, i 6= j,∪iAi = Ω.

    Dado um outro evento B qualquer, com P (B) > 0, verifica-se a decomposição de B na união

    de conjuntos disjuntos

    B = ∪i(Ai ∩B).

    E consequentemente, pela aditividade da função P e à definição de probabilidade condicionada,

    tem-se,

    P (B) =∑i

    P (Ai ∩B).

    E finalmente,

    P (Ai ∩B) = P (B|Ai)P (Ai) = P (Ai|B)P (B),

    ou equivalentemente

    P (Ai|B) =P (B|Ai)P (Ai)

    P (B)=

    P (B|Ai)P (Ai)∑i P (B|Ai)P (Ai)

    , (8)

    que é chamado de Teorema de Bayes.

    Uma forma de interpretar o Teorema de Bayes consiste em considerar os eventos

    Ai = 1, 2, · · · ,m, como “antecedentes”, “causas”, “hipóteses”ou “estados”a que o investigador

    atribuir graus de credibilidade (incorpora incerteza) ou probabilidades a priori P (Ai), i =

    1, 2, · · · ,m, de natureza subjetiva. Depois da informação adicional que consiste em saber

    que o evento B se realizou (o evento B pode ser a observação de um conjunto de dados), o

    pesquisador revê as suas probabilidades a priori através da fórmula de Bayes e passa a atribuir

    aos Ai, i = 1, 2, · · · ,m as probabilidades a posteriori P (Ai|B), i = 1, 2, · · · ,m.

  • 31

    Considerando que o investigador está na completa ignorância a respeito dos

    eventos Ai, i = 1, 2, · · · ,m, a proposta de Laplace, também conhecida como prinćıpio da razão

    insuficiente ou critério de Bayes-Laplace, consiste em atribuir probabilidades iguais aos Ai,

    i = 1, 2, · · · ,m, P (Ai) =1

    m, obtendo-se a expressão (8), em vez de (3),

    P (Ai|B) =P (B|Ai)∑i P (B|Ai)

    . (9)

    Os resultados apresentados em (8) e (9) são estendidos para o caso em que os eventos Ai,

    i = 1, 2, · · · ,m, estão associados à variáveis aleatórias.

    Seja θ uma quantidade desconhecida de interesse, tipicamente não observável. A

    informação que se dispõe a respeito de θ, resumida probabilisticamente através de p(θ), pode

    ser atualizada observando-se uma quantidade de interesse aleatória X, cuja distribuição de

    probabilidade está relacionada com θ. Esta relação pode ser descrita através da distribuição

    amostral de p(x|θ). A idéia de que após se observar X = x a quantidade de informação sobre

    θ é modificada é bastante intuitiva e o Teorema de Bayes é a regra de atualização utilizada

    para quantificar o aumento dessa informação, podendo o mesmo ser expresso por,

    p(θ|x) = p(θ, x)p(x)

    =p(x|θ)p(θ)p(x)

    =p(x|θ)p(θ)∫p(θ, x)dθ

    . (10)

    Observe que em (10),1

    p(x), que não depende de θ, funciona como uma constante

    normalizadora de p(θ|x) .

    Considerando um valor fixo de x, a função L(θ|x) = p(x|θ) fornece a plausibi-

    lidade ou verossimilhança de cada um dos posśıveis valores de θ enquanto p(θ) é chamada

    distribuição a priori de θ. Estas duas fontes de informação, verossimilhança e priori, são com-

    binadas de forma a levar à distribuição a posteriori de θ, p(θ|x). Sob estas condições, a forma

    usual do Teorema de Bayes, é dada por,

    p(θ|x) ∝ L(θ|x)p(θ). (11)

    Em palavras, tem-se,

    distribuição a posteriori ∝ verossimilhança × distribuição a priori.

  • 32

    Observe que ao se omitir p(x), a igualdade em (10) foi substitúıda por uma

    proporcionalidade. Esta forma simplificada do Teorema de Bayes é útil em problemas que en-

    volvam estimação de parâmetros já que o denominador é apenas uma constante normalizadora.

    Em outras situações, como seleção de modelos, este termo tem um papel crucial.

    A constante normalizadora da posteriori pode ser facilmente recuperada pois

    p(θ|x) = kp(x|θ)p(θ) em que

    k−1 =

    ∫p(x|θ)p(θ)dθ = Eθ[p(X|θ)] = p(x),

    a qual é chamada de distribuição preditiva a prori. Esta é a distribuição esperada para a

    observação x dado θ. A distribuição preditiva de Y dado x é obtida por integração como,

    p(y|x) =∫p(y, θ|x)dθ =

    ∫p(y|θ, x)p(θ|x)dθ.

    Em muitos problemas estat́ısticos a hipótese de independência condicional entre X e Y dado

    θ está presente e a distribuição preditiva fica

    p(y|x) =∫p(y|θ)p(θ|x)dθ.

    Nota-se que os conceitos de priori e posteriori são relativos àquela observação que

    está sendo considerada no momento. Assim, p(θ|x) é a posteriori de θ em relação a X (que já

    foi observado) mas é a priori de θ em relação a Y (que não foi observado ainda). Após observar

    Y = y uma nova posteriori (relativa a X = x e Y = y) é obtida aplicando-se novamente o

    Teorema de Bayes. Pode-se então questionar se esta posteriori final depende da ordem em

    que as observações x e y foram processadas. Observando-se as quantidades x1, x2, · · · , xn,

    independentes dado θ e relacionadas a θ através de pi(xi|θ) segue que,

    p(θ|x1) ∝ L(θ|x1)p(θ)

    p(θ|x2, x1) ∝ L(θ|x2)p(θ)...

    p(θ|xn, xn−1, · · · , x1) ∝

    [n∏i=1

    L(θ|xi)

    ]p(θ)

    p(θ|xn, xn−1, · · · , x1) ∝ L(θ|xn)p(θ|xn−1, · · · , x1).

  • 33

    Ou seja, a ordem em que as observações são processadas pelo Teorema de Bayes

    é irrelevante.

    2.1.4.1 Prinćıpio de Verossimilhança

    Seja X1, X2, · · · , Xn uma amostra aleatória de tamanho n da variável aleatória

    X com função de densidade (ou de probabilidade) f(x|θ), com θ ∈ Θ, onde Θ é o espaço

    paramétrico. A função de verossimilhança de θ correspondente à amostra aleatória observada

    é expressa por,

    L(θ|x) = Πni=1f(xi|θ)

    A função de verossimilhança tem papel fundamental tanto na inferência clássica

    como na inferência bayesiana, como véıculo portador da informação contida na amostra. Por-

    tanto, o prinćıpio da verossimilhança sustenta que toda a informação dada pela amostra ou

    pela experiência está contida na função de verossimilhança, ou seja, a observação particular

    ou amostra concreta xi representa o único elemento do espaço amostral Ω, para qualquer que

    seja Ω, relevante nas inferências sobre θ; assim os elementos de Ω que poderiam eventualmente

    ter sido observados, mas que não o foram, não fornecem qualquer informação adicional que

    poderia influenciar nas inferências sobre θ.

    2.1.4.2 Distribuição a Priori

    A utilização da informação a priori na Estat́ıstica Bayesiana requer uma distri-

    buição a priori, que incorpore a incerteza que se tem a respeito da quantidade de interesse

    desconhecida θ . Esta distribuição deve representar probabilisticamente a informação a priori

    a respeito de θ que se pretende incorporar na análise antes da realização do experimento.

    De acordo com Gelman et al. (2004), a distribuição a priori é “chave”da In-

    ferência Bayesiana e representa a informação sobre a incerteza a respeito do parâmetro de

    interesse, em geral desconhecido, θ, que é combinado com a distribuição de probabilidade dos

    novos dados para gerar a distribuição a posteriori, que é utilizada para inferências futuras e

    decisões a respeito de θ.

  • 34

    2.1.4.2.1 Priori Conjugada

    A idéia é que tanto a distribuição a priori como a distribuição a posteriori façam

    parte da mesma classe de distribuições de tal maneira que a atualização da informação a

    respeito de θ esteja relacionada a apenas uma mudança nos parâmetros dessa distribuição.

    Seja então F = {p(x|θ), θ ∈ Θ} uma classe de distribuições amostrais, então

    uma classe de distribuições P é conjugada a F se e somente se ∀ p(x|θ) ∈ F e p(θ) ∈ P =⇒

    p(θ|x) ∈ P .

    O uso de prioris conjugadas deve ser feito de maneira cautelosa, pois nem sempre

    a priori será uma representação adequada da incerteza a priori. A famı́lia distribucional a

    selecionar onde se vai procurar o membro condizente com os resumos eliciados deve idealmente

    satisfazer os seguintes requisitos:

    i - Versatilidade para acomodar maior número de crenças a priori;

    ii - Acessibilidade interpretativa para facilitar o processo de sumarização dos seus membros;

    iii - Simplicidade da derivação anaĺıtica das distribuições a posteriori e preditivas.

    No caso da existência de uma constante k tal que

    k−1 =

    ∫L(θ|x)dθ

  • 35

    Nota-se então que L(θ|x) é proporcional a densidade de uma Distribuição Beta(t+1, n−t+1).

    E desde que p1, p2 sejam as densidades das distribuições Beta(a1, b1) e Beta(a2, b2), segue então

    que,

    p1p2 ∝ θa1+a2−2(1− θ)b1+b2−2,

    ou seja, p1p2 é proporcional a densidade da Distribuição Beta(a1 + a2 − 1, b1 + b2 − 1). Tal

    resultado faz com que conclua-se que a famı́lia de distribuições Beta com parâmetros inteiros

    é conjugada natural à famı́lia Bernoulli.

    2.1.4.2.2 Priori Não-Informativa

    Em algumas situações o pesquisador que trabalha com Inferência Bayesiana não

    tem um conhecimento a priori palpável, de natureza objetiva ou subjetiva (“indiferença a

    priori”), ou em algumas situações, a informação que se tem é pouco significativa relativamente

    à informação amostral (conhecimento vago ou difuso). Nestas circunstâncias, focam-se os prin-

    cipais métodos que conduzem o pesquisador a distribuições a priori minimamente informativas,

    que são denominadas distribuições não informativas.

    Essas distribuições eram interpretadas como representações formais de

    ignorância, porém hoje existe uma tendência de serem tidas como opções convencionais de

    efeito a que se recorre em caso de informação a priori insuficiente. Tais distribuições desem-

    penham um papel de referência na Inferência Bayesiana, mesmo quando se dispõe de fortes

    crenças a priori, como forma de:

    i - Deduzir as crenças a posteriori para quem parte de um conhecimento escasso;

    ii - Permitir a comparação com os resultados da Inferência Clássica que “apenas”usa a in-

    formação amostral;

    iii - Averiguar a influência nas inferências da distribuição a priori subjetiva que descreve

    a informação realmente existente, quando confrontada com as que resultam do uso da

    distribuição a priori de referência.

    A primeira idéia de “não-informação”a priori que se pode ter é pensar em todos

  • 36

    os posśıveis valores de θ como igualmente prováveis; porém, esta escolha de priori pode trazer

    algumas dificuldades, como,

    i - quando o intervalo de θ é ilimitado a distribuição a priori é imprópria, ou seja,∫p(θ)dθ =

    ∞.

    ii - Se ϕ = g(θ) for uma reparametrização não-linear monótona de θ então p(ϕ) é não uni-

    forme, pois pelo teorema de transformação de variáveis sabe-se que p(ϕ) = p(θ(ϕ))

    ∣∣∣∣ dθdϕ∣∣∣∣ ∝∣∣∣∣ dθdϕ

    ∣∣∣∣.Em situações reais, como o objetivo principal está na informação proveniente

    da Distribuição a Posteriori, pouca importância é dada à impropriedade da Distribuição a

    Priori, porém, deve-se sempre certificar-se de que a posteriori é própria antes de fazer qualquer

    inferência.

    A seguir serão apresentados alguns meios de obtenção das Distribuições a Priori

    não-informativas.

    1. Método de Bayes-Laplace

    A primeira tentativa em se gerar distribuições a priori não-informativas foi o

    Prinćıpio a Razão Insuficiente, devido a Bayes-Laplace, o qual enuncia que na ausência de

    razão suficiente para privilegiar umas possibilidade em detrimento de outras, decorrente da

    escassez de informação a priori, deve-se optar a eqüiprobabilidade.

    Considere o caso em que Θ é finito, ou seja,Θ = {θ1, · · · , θk}, a distribuição

    não-informativa a ser gerada por este argumento será a Distribuição Uniforme Discreta, com,

    h(θ) =1

    k, θ ∈ Θ.

    No caso em que Θ for um conjunto infinito enumerável não existirá nenhuma

    distribuição de probabilidade compat́ıvel com a eqüiprobabilidade de todos os valores posśıveis

    dos elementos de Θ. A Distribuição Uniforme Discreta nesta situação não satisfaz o axioma

    de probabilidade total unitária, sendo nessa situação denominada de distribuição imprópria.

    A representação da “indiferença”por distribuições uniformes é inconsistente no

    sentido em que se ψ = ψ (Θ) é uma transformação injetora de um parâmetro θ, que assume

  • 37

    uma gama cont́ınua de valores posśıveis, as distribuições uniformes para θ e ψ, não são, em

    regra, probabilisticamente compat́ıveis. Observa-se que sendo h(θ) uma distribuição a priori

    para θ, então,

    h(ψ) = h [θ (ψ)]

    ∣∣∣∣ dθdψ∣∣∣∣

    deve ser a correspondente distribuição para a reparametrização injetora , que não é necessa-

    riamente uniforme quando h(θ) o é.

    Como exemplo, seja um processo de amostragem de parâmetro θ ∈ (0, 1), onde θ

    está associado a um processo de Bernoulli. De acordo com o Método de Bayes-Laplace, a não-

    informação que se tem sobre θ deve ser formalmente representada pela Distribuição Uniforme

    Cont́ınua (0, 1).

    Uma usual reparametrização utilizada é o parâmetro natural da subfamı́lia ex-

    ponencial, ψ = ln

    1− θ

    ]. A distribuição para ψ implica em θ ∼ U(0, 1), que é a distribuição

    loǵıstica reduzida, com parâmetro de localização 0 e parâmetro de escala 1,

    h(ψ) =eψ

    (1 + eψ)2, ψ ∈ R,

    o que viola o argumento de que a informação a priori deve ser representada por distribuições

    uniformes.

    Desta forma o uso de uma Distribuição Uniforme para ψ, agora uma distribuição

    imprópria, irá corresponder para θ à distribuição,

    h(θ) ∝ θ−1(1− θ)−1, θ ∈ (0, 1),

    a qual é o núcleo de uma Distribuição Beta(a, b), com a = b = 0. Esta distribuição para θ é

    também conhecida como Distribuição Não-Informativa de Haldane.

    2. Método de Jeffreys

    A cŕıtica a inconsistência da distribuição uniforme na representação da não-

    informação a priori denota que esta deve ser invariante. Diante disto Jeffreys se baseia no uso

    da medida de informação de Fisher sobre θ ∈ R,

    I(θ) = E

    [(∂ ln f(X|θ)

    ∂θ

    )2|θ

    ].

  • 38

    o que mostra que a distribuição proposta por Jeffreys para o caso uniparamétrico,

    h(θ) = [I(θ)]1/2

    goza da propriedade de invariância mencionada anteriormente.

    Aqui o conceito de informação está sendo associado a uma espécie de curvatura

    média da função de verossimilhança no sentido de quanto maior a curva, mais precisa é a

    informação contida na função de verossimilhança, ou equivalentemente, maior o valor de I(θ).

    No geral, espera-se que a curvatura seja negativa, e por questões matemáticas, seu valor é

    tomado com sinal trocado. Além disso, deve-se notar que I(θ) é tanto maior quanto maior for

    a taxa quadrática com θ de ln f(X|θ).

    No caso uniparamétrico Jeffreys defendeu os argumentos do prinćıpio da razão

    insuficiente para Θ finito, da invariância sob transformações lineares para parâmetros de loca-

    lização em que Θ é um intervalo limitado ou R e da invariância sob potências de parâmetros

    de escala, como o desvio-padrão em que Θ = R+ , resultando em,

    h(θ) ∝ θ−1I(0,+∞)(θ).

    Exemplificando, considere que X1, X2, · · · , Xn ∼ Poisson(θ). O logaritmo da

    função de probabilidade conjunta é dado por,

    log p(x|θ) = −nθ +n∑i=1

    xi log θ − logn∏i=1

    xi!,

    e tomando-se a segunda derivada desta expressão, tem-se que,

    ∂2 log p(x|θ)∂θ2

    =∂

    ∂θ

    [−n+

    ∑ni=1 xiθ

    ]=−∑n

    i=1 xiθ2

    ,

    logo,

    I(θ) =1

    θ2E

    [n∑i=1

    xi

    ]=n

    θ∝ θ−1.

    Desta forma, a distribuição priori não-informativa de Jeffreys para θ no Modelo

    de Poisson é p(θ) ∝ θ−1/2 , a qual é obtida tomando-se a conjugada natural Gama e fazendo-se

    α =1

    2e β → 0.

    Na prática a priori não-informativa é obtida fazendo-se o parâmetro de escala

    da distribuição conjugada tender a zero e fixando-se os demais parâmetros convenientemente.

  • 39

    3. Método de Box-Tiao

    Box e Tiao procuraram definir critérios que permitissem retratar a idéia vaga

    da informação a priori, e deste modo, gerar distribuição a priori não-informativa. Sua idéia

    base foi procurar uma reparametrização ψ = ψ(θ) do modelo {f(x|θ : θ ∈ Θ}, para a qual a

    verossimilhança fosse apenas transladada pelos dados, de forma que,

    L(θ|x) ≈ g [ψ(θ)−m(x)] ,

    onde g é uma função cuja forma é independente de x e m(x) a função que descreve a translação

    de L com a variação de x. Sendo detectada uma transformação ψ deste tipo, considera-se para

    ela uma distribuição que assegure que a respectiva distribuição a posteriori seja essencialmente

    a verossimilhança normalizada, de forma que essas distribuições para diferentes amostras de-

    firam umas das outras apenas pela localização.

    Box e Tiao propuseram para ψ uma distribuição própria cuja densidade seja

    sensivelmente constante na gama de valores apreciáveis de L(ψ|x), e que de fora dela os seus

    valores não sejam, pelo menos, muito plauśıveis para garantir que, em termos aproximados,

    h(ψ|x) ≈ L(ψ|x)∫L(ψ|x)

    .

    Distribuições desta forma apresentam uma densidade essencialmente uniforme

    sobre os valores significativos da verossimilhança, decaindo para zero à medida que se afasta

    desses valores, o que significa a designação de distribuições localmente uniformes. Assim, sendo

    h(ψ) ∝ c localmente, a distribuição não-informativa para Box-Tiao para o parâmetro original

    θ é aproximadamente proporcional ao Jacobiano da transformação ψ(θ), o que é representado

    por,

    h(θ) ∝∣∣∣∣dψdθ

    ∣∣∣∣ .Considere como exemplo, o contexto de uma amostra aleatória da Distribuição

    de Bernoulli, com parâmetro θ. Considerando-se que θ̂ =t

    n, onde t =

    ∑ni xi com t 6= 0, tem-se

    J(θ, t) =

    t

    nθ2

    +1− t

    n(1− θ)2

    =θ̂

    θ2+

    1− θ̂(1− θ)2

    ,

  • 40

    de onse segue que,

    J(θ̂) = [θ̂(1− θ̂)]−1.

    Nota-se então que a Distribuição a Priori Não-Informativa para θ é a Distribuição

    Beta

    (1

    2,1

    2

    ), correspondendo à distribuição localmente uniforme para,

    ψ ∝ 2∫ d

    √θ

    √1− θ

    ∝ arcsin√θ

    4. Método da Entropia Máxima

    Jaynes (1968) propôs o conceito de entropia na formulação de distribuições a

    priori que caracterizam a não-informação, o qual é utilizado em F́ısica como medida da quan-

    tidade de desordem e imprevisibilidade de um sistema f́ısico.

    Da teoria f́ısica sabe-se que quanto mais desordenado e impreviśıvel for um sis-

    tema, maior será sua entropia. No contexto de interesse, uma distribuição que se pretende ser

    não-informativa acerca de um parâmetro deve originar entropia máxima.

    A aplicação desta idéia F́ısica para a Estat́ıstica, no caso discreto em paćıfico,

    porém no caso cont́ınuo não o é. Ater-se-á ao caso discreto.

    Seja θ um parâmetro discreto com função densidade de probabilidade h(θ) e

    suporte Θ, define-se por entropia de h(θ) como sendo o valor esperado de − lnh(θ), ou seja,

    E(h(θ)) = −∑θ∈Θ

    ln(h(θ))h(θ).

    Exemplificando, considere que θ assuma um número finito de valores distintos,

    ou seja, θ ∈ Θ = {θ1, θ2, · · · , θn}, com probabilidades p(θ = θi) = pi > 0, i = 1, · · · , k.

    O objetivo aqui é encontrar (pi, i = 1, · · · , k) sujeito a restrição∑k

    i=1 p1 = 1

    que maximize E(h(θ)) = −∑k

    i=1 pi ln(pi). Com aux́ılio matemático, usando o Método dos

    Multiplicadores de Lagrange, pretende-se maximizar a função lagrangiana,

    E∗ (h (θ)) = −k∑i=1

    pi ln (pi) + λ

    (k∑i=1

    pi − 1

    ).

    Derivando-se a função anterior em ordem a pi, para i = 1, · · · , k e igualando a

    zero, obtêm-se o sistema de equações,

    − ln pi − 1 + λ = 0, i = 1, · · · , k ⇒ ln pi = λ− 1∀i = 1, · · · , k,

  • 41

    ou seja, pi tem de ser constante. O valor desta constante é obtido através da restrição imposta

    à soma ser unitária, implicando em pi =1

    k, i = 1, · · · , k, sendo a entropia associada (máxima)

    dada por ln k. Assim, verifica-se que a distribuição que maximiza a entropia é a Distribuição

    Uniforme Discreta, o que leva-se a concluir que a representação da não-informação adaptando

    o critério de maximização da entropia conduz ao resultado obtido quando se usa o Método de

    Bayes-Laplace.

    2.1.4.2.3 Prioris Hierárquicas

    A utilização de prioris hierárquicas é uma abordagem que facilita as especi-

    ficações das informações antes dos experimentos serem realizados, além de ser natural em

    determinadas situações experimentais. A idéia é dividir a especificação da distribuição a priori

    em estágios.

    A Distribuição a Priori de θ depende dos hiperparâmetros ϕ e pode-se escrever

    p(θ, ϕ) ao invés de p(θ). E ao invés de fixar valores para os hiperparâmetros, pode-se especificar

    uma distribuição a priori p(ϕ) de forma a completar assim o segundo estágio da hierarquia.

    Neste contexto, a distribuição a priori conjunta é simplesmente p(θ, ϕ) = p(θ|ϕ)p(ϕ) e a

    distribuição marginal de θ pode ser obtida pela integração,

    p(θ) =

    ∫p(θ, ϕ)dϕ =

    ∫p(θ|ϕ)dϕ.

    E assim, a distribuição a posteriori conjunta fica,

    p(θ, ϕ|x) ∝ p(x|θ, ϕ)p(θ|ϕ)p(ϕ) ∝ p(x|θ)p(θ|ϕ)p(ϕ),

    uma vez que a distribuição dos dados depende apenas de θ.

    Ehlers (2008) apresentou como exemplo a seguinte situação: suponha que

    X1, X2, · · · , Xn sejam tais que Xi ∼ N(θi, σ2) com σ2 desconhecido e deseja-se especificar

    uma distribuição a priori para o vetor de parâmetros θ′

    = [θ1, θ2, · · · , θn]. Suponha que no

    primeiro estágio assuma-se que θi ∼ N(µ, τ 2), i = 1, · · · , n. Neste caso, ao se fixar o valor

    de τ 2 = τ 20 e assumir-se que µ tem distribuição normal, então θ terá distribuição normal

    multivariada. Por outro lado, fixando-se um valor para µ = µ0 e assumindo-se que τ−2 tem

    distribuição Gama, isto implica em uma distribuição t de Student multivariada para θ.

  • 42

    As prioris hierárquicas são especificadas, em geral, em 2 ou 3 estágios. Devido à

    dificuldade de interpretação dos hiperparâmetros, em estágios mais altos, é comum se especi-

    ficar prioris não-informativas para estes ńıveis.

    2.1.4.2.4 O uso de Prioris Informativas

    Em situações onde o tamanho da amostra é pequeno, ou quando os dados dis-

    pońıveis fornecem apenas informações vagas a respeito dos parâmetros, o conhecimento a priori,

    representado pela distribuição a priori é muito importante, Gelman (2002). Neste mesmo tra-

    balho, o autor aponta que quando se trabalha com ajuste de modelos hierárquicos, o uso de

    prioris informativas, muitas vezes, se faz necessário, entretanto ele salienta a diferença entre o

    uso de prioris informativas “fortes”e “moderadas”, que deve ser feito com cautela, sobretudo

    se atentando para o número de parâmetros a serem estimados e para a quantidade de dados

    que se dispõe. O autor ainda justifica que quando se utiliza modelos hierárquicos e deseja-

    se estimar muitos parâmetros, caso seja utilizado prioris não-informativas, as estimativas dos

    parâmetros do modelo será fechada sob as informações dos dados, o que trará estimativas

    apenas razoáveis, e que é este tipo de problema que deve estimular o pesquisador a especificar

    distribuições a priori, usando informações externas.

    Abel et al. (2010) em um estudo de séries temporais utilizando estimação baye-

    siana, constataram que o uso de prioris informativas pode tornar a distribuição a posteriori

    leptocúrtica, alterando a tendência central, entretanto desde que essa informação a priori seja

    tomada com cautela, com base em conhecimentos prévios sólidos, a inclusão da distribuição a

    priori informativa pode auxiliar na precisão das previsões do modelo de séries temporais, o que

    nem sempre é verificado no uso de prioris não-informativas ( prioris flat), onde as estimativas

    baseia-se em quase sua totalidade apenas nos dados.

    O uso de prioris informativas também pode acelerar o processo de convergência

    de estimativas em computação bayesiana, sobretudo quando se dispõe de poucos dados e

    muitos parâmetros a serem estimados, o que é comum na modelagem de modelos hierárquicos

    (Ntzoufras, 2009).

  • 43

    2.1.4.3 Estimação

    A distribuição a posteriori de um parâmetro θ contém toda a informação proba-

    biĺıstica a respeito deste parâmetro e um gráfico da sua função de densidade a posteriori é a

    melhor descrição do processo de inferência. Algumas vezes é necessário resumir a informação

    contida na posteriori através de alguns poucos valores numéricos, por exemplo, a estimação

    pontual de θ onde se resume a distribuição a posteriori através de um único número, θ̂.

    Seja amostra aleatória X1, · · · , Xn de uma distribuição com função densidade de

    probabilidade p(x|θ), sendo o verdadeiro valor do parâmetro θ desconhecido e de interesse.

    Desde que θ ∈ Θ, então é razoável que os posśıveis valores de um estimador δ(X)

    também devam pertencer ao espaço paramétrico de θ, Θ. Assim, um bom estimador de θ é

    aquele cujo qual, com alta probabilidade, o erro δ(X) − θ esteja próximo de zero. Para cada

    posśıvel valor de θ e cada posśıvel estimativa a ∈ Θ, associa-se uma perda L(a, θ), de tal forma

    que quanto maior for a distância entre a e θ, maior será o valor da função perda. Sob estas

    condições, a função perda esperada a posteriori é expressa por,

    E [L(a, θ)|x] =∫L(a, θ)p(θ|x)dθ

    e a Regra de Bayes consiste em escolher a estimativa que minimiza esta perda esperada.

    Entretanto, observa-se que estimação pontual possui uma restrição, quando se

    esta estimando um parâmetro através de um único valor numérico, toda a informação presente

    na distribuição a posteriori é resumida através deste número. É importante também associar

    alguma informação sobre o quão precisa é a especificação deste número.

    As medidas de incerteza mais usuais são a variância ou o coeficiente de variação

    para a média a posteriori, a medida de informação observada de Fisher para a moda a posteriori,

    e a distância entre quartis para a mediana a posteriori. E para contornar a restrição da

    estimativa pontual, assim como na teoria clássica, existe a estimação por intervalo, dentro da

    Estat́ıstica Bayesiana, todavia, aqui a interpretação será dada em termos de credibilidade, ao

    contrário da Estat́ıstica Clássica, onde a interpretação é feita em termos de ńıveis de confiança.

    Definição: C é um intervalo de credibilidade de 100(1− α)%, ou ńıvel de credibilidade 1− α,

    para θ se P (θ ∈ C) ≥ 1− α.

    Note que qualquer região de credibilidade é definida numericamente, isto é, não

  • 44

    é aleatória, e admite uma interpretação probabiĺıstica direta e ineqúıvoca em contraste com

    a região de confiança clássica. A definição expressa de forma probabiĺıstica a pertinência ou

    não de θ ao intervalo. Assim, quanto menor for o tamanho do intervalo mais concentrada é a

    distribuição do parâmetro, ou seja o tamanho do intervalo informa sobre a dispersão de θ. Uma

    vantagem do uso da estimação por intervalos de credibilidade é que os intervalos são invariantes

    a transformação 1 a 1, φ(θ). Assim, é posśıvel construir uma infinidade de intervalos usando a

    definição acima, mas o interesse está apenas naquele com o menor comprimento posśıvel. Os

    intervalos de comprimento mı́nimo são obtidos tomando-se os valores de θ com maior densidade

    a posteriori, e esta idéia é expressa matematicamente na definição a seguir.

    Definição: Um intervalo de credibilidade C de 100(1 − α)% para θ é de máxima densidade a

    posteriori (abreviadamente, do inglês, HPD) se C = {θ ∈ Θ : p(θ|x) ≥ k(α)} onde k(α) é a

    maior constante tal que P (θ ∈ C) ≥ 1− α.

    Pela definição anterior, nota-se que todos os pontos dentro do intervalo HPD

    terão densidade maior do que qualquer ponto fora do intervalo. Além disso, no caso de dis-

    tribuições com duas caudas, por exemplo, normal, t de Student, o intervalo HPD é obtido de

    modo que as caudas tenham a mesma probabilidade. Todavia, os intervalos HPD possuem

    uma restrição, eles não são invariantes a transformações 1 a 1, a não ser para transformações

    lineares.

    2.1.4.4 Critério de Informação da Deviance Bayesiana - DIC

    Spiegelhater et al.(2002) propôs o critério de Informação da Deviance Bayesiana

    (DIC) para a comparação de modelos, assim como a seleção de variáveis explicativas a serem

    consideradas no modelo. O critério utiliza como medida de qualidade de ajuste a esperança

    a posteriori do logaritmo da distribuição condicional dos dados. A medida representa uma

    medida de complexidade do modelo, sendo assim, modelos com menores valores de DIC podem

    ser considerados mais adequados pois apresentam ajuste ponderado pelo grau de complexidade.

    O seguinte critério pode ser adotado da seguinte maneira:

    • D = |DICA −DICB| (comparando dois modelos)

    i - se D < 5 - não significativo;

  • 45

    ii - se 5 ≤ D ≤ 10 - significativo;

    iii - de D > 10 - muito significativo.

    2.1.4.5 Aspectos Computacionais

    Na literatura existem várias maneiras de se mensurar a informação sobre os

    parâmetros de interesse, de um determinado modelo, descrita na distribuição a posteriori,

    baseando-se em simulação, como por exemplo, Monte Carlo simples, Monte Carlo com função

    de importância, métodos de reamostragem e Monte Carlo via Cadeias de Markov (MCMC).

    Todos estes algoritmos são não determińısticos, isto é, todos requerem a simulação de números

    (pseudo) aleatórios de alguma distribuição de probabilidade, de forma que, em geral, a única

    limitação para o processo de simulação são o tempo de computação e a capacidade de arma-

    zenamento dos valores simulados.

    Com os recursos computacionais atuais, a análise bayesiana vem se desenvol-

    vendo cada vez mais, entretanto deve-se ter grande cautela quando se fizer uso da Computação

    Bayesiana, pois corre-se o risco de apresentar uma solução certa para um problema errado (erro

    tipo III) ou uma solução ruim para o problema correto, de tal forma que os métodos computa-

    cionalmente intensivos não devem ser utilizados como substituição do pensamento cŕıtico sobre

    o problema que está sendo analisado. E sempre que posśıvel, deve-se utilizar aproximações

    exatas, se elas existirem. Em outras palavras, como os métodos computacionais são iterativos,

    deve-se ter cautela com a possibilidade de um algoritmo apresentar convergência para um valor

    incorreto, o que segundo Spiegelhater et al. (1995), é pior do que um algoritmo não apresentar

    convergência.

    O objetivo em toda análise estat́ıstica é fazer inferência. Na inferência baye-

    siana, a distribuição a posteriori representa (concentra) toda a informação relevante sobre os

    parâmetros de interesse, θ, e pode ser convenientemente resumida em termos de esperanças de

    funções particulares do parâmetro θ, isto é,

    E [g(θ|x)] =∫g(θ)p(θ|x)dθ

    e se θ for multidimensional, distribuições a posteriori marginais pode ser obtidas,

    p(θ1|x) =∫p(θ|x)dθ2

  • 46

    em que θ = (θ1, θ2). Desta forma, o problema geral da Inferência Bayesiana consiste no cálculo

    de valores esperados segundo a distribuição a posteriori de θ.

    2.1.4.5.1 Método de Monte Carlo via Cadeias de Markov

    O Método de Monte Carlo via Cadeias de Markov (MCMC) é uma alternativa

    aos métodos não iterativos em problemas complexos, em que em muitas situações é dificultoso

    ou até mesmo imposśıvel encontrar uma densidade de importância que seja simultaneamente

    uma boa aproximação da distribuição de probabilidade a posteriori e que seja pasśıvel de

    amostragem.

    Neste caso, a idéia é obter uma amostra da distribuição de probabilidade a

    posteriori e obter estimativas amostrais das caracteŕısticas desta distribuição. Nesse processo

    são utilizadas técnicas de simulação iterativas. E em decorrência dessa simulação, que serão

    baseadas em Cadeias de Markov, os valores gerados serão dependentes.

    Essa dependência é devida ao fato de uma cadeia de Markov ser um processo

    estocástico de tal forma que a distribuição deXt dado a ocorrência de todos os valores anteriores

    X0, X1, · · · , Xt−1 depende apenas da informação anterior Xt−1. Matematicamente,

    P (Xt ∈ A|X0, · · · , Xt−1) = P (Xt ∈ A|Xt−1)

    para qualquer subconjunto de A. Da Teoria de Processos Estocá