Dados Multivariados de Contagem com Excesso de Zeros
Transcript of Dados Multivariados de Contagem com Excesso de Zeros
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
Dados multivariados decontagem com excessos de zeros
Natalia Santana Paiva
Rio de Janeiro2014
Dados multivariados de contagem comexcessos de zeros
Natalia Santana Paiva
Dissertacao de Mestrado apresentada aoPrograma de Pos-graduacao em Estatıs-tica do Instituto de Matematica da Uni-versidade Federal do Rio de Janeiro comoparte dos requisitos necessarios para a ob-tencao do grau de Mestre em Ciencias Es-tatısticas.
Comissao Julgadora:
Prof. Prof.Antonio Carlos Monteiro Ponce de Leon Helio S. MigonIMS - UERJ IM - UFRJ
Orientadora Prof.Thaıs Cristina Oliveira da FonsecaIM - UFRJ
Rio de Janeiro2014
Ficha Catalografica
P149b Paiva, Natalia SantanaDados multivariados de contagem com excessos de ze-
ros/ Natalia Santana Paiva. – Rio de Janeiro, 2014. 131 f.:il.; 30cm.
Orientadora: Thaıs Cristina Oliveira da Fonseca
Dissertacao (Mestrado) - UFRJ / Instituto de Mate-matica, Programa de Pos-Graduacao em Estatıstica, 2014.
Referencias: f. 109-113
1. Analise Multivaiada - Tese. 2. Teoria da decisao es-tatıstica Bayesiana I. Fonseca, Thaıs Cristina Oliveira (Ori-ent.). II. Universidade Federal do Rio de Janeiro, Institutode Matematica, Programa de Pos-Graduacao em Estatıstica.III. Tıtulo.
CDD 519.5
“Why does he insist that we must have diagnosis?Some things are not meant to be known by man.”
Susanna Gregory, An Unholy Alliance.
Agradecimentos
Agradeco a todos que de forma direta ou indireta participaram do meu processo de
aprendizagem, em especial meus orientadores, em ordem cronologica, Claudia Medina,
Guillermo Velarde, Leo Bastos e Thaıs Fonseca.
Agradeco aos meus pais e a CAPES pelo apoio financeiro e minha irma que mesmo
lendo e relendo a dissertacao ainda me pergunta o que e um modelo ZIP.
Agradeco a paciencia de todos tanto pela ausencia quanto o mau humor diario ao
longo do mestrado.
Agradeco por fim aos professores Helio S. Migon e Antonio Carlos Monteiro Ponce
de Leon por aceitarem fazer parte da comissao julgadora desta dissertacao.
Resumo
Dados multivariados de contagem, como por exemplo, numero de internacoes ou obitos
por doencas em determinado hospital geralmente apresentam correlacao e excessos de
zeros. A analise multivariada de dados contınuos baseada nas distribuicoes Gaussiana
multivariada e afins vem sendo utilizada e e bem estabelecida na literatura estatıstica.
No entanto, isto ainda nao ocorre para os dados discretos multivariados. O objetivo do
presente trabalho e propor modelos que capturem a correlacao entre as contagens, por
unidade amostral, como, por exemplo, o modelo de Poisson multivariado, tratando a
correlacao no nıvel principal da hierarquia. Alem disto, deseja-se considerar o excesso de
zeros proveniente dos dados, como, por exemplo, o modelo de Poisson Zero Inflacionado
(ZIP) multivariado, com e sem covariaveis. A inferencia foi feita sob a otica bayesiana
e utilizou a tecnica de aumento de dados, com o objetivo de obter um algoritmo de
estimacao computacionalmente mais eficiente.
Ao longo da metodologia, foram propostos modelos de contagens univariados e
multivariados e discutiu-se o metodo de inferencia, a tecnica de aumento de dados,
metodos de estimacao e comparacao de modelos alem do processo de previsao de dados
faltantes.
O presente trabalho apresenta tanto uma analise da sensibilidade da escolha da
priori para os modelos Poisson bivariado e ZIP bivariado atraves de um estudo si-
mulado quanto exemplos simulados com o objetivo de verificar se os parametros dos
modelos propostos sao identificaveis, se os codigos de autoria propria estao corretos e
o comportamento dos modelos propostos em diferentes cenarios. Por fim, a metodo-
logia proposta foi aplicada nos dados referentes ao numero de internacao por doencas
isquemicas do coracao e hipertensivas no perıodo de 2012 em 75 hospitais do municıpio
do Rio de Janeiro. A partir desses estudos, concluiu-se que distribuicoes a priori nao
informativas com alta probabilidade em torno do zero nao sao boas para tais modelos
multivariados de contagem. Alem disto, a cobertura do modelo ZIP multivariado nao
e alta para distribuicoes a priori muito vagas.
Palavras-chave: Dados multivariados de contagem, Modelo ZIP multivariado, Tec-
nica de aumento de dados
Abstract
Multivariate count data, such as number of hospitalizations or deaths from certain
diseases in hospital usually account correlation and excess zeros. Multivariate analysis
of continuous data based on multivariate Gaussian distributions has been used and is
well established in the statistical literature. However, this still does not occur in discrete
multivariate data. The objective of this paper is to propose models that capture the
correlation between counts per sampling unit, for example, the multivariate Poisson
model, treating the correlation on the main level of the hierarchy. Furthermore, it is
desired to consider the excess of zero from the data, for example, the multivariate Zero
Inflated Poisson model (m-ZIP) with and without covariates. The inference was made
in the Bayesian perspective and used the technique of data augmentation, in order to
obtain an estimation algorithm computationally more efficient.
During the methodology, univariate and multivariate models for cout data were
proposed and discussed the inference method, the data augmentation method, methods
of estimation and comparison of models and the prediction of missing data.
This paper presents both an analysis of the sensitivity of the choice of prior for the
bivariate Poisson and 2-ZIP models through a simulated study as simulated examples
with the purpose to verify that the parameters of the proposed models are identifiable, if
the codes are correct and the behavior of the models proposed in different cases. Finally,
the proposed methodology was applied to data on the number of hospitalizations for
ischemic heart disease and hypertensive during 2012 in 75 hospitals in the city of Rio de
Janeiro. From these studies, it was concluded that non-informative prior distributions
with high probability around zero are not good for such multivariate count models.
Keywords: Multivariate count data, multivariate ZIP model, data augmentation
method
Lista de Figuras
2.1 Numero de internacoes por doencas isquemicas do coracao (a), Numero
de internacoes por doencas hipertensivas (b) e relacao entre o numero
de internacoes por doencas isquemicas do coracao e hipertensivas (c) no
perıodo de 2012 em 75 hospitais no municıpio do Rio de Janeiro . . . . 11
2.2 Intensidade do numero de internacoes por doencas isquemicas do coracao
(a) e por doencas hipertensivas (b) em cada um dos 75 hospitais no
municıpio do Rio de Janeiro no perıodo de 2012. . . . . . . . . . . . . . 13
2.3 Esfera Administrativa (a), Gestao hospitalar (b), Atende emergencia (c)
e Numero de internacoes do capıtulo IX da CID10, no perıodo de 2012,
no municıpio do Rio de Janeiro (d). . . . . . . . . . . . . . . . . . . . . 14
7.1 Exemplo simulado 1: Distribuicao dos dados simulados a partir do mo-
delo Poisson + MLG com 300 observacoes. 𝑌1|𝜆1 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆1) (a) e
𝑌2|𝜆2 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆2) (b). . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.2 Exemplo simulado 2: Distribuicao dos dados simulados a partir do mo-
delo Poisson + MLG com 300 observacoes. 𝑌1|𝜆0,𝜆1 (a) e 𝑌2|𝜆0,𝜆2 (b). . 81
7.3 Exemplo simulado 2: Distribuicao a posteriori de 𝑌(1,19) (a), 𝑌(1,52) (b),
𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo 2-Poisson. Linha
tracejada (vermelho): valores verdadeiros. Dados simulados a partir do
modelo 2-Poisson (N=300). . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.4 Exemplo simulado 3: Distribuicao dos dados 𝑌1 (a) e 𝑌2 (b) simulados
a partir do modelo 2-ZIP + MLG com 300 observacoes. . . . . . . . . . 87
7.5 Exemplo simulado 3: Distribuicao a posteriori de 𝑌(1,19) (a), 𝑌(1,52) (b),
𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo 2-ZIP+MLG.
Linha tracejada (vermelho): valores verdadeiros. Dados simulados a
partir do modelo 2-ZIP+MLG (N=300). . . . . . . . . . . . . . . . . . . 92
7.6 Aplicacao a dados reais: Distribuicao a posteriori de 𝑌(1,19) (a), 𝑌(1,52)
(b), 𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo 2-ZIP+MLG.
Linha tracejada (vermelho): valores verdadeiros. Dados reais (N=75). . 100
7.7 Aplicacao a dados reais: Distribuicao a posteriori de 𝑌(1,19) (a), 𝑌(1,52)
(b), 𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo ZIP+MLG.
Linha tracejada (vermelho): valores verdadeiros. Dados reais (N=75). . 101
Lista de Tabelas
2.1 Estatısticas descritivas do numero de internacoes por causa no perıodo
de 2012 em 75 hospitais do municıpio do Rio de Janeiro. . . . . . . . . . 12
2.2 Estatıstica descritiva do numero de internacoes do capıtulo IX (CID10)
no perıodo de 2012 no municıpio do Rio de Janeiro. . . . . . . . . . . . 13
5.1 Calibragem do Fator de Bayes segundo Jeffreys (1961). . . . . . . . . . . 53
5.2 Calibragem do Fator de Bayes na escala logarıtmica segundo Kass and
Raftery (1995). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.1 Cenarios do estudo de sensibilidade da priori para o modelo Poisson
bivariado e suas correlacoes. . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2 Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadra-
tico medio para o Cenario (i): 𝜆0 = 1, 𝜆1 = 5, 𝜆2 = 10. Leia-se “-” como
erro durante o processo de estimacao. . . . . . . . . . . . . . . . . . . . 64
6.3 Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de
95% para o Cenario (i): 𝜆0 = 1, 𝜆1 = 5, 𝜆2 = 10. Leia-se “-” como erro
durante o processo de estimacao. . . . . . . . . . . . . . . . . . . . . . . 64
6.4 Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadra-
tico medio para o Cenario (ii): 𝜆0 = 10, 𝜆1 = 5, 𝜆2 = 1. Leia-se “-” como
erro durante o processo de estimacao. . . . . . . . . . . . . . . . . . . . 65
6.5 Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de
95% para o Cenario (ii): 𝜆0 = 10, 𝜆1 = 5, 𝜆2 = 1. Leia-se “-” como erro
durante o processo de estimacao. . . . . . . . . . . . . . . . . . . . . . . 65
6.6 Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadra-
tico medio para o Cenario (iii): 𝜆0 = 10, 𝜆1 = 50, 𝜆2 = 100. Leia-se “-”
como erro durante o processo de estimacao. . . . . . . . . . . . . . . . . 65
6.7 Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de
95% para o Cenario (iii): 𝜆0 = 10, 𝜆1 = 50, 𝜆2 = 100. Leia-se “-” como
erro durante o processo de estimacao. . . . . . . . . . . . . . . . . . . . 66
6.8 Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadra-
tico medio para o Cenario (iv): 𝜆0 = 100, 𝜆1 = 50, 𝜆2 = 10. Leia-se “-”
como erro durante o processo de estimacao. . . . . . . . . . . . . . . . . 66
6.9 Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de
95% para o Cenario (iv): 𝜆0 = 100, 𝜆1 = 50, 𝜆2 = 10. Leia-se “-” como
erro durante o processo de estimacao. . . . . . . . . . . . . . . . . . . . 66
6.10 Cenarios do estudo de sensibilidade da priori para o modelo 2-ZIP e suas
correlacoes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.11 Estudo de sensibilidade da priori para o modelo 2-ZIP: erro quadratico
medio para o Cenario (i): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,25; 0,25; 0,25). . . . 70
6.12 Estudo de sensibilidade da priori para o modelo 2-ZIP: cobertura de 95%
para o Cenario (i): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,25; 0,25; 0,25). . . . . . . 70
6.13 Estudo de sensibilidade da priori para o modelo 2-ZIP: erro quadratico
medio para o Cenario (ii): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,45; 0,05; 0,05). . . 70
6.14 Estudo de sensibilidade da priori para o modelo 2-ZIP: cobertura de 95%
para o Cenario (ii): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,45; 0,05; 0,05). . . . . . . 71
6.15 Estudo de sensibilidade da priori para o modelo 2-ZIP: erro quadratico
medio para o Cenario (iii): Λ = (10; 50; 100) e 𝜋 = (0,45; 0,05; 0,05). . . 71
6.16 Estudo de sensibilidade da priori para o modelo 2-ZIP: cobertura de 95%
para o Cenario (iii): Λ = (10; 50; 100) e 𝜋 = (0,45; 0,05; 0,05). . . . . . . 71
7.1 Exemplo simulado 1: intervalo de credibilidade de 95% a posteriori.
Dados simulados a partir do modelo Poisson + MLG (N= 300) com
valores verdadeiros fixados em 𝛽1 = (4,5;−1,5) e 𝛽2 = (2,5; 3,75). Para
os modelos sem regressores 𝛽0 = 𝑙𝑜𝑔(𝜆0), 𝛽𝑗0 = 𝑙𝑜𝑔(𝜆𝑗)para 𝑗 = 1,2, “−”
nos coeficientes que nao compoem os modelos e em negrito os intervalos
que contem os valores verdadeiros. . . . . . . . . . . . . . . . . . . . . . 77
7.2 Exemplo simulado 1: fator de Bayes na escala logarıtmica segundo Kass
and Raftery (1995) baseado no modelo Poisson independente. Dados
simulados a partir do modelo Poisson + MLG (N=300). Maior fator de
Bayes na escala logarıtmica em negrito. . . . . . . . . . . . . . . . . . . 79
7.3 Exemplo simulado 1: Erro quadratico (EQ) medio e mediano das pre-
visoes das 5 observacoes faltantes para os modelos propostos. Dados
simulados a partir do modelo Poisson + MLG com valores verdadeiros fi-
xados em 𝑦(1,19) = 34; 𝑦(2,47) = 85; 𝑦(1,52) = 22; 𝑦(1,60) = 25; 𝑦(1,62) = 100.
Menor EQ medio e EQ mediano em negrito. . . . . . . . . . . . . . . . . 79
7.4 Exemplo simulado 1: Interval Score com 𝛼 = 0,05 de cada observacao
faltante para os modelos propostos. Dados simulados a partir do modelo
Poisson + MLG com valores verdadeiros fixados em 𝑦(1,19) = 34; 𝑦(2,47) =
85; 𝑦(1,52) = 22; 𝑦(1,60) = 25; 𝑦(1,62) = 100. Menor Interval Score em negrito. 80
7.5 Exemplo simulado 2: intervalo de credibilidade de 95% a posteriori.
Dados simulados a partir do modelo 2-Poisson (N= 300) com valores
verdadeiros fixados em 𝜆0 = 0,5, 𝜆1 = 1,65 e 𝜆2 = 1,65. Para os modelos
com covariaveis 𝜆𝑗 = 𝑒𝑥𝑝{𝛽𝑗} para 𝑗 = 0,1,2 e em negrito os intervalos
que contem os valores verdadeiros. . . . . . . . . . . . . . . . . . . . . . 82
7.6 Exemplo simulado 2: fator de Bayes na escala logarıtmica segundo Kass
and Raftery (1995) baseado no modelo Poisson independente. Dados si-
mulados a partir do modelo 2-Poisson (N= 300) com valores verdadeiros
fixados em 𝜆0 = 0,5, 𝜆1 = 1,65 e 𝜆2 = 1,65. Maior fator de Bayes na
escala logarıtmica em negrito. . . . . . . . . . . . . . . . . . . . . . . . . 83
7.7 Exemplo simulado 2: Erro quadratico (EQ) medio e mediano das pre-
visoes das 5 observacoes faltantes para os modelos propostos. Dados
simulados a partir do modelo 2-Poisson com valores verdadeiros fixados
em 𝑦(1,19) = 2; 𝑦(2,47) = 4; 𝑦(1,52) = 5; 𝑦(1,60) = 3; 𝑦(1,62) = 4. Menor EQ
medio e EQ mediano em negrito. . . . . . . . . . . . . . . . . . . . . . . 84
7.8 Exemplo simulado 2: Interval Score com 𝛼 = 0,05 de cada observacao
faltante para os modelos propostos. Dados simulados a partir do mo-
delo 2-Poisson com valores verdadeiros fixados em 𝑦(1,19) = 2; 𝑦(2,47) =
4; 𝑦(1,52) = 5; 𝑦(1,60) = 3; 𝑦(1,62) = 4. Menor Interval Score geral em negrito. 85
7.9 Exemplo simulado 3: intervalo de credibilidade de 95% a posteriori.
Dados simulados a partir do modelo 2-ZIP + MLG (N= 300) com valores
verdadeiros fixados em 𝜆0 = 3, 𝛽1 = (3; 5) e 𝛽2 = (3; 4). Para os modelos
sem regressores 𝛽𝑗0 = 𝑙𝑜𝑔(𝜆𝑗) com 𝑗 = 1,2, para modelos com regressores
𝜆0 = 𝑒𝑥𝑝{𝛽0}, “−” nos coeficientes que nao compoem os modelos, em
negrito os intervalos que contem os valores verdadeiros e“NA”representa
erro durante o processo de simulacao. . . . . . . . . . . . . . . . . . . . 88
7.10 Exemplo simulado 3: fator de Bayes na escala logarıtmica segundo Kass
and Raftery (1995) baseado no modelo Poisson independente. Dados
simulados a partir do modelo 2-ZIP + MLG (N=300). Leia-se “NA”
como valor muito pequeno e “-” erro durante o processo de simulacao.
Maior fator de Bayes na escala logarıtmica em negrito. . . . . . . . . . . 89
7.11 Exemplo simulado 3: Erro quadratico (EQ) medio e mediano das previ-
soes das 5 observacoes faltantes para os modelos propostos. Dados simu-
lados a partir do modelo 2-ZIP+MLG com valores verdadeiros fixados
em 𝑦(1,19) = 763; 𝑦(2,47) = 80; 𝑦(1,52) = 1.259; 𝑦(1,60) = 411; 𝑦(1,62) = 64.
Menor EQ medio e EQ mediano em negrito e “-” indica erro durante o
processo de simulacao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
7.12 Exemplo simulado 3: Interval Score com 𝛼 = 0,05 de cada observacao
faltante para os modelos propostos. Dados simulados a partir do modelo
2-ZIP+MLG com valores verdadeiros fixados em 𝑦(1,19) = 763; 𝑦(2,47) =
80; 𝑦(1,52) = 1.259; 𝑦(1,60) = 411; 𝑦(1,62) = 64. Menor Interval Score em
negrito e “-” indica erro durante o processo de simulacao. . . . . . . . . 91
7.13 Aplicacao a dados reais: intervalo de credibilidade de 95% a posteriori
de 𝛽0, 𝛽1 e 𝛽2 para os modelos propostos no presente trabalho. Para os
modelos sem regressores 𝛽𝑗0 = 𝑙𝑜𝑔(𝜆𝑗) com 𝑗 = 1,2, “−” nos coeficientes
que nao compoem os modelos e em negrito os IC de 95% a posteriori
que nao contem o valor 0. . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7.14 Aplicacao a dados reais: Mediana e intervalo de credibilidade de 95% a
posteriori de 𝜋0, 𝜋1 e 𝜋2 para os modelos ZIP univariado e multivariados
e “−” nos coeficientes que nao compoem os modelos. . . . . . . . . . . . 97
7.15 Aplicacao a dados reais: fator de Bayes na escala logarıtmica segundo
Kass and Raftery (1995) baseado no modelo Poisson independente. Da-
dos reais (N=75). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.16 Aplicacao a dados reais: Erro quadratico medio e mediano das pre-
visoes das 5 observacoes faltantes para os modelos propostos. Dados
reais com valores verdadeiros fixados em 𝑦(1,19) = 0; 𝑦(2,47) = 0; 𝑦(1,52) =
95; 𝑦(1,60) = 0; 𝑦(1,62) = 190. . . . . . . . . . . . . . . . . . . . . . . . . . 98
7.17 Aplicacao a dados reais: Interval Score de cada observacao faltante para
os modelos propostos com 𝛼 = 0,05. Dados reais com valores verdadeiros
fixados em 𝑦(1,19) = 0; 𝑦(2,47) = 0; 𝑦(1,52) = 95; 𝑦(1,60) = 0; 𝑦(1,62) = 190.
Menor Interval Score em negrito. . . . . . . . . . . . . . . . . . . . . . . 99
Sumario
1 Introducao 1
1.1 Revisao de literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Modelo de Poisson Multivariado . . . . . . . . . . . . . . . . . . 2
1.1.2 Modelos Zero Inflacionados . . . . . . . . . . . . . . . . . . . . . 5
1.2 Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Motivacao 9
3 Modelos para dados univariados de contagem 15
3.1 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2 Regressao de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3 Zero Inflacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.1 Regressao ZIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 Modelos para dados multivariados de contagem 21
4.1 Poisson multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Regressao de Poisson multivariado . . . . . . . . . . . . . . . . . . . . . 27
4.3 ZIP multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.4 Regressao ZIP multivariado . . . . . . . . . . . . . . . . . . . . . . . . . 35
5 Inferencia 39
5.1 Inferencia bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.1.1 Tecnica de aumento de dados . . . . . . . . . . . . . . . . . . . . 40
5.1.2 Distribuicao a Priori . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1.3 Metodos de Estimacao . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Comparacao de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.3 Previsao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3.1 Dados faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.2 Comparacao do desempenho preditivo entre modelos . . . . . . . 56
6 Estudo de sensibilidade da priori 59
6.1 Modelo 2-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 Modelo 2-ZIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7 Exemplos simulados e Aplicacoes a dados reais 73
7.1 Exemplo Simulado 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.2 Exemplo Simulado 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7.3 Exemplo simulado 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.4 Aplicacao a dados reais . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
8 Consideracoes finais e projetos futuros 103
8.1 Consideracoes finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
8.2 Projetos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Referencias Bibliograficas 109
A Provas 114
B Condicional Completa 117
B.1 Modelo Poisson multivariado . . . . . . . . . . . . . . . . . . . . . . . . 118
B.2 Modelo de regressao de Poisson multivariado . . . . . . . . . . . . . . . 120
B.3 Modelo ZIP multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . 121
B.4 Modelo de regressao ZIP multivariado . . . . . . . . . . . . . . . . . . . 126
Capıtulo 1
Introducao
Dados multivariados de contagem, como por exemplo, numero de internacoes ou obitos
por doencas em determinado hospital, numero de cada um dos possıveis defeitos na
producao de determinada peca, numero de peixes ou plantas de especies distintas em
determinado local entre outros, geralmente apresentam correlacao e excessos de zeros
(Li et al., 1999; Majumdar and Gries, 2010; Arab et al., 2012).
Os modelos de regressao para dados de contagem ja estao bem estabelecidos na
literatura estatıstica (McCullagh and Nelder, 1989). Geralmente se utiliza o modelo de
regressao Poisson log-linear para descrever este tipo de dados, no entanto, a correlacao
entre os dados atraves da Poisson log-linear e modelada no nıvel das taxas, pois sabe-
se que trata-las no nıvel principal da hierarquia, isto e, nos dados, via distribuicao de
Poisson multivariada, nao e tao trivial pela complexidade de sua funcao de probabili-
dade conjunta.
Neste trabalho, a correlacao entre as contagens, por unidade amostral, sera captu-
rada atraves do modelo de regressao de Poisson multivariado e utilizara a tecnica de
aumento de dados, desta forma, eliminando o somatorio presente na funcao de proba-
Capıtulo 1. Introducao 2
bilidade conjunta e diminuindo o custo computacional. Isto e, a correlacao sera tratada
no nıvel principal da hierarquia.
Para tratar o excesso de zeros sera considerado o modelo Zero Inflado (ZI), sem e
com covariaveis, tanto na proporcao de zeros como nas taxas da Poisson. Novamente
sera utilizada a tecnica de aumento de dados para modelar mistura de distribuicoes
visando diminuir o custo computacional.
O escopo do presente trabalho e propor modelos que considerem a correlacao pro-
veniente dos dados multivariados de contagens e que acomodem o excesso de zeros de
forma eficiente e ilustra-los em um banco de dados bivariados de interesse em saude
coletiva.
A inferencia sera feita sob a otica bayesiana e utilizara a tecnica de aumento de
dados, uma vez que para estimar as quantidades desconhecidas tanto do modelo de
regressao de Poisson multivariado como as do modelo de regressao Poisson Zero Infla-
cionado multivariado recorrem-se a metodos intensivos como Monte Carlo via cadeias
de Markov (Gamerman and Lopes, 2006), uma vez que a distribuicao a posteriori,
usualmente, nao pode ser obtida analiticamente.
1.1 Revisao de literatura
1.1.1 Modelo de Poisson Multivariado
A analise multivariada de dados contınuos baseada nas distribuicoes gaussiana multi-
variada e afins vem sendo utilizada e e bem estabelecida na literatura. No entanto,
isto ainda nao ocorre para os dados discretos multivariados. Ao se tratar de contagens
multivariadas as aproximacoes pelo modelo gaussiano multivariado podem ser utiliza-
3 1.1. Revisao de literatura
das, mas podem nao ser adequadas, principalmente quando as medias observadas nao
sao grandes o suficiente ou ha varias contagens nulas (Karlis and Meligkotsidou, 2005).
Uma possıvel abordagem, ainda nesse contexto, e a utilizacao de modelos de mis-
turas que capturem o excesso de zeros dos dados, como os modelos ZINB (abrevia-
cao do ingles para Zero-inflated negative binomial) e ZIP (abreviacao do ingles para
Zero-inflated Poisson) apresentados em Yip (1988) e Heilbron (1994). Todavia, esses
modelos nao consideram a estrutura multivariada dos dados. Sendo assim, nesse con-
texto, faz-se necessaria uma modelagem que incorpore as informacoes provenientes dos
dados, como excessos de zeros e estruturas multivariadas, para que as analises sejam
mais precisas e eficientes.
A distribuicao de Poisson multivariada, denotada, aqui, por 𝑚 − 𝑃𝑜𝑖𝑠𝑠𝑜𝑛, e uma
alternativa para tratar dados discretos multivariados. Uma forma intuitiva para escre-
ver a Poisson multivariada e utilizar a soma de variaveis aleatorias independentes de
Poisson (mais detalhes em Johnson et al., 1997).
No entanto, a principal desvantagem da aplicacao desta distribuicao e a forma
complexa da funcao de probabilidade conjunta, como pode ser vista na equacao (1.1).
A funcao de probabilidade para o modelo de Poisson multivariado de covariancia comum
para todas as variaveis, isto e, (𝑌1, 𝑌2, · · · , 𝑌𝑚)′ ∼ 𝑚−𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0, 𝜆1, · · · , 𝜆𝑚) e dada
por
Capıtulo 1. Introducao 4
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚|𝜆0, 𝜆1, · · · , 𝜆𝑚) = 𝑒𝑥𝑝
⎛⎝−𝑚∑𝑗=0
𝜆𝑗
⎞⎠ 𝑚∏𝑗=1
𝜆𝑦𝑗𝑗
𝑦𝑗 !
×𝑚𝑖𝑛(𝑦1,𝑦2,...,𝑦𝑚)∑
𝑖=0
𝑚∏𝑗=1
(𝑦𝑗𝑖
)𝑖!
(𝜆0∏𝑚𝑗=1 𝜆𝑖
)𝑖
(1.1)
Um caso especial do modelo de Poisson multivariado e assumir uma covariancia
comum para todas as variaveis, como pode ser visto em Tsionas (1999), onde e apre-
sentada uma analise bayesiana da distribuicao de Poisson com base no amostrador de
Gibbs com a tecnica de aumento de dados e em Ma and Kockelman (2006) que apre-
sentam uma analise bayesiana da distribuicao de Poisson com base no amostrador de
Gibbs bem como o “Metropolis-Hastings” (M-H).
A ideia central do presente trabalho segue de certa maneira a mesma abordagem
executada por Ma and Kockelman (2006), isto e, as variaveis referentes a covariancia
entre os dados, para cada uma das unidades amostrais, serao tratadas como variaveis
latentes. Esta abordagem evita o calculo explıcito da funcao massa de probabilidade
atraves de aproximacoes ou calculos recursivos. Uma das diferencas entre este trabalho
e o dos autores Ma and Kockelman (2006) e que aqui serao abordados modelos de
mistura para acomodar o excesso de zeros presente nos dados e discute-se a inclusao
de covariaveis para explicar as taxas de interesse para cada variavel resposta e para
explicar a probabilidade de zeros.
Ainda na proposta de covariancia comum para todas as variaveis, Karlis (2003)
discute a ausencia de procedimentos de inferencia na estimacao dos parametros e argu-
menta que tal deficiencia reduz a aplicabilidade de tais modelos. Os autores propoem a
5 1.1. Revisao de literatura
utilizacao do agoritmo EM, baseado na tecnica de reducao multivariada, para estimar
os parametros via maxima verossimilhanca.
Nos ultimos anos, as aplicacoes de modelos de Poisson tem aumentado, princi-
palmente devido ao aumento do desempenho computacional. O modelo de Poisson
multivariado usado na pratica e baseado numa covariancia comum para todos os pares
de variaveis, no entanto, esta formulacao nao permite a modelagem da estrutura de
covariancia dos dados de maneira flexıvel e, geralmente, nao retrata a realidade de
forma fidedigna.
Uma modelagem mais geral e assumir uma estrutura de covariancia 2-a-2, isto e,
cada par de variaveis possui uma covariancia. Essa modelagem pode ser vista em Karlis
and Meligkotsidou (2005); Buck et al. (2009) os quais associam covariaveis a todos os
parametros, inclusive os de covariancia. No presente trabalho, por exemplo, utiliza-se
as covariaveis gestao hospitalar, latitude e longitude padronizadas, dentre outras, para
tentar explicar as taxas de interesse. Mais detalhes no capıtulo 2.
Outra restricao da distribuicao de Poisson multivariada e o fato das covariancias
serem obrigatoriamente positivas, devido sua especificacao baseada na soma de varia-
veis aleatorias mutuamente independentes com distribuicao Poisson. Essa restricao e
assumida neste trabalho e e razoavel em muitos exemplos aplicados de interesse.
1.1.2 Modelos Zero Inflacionados
Recentemente, tem crescido o interesse na modelagem que capture, de forma eficiente,
o excesso de zeros presente em dados de contagem, em especial quando assume-se mo-
delos de Poisson. Estes modelos sao conhecidos como modelos zero inflacionados (ZI)
Capıtulo 1. Introducao 6
(Majumdar and Gries, 2010).
Dados de contagem provenientes de estudos epidemiologicos, industriais, economi-
cos, ecologicos e do meio ambiente usualmente apresentam excessos de zeros, como
por exemplo numero de internacoes ou obitos por determinada doenca, processos de
fabricacao que produzem produtos sem defeitos, numero de plantas de determinada
especie, entre outros.
Excluir ou ignorar a informacao de excessos de zeros presente nos dados acabara
facilitanto a analise, no entanto, podera resultar numa perda de informacao. Distri-
buicoes de probabilidade usadas para dados de contagem, como a binomial negativa
e Poisson nao conseguem capturar essa informacao, assim, fornecendo um ajuste ina-
dequado. Quando esses zeros sao plausıveis nos dados, recomenda-se a utilizacao de
misturas de modelos (Cohen, 1963; Johnson and Kotz, 1969).
Yip (1988) e Heilbron (1994) apresentaram modelos de regressao para dados de
contagem baseados em misturas de distribuicoes degeneradas no ponto zero e outras
distribuicoes amostrais, como ZINB (abreviacao do ingles para Zero-inflated negative
binomial) e ZIP (abreviacao do ingles para Zero-inflated Poisson).
Ao estudar processos de contagem multivariados sabe-se que a utilizacao dos mo-
delos ZI usuais torna-se ineficaz. Ao se tratar de um processo de Poisson multivariado,
uma alternativa e o modelo ZIP multivariado. Segundo Arab et al. (2012) a utilidade
deste modelo e extensa, porem, a literatura relevante e, ainda, limitada.
Li et al. (1999) formularam o ZIP m-dimensional utilizando o mesmo artifıcio da
Poisson m-variada proposta por Johnson et al. (1997). Alem disso, focou no caso biva-
7 1.1. Revisao de literatura
riado, usando uma mistura de 2 distribuicoes de Poisson univariadas com a distribuicao
degenerada no ponto (0,0) e a distribuicao Poisson bivariada e estendeu para o caso
multivariado apresentando um exemplo real utilizando o modelo ZIP trivariado. O
metodo utilizado pelos autores para estimacao dos parametros foi o de maxima veros-
similhanca.
Ja Majumdar and Gries (2010) consideraram a estimacao sob o enfoque bayesiano,
propuseram modelos com e sem covariaveis e usaram a tecnica de aumento de dados.
Os autores mostraram resultados de estudos simulados para o caso sem covariaveis para
verificar a efetividade da estimacao via ZIP bayesiano como demonstraram a metodolo-
gia numa aplicacao de contagens de plantas de duas especies distintas e correlacionadas
na regiao metropolitana de Phoenix. Essa estrategia permite que a verossimilhanca seja
escrita de uma forma mais simples e dependendo da priori elicitada consegue-se conju-
gacao tanto para a proporcao de zero quanto para variavel latente que configura este
aumento. Uma das principais diferencas entre Majumdar and Gries (2010) e o presente
trabalho e como sera tratado o aumento de dados, alem da apresentacao de um estudo
de sensibilidade da priori para os modelos Poisson e ZIP multivariados.
Arab et al. (2012) propuseram o ZIP bivariado semiparametrico bayesiano para
modelar processos de contagem bivariados utilizando a extensao dos modelos ZI exis-
tentes e utilizaram a tecnica de aumento de dados. O aspecto semiparametrico proposto
considera possıveis efeitos nao lineares nas covariaveis e alem disto utiliza a regressao
logit-multinomial para modelar a probabilidade de zeros no modelo inflacionado de
zeros, assim como Majumdar and Gries (2010).
A tecnica de aumento de dados, utilizada em Majumdar and Gries (2010) e Arab
et al. (2012), configura que ao inves de executar uma maximizacao ou uma simulacao
Capıtulo 1. Introducao 8
complicada, amplia-se os dados observados (Y) com variaveis latentes (T), que simpli-
fica o calculo e, subsequentemente, executa uma serie de maximizacoes ou simulacoes
simples. Isto e, utiliza-se a distribuicao a posteriori aumentada 𝑝(𝜃|𝑌,𝑇 ) caso seja mais
simples que posteriori de interesse 𝑝(𝜃|𝑌 ) (Tanner and Wong, 1987).
1.2 Estrutura do trabalho
No capıtulo 2 sera feita uma breve revisao bibliografica sobre doencas isquemicas e
hipertensivas e uma analise descritiva dos dados que motivaram o presente trabalho.
Nos capıtulos 3 e 4 serao propostos modelos de contagens univariados e multivariados,
respectivamente. Sera apresentado o modelo mais geral, modelo de regressao de Pois-
son inflacionado de zeros multivariado, e diversas subclasses de interesse. No capıtulo
5, sera discutido o metodo de inferencia abordado no presente trabalho, a tecnica de
aumento de dados, os metodos de estimacao e comparacao de modelos e previsao. No
capıtulo 6 sera discutida a sensibilidade da escolha da priori para os modelos de Poisson
multivariado e Poisson inflacionado de zeros multivariado atraves de um estudo simu-
lado. No capıtulo 7, serao apresentados exemplos simulados com o objetivo de verificar
se os parametros dos modelos propostos sao identificaveis e se os codigos estao corretos.
Tambem neste capıtulo, a metodologia proposta sera aplicada nos dados referentes ao
numero de internacao por doencas isquemicas do coracao e hipertensivas no perıodo de
2012 em 75 hospitais do municıpio do Rio de Janeiro. No capıtulo 8 serao apresentadas
as consideracoes finais e os trabalhos futuros como, por exemplo, o modelo de regressao
ZIP multivariado espacial.
Capıtulo 2
Motivacao
Apesar dos avancos do seculo XXI, as doencas cardiovasculares aparecem como primeira
causa de morte nos paıses desenvolvidos e em grande parte das nacoes em desenvolvi-
mento (Godoy et al., 2007).
Em estudo sobre mortalidade por doencas do aparelho circulatorio e doencas isque-
micas do coracao (decorrentes do entupimento das arterias por gordura, diminuindo
o fluxo de sangue que passa pelo coracao), referente ao perıodo de 1979 a 1989, nas
capitais de regioes metropolitanas do Brasil, verificou-se que o municıpio do Rio de
Janeiro era a unica capital que apresentava uma tendencia de aumento das taxas de
mortalidade por doencas cardiovasculares e isquemicas do coracao, em ambos os sexos
(Lotufo et al., 1995).
A morbidade por doencas isquemicas do coracao tambem representa uma grande
carga para o paıs. De 1993 a 1997, as internacoes por essas doencas representaram 1%
de todas as internacoes e 3,3% dos gastos do Sistema Unico de Saude (SUS). A angina
foi responsavel por 53,3% e o infarto por 26,6% das internacoes por doencas isquemicas
do coracao. As internacoes por infarto foram mais comuns em homens e, por angina,
Capıtulo 2. Motivacao 10
em mulheres (Laurenti et al., 2000).
Estima-se que hipertensao arterial sistemica atinja aproximadamente 22% da popu-
lacao brasileira acima de vinte anos, sendo responsavel por 80% dos casos de acidente
cerebro vascular, 60% dos casos de infarto agudo do miocardio e 40% das aposentado-
rias precoces, alem disso, calcula-se um gasto medio de 475 milhoes de reais com 1,1
milhao de internacoes por ano. Em 2001, cerca de 7,6 milhoes de mortes no mundo
foram atribuıdas a elevacao da pressao arterial, sendo 47% por doenca isquemica do
coracao, segundo (DBH, 2010).
A analise das internacoes por causas permite que se avalie a frequencia de cada uma,
o tempo de permanencia no hospital, os valores gastos com cada doenca, entre outros.
Considerando que os recursos medicos disponıveis, representados por exames que per-
mitem diagnostico cada vez mais precoce e tratamentos de ultima geracao, influenciam
o aumento da sobrevida dos pacientes, a morbidade hospitalar e ambulatorial passam
a constituir a melhor e mais ampla fonte de informacao sobre doencas, especialmente
as cronicas (Laurenti et al., 2000).
A motivacao neste estudo e o possıvel excesso de zeros presente no numero de in-
ternacoes por doencas isquemicas do coracao e no numero de internacoes por doencas
hipertensivas, ambos os grupos do capıtulo IX da Classificacao Internacional de Doen-
cas em sua decima revisao (CID, 1997), e a possıvel correlacao existente entre os dados
nos 75 hospitais do municıpio do Rio de Janeiro, no perıodo de 2012, como mostra a
Figura (2.1).
Estes dados foram coletados diretamente do Sistema de Informacoes Hospitalares
Descentralizado (SIHD), disponibilizado pelo Ministerio da Saude para os hospitais
11
010
2030
40
0 95 277 581 1240
05
1015
2025
30
0 13 30 46 62 81 101 139 194
(a) (b)
0 200 400 600 800 1000 1200
050
100
150
200
(c)
Figura 2.1: Numero de internacoes por doencas isquemicas do coracao (a), Numero deinternacoes por doencas hipertensivas (b) e relacao entre o numero de internacoes pordoencas isquemicas do coracao e hipertensivas (c) no perıodo de 2012 em 75 hospitaisno municıpio do Rio de Janeiro
conveniados ao SUS - DATASUS.
Capıtulo 2. Motivacao 12
Esse sistema contem informacoes de todas as internacoes e obitos no ambito do
SUS e e fonte de informacao para tomada de decisao de gestores, auxiliando no plane-
jamento de acoes de saude e atuacao da vigilancia sanitaria e epidemiologia.
A Tabela (2.1), apresenta algumas das estatısticas descritivas para os bancos de
dados considerados. Note que o valor das variancias amostrais sao bem maiores que
medias amostrais, apontanto indıcios de superdispersao em ambos os bancos de da-
dos. Ja na Figura (2.2), podem ser visualizadas o padrao espacial e as intensidades do
numero de internacao por doencas isquemicas do coracao e por doencas hipertensivas
para cada um dos 75 hospitais do municıpio do Rio de Janeiro indexados pela UTM1
(abreviacao do ingles para Universal Transversa de Mercator). As coordenadas geo-
graficas UTM foram obtidas atraves da longitude e latitude via o pacote “rgdal” do R
Development Core Team (2011).
𝑁∘ de internacoes por Mınimo Maximo Mediana Media Variancia
Doencas isquemicas do coracao 0 1.240 0 68,17 31.609,98
Doencas hipertensivas 0 194 5 22,49 1.249,31
Tabela 2.1: Estatısticas descritivas do numero de internacoes por causa no perıodo de2012 em 75 hospitais do municıpio do Rio de Janeiro.
As covariaveis disponıveis para tentar explicar o numero de internacoes por doencas
isquemicas do coracao e por doencas hipertensivas, em cada um dos 75 hospitais, no
municıpio do Rio de Janeiro no perıodo de 2012, sao esfera administrativa (Privada,
Municipal, Estadual ou Federal), gestao hospitalar (Municipal ou Estadual), se atende
ou nao emergencia, latitude e longitude padronizadas e numero total de internacoes do
capıtulo IX da Classificacao Internacional de Doencas em sua decima revisao, CID10,
(CID, 1997) no perıodo de 2012 no municıpio do Rio de Janeiro. Na Figura (2.3),
1Sistema de localizacao terrestre baseado em coordenadas.
13
630000 650000 670000 690000
7440
000
7460
000
7480
000
630000 650000 670000 690000
7440
000
7460
000
7480
000
(a) (b)
Figura 2.2: Intensidade do numero de internacoes por doencas isquemicas do coracao(a) e por doencas hipertensivas (b) em cada um dos 75 hospitais no municıpio do Riode Janeiro no perıodo de 2012.
pode-se visualizar graficamente a distribuicao das covariaveis e na Tabela (2.2) a esta-
tıstica descritiva do numero de internacoes do capıtulo IX (CID10) no perıodo de 2012
no municıpio do Rio de Janeiro.
𝑁∘ de internacoes Mınimo Maximo Mediana Media Variancia
Capıtulo IX 0 2.438 37 337,8 258.203,4
Tabela 2.2: Estatıstica descritiva do numero de internacoes do capıtulo IX (CID10) noperıodo de 2012 no municıpio do Rio de Janeiro.
Capıtulo 2. Motivacao 14
Estadual
Federal
Municipal
Privada
Estadual
Municipal
(a) (b)
Não
Sim
05
1015
20
0 190 477 725 1085 1398 1723 2438
(c) (d)
Figura 2.3: Esfera Administrativa (a), Gestao hospitalar (b), Atende emergencia (c) eNumero de internacoes do capıtulo IX da CID10, no perıodo de 2012, no municıpio doRio de Janeiro (d).
Capıtulo 3
Modelos para dados univariados
de contagem
Nelder and Wedderburn (1972) desenvolveram uma classe de modelos baseados na
famılia exponencial com um parametro desconhecido (ou um vetor parametrico desco-
nhecido), tal que suas medias sao dadas atraves de funcoes nao-lineares de componentes
lineares. Estes modelos sao chamados de modelos lineares generalizados (MLG).
Considere a variavel 𝑌 que depende do vetor de parametros 𝜃 = (𝜃1, . . . , 𝜃𝑠)′ e
𝑌 |𝜃 ∼ 𝑓(𝑦|𝜃) tal que pertenca a famılia exponencial. Ou seja, a famılia de distribuicoes
com funcao de probabilidade 𝑓(𝑦|𝜃) pertence a famılia exponencial se puder ser escrita
como
𝑓(𝑦|𝜃) = 𝑒𝑥𝑝
⎧⎨⎩𝑠∑
𝑗=1
𝑎𝑗(y)𝑏𝑗(𝜃) + 𝑐(𝜃) + 𝑑(y)
⎫⎬⎭onde 𝑎(·), 𝑏(·), 𝑐(·) e 𝑑(·) sao funcoes conhecidas. Como dito anteriormente, a media
(𝐸[𝑌 |𝜃]) e uma funcao nao-linear de componentes lineares, B′𝛽. Ou seja,
Capıtulo 3. Modelos para dados univariados de contagem 16
𝑔(𝐸[𝑌 |𝜃]) = B′𝛽 (3.1)
com 𝑔(·) funcao de ligacao conhecida, B covariaveis e 𝛽 coeficientes de regressao.
Usualmente, em dados de contagem, utiliza-se o modelo de Poisson ou Poisson
log-linear para descrever os dados e modelos de mistura para modelagem de dados de
contagem inflados de zeros, como pode ser visto a seguir.
3.1 Poisson
O modelo Poisson e um modelo simples, utilizado em dados de contagem e nao utiliza
covariaveis para tentar explicar a media do processo. Seja 𝑌 |𝜆 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆), isto e,
𝑓(𝑦|𝜆) = 𝑒−𝜆𝜆𝑦
𝑦!. (3.2)
Este modelo tem como propriedade media e variancia iguais e muitas vezes essa
suposicao e violada, pois, geralmente, dados de meteorologia, industriais e de saude
apresentam superdispercao (media < variancia), como por exemplo, os dados apresen-
tados na a secao 2.
3.2 Regressao de Poisson
Os modelos de regressao para dados de contagem ja estao bem estabelecidos na lite-
ratura estatıstica (McCullagh and Nelder, 1989). Geralmente utiliza-se o modelo de
regressao Poisson log-linear (Poisson + MLG) para descrever este tipo de dado, como
pode ser visto na equacao (3.3).
17 3.3. Zero Inflacionados
𝑌 |𝜆 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆) (3.3)
com 𝑙𝑜𝑔(𝜆) = B′𝛽, onde 𝑌 e a variavel resposta, 𝑙𝑜𝑔(·) funcao de ligacao, B covariaveis
e 𝛽 coeficientes de regressao. Mais detalhes para modelo de regressao Poisson log-linear
sugere-se McCullagh and Nelder (1989); Dobson (2001).
3.3 Zero Inflacionados
Aconselha-se utilizar misturas de modelos quando os zeros presentes nos dados sao pau-
sıveis (Lambert, 1992). Usualmente, os modelos ZI sao compostos de duas componentes
que podem ser entendidas como:
(1) Contagem nula, podendo ser subdividida em duas partes:
• Zeros estruturais: pertencentes a estrutura de zeros dos dados;
• Zeros amostrais: pertencentes a distribuicao de contagem quando a resposta
e nula.
(2) Contagem nao-nula, cujo modelo segue uma distribuicao de contagem.
Nesta secao a estrutura do modelo de mistura sera composta de duas componentes
considerando uma media ponderada de duas distribuicoes como mostra a equacao (3.4).
𝑃 (𝑌 = 𝑦) = 𝜋 𝑓1(𝑦)⏟ ⏞ Componente 1
+(1− 𝜋) 𝑓2(𝑦|𝜆)⏟ ⏞ Componente 2
(3.4)
tal que
𝑓1(𝑦) =
⎧⎪⎨⎪⎩ 1 se 𝑦 = 0,
0 se 𝑦 = 0(3.5)
Capıtulo 3. Modelos para dados univariados de contagem 18
e 𝑓2(𝑦|𝜆) e um modelo de contagem com media 𝜆, 𝑦 ∈ {0,1, . . .} e 𝜋 e uma proporcao de
mistura com 0 ≤ 𝜋 ≤ 1. Exemplos conhecidos dessas misturas para dados de contagens
sao os modelos de Poisson inflacionado de zeros, que utiliza a distribuicao de Poisson
na componente 2, e o binomial negativo inflacionado de zeros, que utiliza por sua vez
a distribuicao binomial negativa.
3.3.1 Regressao ZIP
No presente trabalho, um dos modelos a ser considerado e o modelo de regressao ZIP
independente que pode ser escrito como
𝑌𝑗 |𝜋,𝜆𝑗𝑖𝑛𝑑∼ 𝜋𝑓1(𝑦𝑗) + (1− 𝜋)𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝑦𝑗 |𝜆𝑗) (3.6)
para 𝑗 = 1, . . . ,𝑚 onde 0 ≤ 𝜋 ≤ 1 e a proporcao de zeros, 𝜆𝑗 e a taxa referente a
variavel de contagem 𝑌𝑗 e 𝑓1(𝑦𝑗) dado na equacao (3.5).
O modelo de regressao ZIP dado da forma descrita em (3.6) tem as seguintes pro-
priedades:
𝑌𝑗 =
⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩0 com probabilidade 𝜋 + (1− 𝜋)𝑒−𝜆𝑗
k com probabilidade (1− 𝜋)𝜆𝑘𝑗 𝑒
−𝜆𝑗
𝑘! , 𝑘 = 1,2, . . .
(3.7)
O valor esperado e dado por 𝐸(𝑌𝑗) = (1 − 𝜋)𝜆𝑗 e a variancia e dada por 𝑉 𝑎𝑟(𝑌𝑗) =
(1 − 𝜋)𝜆𝑗 [1 + (1 − (1 − 𝜋))𝜆𝑗 ] para 𝑗 = 1, . . . ,𝑚. Assim, consegue-se tratar a super
dispersao ja que o modelo (de regressao) Poisson nao o faz, pois, tem como hipotese
media e variancia equivalentes.
19 3.3. Zero Inflacionados
Este modelo adotara covariaveis para descrever as taxas 𝜆’s da mesma forma vista
na secao 3.2. Desta forma, 𝑙𝑜𝑔(𝜆𝑗) = B′𝑗𝛽𝑗 , onde 𝑌𝑗 e a variavel de interesse indexada
por 𝑗 = 1, . . . ,𝑚, 𝑙𝑜𝑔(·) funcao de ligacao, B𝑗 covariaveis e 𝛽𝑗 coeficientes de regressao
referentes a variavel de interesse 𝑌𝑗 .
Capıtulo 3. Modelos para dados univariados de contagem 20
Capıtulo 4
Modelos para dados
multivariados de contagem
A distribuicao de Poisson multivariada e uma alternativa a aproximacoes para tratar
dados discretos multivariados, no entanto, a principal desvantagem da aplicacao desta
distribuicao e a forma complexa da funcao de probabilidade conjunta como apresentado
no Capıtulo 1. Uma forma intuitiva para escrever a Poisson multivariada e utilizar a
soma de variaveis aleatorias independentes de Poisson (com termos comuns em Johnson
et al., 1997).
4.1 Poisson multivariado
Uma vantagem de utilizar a distribuicao de Poisson multivariada e incluir a informacao
da correlacao proveniente dos dados multivariados no processo de modelagem direta-
mente na distribuicao de probabilidade dos dados e nao em outros nıveis da hierarquia
do modelo.
Por outro lado sabe-se que na distribuicao Poisson 𝑚-variada, a medida que o nu-
Capıtulo 4. Modelos para dados multivariados de contagem 22
mero de variaveis de interesse (𝑚) aumenta, torna-se difıcil a especificacao e avaliacao
da distribuicao conjunta. Dependendo da construcao da distribuicao de Poisson multi-
variada se tem um grande numero de somatorios que muitas vezes apresentam regioes
complexas.
Por exemplo, assuma o modelo de Poisson trivariado completo, isto e, (𝑌1, 𝑌2, 𝑌3)′ ∼
3− 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(Λ) com Λ = {𝜆1, 𝜆2, 𝜆3, 𝜆12, 𝜆13, 𝜆23}, tal que
𝑌1 = 𝑋1 +𝑋12 +𝑋13
𝑌2 = 𝑋2 +𝑋12 +𝑋23
𝑌3 = 𝑋3 +𝑋13 +𝑋23
com 𝑋𝑖’s variaveis aleatorias com distribuicao de Poisson independentes com parame-
tros 𝜆𝑖, 𝑖 ∈ ({1}, {2}, {3}, {12}, {13}, {23}). Desta forma, a funcao de probabilidade
𝑃 (Y = y) = 𝑃 (𝑌1 = 𝑦1, 𝑌2 = 𝑦2, 𝑌3 = 𝑦3) sera dada por
𝑃 (Y = y) =∑
(𝑥12,𝑥13,𝑥23)∈𝐶
𝑒𝑥𝑝(−∑𝜆𝑖)𝜆
𝑦1−𝑥12−𝑥131 𝜆𝑦2−𝑥12−𝑥23
2 𝜆𝑦3−𝑥13−𝑥233 𝜆𝑥12
12 𝜆𝑥1313 𝜆
𝑥2323
(𝑦1 − 𝑥12 − 𝑥13)!(𝑦2 − 𝑥12 − 𝑥23)!(𝑦3 − 𝑥13 − 𝑥23)!
onde a soma e dada sob o conjunto 𝐶 ⊂ 𝑁3 que e definido como
𝐶 = [(𝑥12, 𝑥13, 𝑥23) ∈ 𝑁3 : {𝑥12 + 𝑥13 ≤ 𝑦1}∩ {𝑥12 + 𝑥23 ≤ 𝑦2}∩ {𝑥13 + 𝑥23 ≤ 𝑦3} = ∅].
O modelo de Poisson multivariado (m-Poisson) tratado neste trabalho assumira
23 4.1. Poisson multivariado
uma covariancia comum entre as variaveis estudadas. Todavia, sabe-se que, geral-
mente, este modelo nao retrata a realidade para tres ou mais variaveis, podendo ser
generalizado para covariancias diferentes.
Considere a variavel aleatoria 𝑋𝑖 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆𝑖) para 𝑖 = 0, . . . ,𝑚 mutuamente
independentes. O vetor 𝑚-variado (𝑌1, . . . , 𝑌𝑚)′|Λ tera distribuicao de Poisson 𝑚-
variada com parametro Λ = {𝜆𝑗 , 𝑗 = 0,1, . . . ,𝑚} desde que as contagens para cada
uma das 𝑚 variaveis, 𝑌1, . . . , 𝑌𝑚, sejam escritas da seguinte forma:
𝑌1 = 𝑋1 +𝑋0
𝑌2 = 𝑋2 +𝑋0
𝑌3 = 𝑋3 +𝑋0
...
𝑌𝑚 = 𝑋𝑚 +𝑋0. (4.1)
Tem-se que, marginalmente, cada 𝑌𝑗 tem distribuicao Poisson com parametro 𝜆0 +
𝜆𝑗 , covariancia entre 𝑌𝑗 e 𝑌𝑘 dada por
𝐶𝑜𝑣(𝑌𝑗 ,𝑌𝑘) =
⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩𝜆𝑗 + 𝜆0 se 𝑗 = 𝑘
𝜆0 se 𝑗 = 𝑘
(4.2)
e correlacao entre 𝑌𝑗 e 𝑌𝑘 dada por 𝐶𝑜𝑟(𝑌𝑗 ,𝑌𝑘) = 𝜆0/√(𝜆𝑗 + 𝜆0)(𝜆𝑘 + 𝜆0).
Cabe ressaltar que, de acordo com esta definicao, a correlacao entre as contagens
por unidade amostral sera necessariamente positiva, pois, a covariancia e parametro de
uma distribuicao de Poisson, isto e, 𝜆0 > 0. Sendo assim, esta e outra desvantagem da
Capıtulo 4. Modelos para dados multivariados de contagem 24
distribuicao de Poisson multivariada. Porem, em muitas aplicacoes de interesse essa e
uma suposicao razoavel.
Uma dificuldade enfrentada ao longo deste projeto foi escrever e calcular a funcao
de probabilidade conjunta. Uma solucao encontrada foi escreve-la atraves das variaveis
𝑋0, 𝑋1, . . . , 𝑋𝑚, condicionalmente independentes, ao inves de escreve-la em funcao das
variaveis respostas, por sua vez dependentes, como pode ser visto a seguir. A prova
segue no Apendice A.
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚|Λ) =∑𝑥0
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = 𝑥0|Λ)
= 𝑒𝑥𝑝
⎧⎨⎩−𝑚∑𝑗=0
𝜆𝑗
⎫⎬⎭∑𝑥0
(𝜆0
𝜆1 . . . 𝜆𝑚
)𝑥0 𝜆𝑦11 . . . 𝜆𝑦𝑚𝑚𝑥0!∏𝑚
𝑗=1(𝑦𝑗 − 𝑥0)!
(4.3)
onde 𝑥0 = 0, . . . ,𝑚𝑖𝑛(𝑦1,𝑦2, . . . ,𝑦𝑚) e Λ = {𝜆𝑗 , 𝑗 = 0,1, . . . ,𝑚}. Note que e facil
verificar que no caso 𝜆0 = 0 as variaveis aleatorias 𝑌1, . . . , 𝑌𝑚 serao independentes.
A distribuicao condicional 𝑌𝑗 |Y−𝑗 = y−𝑗 tal que Y−𝑗 representa as variaveis ale-
atorias, 𝑌1, . . . , 𝑌𝑚, exceto a 𝑗-esima variavel, para 𝑗 = 1,2, . . . ,𝑚, tem uma forma
complicada. No entanto, a seguir sera apresentada a distribuicao condicional bivariada
que sera utilizada nos exemplos simulados e na aplicacao dos dados reais do presente
trabalho.
25 4.1. Poisson multivariado
𝑃 (𝑌𝑗 = 𝑦𝑗 |𝑌𝑘 = 𝑦𝑘) =𝑃 (𝑌𝑗 = 𝑦𝑗 ,𝑌𝑘 = 𝑦𝑘)
𝑃 (𝑌𝑘 = 𝑦𝑘)
= 𝑒−𝜆𝑗
𝑚𝑖𝑛(𝑦𝑗 ,𝑦𝑘)∑𝑥0=0
(𝑦𝑘𝑥0
)(𝜆0
𝜆0 + 𝜆𝑘
)𝑥0(
𝜆𝑘𝜆0 + 𝜆𝑘
)𝑦𝑘−𝑥0 𝜆𝑦𝑗−𝑥0
𝑗
(𝑦𝑗 − 𝑥0)!
(4.4)
para 𝑗,𝑘 = 1,2, . . . ,𝑚. Como observado em Johnson et al. (1997) essa distribuicao con-
dicional pode escrita como a soma de duas variaveis mutuamente independentes com
as distribuicoes Poisson(𝜆𝑗) e Binomial(𝑦𝑘,
𝜆0𝜆0+𝜆𝑘
).
Devido a dificuldade em avaliar a distribuicao conjunta dada na equacao (4.3) de-
vido ao somatorio para contagens altas das variaveis de interesse optou-se pela tecnica
de aumento de dados, isto e, tratar a variavel 𝑋0 como uma variavel latente.
Essa abordagem foi realizada tanto em Majumdar and Gries (2010) como em Arab
et al. (2012), no entanto, ambos os trabalhos cometeram equıvocos ao longo das contas
ou apresentaram incoerencias nos algoritmos de estimacao. Por exemplo, Majumdar
and Gries (2010) denotam que as variaveis de interesse (𝑌1,𝑌2) sao escritas como a
soma de variaveis independentes de Poisson, no entanto, com um termo comum, isto
e, 𝑌𝑗 = 𝑊𝑗 +𝑊0 para 𝑗 = 1,2. Ao apresentar o algoritmo de estimacao, os autores
sugerem que caso (𝑌1,𝑌2) = (0, 𝑦2) e 𝑦2 > 0 gera-se 𝑊0 de uma binomial (com certos
parametros), acha-se𝑊2 = 𝑌2−𝑊0 e por fim gera-se𝑊1 de uma Poisson. Desta forma,
ha uma incoerencia, pois em momento nenhum houve a preocupacao em garantir que
𝑊1 = 0 e 𝑊0 = 0, ja que 𝑌1 = 0.
Ja os autores Arab et al. (2012) ao exibirem as condicionais completas dos modelos
Capıtulo 4. Modelos para dados multivariados de contagem 26
propostos propoem gerar as variaveis latentes (refetentes a covariancia comum entre os
dados) de uma distribuicao uniforme discreta com parametros [0,mınimo(𝑑𝑎𝑑𝑜𝑠)]. No
entanto, a condicional completa e discreta tal que depende de 𝑋0 e do vetor parame-
trico 𝜃 = (𝜆0, 𝜆1, . . . , 𝜆𝑚), como pode ser visto a seguir.
𝑃 (𝑋0 = 𝑥0|Y = y,𝜃) ∝ 𝑃 (Y = y,𝑋0 = 𝑥0|𝜃)
∝ 𝑃 (Y = y|𝑋0 = 𝑥0,𝜃)𝑃 (𝑋0 = 𝑥0|𝜃)
∝(
𝜆0𝜆1 . . . 𝜆𝑚
)𝑥0 1
(𝑦1 − 𝑥0)! . . . (𝑦𝑚 − 𝑥0)!𝑥0!
com 𝑥0 = 0,1, . . . ,𝑚𝑖𝑛(𝑦1, . . . ,𝑦𝑚).
Embora o objetivo seja escrever 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚|Λ) o artifıcio de aumentar
os dados da forma dada na equacao (4.5), 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = 𝑥0|Λ), muitas
vezes diminui o custo computacional, neste caso em particular, por exemplo, implicara
em nao recorrer ao somatorio presente na conjunta dada na equacao (4.3).
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = x0|Λ) = 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 𝑒𝑥𝑝
⎧⎨⎩−𝑚∑𝑗=0
𝜆𝑗
⎫⎬⎭(
𝜆0𝜆1 . . . 𝜆𝑚
)𝑥0 𝜆𝑦11 . . . 𝜆𝑦𝑚𝑚𝑥0!∏𝑚
𝑘=1(𝑦𝑘 − 𝑥0)!
(4.5)
A prova encontra-se no Apendice A.
Seja Y = (Y1, . . . ,Y𝑚) com Y𝑗 = (𝑌𝑗1, . . . , 𝑌𝑗𝑁 ) para 𝑗 = 1,...,𝑚. Assim, a
verossimilhanca do modelo de Poisson multivariado, com a tecnica de aumento de
27 4.2. Regressao de Poisson multivariado
dados, pode ser escrita como:
𝑃 (Y = y,X0 = x0|Λ) = 𝑃 (Y = y|X0 = x0,Λ)𝑃 (X0 = x0|𝜆0)
=
𝑁∏𝑖=1
⎡⎣𝑒𝑥𝑝⎧⎨⎩−
𝑚∑𝑗=0
𝜆𝑗
⎫⎬⎭(
𝜆0𝜆1 . . . 𝜆𝑚
)𝑥0𝑖 𝜆𝑦1𝑖1 . . . 𝜆𝑦𝑚𝑖𝑚
𝑥0𝑖!∏𝑚
𝑘=1(𝑦𝑘𝑖 − 𝑥0𝑖)!
⎤⎦(4.6)
Mais detalhes desta prova encontram-se no Apendice A.
4.2 Regressao de Poisson multivariado
Uma vantagem do modelo de regressao de Poisson multivariado (m-Poisson + MLG)
para o modelo de regressao de Poisson independente (Poisson + MLG) e a capacidade
de modelar as medias, bem como a covariancia, permitindo, assim, uma maior flexibi-
lidade na modelagem, assim como apresentado em Karlis and Meligkotsidou (2005) e
Buck et al. (2009) que utilizam covariaveis para explicar inclusive a covariancia.
A utilizacao de covariaveis para explicar a taxa de internacao por tipo de doenca
pode ser feita atraves de uma funcao de ligacao como visto no MLG usual dado na
equacao (3.1).
Seja 𝑙𝑜𝑔(·) a funcao de ligacao, 𝛽 = (𝛽0,𝛽1, . . . ,𝛽𝑚) com 𝛽𝑗 = (𝛽𝑗1, . . . ,𝛽𝑗𝑛𝑗 )′ o
vetor de coeficientes de regressao referente ao parametro indexado por 𝑗 = 0, 1, . . . ,𝑚.
Escreva B = (B0,B1, . . . ,B𝑚) onde B𝑖 = (B0𝑖,B1𝑖, . . . ,B𝑚𝑖)′ e conjunto de covariaveis
referente a unidade amostral 𝑖 = 1, . . . , 𝑁 eB𝑗𝑖 = (𝐵𝑗1, . . . ,𝐵𝑗𝑛𝑗 )′𝑖 o vetor de covariaveis
referente ao parametro 𝜆𝑗 para a unidade amostral 𝑖 = 1, . . . ,𝑁 com 𝑛𝑗 o numero de
coeficientes de regressao para 𝑗 = 0,1, . . . ,𝑚. Do mesmo modo que no MLG usual,
Capıtulo 4. Modelos para dados multivariados de contagem 28
tem-se que
𝑙𝑜𝑔(𝜆𝑗) = B′𝑗𝛽𝑗 , 𝑗 = 0,1, . . . ,𝑚 (4.7)
Note que o MLG e referente as variaveis aleatorias (independentes) 𝑋0, 𝑋1, . . . , 𝑋𝑚 e
𝐸[𝑋𝑗 |Λ] = 𝜆𝑗 para 𝑗 = 0,1, . . . ,𝑚. Com isto, a funcao de probabilidade conjunta sera
dada por
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚,B|𝛽) =
𝑚𝑖𝑛(𝑦1,...,𝑦𝑚)∑𝑥0=0
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = 𝑥0,B|𝛽)
= 𝑒𝑥𝑝
⎧⎨⎩−𝑚∑𝑗=0
𝑒𝑥𝑝{B′𝑗𝛽𝑗}
⎫⎬⎭×
𝑚𝑖𝑛(𝑦1,...,𝑦𝑚)∑𝑥0=0
(𝑒𝑥𝑝{B′
0𝛽0}𝑒𝑥𝑝{B′
1𝛽1} . . . 𝑒𝑥𝑝{B′𝑚𝛽𝑚}
)𝑥0
×𝑚𝑖𝑛(𝑦1,...,𝑦𝑚)∑
𝑥0=0
𝑒𝑥𝑝{B′1𝛽1}𝑦1 . . . 𝑒𝑥𝑝{B′
𝑚𝛽𝑚}𝑦𝑚(𝑦1 − 𝑥0)! . . . (𝑦𝑚 − 𝑥0)!𝑥0!
(4.8)
Atraves do artifıcio de aumento de dados, a conjunta pode ser escrita como
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = x0,B|𝛽) = 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚,B|𝑋0 = 𝑥0,𝛽)𝑃 (𝑋0 = 𝑥0|𝛽0)
= 𝑒𝑥𝑝
⎧⎨⎩−𝑚∑𝑗=0
𝑒𝑥𝑝{B′𝑗𝛽𝑗}
⎫⎬⎭×
(𝑒𝑥𝑝{B′
0𝛽0}𝑒𝑥𝑝{B′
1𝛽1} . . . 𝑒𝑥𝑝{B′𝑚𝛽𝑚}
)𝑥0
× 𝑒𝑥𝑝{B′1𝛽1}𝑦1 . . . 𝑒𝑥𝑝{B′
𝑚𝛽𝑚}𝑦𝑚(𝑦1 − 𝑥0)! . . . (𝑦𝑚 − 𝑥0)!𝑥0!
(4.9)
Desta forma, o modelo de regressao de Poisson multivariado (m-Poisson + MLG),
29 4.3. ZIP multivariado
com a tecnica de aumento de dados, tera a verossimilhanca dada por
𝑃 (Y = y,B|𝛽) =𝑁∏𝑖=1
𝑃 (Y𝑖 = y𝑖, 𝑋0𝑖 = 𝑥0𝑖,B𝑖|𝛽)
=𝑁∏𝑖=1
𝑃 (𝑌1𝑖 = 𝑦1𝑖, . . . , 𝑌𝑚𝑖 = 𝑦𝑚𝑖,𝑋0𝑖 = 𝑥0𝑖,B𝑖|𝛽)
=𝑁∏𝑖=1
⎡⎣𝑒𝑥𝑝⎧⎨⎩−
𝑚∑𝑗=0
𝑒𝑥𝑝{B′𝑗𝑖𝛽𝑗}
⎫⎬⎭×
(𝑒𝑥𝑝{B′
0𝑖𝛽0}𝑒𝑥𝑝{B′
1𝑖𝛽1} . . . 𝑒𝑥𝑝{B′𝑚𝑖𝛽𝑚}
)𝑥0𝑖 𝑒𝑥𝑝{B′1𝑖𝛽1}𝑦1𝑖...𝑒𝑥𝑝{B
′𝑚𝑖𝛽𝑚}𝑦𝑚𝑖
(𝑦1𝑖 − 𝑥0𝑖)! . . . (𝑦𝑚𝑖 − 𝑥0𝑖)!𝑥0𝑖!
](4.10)
4.3 ZIP multivariado
Yip (1988) e Heilbron (1994) apresentaram modelos de regressao para dados de con-
tagem baseados em misturas de distribuicoes degeneradas no ponto zero e outras dis-
tribuicoes amostrais, como Binomial Negativa e Poisson. Nesta secao, sera adotado o
modelo de ZIP multivariado.
A proposta inicial e a utilizacao da distribuicao de Poisson multivariada no modelo
de mistura, assim ha a necessidade de estender o ZIP usual dado na equacao (3.4) para
o ZIP multivariado (m-ZIP), como apresentado nos trabalhos de Li et al. (1999), Arab
et al. (2012) e Majumdar and Gries (2010), onde os dois ultimos apresentam apenas o
ZIP bivariado.
Seja Y = (𝑌1, . . . , 𝑌𝑚)′|(Λ,𝜋) com distribuicao ZIP 𝑚-variado (m-ZIP) com para-
metros Λ = {𝜆0, 𝜆1, . . . , 𝜆𝑚} e 𝜋 = (𝜋0, 𝜋1,𝜋2, . . . , 𝜋𝑚, 𝜋𝑚+1)′ com 𝜋𝑚+1 = 1−
∑𝑚𝑗=0 𝜋𝑗 .
Com isto, pode-se escrever
Capıtulo 4. Modelos para dados multivariados de contagem 30
(𝑌1, . . . , 𝑌𝑚)′|(Λ,𝜋) ∼
⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩
(0,0, . . . , 0) com probabilidade 𝜋0,
(𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆1),0, . . . ,0) com probabilidade 𝜋1,
(0, 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆2), . . . , 0) com probabilidade 𝜋2,
...
(0, 0, . . . , 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆𝑚)) com probabilidade 𝜋𝑚,
𝑚− 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(Λ) com probabilidade 𝜋𝑚+1.
(4.11)
No entanto, esta proposta e um caso particular em que leva em consideracao apenas
os casos em que todas as variaveis, 𝑌1, . . . , 𝑌𝑚, tem distribuicao degenerada no ponto
zero, apenas uma delas tem distribuicao Poisson e as restantes sao degeneradas no
ponto zero ou as variaveis tem distribuicao Poisson multivariada. O caso geral para
o caso ZIP𝑚- variado e descrito com(𝑚0
)+(𝑚1
)+(𝑚2
)+. . .+
(𝑚
𝑚−1
)+(𝑚𝑚
)casos possıveis.
Sabe-se, que, o caso dado na equacao (4.11), embora muito particular, abrange
todas as possıveis combinacoes no caso bivariado. Vale a pena ressaltar que tanto os
exemplos simulados e a aplicacao aos dados reais do presente trabalho abordarao o ZIP
bivariado por ser tratar de dados com estrutura bivariada.
No entanto, para casos com 𝑚 > 2 isto nao ocorre. Todavia, na literatura pesqui-
sada, o ZIP multivariado e descrito da forma dada na equacao (4.11) mesmo quando
exemplificados em casos trivariados como visto em Li et al. (1999).
Como apresentado em Li et al. (1999) a distribuicao marginal do ZIP multivariado
e o ZIP univariado tal que
31 4.3. ZIP multivariado
𝑌𝑗 |(Λ,𝜋) ∼
⎧⎪⎨⎪⎩ 0 com probabilidade 1− 𝜋𝑗 − 𝜋𝑚+1
𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆𝑗) com probabilidade 𝜋𝑗 + 𝜋𝑚+1
(4.12)
com 𝐸(𝑌𝑗) = (𝜋𝑗 + 𝜋𝑚+1)(𝜆0 + 𝜆𝑗) e 𝑉 𝑎𝑟(𝑌𝑗) = (𝜋𝑗 + 𝜋𝑚+1)(𝜆0 + 𝜆𝑗)[1 + (1 − 𝜋𝑗 −
𝜋𝑚+1)(𝜆0 + 𝜆𝑗)] para 𝑗 = 1, . . . ,𝑚. Note que 𝐸(𝑌𝑗) < 𝑉 𝑎𝑟(𝑌𝑗) e a covariancia entre
𝑌𝑗 e 𝑌𝑘 e dada por
𝐶𝑜𝑣(𝑌𝑗 ,𝑌𝑘) =
⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩(𝜋𝑗 + 𝜋𝑚+1)(𝜆0 + 𝜆𝑗)[1 + (1− 𝜋𝑗 − 𝜋𝑚+1)(𝜆0 + 𝜆𝑗)] se 𝑗 = 𝑘
𝜆0𝜋𝑚+1[1 + 𝜆0(1− 𝜋𝑚+1)] se 𝑗 = 𝑘
(4.13)
Equivalentemente ao ZIP usual, dado na equacao (3.4), o 𝑚− 𝑍𝐼𝑃 (Λ,𝜋) pode ser
escrito como
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚|Λ,𝜋) = 𝜋0𝑓1(𝑦1, . . . ,𝑦𝑚) + 𝜋1𝑓2(𝑦1|𝜆0 + 𝜆1)
+ 𝜋2𝑓2(𝑦2|𝜆0 + 𝜆2) + . . .+ 𝜋𝑚𝑓2(𝑦𝑚|𝜆0 + 𝜆𝑚)
+ 𝜋𝑚+1𝑓3(𝑦1, . . . ,𝑦𝑚|Λ) (4.14)
onde
𝑓1(𝑦1, . . . ,𝑦𝑚) =
⎧⎪⎨⎪⎩ 1 se 𝑦1 = 𝑦2 = . . . = 𝑦𝑚 = 0,
0 caso 𝑦𝑗 = 0 para algum 𝑗 = 1, . . . ,𝑚(4.15)
e 𝑓2(·) e a funcao de probabilidade da Poisson univariada, 𝑓3(·) a funcao da Poisson
multivariada, 𝑦1, . . . ,𝑦𝑚 ∈ {0,1, . . .} e 𝜋𝑗 e uma proporcao de mistura com as restricoes
0 ≤ 𝜋𝑗 ≤ 1 para 𝑗 = 0,1, . . . ,(𝑚+ 1) e∑𝑚+1
𝑗=0 𝜋𝑗 = 1.
Capıtulo 4. Modelos para dados multivariados de contagem 32
Uma forma de simplificar o emprego do ZIP, tanto usual quanto multivariado, na
modelagem, e utilizar o artifıcio de aumento de dados. Defina a variavel auxiliar
W = (𝑊0,𝑊1, . . . ,𝑊𝑚+1)′ e faca as seguintes analogias:
W = (1,0, . . . ,0,0)′ ⇒ (𝑌1, . . . ,𝑌𝑚)′ ∼ (0,0, . . . ,0)
W = (0,1, . . . ,0,0)′ ⇒ (𝑌1, . . . ,𝑌𝑚)′ ∼ (𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆1),0, . . . ,0)
...
W = (0,0, . . . ,1,0)′ ⇒ (𝑌1, . . . ,𝑌𝑚)′ ∼ (0,0, . . . ,𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆𝑚))
W = (0,0, . . . ,0,1)′ ⇒ (𝑌1, . . . ,𝑌𝑚)′ ∼ 𝑚− 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(Λ).
Com isto, a conjunta do modelo ZIP multivariado pode ser escrita como
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚,W = w|Λ) = 𝑓1(𝑦1, . . . ,𝑦𝑚)𝑤0
× 𝑓2(𝑦1|𝜆0 + 𝜆1)𝑤1 . . . 𝑓2(𝑦𝑚|𝜆0 + 𝜆𝑚)𝑤𝑚
× 𝑓3(𝑦1, . . . ,𝑦𝑚|Λ)𝑤𝑚+1 (4.16)
Entao, a verossimilhanca para o modelo ZIP multivariado (m-ZIP) pode ser escrita
como
33 4.3. ZIP multivariado
𝑃 (Y = y,W = w|Λ) =𝑁∏𝑖=1
𝑚𝑖𝑛(𝑦1𝑖,...,𝑦𝑚𝑖)∑𝑥0𝑖=0
𝑃 (Y𝑖 = y𝑖, 𝑋0𝑖 = 𝑥0𝑖,W𝑖 = w𝑖|Λ)
=𝑁∏𝑖=1
𝑚𝑖𝑛(𝑦1𝑖,...,𝑦𝑚𝑖)∑𝑥0𝑖=0
𝑃 (𝑌1𝑖 = 𝑦1𝑖, . . . , 𝑌𝑚𝑖 = 𝑦𝑚𝑖, 𝑋0𝑖 = 𝑥0𝑖,W𝑖 = w𝑖|Λ)
=𝑁∏𝑖=1
[𝑓1(𝑦1𝑖, . . . , 𝑦𝑚𝑖)𝑤0𝑖
× 𝑓2(𝑦1𝑖|𝜆0 + 𝜆1)𝑤1𝑖 . . . 𝑓2(𝑦𝑚𝑖|𝜆0 + 𝜆𝑚)𝑤𝑚𝑖
× 𝑓3(𝑦1𝑖, . . . , 𝑦𝑚𝑖|Λ)𝑤(𝑚+1)𝑖 ] (4.17)
onde, para 𝑖 = 1, . . . , 𝑁 , 𝑓1(𝑦1𝑖, . . . , 𝑦𝑚𝑖) e dada na equacao (4.15) e
𝑓2(𝑦𝑗𝑖|𝜆0 + 𝜆𝑗) = 𝑒𝑥𝑝{−(𝜆0 + 𝜆𝑗)}(𝜆0 + 𝜆𝑗)
𝑦𝑗𝑖
𝑦𝑗𝑖!, 𝑗 = 1, . . . ,𝑚 (4.18)
𝑓3(𝑦1𝑖, . . . , 𝑦𝑚𝑖|Λ) =
𝑚𝑖𝑛(𝑦1𝑖,...,𝑦𝑚𝑖)∑𝑥0𝑖=0
𝑃 (𝑌1𝑖 = 𝑦1𝑖, . . . , 𝑌𝑚𝑖 = 𝑦𝑚𝑖,𝑋0𝑖 = 𝑥0𝑖|Λ)
= 𝑒−(𝜆0+𝜆1+...+𝜆𝑚)
𝑚𝑖𝑛(𝑦1𝑖,...,𝑦𝑚𝑖)∑𝑥0𝑖=0
[(𝜆0
𝜆1 . . . 𝜆𝑚
)𝑥0𝑖
× 𝜆𝑦1𝑖1 . . . 𝜆𝑦𝑚𝑖𝑚
(𝑦1𝑖 − 𝑥0𝑖)! . . . (𝑦𝑚𝑖 − 𝑥0𝑖)!𝑥0𝑖!
](4.19)
Como dito anteriormente, o presente trabalho propoe como forma de avaliacao da
distribuicao conjunta de (𝑌1, . . . ,𝑌𝑚)′|Λ o artifıcio de aumento de dados tanto no ZIP
multivariado como na funcao de distribuicao da Poisson multivariada. Isto e, incluir W
e tratar a variavel 𝑋0 como uma variavel latente, respectivamente. Assim, as funcoes
de probabilidade 𝑓2(·) e 𝑓3(·) serao reescritas como 𝑓⋆2 (·) e 𝑓⋆3 (·) como pode ser visto a
Capıtulo 4. Modelos para dados multivariados de contagem 34
seguir ou mais detalhadas no Apendice A.
(i) 𝑓⋆2 (𝑦𝑗 − 𝑥0|Λ) com 𝑃 (Y−𝑗 = 0|Λ) = 1 ⇒ 𝑃 (X−𝑗 = 0|Λ) = 1.
𝑓⋆2 (𝑦𝑗 − 𝑥0|Λ) = 𝑃 (𝑌1 = 0, . . . , 𝑌𝑗 = 𝑦𝑗 , . . . , 𝑌𝑚 = 0, 𝑋0 = 0|Λ)
= 𝑃 (𝑋1 = 0|𝜆1) . . . 𝑃 (𝑋𝑗 = 𝑦𝑗 − 0|𝜆𝑗) . . . 𝑃 (𝑌𝑚 = 0|𝜆𝑚)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 1× . . .𝜆𝑦𝑗𝑗 𝑒
−𝜆𝑗
(𝑦𝑗)!× . . .× 1 (4.20)
ondeY−𝑗 = (𝑌1, . . . , 𝑌𝑗−1, 𝑌𝑗+1, . . . , 𝑌𝑚) eX−𝑗 = (𝑋0, 𝑋1, . . . , 𝑋𝑗−1, 𝑋𝑗+1, . . . , 𝑋𝑚).
(ii) 𝑓⋆3 (𝑦1 − 𝑥0, . . . , 𝑦𝑚 − 𝑥0|Λ)
𝑓⋆3 (𝑦1 − 𝑥0, . . . , 𝑦𝑚 − 𝑥0|Λ) = 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = 𝑥0|Λ)
=𝜆𝑦1−𝑥01 𝑒−𝜆1
(𝑦1 − 𝑥0)!. . .
𝜆𝑦𝑚−𝑥0𝑚 𝑒−𝜆𝑚
(𝑦𝑚 − 𝑥0)!
𝜆𝑥00 𝑒
−𝜆0
𝑥0!
= 𝑒−(𝜆0+𝜆1+...+𝜆𝑚)
(𝜆0
𝜆1 . . . 𝜆𝑚
)𝑥0 𝜆𝑦11 . . . 𝜆𝑦𝑚𝑚(𝑦1 − 𝑥0)! . . . (𝑦𝑚 − 𝑥0)!𝑥0!
(4.21)
Assim sendo, a verossimilhanca com a tecnica de aumento de dados tanto no ZIP
multivariado como na Poisson multivariada, para o modelo ZIP multivariado, sera dada
por
35 4.4. Regressao ZIP multivariado
𝑃 (Y = y,X0 = x0,W = W|Λ) =𝑁∏𝑖=1
𝑃 (Y𝑖 = y𝑖,X0𝑖 = x0𝑖,W𝑖 = w𝑖|Λ)
=
𝑁∏𝑖=1
𝑃 (𝑌1𝑖 = 𝑦1𝑖, . . . , 𝑌𝑚𝑖 = 𝑦𝑚𝑖, 𝑋0𝑖 = 𝑥0𝑖,W𝑖 = w𝑖|Λ)
=𝑁∏𝑖=1
[𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|Λ)𝑤1𝑖 . . . 𝑓⋆2 (𝑦𝑚𝑖 − 𝑥0𝑖|Λ)𝑤𝑚𝑖
× 𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖, . . . , 𝑦𝑚𝑖 − 𝑥0𝑖|Λ)𝑤(𝑚+1)𝑖 ] (4.22)
4.4 Regressao ZIP multivariado
Seja (𝑌1𝑖, . . . , 𝑌𝑚𝑖)′|(Λ𝑖,𝜋𝑖) ∼ 𝑚 − 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖, 𝜆1𝑖, . . . , 𝜆𝑚𝑖, 𝜋0𝑖, 𝜋1𝑖, 𝜋2𝑖, . . . , 𝜋(𝑚+1)𝑖)
mutuamente independentes com as restricoes 0 ≤ 𝜋𝑗𝑖 ≤ 1 para 𝑗 = 0,1,2, . . . ,(𝑚+ 1) e
𝜋(𝑚+1)𝑖 = 1−∑𝑚
𝑗=0 𝜋𝑗𝑖 para 𝑖 = 1, . . . , 𝑁 . Sendo assim, pode-se escrever
(𝑌1𝑖, . . . ,𝑌𝑚𝑖)′|(Λ𝑖,𝜋𝑖) ∼
⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩
(0,0, . . . ,0) com probabilidade 𝜋0𝑖,
(𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖 + 𝜆1𝑖),0 . . . ,0) com probabilidade 𝜋1𝑖,
(0, 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖 + 𝜆2𝑖), . . . ,0) com probabilidade 𝜋2𝑖,
...
(0, 0, . . . , 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖 + 𝜆𝑚𝑖)) com probabilidade 𝜋𝑚𝑖,
𝑚− 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖, 𝜆1𝑖, . . . ,𝜆𝑚𝑖) com probabilidade 𝜋(𝑚+1)𝑖.
(4.23)
Note que a diferenca entre esta definicao e a dada na equacao (4.11) e que agora
tanto as taxas 𝜆’s como as proporcoes de zero 𝜋 serao funcoes de covariaveis, sendo
Capıtulo 4. Modelos para dados multivariados de contagem 36
assim, cada unidade amostral 𝑖 = 1, . . . , 𝑁 tera sua propria taxa e proporcoes de zero .
Assim, ja se apropriando do aumento de dados para o ZIP multivariado, atraves
da variavel auxiliar W, e para a Poisson multivariada, atraves da variavel latente X0
a verossimilhanca para o modelo de regressao ZIP multivariado (m-ZIP + MLG) sera
semelhante a equacao (4.22) dada no modelo m ZIP, diferenciando-se pelo fato dos
parametros de interesse serem funcoes nao lineares de componentes lineares como pode
ser visto a seguir:
𝑙𝑜𝑔(𝜆𝑗𝑖) = B′𝑗𝑖𝛽𝑗 , 𝑖 = 1, . . . ,𝑁 (4.24)
com 𝑙𝑜𝑔(·) a funcao de ligacao, 𝛽 = (𝛽0,𝛽1, . . . ,𝛽𝑚) com 𝛽𝑗 = (𝛽𝑗1, . . . ,𝛽𝑗𝑛𝑗 )′ o vetor
de coeficientes de regressao referente ao parametro indexado por 𝑗 = 0,1, . . . ,𝑚. Es-
creva B = (B0,B1, . . . ,B𝑚) onde B𝑖 = (B0𝑖,B1𝑖, . . . ,B𝑚𝑖)′ e conjunto de covariaveis
referente a unidade amostral 𝑖 e B𝑗𝑖 = (𝐵𝑗1, . . . ,𝐵𝑗𝑛𝑗 )′𝑖 o vetor de covariaveis referente
ao parametro 𝜆𝑗 para a unidade amostral 𝑖 = 1, . . . ,𝑁 com 𝑛𝑗 o numero de coeficientes
de regressao para 𝑗 = 0,1, . . . ,𝑚.
Ja as proporcoes de zero, atraves do uso de covariaveis, sera escrita via funcao de
ligacao logito multivariada com base na proporcao 𝜋(𝑚+1)𝑖. Isto e,
𝑙𝑜𝑔𝑖𝑡(𝜋𝑗𝑖) = 𝑙𝑜𝑔
(𝜋𝑗𝑖
𝜋(𝑚+1)𝑖
)= G′
𝑗𝑖𝛾𝑗𝑖 𝑖 = 1, . . . ,𝑁 (4.25)
com 𝛾 = (𝛾0,𝛾1, . . . ,𝛾𝑚) com 𝛾𝑗 = (𝛾𝑗1, . . . ,𝛾𝑗𝑞𝑗 )′ o vetor de coeficientes de re-
gressao referente a proporcao de zero indexada por 𝑗 = 0, 1, . . . ,𝑚. Escreva G =
(G0,G1, . . . ,G𝑚) onde G𝑖 = (G0𝑖,G1𝑖, . . . ,G𝑚𝑖)′ e conjunto de covariaveis referente a
unidade amostral 𝑖 = 1, . . . ,𝑁 e G𝑗𝑖 = (𝐺𝑗1, . . . ,𝐺𝑗𝑞𝑗 )′𝑖 o vetor de covariaveis referente
a proporcao de zero 𝜋𝑗 para a unidade amostral 𝑖 = 1, . . . ,𝑁 com 𝑞𝑗 o numero de
37 4.4. Regressao ZIP multivariado
coeficientes de regressao para 𝑗 = 0,1, . . . ,𝑚.
Note que com a restricao∑𝑚+1
𝑗=0 𝜋𝑗 = 1 se tem
𝜋𝑚+1 =1
1 +∑𝑚
𝑗=0 𝑒𝑥𝑝{G′
𝑗𝛾𝑗
} (4.26)
e
𝜋𝑗 =𝑒𝑥𝑝
{G′
𝑗𝛾𝑗
}1 +
∑𝑚𝑗=0 𝑒𝑥𝑝
{G′
𝑗𝛾𝑗
} , 𝑗 = 0,1, . . . ,𝑚. (4.27)
Desta forma, a funcao de verossimilhanca para o modelo de regressao ZIP multiva-
riado (m-ZIP + MLG), com o artifıcio de aumento de dados para o ZIP e a Poisson
multivariados, pode ser escrita como
𝑃 (Y = y,X0 = x0,W = w|𝛽) =𝑁∏𝑖=1
𝑃 (Y𝑖 = y𝑖,X0𝑖 = x0𝑖,W𝑖 = w𝑖|𝛽)
=
𝑁∏𝑖=1
[𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|𝛽)𝑤1𝑖 . . . 𝑓⋆2 (𝑦𝑚𝑖 − 𝑥0𝑖|𝛽)𝑤𝑚𝑖
× 𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖, . . . ,𝑦𝑚𝑖 − 𝑥0𝑖|𝛽)𝑤(𝑚+1)𝑖 ] (4.28)
com 𝑓⋆2 (𝑦𝑗𝑖 − 𝑥0𝑖|𝛽) e 𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖, . . . ,𝑦2𝑖 − 𝑥0𝑖|𝛽) dadas, respectivamente, nas equa-
coes (4.20) e (4.21). Note que basta fazer a transformacao 𝜆𝑗 = 𝑒𝑥𝑝{𝐵′𝑗𝛽𝑗} para
𝑗 = 0,1, . . . ,𝑚 para adequa-las do modelo ZIP multivariado ao modelo de regressao
ZIP multivariado.
Capıtulo 4. Modelos para dados multivariados de contagem 38
Capıtulo 5
Inferencia
Este capıtulo sera dividido em 3 secoes. Na primeira secao sera apresentada a infe-
rencia para os parametros desconhecidos dos modelos propostos neste trabalho sob o
enfoque bayesiano, a elicitacao da distribuicao a priori e a tecnica de aumento de dados.
Posteriormente, na secao 2, sera proposto o criterio de comparacao de modelos e na
secao 3 sera discutida a realizacao de previsao de dados usando composite sampling e
como tratar dados faltantes.
5.1 Inferencia bayesiana
Seja Y = (Y1, . . . ,Y𝑁 )′ com Y𝑖 = (𝑌1𝑖, . . . , 𝑌𝑚𝑖)′ para todo 𝑖 = 1, . . . ,𝑁 , 𝜃 o vetor de
quantidades desconhecidas e z a matriz de desenho.
A inferencia para os parametros dos modelos propostos no presente trabalho sera
feita sob o paradigma bayesiano. Toda a inferencia e baseada na distribuicao a poste-
riori de 𝜃, que pode ser obtida via teorema de Bayes, isto e,
Capıtulo 5. Inferencia 40
𝑃 (𝜃|Y = y, z) ∝ 𝑃 (Y = y, z|𝜃)𝑃 (𝜃),
onde 𝑃 (𝜃) e a distribuicao a priori das quantidades desconhecidas e 𝑃 (Y = y, z|𝜃) e a
funcao de verossimilhanca que sob independencia condicional sera dada pelo produto
da funcao de probabilidade conjunta.
Todavia, uma forma de avaliar a distribuicao conjunta da Poisson multivariada
e tratar a variavel 𝑋0 como uma variavel latente. Embora o objetivo seja escrever
𝑃 (Y1 = y1, . . . ,Y𝑚 = y𝑚|𝜃), sabe-se que o artifıcio de aumentar os dados muitas
vezes facilita o desempenho computacional. Desta forma, a variavel latente, X0, sera
tratada como parametro (desconhecido) e a posteriori de interesse sera dada por
𝑃 (𝜃,X0 = x0|Y = y, z) ∝ 𝑃 (Y = y, z|𝜃,X0 = x0)𝑃 (𝜃,X0 = x0). (5.1)
A especificacao do modelo se completa apos a elicitacao da distribuicao a priori
para o vetor de quantidades desconhecidas.
As analises apresentadas neste trabalho foram implementadas no ambiente livre R
(R Development Core Team, 2011). Os mapas foram feitos usando o pacote “spdep”
(Bivand et al., 2011) com a malha geometrica dos municıpios do Rio de Janeiro (RJ)
em 2010 obtida atraves do Instituto Brasileiro de Geografia e Estatıstica e a inferencia
foi realizada atraves de codigos de autoria propria.
5.1.1 Tecnica de aumento de dados
Introduzido por Tanner and Wong (1987), a ideia do aumento de dados, surge natu-
ralmente em problemas de valores faltantes, como por exemplo em dados faltantes em
celulas de tabelas de dupla entrada.
41 5.1. Inferencia bayesiana
Uma vantagem desta tecnica, por exemplo, e a resolucao de problemas no calculo da
maxima verossimilhanca por algoritmos EM como pode ser visto em Wei and Tanner
(1990); Li et al. (1999). No ponto de vista bayesiano, ha uma vantagem, por exemplo,
no calculo da distribuicao a posteriori dos parametros de interesse como pode ser visto
em Albert and Chib (1993); Fruhwirth-Schnatter (1994); Jackman (2000).
O artifıcio de aumento de dados segundo Tanner and Wong (1987) consiste que
ao inves de executar uma maximizacao ou simulacao complicada, aumenta-se os dados
observados com “dados latentes”, que simplifica o calculo e, posteriormente, realiza-se
uma serie de maximizacoes ou simulacoes simples.
O princıpio de aumento de dados pode entao ser expresso da seguinte maneira:
amplia-se os dados observados (Y) com variaveis latentes (T), que simplifica o calculo
e, subsequentemente, executa-se uma serie de maximizacoes ou simulacoes simples. Isto
e, por exemplo, utiliza-se a distribuicao a posteriori aumentada 𝑝(𝜃|𝑌,𝑇 ) caso seja mais
simples que posteriori de interesse 𝑝(𝜃|𝑌 ) (Tanner and Wong, 1987).
Um exemplo da vantagem desse artifıcio pode ser vista em Albert and Chib (1993)
onde os autores desenvolvem metodos bayesianos para a modelagem de dados de res-
posta categoricas utilizando a ideia de aumento de dados. Os autores classificam como
ponto principal do artigo que ao assumir que a variavel binaria e gerada atraves de
uma variavel aleatoria contınua, nao observavel, implica em nao calcular a funcao de
verossimilhanca, no qual o processo de estimacao do parametro seria mais arduo.
Ainda segundo os autores, as principais vantagens dessa tecnica sao o fato de que
na configuracao multinomial seria difıcil avaliar a funcao de verossimilhanca sem usar
Capıtulo 5. Inferencia 42
o princıpio de aumento de dados e a possibilidade de aplicar esta abordagem utilizando
amostrador de Gibbs, portanto, tornando mais simples a implementacao e com um
menor custo computacional.
Na inferencia bayesiana, em certos casos, para estimar os parametros de interesse,
e mais vantajoso computacionalmente acrescentar variaveis auxiliares, mesmo que au-
mente o numero de componentes desconhecidos, conseguindo assim obter condicionais
completas de forma fechada ou simplificando a funcao de verossimilhanca, a realizar
simulacoes com distribuicoes desconhecidas ou funcao de verossimilhanca complexa de
avaliar.
Por exemplo, no presente estudo, a tecnica de aumento de dados na parte da Pois-
son multivariada, assumindo a variavel 𝑋0 como variavel latente, tem como principal
vantagem o fato de nao precisar recorrer ao somatorio dado na equacao (1.1), pois
avaliar a funcao de probabilidade, dada desta maneira, e computacionalmente intenso,
principalmente para altas contagens.
No caso do ZIP univariado e multivariado, o artifıcio de aumento de dados, dado
atraves da variavel auxiliar W, e realizado para que as condicionais completas de inte-
resse tenham forma conhecida, assim, diminuindo o custo computacional da estimacao
dos parametros de interesse.
5.1.2 Distribuicao a Priori
(i) Modelo de regressao ZIP (ZIP+MLG)
Seja 𝜃𝑗= (𝛽𝑗 , 𝜋)𝑇 o vetor de parametros do modelo de regressao ZIP referente a variavel
de interesse 𝑌𝑗 para 𝑗 = 1, . . . ,𝑚. Toda inferencia e baseada somente na distribuicao a
posteriori de 𝜃𝑗 , para 𝑗 = 1, . . . ,𝑚, que e obtida via teorema de Bayes, ou seja,
43 5.1. Inferencia bayesiana
𝑃 (𝜃𝑗 |Y𝑗 = y𝑗 , z𝑗 ,W𝑗) ∝ 𝑃 (Y𝑗 = y𝑗 , z𝑗 |𝜃𝑗 ,W𝑗)𝑃 (W𝑗 |𝜃𝑗)𝑃 (𝜃𝑗) (5.2)
onde 𝑃 (W𝑗 |𝜃𝑗)𝑃 (𝜃𝑗) e a distribuicao a priori das quantidades desconhecidas e 𝑃 (Y𝑗 =
y𝑗 |𝜃𝑗 , z𝑗 ,W𝑗) e a funcao de verossimilhanca para cada indivıduo, que sob independen-
cia condicional e dada pelo produto das densidades da distribuicao de 𝑌𝑗 . Ou seja,
𝑃 (Y𝑗 = y𝑗 |𝛽𝑗 , 𝜋,Wj,zj) =
𝑁∏𝑖=1
[𝑓1(𝑦𝑗𝑖)𝑤𝑗𝑖 + 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝑦𝑗𝑖,𝜆𝑗𝑖)
1−𝑤𝑗𝑖 ]. (5.3)
Note que a variavel 𝑊𝑗 foi criada de uma forma artificial para facilitar a es-
crita da densidade do modelo (de mistura) e estimacao dos seus parametros. Para
∀𝑗 = 1, . . . ,𝑚, sera atribuıda uma distribuicao a priori para esta variavel tal que
𝑤𝑖 = 0 𝑜𝑢 1, ∀𝑖 = 1, . . . ,𝑁 e w = (𝑤1, 𝑤2, . . . , 𝑤𝑁 ). Isto e, ora os zeros vem
do mecanismo “distribuicao degenerada no ponto zero” (𝑊 = 0), ora da “distribuicao
de Poisson” (𝑊 = 1). E facil ver que se 𝑌 > 0 implica em 𝑊 = 0.
𝑊 =
⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩1 veio da degenerada ⇒ 𝑃 (𝑌 = 0) = 1
0 veio da Poisson(𝜆)
(5.4)
Distribuicao a priori
Seja o vetor parametrico de interesse 𝜃𝑗 = (𝛽𝑗 , 𝜋,W𝑗)𝑇 para 𝑗 = 1, . . . ,𝑚 independen-
tes. A distribuicao a priori pode ser escrita como
𝑃 (𝜃𝑗) = 𝑃 (𝛽𝑗)𝑃 (W𝑗 |𝜋)𝑃 (𝜋) (5.5)
tal que 𝛽𝑗𝑖𝑛𝑑∼ 𝑁(0; 1002I), 𝑊𝑗𝑖|𝜋 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜋) ∀𝑖 = 1, . . . ,𝑁 e 𝜋 ∼ 𝐵𝑒𝑡𝑎(𝑜1,𝑜2)
tal que 𝑜1,𝑜2 tornem esta priori nao informativa. Sabe-se tambem que a priori Beta e
conjugada da distribuicao Bernoulli.
Capıtulo 5. Inferencia 44
Para o modelo de regressao de Poisson independentes cujo vetor parametrico e
dado por 𝛽𝑗 para 𝑗 = 1, . . . ,𝑚 a priori sera dada da mesma forma vista no modelo de
regressao ZIP, isto e, 𝛽𝑗𝑖𝑛𝑑∼ 𝑁(0; 1002I).
Distribuicao a posteriori
Interesse: 𝑃 (𝜃|Y = y,W = w, z) ∝ 𝑃 (Y = y,W = w, z|𝜃)𝑃 (𝜃). Note que o interesse
e na distribuicao a posteriori para cada um dos vetores 𝜃𝑗 para 𝑗 = 1, . . . ,𝑚 e para
ilustracao sera omitido o ındice 𝑗. Isto e,
𝑃 (𝜃|Y = y,W = w,z) ∝ 𝑃 (Y = y,W = w,z|𝜃)𝑃 (𝜃)
∝ 𝑃 (Y = y, z|W = w,𝜃)𝑃 (W = w|𝜃)𝑃 (𝜃)
(ii) Modelo Poisson multivariado (m-Poisson)
Seja o vetor parametrico de interesse 𝜃 = (𝜆0, 𝜆1, . . . , 𝜆𝑚). Suponha que a priori 𝜆𝑗
tenha distribuicao 𝐺𝑎𝑚𝑎(𝑎𝑗1,𝑎𝑗2) tal que 𝑎𝑗1 e 𝑎𝑗2 serao escolhidos de forma que a
distribuicao seja nao informativa para 𝑗 = 0,1, . . . ,𝑚 e independentes. Ou seja,
𝑃 (𝜃) = 𝑃 (𝜆0)𝑃 (𝜆1) . . . 𝑃 (𝜆𝑚) ∝𝑚∏𝑗=0
𝜆𝑎𝑗1−1𝑗 𝑒−𝑎𝑗2𝜆𝑗 (5.6)
A distribuicao a priori para o modelo Poisson univariado sera a mesma elicitada
para o modelo Poisson multivariado, no entanto, 𝑃 (𝜆0 = 0) = 1.
Distribuicao a posteriori
Interesse: 𝑃 (𝜃|Y = y) ∝ 𝑃 (Y = y|𝜃)𝑃 (𝜃) com 𝜃 = (𝜆0, 𝜆1, . . . , 𝜆𝑚). Tomando
X0 = (𝑋01, . . . ,𝑋0𝑁 )′ como variavel latente a posteriori de interesse sera
45 5.1. Inferencia bayesiana
𝑃 (𝜃,X0 = x0|Y = y) ∝ 𝑃 (Y = y|𝜃,X0 = x0)𝑃 (𝜃,X0 = x0). (5.7)
(iii) Modelo de regressao de Poisson multivariado (m-Poisson + MLG)
Distribuicao a priori
Seja 𝜃 = (𝛽0,𝛽1, . . . ,𝛽𝑚) o vetor parametrico de interesse.
Tome como distribuicao a priori 𝛽𝑗𝑖𝑛𝑑∼ 𝑁𝑛𝑗 (b𝑗 ,Σ𝑗) com b𝑗 vetor de media (conhe-
cido) e Σ𝑗 = 𝜎2𝑗 𝐼 matriz de covariancia com 𝜎𝑗 → ∞ conhecido e 𝐼𝑛𝑗 matriz identidade
𝑛𝑗×𝑛𝑗 , tornando a priori independente e nao-informativa para 𝑗 = 0,1, . . . ,𝑚. Ou seja,
𝑃 (𝛽𝑗) ∝ |Σ𝑗 |−12 𝑒𝑥𝑝
{−1
2(𝛽𝑗 − b𝑗)
′Σ−1𝑗 (𝛽𝑗 − b𝑗)
}. (5.8)
Distribuicao a posteriori
Interesse: 𝑃 (𝜃|Y = y,B) ∝ 𝑃 (Y = y,B|𝜃)𝑃 (𝜃) com 𝜃 = (𝛽0, 𝛽1, . . . ,𝛽𝑚) o vetor de
parametros de interesse. Considerando X0 = (𝑋01, . . . ,𝑋0𝑁 )′ como variavel latente a
posteriori de interesse sera
𝑃 (𝜃,X0 = x0|Y = y,B) ∝ 𝑃 (Y = y,B|𝜃,X0 = x0)𝑃 (𝜃,X0 = x0). (5.9)
Capıtulo 5. Inferencia 46
(iv) Modelo ZIP multivariado (m-ZIP)
Distribuicao a priori
A priori para o vetor parametrico de interesse 𝜃 = (Λ,𝜋) sera mutuamente indepen-
dente.
𝜋 ∼ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡(𝑝0,𝑝1, . . . ,𝑝(𝑚+1)) (5.10)
com 𝑝0 = 𝑝1 = 𝑝2 = . . . = 𝑝(𝑚+1) = 1 dando uma priori uniforme no retangulo unitario
da mesma forma que atribuıdo em Majumdar and Gries (2010).
𝜆𝑗𝑖𝑛𝑑∼ 𝐺𝑎𝑚𝑎(𝑎𝑗1,𝑎𝑗2) 𝑗 = 0,1, . . . ,𝑚 (5.11)
e 𝑎𝑗1 e 𝑎𝑗2 serao escolhidos tal que a priori seja nao-informativa. Sabe-se que a priori
gama e conjugada da distribuicao de Poisson.
W𝑖|𝜋 ∼𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(1,𝜋) 𝑖 = 1, . . . ,𝑁 (5.12)
Sabe-se tambem que a priori Multinomial e conjugada da distribuicao Dirichlet.
Distribuicao a posteriori
Interesse: 𝑃 (𝜃|Y = y,W = w) ∝ 𝑃 (Y = y,W = w|𝜃)𝑃 (𝜃) com 𝜃 = (Λ,𝜋) o
vetor de parametros de interesse e W = (W1, . . . ,W𝑁 ). No entanto, por artifıcios
computacionais, sera incluida a variavel latente X0 = (𝑋01, . . . ,𝑋0𝑁 )′. Isto e,
47 5.1. Inferencia bayesiana
𝑃 (𝜃,X0 = x0|Y = y,W = w) ∝ 𝑃 (Y = y,W = w|𝜃,X0 = x0)𝑃 (𝜃,X0 = x0)
∝ 𝑃 (Y = y|W = w,𝜃,X0 = x0)𝑃 (W = w|𝜃,X0 = x0)
× 𝑃 (𝜃,X0 = x0)
∝ 𝑃 (Y = y|W = w,𝜃,X0 = x0)𝑃 (W = w|𝜋)𝑃 (𝜋)
× 𝑃 (X0 = x0|𝜆0)𝑃 (Λ) (5.13)
(v) Modelo de regressao ZIP multivariado (m-ZIP + MLG)
Distribuicao a priori
A priori para o vetor parametrico de interesse 𝜃 = (𝛽0,𝛽1, . . . ,𝛽𝑚,𝛾0,𝛾1, . . . ,𝛾𝑚) sera
dada por
𝑃 (𝛽,𝛾) =
𝑚∏𝑗=0
𝑃 (𝛽𝑗)
𝑚∏𝑘=0
𝑃 (𝛾𝑘) (5.14)
Tome como distribuicao a priori 𝛽𝑗𝑖𝑛𝑑∼ 𝑁𝑛𝑗 (b𝑗 ,Σ𝑗) com b𝑗 vetor de media (conhe-
cido) e Σ𝑗 = 𝜎2𝑗 𝐼 matriz de covariancia com 𝜎𝑗 → ∞ conhecido e 𝐼𝑛𝑗 matriz identidade
𝑛𝑗 × 𝑛𝑗 , tornando a priori independente e nao-informativa para 𝑗 = 0,1, . . . ,𝑚.
E como distribuicao a priori 𝛾𝑘𝑖𝑛𝑑∼ 𝑁𝑞𝑘(g𝑘,Ψ𝑘) com g𝑘 vetor de media (conhecido)
e Ψ𝑘 = 𝜓2𝑘𝐼 matriz de covariancia com 𝜓𝑘 → ∞ conhecido e 𝐼𝑞𝑘 matriz identidade
𝑞𝑘 × 𝑞, tornando a priori independente e nao-informativa para 𝑘 = 0,1, . . . ,𝑚.
Da mesma forma dada no modelo m-ZIP sera assumido a priori que
W𝑖|𝜋 ∼𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(1,𝜋𝑖) 𝑖 = 1, . . . ,𝑁 (5.15)
Capıtulo 5. Inferencia 48
com 𝜋(𝑚+1) dado na equacao (4.26) e 𝜋𝑗 para 𝑗 = 0,1, . . . ,𝑚 dados na equacao (4.27).
Distribuicao a posteriori
Interesse: 𝑃 (𝜃|Y = y,W = w) ∝ 𝑃 (Y = y,W = w|𝜃)𝑃 (𝜃). Todavia, por artıficios
computacionais sera incluida a variavel latente X0 = (𝑋01, . . . ,𝑋0𝑁 )′. Isto e,
𝑃 (𝜃,X0 = x0|Y = y,W = w) ∝ 𝑃 (Y = y,W = w|𝜃,X0 = x0)𝑃 (𝜃,X0 = x0)
∝ 𝑃 (Y = y|W = w,𝜃,X0 = x0)𝑃 (W = w|𝜃,X0 = x0)
× 𝑃 (𝜃,X0 = x0)
∝ 𝑃 (Y = y|W = w,𝜃,X0 = x0)𝑃 (W = w|𝛾)𝑃 (𝛾)
× 𝑃 (X0 = x0|𝛽0)𝑃 (𝛽) (5.16)
5.1.3 Metodos de Estimacao
Como dito anteriormente o enfoque do presente trabalho e totalmente bayesiano. Desta
forma, toda a inferencia sera baseada na distribuicao a posteriori do vetor de quantida-
des desconhecidas do modelo em questao, todavia, sabe-se que na pratica geralmente
esta distribuicao nao e conhecida ou nao e analiticamente tratavel.
Entretanto, metodos de simulacoes estocasticas permitem a obtencao de amostras
da distribuicao a posteriori, como por exemplo, os metodos MCMC (sigla do ingles
Markov chain Monte Carlo). Alguns criterios de convergencia sao uteis para garantir
que a cadeia convergiu para o estado de equilıbrio. Uma analise de convergencia em
metodos de simulacao pode ser realizada atraves de analise visual de graficos das ca-
deias ou medidas descritiva de valores simulados da quantidade de interesse.
49 5.1. Inferencia bayesiana
Para uma analise mais formal existem algumas tecnicas de diagnostico de conver-
gencia. As tecnicas mais populares sao Geweke et al. (1991), Heidelberger and Welch
(1983), Raftery et al. (1992) e Gelman and Rubin (1992).
Estes metodos serao utilizados na estimacao dos parametros de interesse dos mo-
delos propostos nos capıtulos 3 e 4.
Os algoritmos de MCMCmais utilizados sao o amostrador de Gibbs e o algoritmo de
Metropolis-Hastings (M-H) (mais detalhes sugere-se Gamerman and Lopes, 2006). Com
isto, este trabalho utilizara o amostrador de Gibbs, nos modelos os quais as condicionais
completas sao distribuicoes conhecidas, M-H, nos modelos de regressao ZIP uivariado
e multivariado, e um esquema iterativo unificado, para o modelo de regressao Poisson
multivariado, proposto por Gamerman (1997), que estendeu o algoritmo IWLS (sigla
do ingles para iterative weighted least squares) incluindo uma etapa na amostragem
baseada no algoritmo M-H, denotado aqui por algoritmo IWLS + MCMC.
IWLS + MCMC
Como as variaveis 𝑋𝑗 sao condicionalmente independentes e 𝐸[𝑋𝑗 |𝜆𝑗 ] = 𝜇𝑗 para
𝑗 = 0,1, . . . , 2 tem-se que o preditor linear, para o modelo PM, sera dado por 𝜂𝑗 =
𝑔(𝜆𝑗) = B′𝑗𝛽𝑗 . Sendo assim, o esquema para gerar amostras da distribuicao a posteri-
ori de 𝛽𝑗 para 𝑗 = 0,1,2, . . .𝑚 pode ser escrito da seguite maneira.
• [𝛽𝑗 |·] para 𝑗 = 0,1, . . . ,𝑚
Capıtulo 5. Inferencia 50
(1) Inicialize 𝛽𝑗 = 𝛽(0)𝑗 e 𝑡 = 0;
(2a) Amostre 𝛽⋆𝑗 ∼ 𝑁𝑛𝑗 (m
(𝑡)𝑗 ,C
(𝑡)𝑗 );
(2b) Aceite com probabilidade 𝜛(𝛽(𝑡−1)𝑗 ,𝛽⋆
𝑗 ) e faca 𝛽(𝑡)𝑗 =
𝛽⋆𝑗 ;
Caso contrario, 𝛽(𝑡)𝑗 = 𝛽
(𝑡−1)𝑗 ;
(3) Incremente 𝑡 em 1 e volte para passo (2).
onde
m(𝑡)𝑗 =
(Σ−1𝑗 +B′
𝑗𝑅𝑗(𝛽(𝑡−1)𝑗 )B𝑗
)−1
× {Σ−1𝑗 b𝑗 +B′
𝑗𝑅𝑗(𝛽(𝑡−1)𝑗 )x𝑗(𝛽
(𝑡−1)𝑗 )}
C(𝑡)𝑗 =
(Σ−1𝑗 +B′
𝑗𝑅𝑗(𝛽(𝑡−1)𝑗 )B𝑗
)−1
𝜛(𝛽(𝑡−1),𝛽⋆) = 𝑚𝑖𝑛
{1,
𝜋(𝛽⋆)𝑞(𝛽(𝑡−1)|𝛽⋆)
𝜋(𝛽(𝑡−1))𝑞(𝛽⋆|𝛽(𝑡−1))
}
com 𝜋(·) densidade a posteriori (ou objetivo) e 𝑞(·) densidade proposta e
��𝑗𝑖(𝛽(𝑡−1)𝑗 ) = 𝜂𝑗𝑖 + (��𝑗𝑖 − 𝜇𝑗𝑖) 𝑔
′(𝜇𝑗𝑖)
𝑅−1𝑗𝑖 (𝛽
(𝑡−1)𝑗 ) = 𝑉 𝑎𝑟(𝑋𝑗𝑖)
(𝑔′(𝜇𝑗𝑖)
)2
51 5.2. Comparacao de modelos
com 𝑅−1𝑗𝑖 o 𝑖-esimo elemento da matriz diagonal 𝑅𝑗 com 𝑖 = 1, . . . , 𝑛𝑗 . Vale ressaltar
que
𝑥𝑗𝑖 =
⎧⎪⎨⎪⎩ 𝑥0𝑖 se 𝑗 = 0
𝑦𝑗𝑖 − 𝑥0𝑖 se 𝑗 = 1, . . . ,𝑚
5.2 Comparacao de modelos
A escolha entre diferentes propostas de modelos e uma etapa fundamental na analise
de conjuntos de dados. Segundo Box and Draper (1987), todos os modelos sao errados,
mas alguns sao uteis. Sob essa otica, faz-se necessaria a utilizacao de tecnicas tais que
comparem modelos que levem em consideracao a construcao e complexidade de cada
modelo proposto.
Na analise estatıstica, espera-se identificar modelos uteis para descrever adequada-
mente a informacao proveniente dos dados ou modelos que fornecam previsoes eficazes.
No entanto, embora ferramentas computacionais permitam o ajuste de modelos cada
vez mais complexos, nao se deve ignorar o criterio da parcimonia e a interpretabilidade
do modelo.
Sob o enfoque bayesiano, um instrumento de grande utilidade para selecao de mo-
delos e o Fator de Bayes (FB). Segundo Kass and Raftery (1995), o Fator de Bayes e
uma medida de todas as evidencias fornecidas pelos dados em favor de um modelo.
Suponha que o interesse seja comparar dois modelos 𝑀1 (modelo mais simples)
e 𝑀2 para o conjunto de dados D, dado o vetor de parametros de interesse 𝜃 e as
Capıtulo 5. Inferencia 52
distribuicoes 𝑓1(D |𝜃) e 𝑓2(D |𝜃), respectivamente. A distribuicao a priori para o
parametro de interesse 𝑃𝑗(𝜃) e elicitada para o modelo 𝑗 = 1,2. Assim, a odds a
posteriori em favor do modelo 𝑀2 contra o modelo 𝑀1 e descrito por
𝑃 (𝑀2 |D)
𝑃 (𝑀1 |D)=
odds⏞ ⏟ 𝑃 (𝑀2)
𝑃 (𝑀1)
𝑞2(D)
𝑞1(D)⏟ ⏞ Fator de Bayes
=𝑃 (𝑀2)
𝑃 (𝑀1)𝐵(D) (5.17)
onde 𝐵(D) representa o Fator de Bayes - em favor do 𝑀2 contra o modelo 𝑀1 e
𝑞𝑗(D) =
∫𝑃𝑗(𝜃)𝑓𝑗(D |𝜃)𝑑𝜃 𝑗 = 1,2 (5.18)
e a densidade marginal de D sob ambos os modelos.
Via Fator de Bayes e possivel verificar qual dos modelos propostos se ajusta melhor
aos dados, isto e, o FB pode ser visto como uma representacao dos pesos da evidencia
nos dados em favor do modelo 2 contra o modelo 1.
Para o calculo do FB, sao conhecidos na literatura alguns metodos assintoticos ja
que frequentemente as densidades para o calculo do Fator de Bayes sao complicadas
de calcular analiticamente, e assim, e necessario recorrer a aproximacoes assintoticas
utilizando a equacao da densidade marginal dos dados considerando o modelo𝑀𝑗 , com
𝑗 = 1,2, dada pela equacao (5.18).
Uma alternativa para estimacao de 𝑓(D |𝑀) e via estimador Shifted Gamma pro-
posto por Raftery et al. (2007), no qual representa um estimador da verossimilhanca
integrada, escrito da forma
𝑙𝑜𝑔𝜋(D) = ℓ𝑚𝑎𝑥 = 𝛼 𝑙𝑜𝑔(1− 𝜑) (5.19)
53 5.2. Comparacao de modelos
onde ℓ𝑚𝑎𝑥 representa a maxima log-verossimilhanca avaliada, 𝛼 parametro da distri-
buicao Gamma, 𝜑 < 1 e o ideal e que o valor de 𝜑 seja perto de 1. Mais detalhes em
Raftery et al. (2007).
Dado isto, e necessaria uma regra de decisao para a garantia que um modelo de fato
e significativamente melhor que outro. Para tomar a decisao de qual sera o modelo que
tem um comportamento melhor perante aos dados Jeffreys (1961) impos uma regra de
calibragem, dividindo os possıveis valores encontrados a partir do calculo de Bayes em
quatro intervalos, como pode ser visualizado na Tabela (5.1).
𝑙𝑜𝑔10𝐵(D) 𝐵(D) Evidencia contra 𝑀1
0 a 1/2 1 a 3,2 Nao significativa1/2 a 1 3,2 a 10 Significativa1 a 2 10 a 100 Forte> 2 > 100 Decisiva
Tabela 5.1: Calibragem do Fator de Bayes segundo Jeffreys (1961).
No entanto, Kass and Raftery (1995) garantem que considerar a regra de decisao
do Fator de Bayes como duas vezes o logarıtmo natural e de grande utilidade, ja que o
logarıtmo proporciona numeros menores que os na escala original e ajudam na inter-
pretacao do resultado. Assim, na Tabela (5.2), segue a calibragem de Jeffreys segundo
Kass and Raftery (1995) que sera considerada no presente trabalho para comparar os
modelos propostos para Aplicacao dos dados reais.
2𝑙𝑜𝑔𝐵(D) 𝐵(D) Evidencia contra 𝑀1
0 a 2 1 a 3 Nao significativa2 a 6 3 a 20 Significativa6 a 10 20 a 150 Forte> 10 > 150 Muito Forte
Tabela 5.2: Calibragem do Fator de Bayes na escala logarıtmica segundo Kass andRaftery (1995).
Capıtulo 5. Inferencia 54
5.3 Previsao
Esta secao apresentara o metodo de previsao via composition sampling para os dados
faltantes e sera baseada no livro (Banerjee et al., 2004, capıtulo 5). Cabe ressaltar que
como a aplicacao deste trabalho e para o caso bivariado, os resultados aqui apresenta-
dos farao referencia a previsao para dados bivariados nao observados, (𝑌 𝑝1 ,𝑌
𝑝2 )
′.
Uma vantagem de realizar previsao de dados e verificar a eficiencia do modelo pro-
posto. Por exemplo, retira-se um conjunto de dados da amostra ao realizar a inferencia
e ao utilizar metodos de previsao de dados pode-se comparar os dados preditos com os
verdadeiros. Este metodo, entao, pode ser compreendido como um criterio de compara-
cao de modelos, pois, muitas vezes, o interesse do estudo e obter modelos que realizem
previsoes precisas.
Suponha (𝑌 𝑝1 ,𝑌
𝑝2 )
′ variaveis respostas desconhecidas, z𝑝 o conjunto de covariaveis
referentes a esse par de dados, y = (y1,y2) o conjunto de dados bivariados observados,
Z a matriz de desenho desses dados e 𝜃 o conjunto de parametros desconhecidos e
variaveis latentes. O interesse e encontrar a distribuicao preditiva
𝑃 (𝑌 𝑝1 = 𝑦𝑝1 ,𝑌
𝑝2 = 𝑦𝑝2 |y,Z, z
𝑝) =
∫𝑃 (𝑌 𝑝
1 = 𝑦𝑝1 ,𝑌𝑝2 = 𝑦𝑝2 ,𝜃|y,Z, z
𝑝)𝑑𝜃
=
∫𝑃 (𝑌 𝑝
1 = 𝑦𝑝1 ,𝑌𝑝2 = 𝑦𝑝2 |y,𝜃, z
𝑝)𝑃 (𝜃|y,Z)𝑑𝜃
(5.20)
Usualmente, metodos computacionais como MCMC sao adotados para gerar esti-
mativas da equacao (5.20). Suponha a amostra a posteriori 𝜃(1),𝜃(2), . . . ,𝜃(𝐺) geradas
a partir da distribuicao a posteriori 𝑃 (𝜃|y,Z) via o processo de estimacao descrito na
55 5.3. Previsao
subsecao 5.1.3.
Em seguida, a integral dada na equacao (5.20) pode ser aproximada via Monte
Carlo da seguinte forma:
𝑃 (𝑌 𝑝1 = 𝑦𝑝1 ,𝑌
𝑝2 = 𝑦𝑝2 |y,Z, z
𝑝) =1
𝐺
𝐺∑𝑔=1
𝑃 (𝑌 𝑝1 = 𝑦𝑝1 ,𝑌
𝑝2 = 𝑦𝑝2 |y,𝜃
(𝑔), z𝑝) (5.21)
Todavia, na pratica, recorre-se ao metodo conhecido como composition sampling.
Nesse metodo gera-se um par de valores
y𝑝 = (𝑦𝑝1 ,𝑦𝑝2)
′ ∼ 𝑃 (𝑌 𝑝1 = 𝑦𝑝1 ,𝑌
𝑝2 = 𝑦𝑝2 |y,𝜃
(𝑔), z𝑝) (5.22)
para cada um dos 𝐺 vetores parametricos 𝜃(𝑔).
A colecao {y𝑝(1),y𝑝(2), . . . ,y𝑝(𝐺)} e uma amostra da densidade preditiva a poste-
riori, e com isso pode ser criado um histograma para se obter uma aproximacao da
distribuicao de interesse, evitando o calculo da mistura dada em (5.21).
5.3.1 Dados faltantes
Em dados reais, muitas vezes, a amostra pode conter dados faltantes para alguma(s)
da(s) unidade(s) amostral(is) de interesse.
Uma forma alternativa para gerar o valor faltante 𝑦𝑝𝑗 ao inves de gerar o par como
descrito na equacao (5.22) e explorar a estrutura bivariada dos dados atraves da dis-
tribuicao condicional 𝑌𝑗 |𝑌𝑘 = 𝑦𝑘 para 𝑗,𝑘 = 1,2. Ou seja, no processo de estimacao dos
parametros desconhecidos a estimacao dos dados latentes 𝑌 𝑝𝑗𝑖, para 𝑖-esima observacao
Capıtulo 5. Inferencia 56
faltante e 𝑗 = 1,2, sera baseada iterativamente em
𝑌 𝑝𝑗𝑖|𝑌
𝑜𝑘𝑖 = 𝑦𝑜𝑘𝑖,𝜃
(𝑔)𝑖 ,Z𝑖 ∼ 𝑃 (𝑌 𝑝
𝑗𝑖 = 𝑦𝑝𝑗𝑖|𝑌𝑜𝑘𝑖 = 𝑦𝑜𝑘𝑖,𝜃
(𝑔)𝑖 ,Z𝑖), 𝑘,𝑗 = 1,2 (5.23)
com 𝑦𝑜𝑘𝑖 o valor observado, 𝑦𝑝𝑗𝑖 o valor a ser predito, 𝜃(𝑔)𝑖 o conjunto de parametros des-
conhecidos estimados na 𝑔-esima iteracao e Z𝑖 a matriz de desenho referente a 𝑖-esima
unidade amostral. Dessa forma, no caso em que 𝑌𝑘𝑖 foi observado mas 𝑌𝑗𝑖 e faltante
pode-se utilizar a equacao (5.23) para gerar da distribuicao condicional.
Sabe-se que, para o modelo de (regressao) Poisson multivariado, a distribuicao
𝑃 (𝑌 𝑝𝑗 = 𝑦𝑝𝑗 |𝑌 𝑜
𝑘 = 𝑦𝑜𝑘,𝜃,Z) e obtida como a soma de duas variaveis mutuamente inde-
pendentes com distribuicoes Poisson(𝜆𝑗) e Binomial(𝑦𝑜𝑘,
𝜆0𝜆0+𝜆𝑘
). (Veja mais detalhes
em Johnson et al., 1997, pagina 127).
5.3.2 Comparacao do desempenho preditivo entre modelos
A capacidade preditiva dos modelos propostos nos capıtulos 3 e 4 sera comparada via
erro quadratico (EQ) medio baseado na media a posteriori de cada uma das observa-
coes faltantes - EQ medio - e erro quadratico medio baseado na mediana a posteriori
de cada uma das observacoes faltantes - EQ mediano - para cada um dos 7 mode-
los propostos, apresentados na Tabela (7.3), e atraves do Interval Score (𝑆𝛼{𝑙,𝑢,𝑥})
proposto em Gneiting and Raftery (2007). Segundo os autores, no contexto da pre-
visao, essa medida favorece intervalos de predicao estreitos, penaliza caso o intervalo
nao contenha o valor verdadeiro e essa penalidade esta associada ao valor de 𝛼. Dessa
forma, quanto menor for o 𝑆𝛼{𝑙,𝑢,𝑥}, melhor. Seja 𝑥 o valor verdadeiro, 𝑢 o limite supe-
rior do intervalo e 𝑙 o limite inferior do intervalo, o Interval Score pode ser escrito como:
57 5.3. Previsao
𝑆𝛼{𝑙,𝑢,𝑥} = (𝑢− 𝑙) +2
𝛼(𝑙 − 𝑥)I{𝑥<𝑙} +
2
𝛼(𝑥− 𝑢)I{𝑥>𝑢} (5.24)
tal que
I{𝑎<𝑏} =
⎧⎪⎨⎪⎩ 1, se 𝑎 < 𝑏,
0, caso contrario
Capıtulo 5. Inferencia 58
Capıtulo 6
Estudo de sensibilidade da priori
Este capıtulo apresentara um estudo de sensibilidade da priori para verificar se a es-
colha desta distribuicao interfere nos resultados a posteriori para o modelo de Poisson
multivariado e modelo ZIP multivariado. Esse estudo foi motivado pela analise dos
dados simulados a qual observou-se que prioris ditas vagas algumas vezes proporciona-
vam resultados insatisfatorios ou ate mesmo culminavam em erros durante o processo
de simulacao.
Como a aplicacao do presente trabalho, apresentado no capıtulo 2, e referente a
um conjunto de dados bivariados com 75 unidades amostrais, o estudo de sensibilidade
da priori sera baseado na distribuicao Poisson bivariada e ZIP bivariado, isto e, sera
assumido 𝑚 = 2, alem disto, os dados serao gerados a partir da definicao dada na
equacao (4.1) com 75 unidades amostrais (𝑁 = 75).
A simulacao estocastica de ambos estudos foi realizada via metodo MCMC, em
particular o amostrador de Gibbs, ja que todas as condicionais completas sao conhe-
cidas (vide mais detalhes no Apendice B), devido ao fato de assumir 𝑋0 e W como
variaveis latentes. Para cada um dos estudos foi realizado com 100 repeticoes, tal que,
Capıtulo 6. Estudo de sensibilidade da priori 60
para cada repeticao obteve-se uma amostra a posteriori para cada um dos parametros
de intresse simuladas atraves de 50 mil iteracoes com burn-in de 10 mil e lags de 20.
Os parametros desconhecidos foram inicializados nos valores verdadeiros e o criterio de
convergencia das cadeias utilizado foi o visual, como por exemplo, atraves dos graficos
das cadeias dos parametros de interesse estimados.
6.1 Modelo 2-Poisson
Notou-se durante o processo de simulacao para obter amostras da distribuicao a poste-
riori das quantidades desconhecidas, que independente do cenario, isto e, independente
dos valores verdadeiros de 𝜆0, 𝜆1 e 𝜆2 o modelo Poisson bivariado com artifıcio de con-
siderar 𝑋0 como variavel latente e sensıvel a escolha da distribuicao a priori.
Por exemplo, para taxas pequenas (𝜆 < 1) a priori com distribuicao Gama que atri-
bui uma probabilidade alta em torno do zero culminava em erros durante o processo
de simulacao. Outro cenario problematico e obtido quando os valores verdadeiros sao
altos (como 𝜆 = 100), pois, a estimacao dos parametros nao e satisfatoria, por exem-
plo, os intervalos de credibilidade de 95% a posteriori nao contem o valor verdadeiro,
implicando em uma baixa cobertura ou sua incerteza associada e muito grande e erro
quadratico medio alto.
Neste estudo de sensibilidade, foram considerados 4 cenarios distintos tal que a
covariancia e correlacao sejam pequenas, por exemplo 𝜆0 = 1 e correlacao = 0,12, e
grandes, por exemplo 𝜆0 = 100 e correlacao = 0,78. Outra preocupacao foi supor
covariancia menor e maior que as demais taxas, como mostra a Tabela (6.1).
61 6.1. Modelo 2-Poisson
Cenario 𝜆0 𝜆1 𝜆2 Correlacao
(i) 1 5 10 0,12
(ii) 10 5 1 0,78
(iii) 10 50 100 0,12
(iv) 100 50 10 0,78
Tabela 6.1: Cenarios do estudo de sensibilidade da priori para o modelo Poisson biva-riado e suas correlacoes.
Suponha as seguintes distribuicoes Gama a priori para 𝜆𝑗 (j=0,1,2) tais que sejam:
(a) Nao informativa usual com 𝐸[𝜆𝑗 ] = 1 e 𝑉 𝑎𝑟[𝜆𝑗 ] = 100:
𝜆𝑗 ∼ 𝐺𝑎𝑚𝑎(𝑎𝑗1 = 0,01; 𝑎𝑗2 = 0,01)
(b) Nao informativa com probabilidade pequena para o zero e moda fixa (𝑚𝑗):
𝜆𝑗 ∼ 𝐺𝑎𝑚𝑎
(𝑎𝑗1 = 1,01; 𝑎𝑗2 =
𝑎𝑗1 − 1
𝑚𝑗
),
por exemplo 𝑚𝑗 = 1, 𝐸[𝜆𝑗 ] ≈ 100 e 𝑉 𝑎𝑟[𝜆𝑗 ] ≈ 1002.
(c) Informativa com a moda fixa no valor verdadeiro de 𝜆𝑗 e 𝑉 𝑎𝑟[𝜆𝑗 ] = 100:
𝜆𝑗 ∼ 𝐺𝑎𝑚𝑎(𝑎𝑗1; 𝑎𝑗2)
Resultados e discussao
Sera realizada uma comparacao entre as tres prioris elicitadas acima para cada um
dos cenarios propostos atraves do Erro Quadratico Medio (EQM) para cada um dos
parametros de interesse e a cobertura de 95% (𝐶95%). O 𝐸𝑄𝑀 [𝜆𝑗 ] pode ser entendido
como a media dos desvios ao quadrado entre o valor medio a posteriori de 𝜆𝑗 e o valor
Capıtulo 6. Estudo de sensibilidade da priori 62
verdadeiro, isto e,
𝐸𝑄𝑀 [𝜆𝑗 ] =100∑𝑖=1
(E𝑖[𝜆𝑗 |Y]− 𝜆𝑗)2
100, 𝑗 = 0,1,2. (6.1)
Ja a cobertura de 95% retrata a quantidade de vezes que o intervalo de credibilidade
de 95% a posteriori (𝐼𝐶95%) contem o valor verdadeiro em cada uma das 100 repeticoes
para cada uma das taxas, isto e,
𝐶95%[𝜆𝑗 ] =100∑𝑖=1
I{𝜆𝑗∈𝐼𝐶(𝑖)95%
[𝜆𝑗 |Y]}, 𝑗 = 0,1,2 (6.2)
onde 𝐼𝐶(𝑖)95%[𝜆𝑗 |Y] representa o intervalo de credibilidade de 95% a posteriori da taxa
𝜆𝑗 na 𝑖-esima repeticao e
I{𝜆𝑗∈𝐼𝐶95%[𝜆𝑗 |Y]} =
⎧⎪⎨⎪⎩ 1 𝜆𝑗 ∈ 𝐼𝐶95%[𝜆𝑗 |Y],
0 𝜆𝑗 /∈ 𝐼𝐶95%[𝜆𝑗 |Y](6.3)
Com esse estudo, verificou-se que a priori nao informativa usual, que atribui uma
grande massa de probabilidade em torno do zero, nao consegue gerar amostras das
taxas dando erros durante o processo. O estudo de Majumdar and Gries (2010) elicita
priori Gama nao informativa para as taxas, porem, nao ha informacao de quais valo-
res os hiperparametros assumem e em nenhuma das referencias pesquisadas sobre ZIP
multivariado tomou-se conhecimento da sensibilidade na escolha da priori.
Em geral, nos casos tais que 𝜆0 e menor que as demais taxas, o resultado a posteriori
tende seguir o seguinte padrao:
𝜆0 → 0
𝜆1 → 𝜆0 + 𝜆1
𝜆2 → 𝜆0 + 𝜆2
63 6.1. Modelo 2-Poisson
Esse padrao foi identificado a partir de exemplos simulados tais que as taxas fos-
sem altas. No caso de taxas pequenas, em particular Λ = {0,5; 0,5; 0,5}, foi possıvel
acreditar numa possıvel convergencia para os valores verdadeiros atraves do criterio
de convergencia visual e, alem disto, os intervalos de credibilidade a posteriori de 95%
contiveram os valores verdadeiros. Entao, e necessario cautela ao utilizar esta priori
para taxas pequenas, pois os resultados podem causar confundimento.
Devido esse comportamento, julgou-se necessario o estudo de sensibilidade da pri-
ori, pois, acreditava-se que os paramtros eram identificaveis (e de fato sao!) e que nao
havia erros nas contas nem nos codigos do modelo em questao.
Para os cenarios (i) e (ii), as prioris nao informativa adaptada e informativa apre-
sentaram EQM’s pequenos e relativamente proximos e uma alta cobertura de 95% para
todos os parametros. Dessa forma, para taxas relativamente pequenas, como aborda-
das nesses cenarios, ambas as prioris sao satisfatorias, como pode ser visto nas Tabelas
(6.2), (6.3), (6.4) e (6.5).
Ja os cenarios (iii) e (iv), apresentam resultados nao tao satisfatorios para a priori
nao informativa adaptada, vide o EQM para cada uma das taxas nas Tabelas (6.6) e
(6.8). Todavia, comparado ao resultado dos cenarios (i) e (ii), com taxas pequenas,
a priori informativa tambem nao obteve um desempenho tao eficiente. No entanto,
apresentam uma alta cobertura de 95% tanto para a priori nao informativa adaptada
como a priori informativa, Tabelas (6.7) e (6.9).
E possıvel verificar, para o caso da priori nao informativa adaptada, que conforme
𝜆𝑗 , para 𝑗 = 0,1,2, aumenta a cobertura de 95% diminui. Todavia, mesma com uma
queda na cobertura, o resultado ainda e satisfatorio, pois a menor cobertura dentre
Capıtulo 6. Estudo de sensibilidade da priori 64
todos os cenarios e de 94 (cenario (ii) e 𝜆0 = 10).
Assim, atraves deste estudo de sensibildade, optou-se por nao utilizar a priori in-
formativa e nem a priori nao informativa usual e sim a priori nao informativa adaptada
para o modelo 2-Poisson. Uma vez que nao se tem informacoes/conhecimentos suficien-
tes acerca do assunto abordado na motivacao do presente trabalho, capıtulo 2, elicitar
uma distribuicao a priori informativa se torna inviavel e o modelo 2-Poisson se mostrou
sensıvel a priori nao informativa usual.
• Cenario (i)
Erro quadratico medio
Priori 𝜆0 𝜆1 𝜆2
Nao informativa - - -
Nao informativa adaptada 0,420 0,440 0,533
Informativa 0,375 0,391 0,488
Tabela 6.2: Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadraticomedio para o Cenario (i): 𝜆0 = 1, 𝜆1 = 5, 𝜆2 = 10. Leia-se “-” como erro durante oprocesso de estimacao.
Cobertura de 95%
Priori 𝜆0 𝜆1 𝜆2
Nao informativa - - -
Nao informativa adaptada 100 100 98
Informativa 100 100 98
Tabela 6.3: Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de95% para o Cenario (i): 𝜆0 = 1, 𝜆1 = 5, 𝜆2 = 10. Leia-se “-” como erro durante oprocesso de estimacao.
65 6.1. Modelo 2-Poisson
• Cenario (ii)
Erro quadratico medio
Priori 𝜆0 𝜆1 𝜆2
Nao informativa - - -
Nao informativa adaptada 0,345 0,234 0,231
Informativa 0,330 0,220 0,216
Tabela 6.4: Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadraticomedio para o Cenario (ii): 𝜆0 = 10, 𝜆1 = 5, 𝜆2 = 1. Leia-se “-” como erro durante oprocesso de estimacao.
Cobertura de 95%
Priori 𝜆0 𝜆1 𝜆2
Nao informativa - - -
Nao informativa adaptada 94 98 96
Informativa 95 98 96
Tabela 6.5: Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de95% para o Cenario (ii): 𝜆0 = 10, 𝜆1 = 5, 𝜆2 = 1. Leia-se “-” como erro durante oprocesso de estimacao.
• Cenario (iii)
Erro quadratico medio
Priori 𝜆0 𝜆1 𝜆2
Nao informativa - - -
Nao informativa adaptada 43,804 43,065 45,706
Informativa 4,217 3,926 5,758
Tabela 6.6: Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadraticomedio para o Cenario (iii): 𝜆0 = 10, 𝜆1 = 50, 𝜆2 = 100. Leia-se “-” como erro duranteo processo de estimacao.
Capıtulo 6. Estudo de sensibilidade da priori 66
Cobertura de 95%
Priori 𝜆0 𝜆1 𝜆2
Nao informativa - - -
Nao informativa adaptada 99 99 99
Informativa 100 100 100
Tabela 6.7: Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de95% para o Cenario (iii): 𝜆0 = 10, 𝜆1 = 50, 𝜆2 = 100. Leia-se “-” como erro durante oprocesso de estimacao.
• Cenario (iv)
Erro quadratico medio
Priori 𝜆0 𝜆1 𝜆2
Nao informativa - - -
Nao informativa adaptada 21,094 19,896 19,981
Informativa 6,359 5,603 5,602
Tabela 6.8: Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadraticomedio para o Cenario (iv): 𝜆0 = 100, 𝜆1 = 50, 𝜆2 = 10. Leia-se “-” como erro duranteo processo de estimacao.
Cobertura de 95%
Priori 𝜆0 𝜆1 𝜆2
Nao informativa - - -
Nao informativa adaptada 96 95 96
Informativa 100 99 100
Tabela 6.9: Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de95% para o Cenario (iv): 𝜆0 = 100, 𝜆1 = 50, 𝜆2 = 10. Leia-se “-” como erro durante oprocesso de estimacao.
67 6.2. Modelo 2-ZIP
6.2 Modelo 2-ZIP
Esta secao discutira a sensibilidade da escolha da priori no modelo ZIP multivariado.
Acredita-se que o processo de geracao das amostras a posteriori das quantidades des-
conhecidas, via amostradores de Gibbs, referentes as proporcoes de zero e a variavel
auxiliar W nao apresentarao erros, pois, sabe-se que o artifıcio de aumentar dados no
ZIP usual ja e bem estabelecido na literatura estatıstica e o ZIP multivariado e uma
extensao natural do ZIP usual.
Todavia, a luz do estudo de sensibilidade do caso Poisson bivariado, acredita-se que
a simulacao para obtencao das amostras a posteriori das taxas, 𝜆’s, continue sendo
sensıvel a escolha da priori.
Neste estudo de sensibilidade, serao contemplados 3 cenarios distintos como pode
ser visto na Tabela (6.10). Dois desses cenarios - (i) e (ii) - foram abordados em Ma-
jumdar and Gries (2010) e consideram taxas pequenas e alteram as probabilidades de
zero. Ja no terceiro cenario optou-se em fixar os parametros de tal forma que as con-
tagens fossem altas. Verificou-se a necessidade em estudar a sensibilidade da escolha
da priori em dados tais que as contagens fossem altas, pois na literatura pesquisada
observou-se que o modelo ZIP multivariado vem sem utilizado em exemplos e em dados
reais cujas contagens sao pequenas.
Suponha as seguintes distribuicoes Gama a priori para 𝜆𝑗 (j=0,1,2) tais que sejam:
(a) Informativa com moda fixa = 𝜆𝑗 e variancia = 1;
(b) Informativa (relaxada) com moda fixa = 𝜆𝑗 e variancia = 10;
Capıtulo 6. Estudo de sensibilidade da priori 68
Cenario 𝜆0 𝜆1 𝜆2 𝜋0 𝜋1 𝜋2 Correlacao
(i)1 0,5 0,5 0,5 0,25 0,25 0,25 0,23
(ii)1 0,5 0,5 0,5 0,45 0,05 0,05 0,38
(iii) 10 50 100 0,45 0,05 0,05 0,021Proposto por Majumdar and Gries (2010).
Tabela 6.10: Cenarios do estudo de sensibilidade da priori para o modelo 2-ZIP e suascorrelacoes.
(c) Nao informativa com moda fixa = 1 e variancia = 100;
(d) Nao informativa (relaxada) com moda fixa = 1 e variancia = 1002.
A distribuicao a priori para proporcoes de zero sera a mesma elicitada por Majum-
dar and Gries (2010), 𝜋 ∼ 𝐷𝑖𝑟(1,1,1,1), implicando em uma priori nao informativa.
Como no estudo de sensibilidade do modelo 2-Poisson detectou-se que a priori nao
informativa usual (que atribui uma alta probabilidade em torno do zero) nao e satisfa-
toria, deste modo, esta distribuicao a priori nao sera contemplada.
Resultados e discussao
A proporcao de zeros, assim como o esperado, obteve um resultado satisfatorio
para todos os cenarios. Sendo assim, os resultados e discussao serao baseados nas
taxas, pois, a estimacao de 𝜆0, 𝜆1 e 𝜆2 vem apresentando instabilidade ao longo dos
cenarios e prioris.
Os dois primeiros cenarios descrevem casos tais que as taxas sao pequenas indicando
contagens pequenas e o que os difere e a proporcao de zeros. No primeiro cenario as
proporcoes 𝜋0, 𝜋1, 𝜋2 sao equiprovaveis, isto e, cada classe dada em (4.11) tem a mesma
chance de gerar os dados. Ja no cenario (ii), a chance das contagens vir de uma distri-
buicao degenerada no ponto (0,0) ou da Poisson bivariada e 45%.
69 6.2. Modelo 2-ZIP
Ainda no contexto do cenario (ii), o EQM para as taxas 𝜆1 e 𝜆2 sao pequenos
para todas as prioris abordadas e comparado ao cenario (i) nao ha uma diferenca
significativa. No entanto, a cobertura de 95% para o cenario (i) nao e considerada tao
satisfatoria quanto a cobertura do cenario (ii). Em geral, a estimacao das taxas, no
cenario (i), teve o seguinte comportamento:
𝜆0 → 0
𝜆1 → 𝜆0 + 𝜆1
𝜆2 → 𝜆0 + 𝜆2
O cenario (iii), que atribui valores altos as taxas, apresentou um resultado nao tao
regular quanto aos demais cenarios. E possıvel observar que ao relaxar a distribuicao
a priori a cobertura de 95% diminui e o EQM aumenta consideravelmente.
Com este estudo, e possıvel assumir que o ZIP m-variado, em particular m=2, nao e
tao eficiente para contagens altas. Na literatura estatıstica pesquisada, nenhum traba-
lho abordou esta discussao como tambem so apresentaram estudos/exemplos simulados
para contagens baixas, como pode ser visto em Majumdar and Gries (2010) e Li et al.
(1999).
Capıtulo 6. Estudo de sensibilidade da priori 70
• Cenario (i)
Erro quadratico medio
Priori 𝜆0 𝜆1 𝜆2 𝜋0 𝜋1 𝜋2
Informativa 0,049 0,162 0,159 0,008 0,007 0,007
Informativa (relaxada) 0,065 0,187 0,182 0,008 0,007 0,006
Nao informativa 0,071 0,196 0,190 0,008 0,007 0,006
Nao informativa (relaxada) 0,073 0,198 0,191 0,007 0,007 0,006
Tabela 6.11: Estudo de sensibilidade da priori para o modelo 2-ZIP: erro quadraticomedio para o Cenario (i): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,25; 0,25; 0,25).
Cobertura de 95%
Priori 𝜆0 𝜆1 𝜆2 𝜋0 𝜋1 𝜋2
Informativa 98 59 57 100 100 100
Informativa (relaxada) 97 58 52 100 100 100
Nao informativa 97 53 51 100 100 100
Nao informativa (relaxada) 97 54 52 100 100 100
Tabela 6.12: Estudo de sensibilidade da priori para o modelo 2-ZIP: cobertura de 95%para o Cenario (i): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,25; 0,25; 0,25).
• Cenario (ii)
Erro quadratico medio
Priori 𝜆0 𝜆1 𝜆2 𝜋0 𝜋1 𝜋2
Informativa 0,034 0,044 0,045 0,027 0,014 0,014
Informativa (relaxada) 0,039 0,054 0,055 0,027 0,014 0,014
Nao informativa 0,041 0,058 0,060 0,027 0,014 0,014
Nao informativa (relaxada) 0,042 0,059 0,060 0,027 0,014 0,014
Tabela 6.13: Estudo de sensibilidade da priori para o modelo 2-ZIP: erro quadraticomedio para o Cenario (ii): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,45; 0,05; 0,05).
71 6.2. Modelo 2-ZIP
Cobertura de 95%
Priori 𝜆0 𝜆1 𝜆2 𝜋0 𝜋1 𝜋2
Informativa 98 95 94 100 100 100
Informativa (relaxada) 98 93 92 100 100 100
Nao informativa 98 93 90 100 100 100
Nao informativa (relaxada) 98 91 91 100 100 100
Tabela 6.14: Estudo de sensibilidade da priori para o modelo 2-ZIP: cobertura de 95%para o Cenario (ii): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,45; 0,05; 0,05).
• Cenario (iii)
Erro quadratico medio
Priori 𝜆0 𝜆1 𝜆2 𝜋0 𝜋1 𝜋2
Informativa 0,142 0,452 0,251 0,003 0,001 0,001
Informativa (relaxada) 4,513 7,727 6,5558 0,003 0,001 0,001
Nao informativa 41,486 45,961 44,168 0,003 0,001 0,001
Nao informativa (relaxada) 46,988 53,041 53,005 0,003 0,001 0,001
Tabela 6.15: Estudo de sensibilidade da priori para o modelo 2-ZIP: erro quadraticomedio para o Cenario (iii): Λ = (10; 50; 100) e 𝜋 = (0,45; 0,05; 0,05).
Cobertura de 95%
Priori 𝜆0 𝜆1 𝜆2 𝜋0 𝜋1 𝜋2
Informativa 100 98 100 100 100 100
Informativa (relaxada) 88 73 82 100 100 100
Nao informativa 33 27 41 100 100 100
Nao informativa (relaxada) 28 19 31 100 100 100
Tabela 6.16: Estudo de sensibilidade da priori para o modelo 2-ZIP: cobertura de 95%para o Cenario (iii): Λ = (10; 50; 100) e 𝜋 = (0,45; 0,05; 0,05).
Capıtulo 6. Estudo de sensibilidade da priori 72
Capıtulo 7
Exemplos simulados e Aplicacoes
a dados reais
Neste capıtulo, serao apresentados exemplos simulados e aplicacoes a dados reais apre-
sentados no capıtulo 2 para ilustrar o desempenho da metodologia proposta ao longo
deste trabalho. Em particular, o objetivo principal dos exemplos simulados e verificar
como se comportam as estimativas e a capacidade preditiva dos modelos propostos nos
capıtulos 3 e 4 em diferentes situacoes, como por exemplo em dados gerados a partir
do modelo de regressao de Poisson independente, do modelo de Poisson bivariado e do
modelo de regressao de Poisson bivariado inflacionado de zeros.
Os dados reais que motivaram o presente estudo sao dados bivariados de interesse
em saude coletiva que contem excesso de zeros e uma possıvel estrutura espacial. As
variaveis de interesse sao 𝑌1: numero de internacoes por doencas isquemicas do cora-
cao e 𝑌2: numero de internacoes por doencas hipertensivas, no perıodo de 2012 em 75
hospitais no municıpio do Rio de Janeiro.
A proposta dos exemplos simulados, apresentados ao longo deste capıtulo, e simular
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 74
dados para verificar a identificabilidade dos parametros, garantir que os algoritmos de
autoria propria estao corretos e que as estimativas estao convergindo para os valores
verdadeiros e se de fato a comparacao entre modelos proposta na secao 5.2 e eficiente
neste caso, pois, alguns modelos consideram variaveis artificiais, como por exemplo os
modelos ZIP univariados e multivariados, e outros nao, como por exemplo o modelo de
Poisson.
No entanto, ao realizar exemplos simulados utilizando as covariaveis disponıveis
para o presente estudo e 75 unidades amostrais, numero semelhante ao caso real, notou-
se que o modelo mais complexo, isto e, o modelo de regressao ZIP multivariado nao
apresentava um desempenho satisfatorio para algumas covariaveis, como por exemplo,
“Se atende emergencia”. Dessa forma, acredita-se que o numero de unidade amostrais
pode nao ser grande a ponto de trazer informacoes suficientes para a estimacao de
todos os parametros desconhecidos do modelo.
Dado isto, serao considerados exemplos simulados com 300 unidades amostrais e
uma covariavel gerada aleatoriamente da distribuicao Uniforme [0,1]. Para cada um
dos exemplos simulados, os dados serao gerados a partir de um modelo determinado
e serao analisadas as distribuicoes a posteriori de cada um dos modelos propostos no
presente trabalho e uma comparacao via FB para conferir a identificabilidade dos para-
metros, garantir que os algoritmos de autoria propria estao corretos, que as estimativas
estao convergindo para os valores verdadeiros e se de fato a comparacao entre modelos
indica resultados coerentes.
Para avaliar a capacidade preditiva de cada um dos modelos, nesse exemplo, foram
retiradas 5 observacoes aleatoriamente e ao longo do processo de estimacao dos para-
metros desconhecidos essas observacoes serao estimadas como descrito na secao 5.3. As
75 7.1. Exemplo Simulado 1
observacoes retiradas da amostra foram as mesma retiradas do conjunto de dados real:
𝑦(1,19); 𝑦(2,47); 𝑦(1,52); 𝑦(1,60); 𝑦(1,62).
Para os exemplos simulados e a aplicacao a dados reais sera adotado o modelo de
regressao ZIP multivariado tal que nao incorpora covariaveis para descrever as pro-
porcoes de zeros nem a taxa 𝜆0. Essa alternativa foi abordada para permitir que este
modelo seja um pouco menos complexo e seu custo computacional seja menor, pois
acredita-se que os dados reais apresentam um numero de observacoes relativamente
pequeno para trazer informacao o suficiente para estimar todos os parametros envolvi-
dos no modelo dado na equacao (4.23) de forma eficiente.
7.1 Exemplo Simulado 1
Nesse exemplo, os dados foram simulados a partir do modelo de regressao de Poisson
independente (Poisson+MLG) com 300 observacoes e sua distribuicao pode ser obser-
vada na Figura (7.1). Estes dados foram gerados a partir do modelo Poisson+MLG
com os parametros fixados aleatoriamente em 𝛽1 = (4,5;−1,5), 𝛽2 = (2,5; 3,75) e a
covariavel e uniformemente distirbuıda no intervalo [0,1]. Ou seja,
𝑌𝑗 |𝜆𝑗𝑖𝑛𝑑∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆𝑗 = 𝑒𝑥𝑝{𝛽𝑗0 + 𝛽𝑗1covariavel}), 𝑗 = 1,2.
Resultados e discussao
O resumo dos resultados da distribuicao a posteriori serao apresentados para os
parametros 𝛽0 , 𝛽1 e 𝛽2, tais que foram estimados via metodo MCMC com 50 mil
iteracoes, burn-in de 1000 e lags de 30. Nesse contexto, o criterio de convergencia das
cadeias foi o visual atraves dos graficos das cadeias dos parametros de interesse esti-
mados. O resumo dos resultados a posteriori serao apresentados atraves dos intervalos
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 76
(a) (b)
Figura 7.1: Exemplo simulado 1: Distribuicao dos dados simulados a partir do modeloPoisson + MLG com 300 observacoes. 𝑌1|𝜆1 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆1) (a) e 𝑌2|𝜆2 ∼ 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆2)(b).
de credibilidade (IC) de 95% a posteriori dos parametros de interesse para os modelos
propostos.
Na Tabela (7.1), e possıvel visualizar que todos os modelos de regressao apresen-
tam resultados semelhantes e 𝐼𝐶 de 95% a posteriori estreitos que contem os valores
verdadeiros. Os modelos sem regressores apresentam 𝐼𝐶 de 95% a posteriori que nao
contem os valores verdadeiros. Isto indica que, de fato, a covariavel e importante na
estimacao desses dados.
Os modelos bivariados sem a mistura que captura o excesso de zeros apresentam
um intervalo de credibilidade 95% a posteriori para 𝛽0 muito grande, isso pode ser de-
vido ao fato de nao haver informacao proveniente nos dados. Em media, 𝜆0 a posteriori
para os modelos 2-Poisson (+ MLG) e 2-ZIP (+MLG) sao aproximadamente zero. E de
fato, no modelo gerador dos dados 𝜆0 = 0, pois o modelo de regressao de Poisson inde-
pendente e um caso particular do modelo regressao de Poisson multivariado com 𝜆0 = 0.
77 7.1. Exemplo Simulado 1
Interv
alo
decredibilidadede95%
aposteriori
Poisson
Poisson
+MLG
ZIP
+MLG
2-Poisson
2-Poisson+
MLG
2-ZIP
2-ZIP
+MLG
𝛽0
--
-(-8,13;-3,34)
(-14,61;-0,32)
(-4,47;-2,55)
(-4,22;0,08)
𝛽10
(3,88;3,92)
(4,49;4,54)
(4,48;4,54)
(3,88;3,92)
(4,49;4,53)
(3,88;3,92)
(4,48;4,54)
𝛽11
-(-1,60;-1,48)
(-1,60;-1,47)
-(-1,59;-1,50)
-(-1,61;-1,48)
𝛽20
(4,84;4,86)
(2,46;2,53)
(2,46;2,53)
(4,84;4,86)
(2,46;2,52)
(4,84;4,86)
(2,42,2,52)
𝛽21
-(3
,72;3,81)
(3,72;3,81)
-(3
,74;3,81)
-(3
,72;3,85)
Tab
ela7.1:Exem
plo
simulado1:
intervalodecredibilidad
ede95
%aposteriori.Dad
ossimuladosapartirdomodeloPoisson
+MLG
(N=
300
)com
valoresverdadeirosfixad
osem
𝛽1=
(4,5;−
1,5)e𝛽2=
(2,5;3,75).Para
osmodelossem
regressores
𝛽0=𝑙𝑜𝑔(𝜆
0),𝛽𝑗0
=𝑙𝑜𝑔(𝜆
𝑗)para𝑗=
1,2,“−
”nos
coeficientesquenao
compoem
osmodelos
eem
negrito
osintervalosque
contem
osvaloresverdad
eiros.
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 78
A proporcao de zero a posteriori, em media, para os modelos zero inflacionados
resultaram em valores coerentes aos dados, ou seja, no modelo ZIP + MLG referente
aos dados 𝑌1 tem-se �� = 0,003 e referente aos dados 𝑌2 tem-se �� = 0,003. Ja no modelo
2-ZIP + MLG, a media a posteriori e de �� = (0,003; 0,003; 0,003; 0,991), apontando que
a proporcao de zeros para (𝑌1,𝑌2), simultaneamente, e para 𝑌1 e 𝑌2, individualmente,
sao em media (a posteriori) proximas a zero.
A comparacao entre os todos os modelos propostos no presente trabalho pode ser
vista na Tabela (7.2) com base no modelo de Poisson independente, o modelo mais
simples apresentado na metodologia. O resultado apresentado nesta Tabela indica que
o melhor modelo e 2-ZIP+MLG, tal que considera uma estrutura bivariada, e uma
mistura de distribucoes tal que captura o excessos de zeros e contem covariaveis. Este
modelo se mostrou como o modelo com evidencia mais forte contra o modelo mais sim-
ples (modelo Poisson independente) e contra os demais modelos tambem se mostrou
muito forte.
Embora o melhor modelo, via o criterio fator de Bayes, seja bivariado e zero in-
flado, em media, os resultados a posteriori apontam que 𝜋 → (0,0,0,1) e 𝜆0 → 0. Dessa
forma, este modelo indica que os dados vem da distribuicao Poisson bivariada, tal que
as variaveis de interesse sao independentes e a covariavel e importante no processo de
estimacao das quantidades desconhecidas. Vale a pena ressaltar que o modelo Pois-
son+MLG, modelo gerador dos dados neste exemplo, e um caso particular do modelo
2-ZIP + MLG.
Segundo a Tabela (7.2), e possivel verificar que modelos de regressao ou inflaci-
onados de zeros com estrutura bivariada apresentam uma forte evidencia contra os
modelos univariados. O modelo de regressao bivariado torna-se ainda melhor ao incluir
79 7.1. Exemplo Simulado 1
Modelo 2𝑙𝑜𝑔𝐵(D) Evidencia contra modelo Poisson
Poisson+MLG 40.256,21 Muito Forte
ZIP + MLG 40.249,74 Muito Forte
2-Poisson -60,44 Insignificante
2-Poisson + MLG 58.156,24 Muito Forte
2-ZIP 58.152,33 Muito Forte
2-ZIP + MLG 58.697,33 Muito Forte
Tabela 7.2: Exemplo simulado 1: fator de Bayes na escala logarıtmica segundo Kassand Raftery (1995) baseado no modelo Poisson independente. Dados simulados a partirdo modelo Poisson + MLG (N=300). Maior fator de Bayes na escala logarıtmica emnegrito.
a mistura zero inflada.
Pode-se observar, na Tabela (7.3), que os modelos de regressao, univariado ou
mutivariado, com ou sem mistura, apresentam uma capacidade preditiva melhor em
comparacao aos modelos sem covariaveis, isto e, seus EQ medio e mediano sao menores.
Note que os modelos sem covariaveis apresentam erros quadraticos medios e medianos
altos e muito semelhantes entre si. Ja os modelos de regressao, apresentam resultados
melhores e similares entre si.
Modelo EQ medio EQ mediano
Poisson 1.204 1.196
2-Poisson 1.206,5 1.205,8
2-ZIP 1.209,7 1.205,8
Poisson+MLG 51,7 49,2
ZIP+MLG 51,2 53,6
2-Poisson + MLG 51,3 51,2
2-ZIP + MLG 52,2 53,8
Tabela 7.3: Exemplo simulado 1: Erro quadratico (EQ) medio e mediano das previsoesdas 5 observacoes faltantes para os modelos propostos. Dados simulados a partir domodelo Poisson + MLG com valores verdadeiros fixados em 𝑦(1,19) = 34; 𝑦(2,47) =85; 𝑦(1,52) = 22; 𝑦(1,60) = 25; 𝑦(1,62) = 100. Menor EQ medio e EQ mediano em negrito.
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 80
Os resultados apresentados na Tabela (7.4) corroboram com a afirmativa de que os
modelos de regressao, univariado ou mutivariado, com ou sem mistura, apresentam uma
capacidade preditiva melhor em comparacao aos modelos sem covariaveis. O modelo
que obteve o melhor desempenho preditivo no geral, com 𝑆𝑜𝑚𝑎 = 136, foi o Poisson +
MLG, modelo gerador dos dados.
Observacao faltante
Modelo 𝑌(1,19) 𝑌(2,47) 𝑌(1,52) 𝑌(1,60) 𝑌(1,62) Soma
Poisson 1.148 1.763 1.148 1.148 1.468 6.675
2-Poisson 1.107 1.763 1.148 1.107 1.468 6.593
2-ZIP 1.148 1.804 1.107 1.073,2 1.468 6.600,2
Poisson+MLG 25 37 20 17 37 136
ZIP+MLG 25 38 20 18 36,2 137,2
2-Poisson + MLG 25 36 20 18 39 138
2-ZIP + MLG 26 36 20 18 37 137
Tabela 7.4: Exemplo simulado 1: Interval Score com 𝛼 = 0,05 de cada observacaofaltante para os modelos propostos. Dados simulados a partir do modelo Poisson +MLG com valores verdadeiros fixados em 𝑦(1,19) = 34; 𝑦(2,47) = 85; 𝑦(1,52) = 22; 𝑦(1,60) =25; 𝑦(1,62) = 100. Menor Interval Score em negrito.
7.2 Exemplo Simulado 2
Nesse exemplo, os dados foram simulados a partir do modelo Poisson bivariado com
300 observacoes e sua distribuicao pode ser observada na Figura (7.2). Estes dados
foram gerados a partir do modelo 2-Poisson com os parametros fixados aleatoriamente
em 𝜆0 = 0,5, 𝜆1 = 1,65 e 𝜆2 = 1,65 resultando numa correlacao de 0,22. Ou seja,
(𝑌1,𝑌2)′|𝜆0,𝜆1,𝜆2 ∼ 2− 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0,𝜆1,𝜆2).
Resultados e discussao
O resumo dos resultados da distribuicao a posteriori serao apresentados para os
81 7.2. Exemplo Simulado 2
(a) (b)
Figura 7.2: Exemplo simulado 2: Distribuicao dos dados simulados a partir do modeloPoisson + MLG com 300 observacoes. 𝑌1|𝜆0,𝜆1 (a) e 𝑌2|𝜆0,𝜆2 (b).
parametros de interesse, tais que foram estimados via metodo MCMC resultando em
uma amostra a posteriori de tamanho 1.634.
Conclui-se que modelos univariados nao apresentam resultados satisfatorios neste
caso. Isto e, nenhum dos modelos univariados apresentou IC de 95% a posteriori que
contivesse o valor verdadeiro para nenhum dos parametros de interesse e a media a pos-
teriori segue o padrao 𝜆𝑗 → 𝜆0 + 𝜆𝑗 para 𝑗 = 1,2. Na Tabela (7.5), e possivel conferir
que os IC de 95% a posteriori para os modelos bivariados contem os valores verdadeiros.
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 82
Interv
alo
decredibilidadede95%
aposteriori
Poisson
Poisson
+MLG
ZIP
+MLG
2-Poisson
2-Poisson+
MLG
2-ZIP
2-ZIP
+MLG
𝜆0
--
-(0
,19;0,65)
(0,19;0,65)
(0,16;0,69)
(0,27;0,72)
𝜆1
(2,11;2,44)
(2,11;2,44)
(1,96;2,33)
(1,60;2,13)
(1,66;2,05)
(1,65;2,21)
(1,63;2,18)
𝜆2
(1,89;2,22)
(1,88;2,21)
(1,96;2,34)
(1,39;1,90)
(1,46;1,79)
(1,44;2,06)
(1,32;1,87)
Tab
ela7.5:
Exem
plo
simulado2:
intervalodecredibilidad
ede95
%aposteriori.
Dad
ossimulados
apartirdomodelo2-
Poisson
(N=
300)
com
valoresverdad
eirosfixad
osem
𝜆0=
0,5,𝜆1=
1,65
e𝜆2=
1,65
.Paraos
modelos
com
covariaveis
𝜆𝑗=𝑒𝑥𝑝{𝛽
𝑗}para𝑗=
0,1,2
eem
negrito
osintervalos
quecontem
osvaloresverdad
eiros.
83 7.2. Exemplo Simulado 2
A comparacao entre os todos os modelos propostos no presente trabalho pode ser
vista na Tabela (7.6) com base no modelo de Poisson independente. O resultado apre-
sentado nesta Tabela indica que o melhor modelo e 2-Poisson + MLG que sugere uma
dependencia entre as variaveis resposta 𝑌1 e 𝑌2. Este modelo se mostrou como o modelo
com evidencia mais forte contra o modelo mais simples (modelo Poisson independente)
e contra os demais modelos. Ainda nesta Tabela, e possıvel verificar que a modelos
com estrutura bivariada tem uma maior evidencia contra modelos univariados e mode-
los zero inflados.
Embora os dados tenham sidos gerados a partir do modelo de Poisson bivariado,
o melhor modelo via fator de Bayes na escala logarıtmica, segundo Kass and Raftery
(1995), e o modelo 2-Poisson + MLG, que e um caso generalizado do modelo gerador
dos dados. Note que
Modelo 2𝑙𝑜𝑔𝐵(D) Evidencia contra modelo Poisson
Poisson+MLG 29,03 Forte
ZIP + MLG 21,21 Forte
2-Poisson 308,49 Muito Forte
2-Poisson + MLG 5.511,21 Muito Forte
2-ZIP 5.496,02 Muito Forte
2-ZIP + MLG 5.505,34 Muito Forte
Tabela 7.6: Exemplo simulado 2: fator de Bayes na escala logarıtmica segundo Kassand Raftery (1995) baseado no modelo Poisson independente. Dados simulados a partirdo modelo 2-Poisson (N= 300) com valores verdadeiros fixados em 𝜆0 = 0,5, 𝜆1 = 1,65e 𝜆2 = 1,65. Maior fator de Bayes na escala logarıtmica em negrito.
Pode-se observar na Tabela (7.7), que o modelo de regressao ZIP bivariado apre-
senta uma maior capacidade preditiva comparado aos demais modelos, isto e, seu EQ
medio e mediano sao menores (ou iguais) que os demais. Os modelos apresentaram
resultados muito similares entre si.
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 84
Os resultados apresentados na Tabela (7.8) indicam que o modelo ZIP + MLG (com
proporcoes de zero a posteriori, em media, tendendo a zero) apresenta uma melhor ca-
pacidade preditiva dentre todos os modelos propostos para as observacoes faltantes
como no geral. A distribuicao a posteriori dos dados faltantes 𝑌(1,19), 𝑌(1,52), 𝑌(1,60) e
𝑌(1,62) resultante do modelo ZIP + MLG pode ser visualizada na Figura (7.3).
Note que diferentemente dos outros exemplos simulados o EQM e o Interval Score
a poteriori apresentaram valores muito pequenos, isso pode ser reflexo do cenario deste
exemplo ser com contagens baixas.
Modelo EQ medio EQ mediano
Poisson 2,20 2,8
2-Poisson 1,74 1,8
2-ZIP 1,63 1,8
Poisson+MLG 2,13 2,8
ZIP+MLG 2,79 2,8
2-Poisson + MLG 1,75 1,8
2-ZIP + MLG 1,45 1,8
Tabela 7.7: Exemplo simulado 2: Erro quadratico (EQ) medio e mediano das previsoesdas 5 observacoes faltantes para os modelos propostos. Dados simulados a partir domodelo 2-Poisson com valores verdadeiros fixados em 𝑦(1,19) = 2; 𝑦(2,47) = 4; 𝑦(1,52) =5; 𝑦(1,60) = 3; 𝑦(1,62) = 4. Menor EQ medio e EQ mediano em negrito.
7.3 Exemplo simulado 3
Nesse exemplo, os dados foram simulados a partir do modelo completo com 300 obser-
vacoes e podem ser vistos na Figura (7.4). Seja o modelo de regressao ZIP bivariado
(2-ZIP + MLG) com os parametros fixados aleatoriamente em 𝜆0 = 3, 𝛽1 = (3; 5),
85 7.3. Exemplo simulado 3
Observacao faltante
Modelo 𝑌(1,19) 𝑌(2,47) 𝑌(1,52) 𝑌(1,60) 𝑌(1,62) Soma
Poisson 6 5 6 6 6 29,00
2-Poisson 5 6 6 5 5 27,00
2-ZIP 5 5,18 7 5 6 28,18
Poisson+MLG 6 5 6 6 6 29,00
ZIP+MLG 5 5 5 5 5 25,00
2-Poisson + MLG 5 6 6 5 6 28,00
2-ZIP + MLG 5 6 7 5 6 29,00
Tabela 7.8: Exemplo simulado 2: Interval Score com 𝛼 = 0,05 de cada observacaofaltante para os modelos propostos. Dados simulados a partir do modelo 2-Poisson comvalores verdadeiros fixados em 𝑦(1,19) = 2; 𝑦(2,47) = 4; 𝑦(1,52) = 5; 𝑦(1,60) = 3; 𝑦(1,62) = 4.Menor Interval Score geral em negrito.
𝛽2 = (3; 4) e 𝜋 = (0,1; 0,2; 0,2; 0,5). Isto e,
(𝑌1,𝑌2)′|Λ,𝜋 ∼ 2− 𝑍𝐼𝑃 (𝜆0, 𝜆1, 𝜆2,𝜋)
com 𝑙𝑜𝑔(𝜆𝑗) = 𝛽𝑗0 + 𝛽𝑗1covariavel, para 𝑗 = 1,2.
Resultados e discussao
O resumo dos resultados da distribuicao a posteriori serao apresentados para os
parametros 𝜆0 , 𝛽1 e 𝛽2, tais que foram estimados via metodo MCMC com 50 mil
iteracoes, burn-in de 1000 e lags de 30. O resumo dos resultados a posteriori serao
apresentados atraves do IC de 95% a posteriori dos parametros de interesse para os
modelos de regressao univariados e multivariados. Esta secao nao discutira os resulta-
dos da estimacao dos parametros referentes as proporcoes de zeros, pois como visto no
estudo de sensibilidade da priori no capıtulo 6 a estimacao dos mesmas nao apresenta
inconsistencia/incoerencia. Os resultados a posteriori dos modelos de mistura, tanto
univariado como multivariados, apresentaram desempenhos satisfatorios em termos de
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 86
(a) (b)
(c) (d)
(e)
Figura 7.3: Exemplo simulado 2: Distribuicao a posteriori de 𝑌(1,19) (a), 𝑌(1,52) (b),𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo 2-Poisson. Linha tracejada (ver-melho): valores verdadeiros. Dados simulados a partir do modelo 2-Poisson (N=300).
estimativas pontuais e IC de 95% a posteriori estreitos contendo os valores verdadeiros.
Conclui-se que modelos ZIP + MLG e 2-ZIP + MLG apresentam resultados a pos-
teriori, em media, mais proximos dos parametros verdadeiros comparados aos demais
87 7.3. Exemplo simulado 3
(a) (b)
Figura 7.4: Exemplo simulado 3: Distribuicao dos dados 𝑌1 (a) e 𝑌2 (b) simulados apartir do modelo 2-ZIP + MLG com 300 observacoes.
modelos. Na Tabela (7.9) e possivel verificar que o unico modelo que apresenta IC
de 95% a posteriori que contem os valores verdadeiros e o 2-ZIP + MLG, o modelo
gerador dos dados.
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 88
Interv
alo
decredibilidadede95%
aposteriori
Poisson
Poisson
+MLG
ZIP
+MLG
2-Poisson
2-Poisson+
MLG
2-ZIP
2-ZIP
+MLG
𝜆0
--
-(74,62;77,30)
(0;0,32)
NA
(0,70;4,02)
𝛽10
(6,01;6,02)
(2,81;2,86)
(2,46;2,53)
(5,81;5,82)
(2,82;2,85)
NA
(2,97;3,04)
𝛽11
-(4,73;4,79)
(3,72;3,81)
-(4,74;4,78)
NA
(4,95;5,04)
𝛽20
(5,25;5,27)
(2,46;2,53)
(3,01;3,07)
(4,75;4,77)
(2,77;2,78)
NA
(3,00;3,10)
𝛽21
-(3,72;3,81)
(4,92;4,99)
-(3,84;3,86)
NA
(3,89;4,01)
Tab
ela7.9:
Exem
plo
simulado3:
intervalodecredibilidad
ede95
%aposteriori.Dad
ossimulados
apartirdomodelo2-ZIP
+MLG
(N=
300)
com
valoresverdad
eirosfixad
osem
𝜆0=
3,𝛽1=
(3;5)e𝛽2=
(3;4).
Paraos
modelos
sem
regressores
𝛽𝑗0=𝑙𝑜𝑔(𝜆
𝑗)com𝑗=
1,2,
paramodelos
com
regressores𝜆0=𝑒𝑥𝑝{𝛽
0},“−”nos
coeficientesquenao
compoem
osmodelos,
emnegrito
osintervalos
quecontem
osvaloresverdad
eirose“N
A”representa
erro
durante
oprocessodesimulacao.
89 7.3. Exemplo simulado 3
A comparacao entre os todos os modelos propostos no presente trabalho pode ser
vista na Tabela (7.10) com base no modelo de Poisson independente, o modelo mais
simples apresentado na metodologia. O resultado apresentado nesta Tabela indica que
o melhor modelo e 2-ZIP+MLG, uma mistura de modelos tal que captura o excessos
de zeros, contem convariaveis e indica dependencia entre as variaveis resposta 𝑌1 e 𝑌2.
O fator de Bayes na escala logarıtmica, segundo Kass and Raftery (1995), baseado
no modelo ZIP + MLG contra o modelo 2-ZIP + MLG e 1.538,55 indicando uma evi-
dencia muito forte a favor do modelo completo. O fator de Bayes na escala logarıtmica
do modelo Poisson + MLG com base no modelo Poisson independente e tao pequeno
que o resultado apresentado na Tabela (7.10) e dado por “NA”. Com isto, conclui-se
que o modelo tem uma evidencia insignificante contra o modelo base.
Modelo 2𝑙𝑜𝑔𝐵(D) Evidencia contra modelo Poisson
Poisson+MLG NA Insignificante
ZIP + MLG 310.215,2 Muito Forte
2-Poisson 17.569,39 Muito Forte
2-Poisson + MLG 187.222,8 Muito Forte
2-ZIP - -
2-ZIP + MLG 311.753,8 Muito Forte
Tabela 7.10: Exemplo simulado 3: fator de Bayes na escala logarıtmica segundo Kassand Raftery (1995) baseado no modelo Poisson independente. Dados simulados a partirdo modelo 2-ZIP + MLG (N=300). Leia-se “NA” como valor muito pequeno e “-” errodurante o processo de simulacao. Maior fator de Bayes na escala logarıtmica em negrito.
Com o resultado apresentado na Tabela (7.10), e possıvel compreender que a mis-
tura que captura o excesso de zeros e o uso de covariavel tem muita importancia na
construcao do modelo para descrever estes dados, visto que o FB dos modelos de re-
gressao ZIP, univariado e bivariado, sao bem maiores em relacao aos demais modelos.
Alem disto, e possivel verificar que a estrutura bivariada com regressores tambem tem
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 90
uma forte evidencia contra os demais modelos, excetos os modelos de regressao ZIP.
Com isto, conclui-se que modelos bivariados com mistura que considera o excesso de
zeros e covariaveis melhor descrevem esses dados.
Assim como no exemplo simulado 1, a capacidade preditiva dos modelos propostos
nos capıtulos 3 e 4 sera comparada via EQ medio e EQ mediano, apresentados na Ta-
bela (7.11), e atraves do Interval Score, dado na equacao (5.24), apresentado na Tabela
(7.12).
Pode-se observar na Tabela (7.11) que o modelo de regressao ZIP bivariado apre-
senta uma maior capacidade preditiva comparado aos demais modelos, isto e, seu EQ
medio e mediano sao bem menores que os demais. Os modelos de regressao de Pois-
son (independente e bivariado) apresentam um resultado melhor que os modelos sem
covariaveis e ZIP + MLG.
Modelo EQ medio EQ mediano
Poisson 195.940,1 196.400,6
2-Poisson 134.316,4 134.734,4
2-ZIP - -
Poisson+MLG 42.132,6 42.308,6
ZIP+MLG 116.727,8 116.724,6
2-Poisson + MLG 42.131,34 42.084,6
2-ZIP + MLG 658,60 657,8
Tabela 7.11: Exemplo simulado 3: Erro quadratico (EQ) medio e mediano das previ-soes das 5 observacoes faltantes para os modelos propostos. Dados simulados a partirdo modelo 2-ZIP+MLG com valores verdadeiros fixados em 𝑦(1,19) = 763; 𝑦(2,47) =80; 𝑦(1,52) = 1.259; 𝑦(1,60) = 411; 𝑦(1,62) = 64. Menor EQ medio e EQ mediano emnegrito e “-” indica erro durante o processo de simulacao.
Os resultados apresentados na Tabela (7.12) corroboram com a afirmativa de que o
91 7.3. Exemplo simulado 3
modelo gerador dos dados, 2-ZIP+MLG, apresenta uma melhor capacidade preditiva
dentre todos os modelos propostos para cada uma das observacoes faltantes como no
geral. A coluna Soma desta Tabela reflete o desempenho geral para cada um dos mo-
delos propostos. A distribuicao a posteriori dos dados faltantes 𝑌(1,19), 𝑌(1,52), 𝑌(1,60) e
𝑌(1,62) resultante do modelo 2-ZIP+MLG pode ser visualizada na Figura (7.5).
Observacao faltante
Modelo 𝑌(1,19) 𝑌(2,47) 𝑌(1,52) 𝑌(1,60) 𝑌(1,62) Soma
Poisson 12.638,17 2.214 32.433,35 81 3.321 50.687,52
2-Poisson 9.839 1.722 26.528,17 1.587,18 3.000,18 42.676,53
2-ZIP - - - - - -
Poisson+MLG 8.368 36 12.594 2.391 147 23.536,00
ZIP+MLG 30.520 34,16 146 84 31 30.815,16
2-Poisson + MLG 8.409 389 12.511,18 2.312 186,18 23.807,36
2-ZIP + MLG 104,18 33 139 82 31 389,18
Tabela 7.12: Exemplo simulado 3: Interval Score com 𝛼 = 0,05 de cada observacaofaltante para os modelos propostos. Dados simulados a partir do modelo 2-ZIP+MLGcom valores verdadeiros fixados em 𝑦(1,19) = 763; 𝑦(2,47) = 80; 𝑦(1,52) = 1.259; 𝑦(1,60) =411; 𝑦(1,62) = 64. Menor Interval Score em negrito e “-” indica erro durante o processode simulacao.
Sendo assim, esse estudo aponta que os codigos estao corretos, os parametros sao
identificaveis, o modelo 2-ZIP+MLG apresenta um bom desempenho para amostras
grandes (por exemplo, N=300) e contagens altas. Notou-se inclusive que a capacidade
preditiva deste modelo e alta. Conclui-se, tambem, que tanto o metodo de predicao
abordado no presente trabalho quanto o criterio de comparacao entre modelos com e
sem a tecnica de aumento de dados apresentam resultados fidedignos.
Ademais este estudo corrobora com os resultados apresentados no Estudo de Sen-
sibilidade da priori (capıtulo 6) que indicam que o modelo 2-ZIP nao apresenta um
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 92
(a) (b)
(c) (d)
(e)
Figura 7.5: Exemplo simulado 3: Distribuicao a posteriori de 𝑌(1,19) (a), 𝑌(1,52) (b),𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo 2-ZIP+MLG. Linha tracejada(vermelho): valores verdadeiros. Dados simulados a partir do modelo 2-ZIP+MLG(N=300).
desempenho satisfatorio para contagens altas, como os dados simulados no presente
exemplo. O modelo 2-ZIP apresentou erros durante o processo de estimacao das quan-
tidades de interesse.
93 7.4. Aplicacao a dados reais
7.4 Aplicacao a dados reais
Esta secao apresentara a aplicacao da metodologia proposta ao longo deste trabalho
em dados reais de interesse em saude coletiva. Sejam as variaveis de interesse 𝑌1: nu-
mero de internacoes por doencas isquemicas do coracao e 𝑌2: numero de internacoes
por doencas hipertensivas, no perıodo de 2012 em 75 hospitais no municıpio do Rio de
Janeiro. As covariaveis disponıveis sao esfera administrativa (0 = Privada, Municipal
ou Federal e 1= Estadual), gestao hospitalar (0= Municipal e 1= Estadual), se atende
(=1) ou nao (=0) emergencia, latitude e longitude padronizadas e numero total de
internacoes padronizado do capıtulo IX da CID10, no perıodo de 2012 no municıpio do
Rio de Janeiro.
O objetivo e construir um modelo que consiga explicar os dados atraves de estimati-
vas precisas para os parametros de interesse, com uma incerteza associada a estimacao
pequena e com boas previsoes. Ao propor os modelos univariados e multivariados,
com ou sem misturas para incorporar o possıvel excesso de zero proveniente dos dados,
procura-se um modelo que os descreva mas tambem leve em consideracao a parcimo-
nia, pois, sabe-se que modelos muito complexos sao computacionalmente intensivos e
difıceis de estimar, tendo em vista o pequeno numero de observacoes disponıveis.
Assim, como feito nos exemplos simulados descritos neste capıtulo, as observacoes
𝑦(1,19) = 0, 𝑦(2,47) = 0, 𝑦(1,52) = 95, 𝑦(1,60) = 0 e 𝑦(1,62) = 190 foram retiradas do banco
de dados para a parte de inferencia com o intuito de avaliar a capacidade preditiva dos
modelos.
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 94
As taxas dos modelos de regressao, para 𝑗 = 1,2, serao escritas da forma:
𝜆𝑗 = 𝑒𝑥𝑝{𝛽𝑗0 + 𝛽𝑗1Esfera + 𝛽𝑗2Gestao + 𝛽𝑗3Emergencia + 𝛽𝑗4Latitude padronizada
+ 𝛽𝑗5Longitude padronizada + 𝛽𝑗6Numero total de internacoes padronizado}.
Resultados e discussao
O resumo dos resultados da distribuicao a posteriori serao apresentados para as
quantidades de interesse, tais que foram estimados via metodo MCMC com o numero
total de iteracoes, burn-in e lags escolhidos de acordo com cada modelo. Nesse con-
texto, o criterio de convergencia das cadeias foi o visual atraves dos graficos das cadeias
dos parametros de interesse estimados. Na Tabela (7.13), serao apresentados os inter-
valos de credibilidade (IC) de 95% a posteriori dos parametros de interesse para os
modelos de regressao univariados e multivariados.
Na Tabela (7.13), e possıvel verificar que as covariaveis esfera administrativa e nu-
mero total de internacoes padronizado do capıtulo IX da CID 10 (no municıpio do Rio
de Janeiro no ano de 2012) sao importantes para explicar tanto o numero de internacoes
por doencas isquemicas do coracao (𝑌1) quanto o numero de internacoes por doencas
hipertensivas (𝑌2) no municıpio do Rio de Janeiro no perıodo de 2012. Em todos os
modelos propostos, os coeficientes de regressao relacionados a estas covariaveis, para
ambas as variaveis de interesse, 𝑌1 e 𝑌2, sao significativos.
A covariavel longitude padronizada apresentou intervalos de credibilidade de 95%
a posteriori para os coeficientes, em cada um dos modelos propostos, que ora contem
o valor zero, ora muito proximos do zero, exceto para o modelo 2-ZIP+ MLG. No en-
tanto, para a variavel de interesse 𝑌1, embora o IC de 95% a posteriori seja distante do
95 7.4. Aplicacao a dados reais
valor zero a sua incerteza e muito grande. Desta forma, acredita-se que esta covariavel
nao seja boa para explicar estes dados. Todavia, acredita-se que ao estimar a proporcao
de zeros essa covariavel possa trazer alguma informacao adicional.
A covariavel gestao administrativa nao tem relevancia ao explicar a taxa 𝜆1. Vide
na Tabela (7.13), para todos os modelos propostos o IC de 95% a posteriori do coefi-
ciente 𝛽12 contem o valor zero.
Atraves da Tabela (7.13), e possıvel verificar que os modelos bivariados apresentam
intervalos de credibilidade de 95% a posteriori para o coeficiente referente a covariancia
𝛽0 = 𝑙𝑜𝑔(𝜆0) que indicam, que de fato, os dados 𝑌1 e 𝑌2 sao correlacionados.
Na Tabela (7.14), e possıvel verificar que a mediana a posteriori das proporcoes de
zero, 𝜋 = (𝜋0, 𝜋1, 𝜋2, 𝜋3) tal que 𝜋3 = 1−∑2
𝑘=0 𝜋𝑘, sao proximas da frequencia de zeros
nos dados. Com estes resultados, nota-se que modelos multivariados conseguem extrair
mais informacoes do que modelos univariados referentes ao excesso de zeros provenien-
tes dos dados, pois classifica os zeros em classes como pode ser visto na equacao (4.11).
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 96
Interv
alo
decredibilidadede95%
aposteriori
Poisson
Poisson
+MLG
ZIP
+MLG
2-Poisson
2-Poisson+
MLG
2-ZIP
2-ZIP
+MLG
𝛽0
--
-(1
,48;2,47)
(-16,25;-2,62)
(1,81;2,36)
(2,69;3,37)
𝛽10
(4,19;4,25)
(2,70;2,86)
(4,04;4,25)
(4,04;4,11)
(2,72;2,84)
(5,03;5,10)
(-2,89;-0,95)
𝛽11
-(0
,79;0,92)
(0,58;0,70)
-(0
,81;0,90)
-(0
,68;1,50)
𝛽12
-(-0,33;0,09)
(-0,07;0,41)
-(-0,26;0,05)
-(-6,66;2,58)
𝛽13
-(0
,20;0,35)
(-0,48;-0,32)
-(0
,22;0,32)
-(2
,20;4,05)
𝛽14
-(-2,74;-1,22)
(-0,79;0,40)
-(-2,58;-1,34)
-(1
6,80;25,69)
𝛽15
-(-0,74;0,12)
(-0,35;0,56)
-(-0,63;-0,01)
-(-8,49;-4,58)
𝛽16
-(1
,03;1,07)
(0,70;0,75)
-(1
,03;1,06)
-(1
,25;1,80)
𝛽20
(3,08;3,18)
(1,37;1,69)
(2,02;2,33)
(3,05;3,13)
(1,43;1,65)
(3,37;3,50)
(1,30;2,05)
𝛽21
-(-0,30;-0,04)
(-0,31;-0,05)
-(-0,26;-0,08)
-(-0,54;-0,04)
𝛽22
-(-1,28;-0,59)
(-0,96;-0,19)
-(-1,20;-0,68)
-(-1,03;0,10)
𝛽23
-(1
,62;1,95)
(1,28;1,59)
-(1
,66;1,89)
-(2
,88;4,01)
𝛽24
-(3
,59;5,80)
(3,48;5,18)
-(3
,95;5,49)
-(-0,56;3,57)
𝛽25
-(-0,90;0,21)
(-0,26;0,82)
-(-0,71;0,03)
-(-3,85;-1,24)
𝛽26
-(0
,53;0,62)
(0,35;0,44)
-(0
,55;0,60)
-(0
,58;0,78)
Tab
ela7.13
:Aplicacaoadad
osreais:
intervalodecredibilidad
ede95
%aposterioride𝛽0,𝛽1e𝛽2paraos
modelospropostos
nopresente
trab
alho.
Paraos
modelos
sem
regressores𝛽𝑗0
=𝑙𝑜𝑔(𝜆
𝑗)com𝑗=
1,2,“−”nos
coeficientesquenaocompoem
os
modelos
eem
negrito
osIC
de95
%aposterioriquenao
contem
ovalor0.
97 7.4. Aplicacao a dados reais
Mediana (Intervalo de credibilidade de 95%) a posteriori
ZIP+ MLG 2-ZIP 2-ZIP + MLG
𝜋0 - 0,35(0,25;0,46) 0,10 (0,08;0,35)
𝜋1 0,59 (0,47;0,70) 0,02 (0,00;0,07) 0,09 (0,01;0,22)
𝜋2 0,37 (0,28;0,49) 0,20 (0,12;0,30) 0,23 (0,18;0,43)
𝜋3 - 0,42 (0,31;0,53) 0,41 (0,30;0,51)
Tabela 7.14: Aplicacao a dados reais: Mediana e intervalo de credibilidade de 95% aposteriori de 𝜋0, 𝜋1 e 𝜋2 para os modelos ZIP univariado e multivariados e “−” noscoeficientes que nao compoem os modelos.
Com o calculo do fator de Bayes na escala logarıtmica segundo Kass and Raftery
(1995) baseado no modelo Poisson independente, dado na Tabela (7.15), e possıvel con-
cluir que so a estrutura bivariada nao seria suficiente para explicar os dados de forma
eficiente. Com estes resultados, nota-se que o uso de covariaveis se faz necessario tanto
como a mistura de distribuicoes para capturar o excesso de zeros. O modelo ZIP +
MLG possui uma evidencia mais favoravel contra os modelos 2-Poisson (+ MLG), in-
dicando que a mistura de distribuicoes e mais importante que a estrutura bivariada.
No entanto, o ZIP bivariado e melhor que o ZIP + MLG para descrever os dados em
questao. E por fim, ao acrescentar covariaveis ao modelo ZIP bivariado, chega-se ao
melhor modelo, 2-ZIP + MLG.
Modelo 2𝑙𝑜𝑔𝐵(D) Evidencia contra modelo Poisson
Poisson+MLG 15.200,76 Muito Forte
ZIP + MLG 17.170,42 Muito Forte
2-Poisson 130,14 Forte
2-Poisson + MLG 14.925,4 Muito Forte
2-ZIP 17.500,91 Muito Forte
2-ZIP + MLG 18.758,27 Muito Forte
Tabela 7.15: Aplicacao a dados reais: fator de Bayes na escala logarıtmica segundo Kassand Raftery (1995) baseado no modelo Poisson independente. Dados reais (N=75).
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 98
Para avaliar a capacidade preditiva de cada um dos modelos serao analisados seus
erros quadraticos medios baseados na media a posteriori (EQ medio) e na mediana a
posteriori (EQ mediano) como o Interval score. Na Tabela (7.16), os modelos, exceto
os modelos 2-ZIP (+ MLG), apresentam EQ medios semelhantes entre si. O modelo
2-ZIP apresentou os erros quadraticos medio e mediano muito elevados em comparacao
aos demais modelos, ja o modelo 2-ZIP + MLG apresentou os menores erros, sendo as-
sim, foi considerado o modelo com a melhor capacidade preditiva, segundo este criterio.
Modelo EQ medio EQ mediano
Poisson 5.097,63 5.078,00
2-Poisson 4.912,26 4.199,20
2-ZIP 12.084,83 12.017,45
Poisson+MLG 4.788,43 4.815,00
ZIP+MLG 5.899,79 9.105,00
2-Poisson + MLG 4.754,36 4.761,06
2-ZIP + MLG 1.327,94 1.360,20
Tabela 7.16: Aplicacao a dados reais: Erro quadratico medio e mediano das previ-soes das 5 observacoes faltantes para os modelos propostos. Dados reais com valoresverdadeiros fixados em 𝑦(1,19) = 0; 𝑦(2,47) = 0; 𝑦(1,52) = 95; 𝑦(1,60) = 0; 𝑦(1,62) = 190.
O Interval Score de cada observacao faltante para os modelos propostos, dado na
Tabela (7.17), indica a capacidade preditiva para cada uma das observacoes faltantes
como um resultado geral por modelo. O modelo 2-ZIP + MLG apresentou o menor
resultado no geral, 𝑆𝑜𝑚𝑎 = 3.672,35. Sendo assim, este resultado corrobora com a
presente analise. O modelo completo e o modelo que apresenta uma maior evidencia
contra os demais modelos via criterio FB como uma melhor capacidade preditiva.
Nas Figuras (7.6) e (7.7), sao apresentadas as distribuicoes a posteriori das obser-
vacoes faltantes para o modelo 2-ZIP + MLG, modelo com o melhor desempenho via
99 7.4. Aplicacao a dados reais
criterio Interval Score, e modelo ZIP + MLG, modelo com segundo melhor desempe-
nho via criterio Interval Score. Note que ambos os modelos apresentaram uma baixa
capacidade preditiva para a observacao 𝑌(1,52).
Observacao faltante
Modelo 𝑌(1,19) 𝑌(2,47) 𝑌(1,52) 𝑌(1,60) 𝑌(1,62) Soma
Poisson 1.312 738 472 1.353 4.311,76 8.186,76
2-Poisson 1.312 574 153 1.271 3.952,18 7.262,18
2-ZIP 2.132 1.066 2.139,16 2.050 52 7.439,16
Poisson+MLG 499,18 656 2.617 615 4.751 9.138,18
ZIP+MLG 35 34 1.726,18 37 3.427 5.259,18
2-Poisson + MLG 533 656 2.618 574 4.750 9.131,00
2-ZIP + MLG 984 48 2.460 0 180,35 3.672,35
Tabela 7.17: Aplicacao a dados reais: Interval Score de cada observacao faltante paraos modelos propostos com 𝛼 = 0,05. Dados reais com valores verdadeiros fixados em𝑦(1,19) = 0; 𝑦(2,47) = 0; 𝑦(1,52) = 95; 𝑦(1,60) = 0; 𝑦(1,62) = 190. Menor Interval Score emnegrito.
Capıtulo 7. Exemplos simulados e Aplicacoes a dados reais 100
(a) (b)
(c) (d)
(e)
Figura 7.6: Aplicacao a dados reais: Distribuicao a posteriori de 𝑌(1,19) (a), 𝑌(1,52) (b),𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo 2-ZIP+MLG. Linha tracejada(vermelho): valores verdadeiros. Dados reais (N=75).
101 7.4. Aplicacao a dados reais
(a) (b)
(c) (d)
(e)
Figura 7.7: Aplicacao a dados reais: Distribuicao a posteriori de 𝑌(1,19) (a), 𝑌(1,52) (b),𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo ZIP+MLG. Linha tracejada(vermelho): valores verdadeiros. Dados reais (N=75).
Capıtulo 8
Consideracoes finais e projetos
futuros
Este capıtulo apresentara uma discussao e conclusao do presente trabalho assim como
possıveis projetos futuros, como por exemplo, a inclusao de um efeito aleatorio espa-
cial com a finalidade de capturar a possıvel estrutura espacial proveniente dos dados,
visto que observacoes fisicamente proximas tendem a ter comportamentos similares
e a medida que a distancia entre as observacoes aumenta essa similaridade tende a
diminuir.
8.1 Consideracoes finais
Ao decorrer do trabalho foram propostos modelos de contagens, alguns ja estabelecidos
na literatura estatıstica, como modelo (de regressao) de Poisson e o modelo de regres-
sao ZIP e outros com uma literatura ainda limitada tal como modelo (de regressao)
Poisson multivariado e ZIP multivariado. O intuito de utilizar modelos multivariados
de contagem em dados e a vantagem de nao recorrer a aproximacoes pelo modelo gaus-
siano multivariado.
Capıtulo 8. Consideracoes finais e projetos futuros 104
A literatura estatıstica encontrada, tais que abordassem modelos (de regressao)
ZIP multivariado, tinham em comum uma amostra grande (bem superior a 75 unida-
des amostrais) e contagens pequenas. Li et al. (1999) apresentam exemplos simulados a
partir do modelo 3-ZIP com um enfoque classico cujo numero maximo das observacoes
era 4. Ja Majumdar and Gries (2010) ultilizaram o modelo 2-ZIP sob um enfoque
bayesiano e embora o numero maximo da observacao 𝑌2𝑗 fosse 150 o seu par 𝑌1𝑗 e
zero. Assim, o somatorio presente na funcao de probabilidade nao resultaria em pro-
blemas numericos. O trabalho dos autores Arab et al. (2012) utilizaram uma amostra
de tamanho aproximadamente 9 mil. Com isso, o presente trabalho inova ao utilizar-se
de uma amostra relativamente pequena comparada aos demais trabalhos assim como
contagens grandes.
Ao longo do presente trabalho, notou-se que os modelos 2-Poisson e 2-ZIP eram
sensıveis a escolha da distribuicao a priori. Majumdar and Gries (2010), que apre-
sentaram estudos simulados utilizando tais modelos, nao abordaram tal sensibilidade
assim como nao evidenciaram a escolha dos parametros da distribuicao Gama (dita
nao informativa) ao elicitarem a priori. Ao realizar o estudo de sensibilidade para da-
dos de contagens grandes notou-se que o modelo 2-ZIP nao tem um desempenho tao
satisfatorio ao elicitar prioris vagas.
Ao realizar exemplos simulados foi possıvel comprovar que as contas e os codigos de
autoria propria estavam corretos, os parametros sao identificaveis bem como entender
o comportamento dos modelos em cenarios distintos. Foi possıvel realizar a aplicacao
aos dados reais apos verificar que os resultados a posteriori sao coerentes e o criterio de
comparacao de modelos e capaz de identificar o melhor modelo mesmo quando alguns
modelos utilizam-se de variaveis latentes/auxiliares na verossimilhanca.
105 8.1. Consideracoes finais
A proposta do presente trabalho para solucionar o problema proveniente do soma-
torio da funcao de probabilidade do modelo (de regressao) de Poisson multivariado foi
utilizar-se da tecnica de aumento de dados. Ao abordar essa tecnica conseguiu nao so
diminuir o custo computacional assim como evitar problemas numericos provenientes
do somatorio da funcao de probabilidade.
A tecnica de aumento de dados no ZIP multivariado e uma extensao do ZIP usual
e ao elicitar certas distribuicoes a priori foi possıvel obter distribuicoes condicionais
completas conhecidas, assim diminuindo o custo computacional do modelo ZIP multi-
variado.
Por fim, concluiu-se que o modelo completo, 2-ZIP + MLG, e o modelo que me-
lhor descreve os dados reais que motivaram tal estudo. Assim, sabe-se que, ao utilizar
os modelos (de regressao) de Poisson usuais as informacoes provenientes da estrutura
bivariada e do excesso de zero dos dados nao seriam incluidas e ao aproximar as ob-
servacoes pelo modelo Gaussiano multivariado nao seria considerado o excesso de zeros.
Embora, o numero de observacoes seja pequeno e as contagens altas, os modelos bi-
variados, especialmente com a mistura de distirbuicoes para capturar o excesso de zeros,
mostraram-se com uma maior evidencia contra os modelos usuais. Dessa forma, fica
claro que e necessario investir nos modelos de contagem multivariados, principalmente
os modelos inflados de zeros, para que seja cada vez mais facil e simples utiliza-los.
Capıtulo 8. Consideracoes finais e projetos futuros 106
8.2 Projetos futuros
Dados com informacao espacial vem sendo amplamente estudados em problemas de
estatıstica aplicada (Cressie, 1993), em particular, dados observados em alguns pontos
do espaco, por exemplo, a modelagem da precipitacao em locais de monitoramento.
Este tipo de modelagem, em suma, associa cada observacao a sua localizacao geogra-
fica, com isto, tais dados sao ditos georreferenciados. Na analise deste tipo de dados,
agrega-se as observacoes as suas respectivas localizacoes no espaco e a analise e feita
utilizando esta informacao.
Modelos espaciais podem ser aplicados em uma gama de campos, como Epidemio-
logia, Meteorologia, Biologia, entre outros. Cressie (1993), divide a estatıstica espacial,
conjunto de tecnicas estatısticas para modelar dados com informacoes espaciais, de
acordo com os tipos de observacoes associadas ao espaco em que sao observadas. De
uma forma geral a estatıstica espacial contempla dados de area, processos pontuais e
geoestatıtistica.
A ideia basica da geoestatıstica e que observacoes fisicamente proximas tem com-
portamentos similares e a medida que a distancia entre as observacoes aumenta essa
similaridade tende a diminuir.
Uma estensao natural para o presente trabalho e a proposta do modelo ZIP multiva-
riado espacial, dado equacao (8.3), tendo em vista que os dados bivariados de contagem
apresentados no capıtulo 2 sugerem um padrao espacial, como pode ser visto na Figura
(2.2).
Seja (𝑌1𝑖, 𝑌2𝑖)′|(Λ𝑖,𝜋) ∼ 2 − 𝑃𝑜𝑖𝑠𝑠𝑜𝑛 espacial(𝜆0, 𝜆1𝑖, 𝜆2𝑖, 𝜋0, 𝜋1, 𝜋2, 𝜋3) mutua-
107 8.2. Projetos futuros
mente independentes com as restricoes 0 ≤ 𝜋𝑗 ≤ 1 para 𝑗 = 0,1,2,3 e 𝜋3 = 1−∑2
𝑗=0 𝜋𝑗 .
Sendo assim, pode-se escrever
(𝑌1𝑖,𝑌2𝑖)′|(Λ𝑖,𝜋) ∼
⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩
(0,0) com probabilidade 𝜋0,
(𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆1𝑖),0) com probabilidade 𝜋1,
(0, 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆2𝑖)) com probabilidade 𝜋2,
2− 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0, 𝜆1𝑖, 𝜆2𝑖) com probabilidade 𝜋3.
(8.1)
onde 𝑙𝑜𝑔(𝜆𝑗𝑖) = 𝜇𝑗 + 𝑠𝑗𝑖, 𝑗 = 1,2 e 𝑖 = 1, . . . ,𝑁 com
s𝑗 ∼ 𝑁(0,R𝑗) (8.2)
onde a matriz de covariancia pode ser escrita da forma R𝑗(𝑎,𝑏) = 𝑟2𝑗 𝑒𝑥𝑝{−𝜑𝑗𝑑𝑎𝑏} e
𝑗 = 1,2. Nesse contexto, seja 𝑗 = 1,2, temos 𝜑𝑗 > 0 tal que 𝜑−1𝑗 denota o alcance, 𝑑𝑎𝑏
a distancia eucludiana entre os pontos 𝑎 e 𝑏 e 𝑟2𝑗 > 0 a variancia.
No entanto, acredita-se na dificuldade da implementacao do codigo de estimacao
das quantidades de interesse para esse conjunto de dados em particular. Sabe-se que o
numero de observacoes pode ser pequeno para conseguir trazer informacao o suficiente
para a estimacao, pois note que ao introduzir o efeito aleatorio espacial, aumenta-se
em 75 mais os parametros de alcance e variancia o numero total de quantidades des-
conhecidas.
Uma forma de sanar essa possıvel dificuldade e obter replicacoes ao longo do tempo.
Capıtulo 8. Consideracoes finais e projetos futuros 108
Dessa forma, pode-se escrever o ZIP multivariado espaco-temporal. Seja a serie tem-
poral bivariada (𝑌1𝑖𝑡, 𝑌2𝑖𝑡) referente a localizacao 𝑖 = 1, . . . ,𝑁 e 𝑡 = 1, . . . ,𝑇 .
Suponha (𝑌1𝑖𝑡, 𝑌2𝑖𝑡)′|(Λ𝑖𝑡,𝜋) ∼ 2−𝑃𝑜𝑖𝑠𝑠𝑜𝑛 espaco-temporal(𝜆0, 𝜆1𝑖𝑡, 𝜆2𝑖𝑡, 𝜋0, 𝜋1, 𝜋2, 𝜋3)
mutuamente independentes com as restricoes 0 ≤ 𝜋𝑗 ≤ 1 para 𝑗 = 0,1,2,3 e 𝜋3 =
1−∑2
𝑗=0 𝜋𝑗 . Sendo assim, pode-se escrever
(𝑌1𝑖𝑡,𝑌2𝑖𝑡)′|(Λ𝑖𝑡,𝜋) ∼
⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩
(0,0) com probabilidade 𝜋0,
(𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆1𝑖𝑡),0) com probabilidade 𝜋1,
(0, 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0 + 𝜆2𝑖𝑡)) com probabilidade 𝜋2,
2− 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0, 𝜆1𝑖𝑡, 𝜆2𝑖𝑡) com probabilidade 𝜋3.
(8.3)
onde 𝑙𝑜𝑔(𝜆𝑗𝑖𝑡) = z′𝑗𝛽𝑗 + 𝜇𝑗𝑡 + 𝑠𝑗𝑖 para 𝑗 = 1,2, 𝑡 = 1, . . . ,𝑇 e 𝑖 = 1, . . . ,𝑁 . Seja z𝑗
as covariaveis do modelo, 𝛽𝑗 o vetor de coeficientes de regressao, s𝑗 o efeito aleatorio
espacial dado na equacao (8.2) e 𝜇𝑗𝑡 = 𝜇𝑗 + 𝜖𝜇𝑗(𝑡−1) o efeito aleatorio temporal com
𝑡 = 1, . . . ,𝑇 e 𝑗 = 1,2.
Referencias Bibliograficas
(1997). CID-10 Classificacao Estatıstica Internacional de Doencas e Problemas Rela-
cionados a Saude. 10a rev. OMS, Sao Paulo.
Albert, J. H. and Chib, S. (1993). Bayesian analysis of binary and polychotomous
response data. Journal of the American statistical Association, 88(422):669–679.
Arab, A., Holan, S. H., Wikle, C. K., and Wildhaber, M. L. (2012). Semiparametric
bivariate zero-inflated poisson models with application to studies of abundance for
multiple species. Environmetrics, 23(2):183–196.
Banerjee, S., Gelfand, A. E., and Carlin, B. P. (2004). Hierarchical modeling and
analysis for spatial data. Crc Press.
Bivand, R., with contributions by Micah Altman, Anselin, L., AssunASA£o, R., Berke,
O., Bernat, A., Blanchet, G., Blankmeyer, E., Carvalho, M., Christensen, B., Chun,
Y., Dormann, C., Halbersma, R., Krainski, E., Legendre, P., Lewin-Koh, N., Li,
H., Ma, J., Millo, G., Mueller, W., Ono, H., Peres-Neto, P., Piras, G., Reder, M.,
Tiefelsdorf, M., , and Yu., D. (2011). spdep: Spatial dependence: weighting schemes,
statistics and models. R package version 0.5-33.
Box, G. E. P. and Draper, N. R. (1987). Empirical Model-building and Response Sur-
faces. Wiley.
Referencias Bibliograficas 110
Buck, A. J., Blackstone, E. A., and Hakim, S. (2009). A multivariate poisson model of
consumer choice in a multi-airport region. Blended Change Management: Concept
and Empirical Investigation of Blending Patterns, page 85.
Cohen, A. C. (1963). Estimation in mixtures of discrete distributions. pages 373–
378, Montreal, New York. Proceedings of the International Symposium on Discrete
Distributions.
Cressie, N. (1993). Statistics for spatial data. Wiley series in probability and mathe-
matical statistics: Applied probability and statistics. J. Wiley.
DBH (2010). Vi diretrizes brasileiras de hipertensao. Arquivos Brasileiros de Cardio-
logia, 95:I – III.
Dobson, A. J. (2001). An Introduction to Generalized Linear Models, Second Edition.
Chapman and Hall/CRC, 2 edition.
Fruhwirth-Schnatter, S. (1994). Data augmentation and dynamic linear models. Jour-
nal of time series analysis, 15(2):183–202.
Gamerman, D. (1997). Sampling from the posterior distribution in generalized linear
mixed models. Statistics and Computing, 7(1):57–68.
Gamerman, D. and Lopes, H. (2006). Markov Chain Monte Carlo: Stochastic Simula-
tion for Bayesian Inference, volume 1. Londres: Chapman & Hall/CRC, 2 edition.
Gelman, A. and Rubin, D. B. (1992). Inference from iterative simulation using multiple
sequences. Statistical science, pages 457–472.
Geweke, J. et al. (1991). Evaluating the accuracy of sampling-based approaches to the
calculation of posterior moments, volume 196. Federal Reserve Bank of Minneapolis,
Research Department.
111 Referencias Bibliograficas
Gneiting, T. and Raftery, A. E. (2007). Strictly proper scoring rules, prediction, and
estimation.
Godoy, M. F., Lucena, J. M., Miquelin, A. R., Paiva, F. F., Oliveira, D. L. Q., Au-
gustin Junior, J. L., and Chiaravalloti Neto, F. (2007). Mortalidade por doencas
cardiovasculares e nıveis socioeconomicos na populacao de sao jose do rio preto es-
tado de sao paulo brasil. Arquivos Brasileiros de Cardiologia, 88:200 – 206.
Heidelberger, P. and Welch, P. D. (1983). Simulation run length control in the presence
of an initial transient. Operations Research, 31(6):1109–1144.
Heilbron, D. C. (1994). Zero-altered and other regression models for count data with
added zeros. Biometrical Journal, 36:531–547.
Jackman, S. (2000). Estimation and inference via bayesian simulation: An introduction
to markov chain monte carlo. American Journal of Political Science, pages 375–404.
Jeffreys, H. (1961). Theory of Probability. Oxford University Press, USA, 3 edition.
Johnson, N. L. and Kotz, S. (1969). Distributions in Statistics: Discrete Distributions.
Houghton Mifflin Company, Boston,.
Johnson, N. L., Kotz, S., and Balakrishnan, N. (1997). Discrete Multivariate Distribu-
tions. Wiley series in probability and statistics. John Wiley & Sons.
Karlis, D. (2003). An em algorithm for multivariate poisson distribution and related
models. Journal of Applied Statistics, 30(1):63–77.
Karlis, D. and Meligkotsidou, L. (2005). Multivariate poisson regression with covariance
structure. Statistics and Computing, 15(4):255–265.
Kass, R. E. and Raftery, A. E. (1995). Bayes factors. Journal of the american statistical
association, 90(430):773–795.
Referencias Bibliograficas 112
Lambert, D. (1992). Zero-inflated poisson regression models with an application to
defects in manufacturing. Technometrics, 34:1–14.
Laurenti, R., Buchalla, C. M., and Caratin, C. V. S. (2000). Ischemic heart disease.
hospitalization, length of stay and expenses in brazil from 1993 to 1997. Arquivos
Brasileiros de Cardiologia, 74(6):488–492.
Li, C. S., Lu, J. C., Park, J., Kim, K., Brinkley, P. A., and Peterson, J. P. (1999).
Multivariate zero-inflated poisson models and their applications. Technometrics,
41(1):29–38.
Lotufo, P. A., Lilio, C. A., and Monteiro, C. A. (1995). Tendencias de evolucao da
mortalidade por doencas cardiovasculares: o caso do estado de sao paulo. pages
279–288.
Ma, J. and Kockelman, K. M. (2006). Bayesian multivariate poisson regression for
models of injury count, by severity. Transportation Research Record: Journal of the
Transportation Research Board, 1950(1):24–34.
Majumdar, A. and Gries, C. (2010). Bivariate zero-inflated regression for count data:
A bayesian approach with application to plant counts. The International Journal of
Biostatistics, 6(1):1–26.
McCullagh, P. and Nelder, J. (1989). Generalized Linear Models. Chapman and
Hall/CRC, second edition edition.
Nelder, J. and Wedderburn, R. (1972). Generalized linear models. Journal of the Royal
Statistical Society, Series A, 135:370–384.
R Development Core Team (2011). R: A Language and Environment for Statistical
Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-
900051-07-0.
113 Referencias Bibliograficas
Raftery, A. E., Lewis, S., et al. (1992). How many iterations in the gibbs sampler.
Bayesian statistics, 4(2):763–773.
Raftery, A. E., Newton, M. A., Satagopan, J. M., and Krivitsky, P. N. (2007). Esti-
mating the integrated likelihood via posterior simulation using the harmonic mean
identity. Bayesian Statistics, (8):371–416.
Tanner, M. A. and Wong, W. H. (1987). The calculation of posterior distributions by
data augmentation. Journal of the American statistical Association, 82(398):528–
540.
Tsionas, E. G. (1999). Bayesian analysis of the multivariate poisson distribution. Com-
munications in Statistics - Theory and Methods, 28(2):431–451.
Wei, G. C. G. and Tanner, M. A. (1990). A monte carlo implementation of the em al-
gorithm and the poor man’s data augmentation algorithms. Journal of the American
Statistical Association, 85(411):699–704.
Yip, P. (1988). Inference about the mean of a poisson distribution in the presence of a
nuisance parameter. The Australian Journal of Statistics, 30:299–306.
Apendice A
Provas
Algumas provas das equacoes apresentadas ao longo do trabalho podem ser vistas neste
Apencide.
• Equacao (4.3)
𝑃 (Y = y|Λ) =∑𝑥0
𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = 𝑥0|Λ)
=∑𝑥0
𝑃 (𝑋1 +𝑋0 = 𝑦1, . . . , 𝑋𝑚 +𝑋0 = 𝑦𝑚|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
=∑𝑥0
𝑃 (𝑋1 + 𝑥0 = 𝑦1, . . . , 𝑋𝑚 + 𝑥0 = 𝑦𝑚|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
=∑𝑥0
𝑃 (𝑋1 = 𝑦1 − 𝑥0, . . . , 𝑋𝑚 = 𝑦𝑚 − 𝑥0|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
=∑𝑥0
𝑃 (𝑋1 = 𝑦1 − 𝑥0, . . . , 𝑋𝑚 = 𝑦𝑚 − 𝑥0|Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
=∑𝑥0
𝑃 (𝑋1 = 𝑦1 − 𝑥0|𝜆1)× . . .× 𝑃 (𝑋𝑚 = 𝑦𝑚 − 𝑥0|𝜆𝑚)𝑃 (𝑋0 = 𝑥0|𝜆0)
=∑𝑥0
[𝜆𝑦1−𝑥01 𝑒−𝜆1
(𝑦1 − 𝑥0)!× . . .× 𝜆𝑦𝑚−𝑥0
𝑚 𝑒−𝜆𝑚
(𝑦𝑚 − 𝑥0)!× 𝜆𝑥0
0 𝑒−𝜆0
𝑥0!
]
= 𝑒𝑥𝑝
⎧⎨⎩−𝑚∑𝑗=0
𝜆𝑗
⎫⎬⎭∑𝑥0
(𝜆0
𝜆1 . . . 𝜆𝑚
)𝑥0 𝜆𝑦11 . . . 𝜆𝑦𝑚𝑚(𝑦1 − 𝑥0)! . . . (𝑦𝑚 − 𝑥0)!𝑥0!
115
• Equacao (4.5)
𝑃 (Y = y, 𝑋0 = x0|Λ) = 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 𝑃 (𝑋1 +𝑋0 = 𝑦1, . . . , 𝑋𝑚 +𝑋0 = 𝑦𝑚|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 𝑃 (𝑋1 = 𝑦1 − 𝑥0, . . . , 𝑋𝑚 = 𝑦𝑚 − 𝑥0|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 𝑃 (𝑋1 = 𝑦1 − 𝑥0|Λ)× . . .× 𝑃 (𝑋𝑚 = 𝑦𝑚 − 𝑥0|Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 𝑒𝑥𝑝
⎧⎨⎩−𝑚∑𝑗=0
𝜆𝑗
⎫⎬⎭(
𝜆0𝜆1 . . . 𝜆𝑚
)𝑥0 𝜆𝑦11 . . . 𝜆𝑦𝑚𝑚(𝑦1 − 𝑥0)! . . . (𝑦𝑚 − 𝑥0)!𝑥0!
• Equacao (4.6)
𝑃 (Y = y,X0 = x0|Λ) = 𝑃 (Y = y|X0 = x0,Λ)𝑃 (X0 = x0|𝜆0)
=𝑁∏𝑖=1
𝑃 (𝑌1𝑖 = 𝑦1𝑖, . . . , 𝑌𝑚𝑖 = 𝑦𝑚𝑖|𝑋0𝑖 = 𝑥0𝑖,Λ)𝑃 (𝑋0𝑖 = 𝑥0𝑖|𝜆0)
=
𝑁∏𝑖=1
𝑃 (𝑋1𝑖 +𝑋0𝑖 = 𝑦1𝑖, . . . , 𝑋𝑚𝑖 +𝑋0𝑖 = 𝑦𝑚𝑖|𝑋0𝑖 = 𝑥0𝑖,Λ)𝑃 (𝑋0𝑖 = 𝑥0𝑖|𝜆0)
=𝑁∏𝑖=1
𝑃 (𝑋1𝑖 = 𝑦1𝑖 − 𝑥0𝑖, . . . , 𝑋𝑚𝑖 = 𝑦𝑚𝑖 − 𝑥0𝑖|𝑋0 = 𝑥0𝑖,Λ)𝑃 (𝑋0𝑖 = 𝑥0𝑖|𝜆0)
=𝑁∏𝑖=1
𝑃 (𝑋1𝑖 = 𝑦1𝑖 − 𝑥0𝑖, 𝑋2𝑖 = 𝑦2𝑖 − 𝑥0𝑖|Λ)𝑃 (𝑋0𝑖 = 𝑥0𝑖|𝜆0)
=
𝑁∏𝑖=1
𝑃 (𝑋1𝑖 = 𝑦1𝑖 − 𝑥0𝑖|Λ) . . . 𝑃 (𝑋𝑚𝑖 = 𝑦𝑚𝑖 − 𝑥0𝑖|Λ)𝑃 (𝑋0𝑖 = 𝑥0𝑖|𝜆0)
=
𝑁∏𝑖=1
⎡⎣𝑒𝑥𝑝⎧⎨⎩−
𝑚∑𝑗=0
𝜆𝑗
⎫⎬⎭(
𝜆0𝜆1 . . . 𝜆𝑚
)𝑥0𝑖 𝜆𝑦1𝑖1 . . . 𝜆𝑦𝑚𝑖𝑚
(𝑦1𝑖 − 𝑥0𝑖)! . . . (𝑦𝑚𝑖 − 𝑥0𝑖)!𝑥0𝑖!
⎤⎦• Equacao (4.20)
Apendice A. Provas 116
𝑓⋆2 (𝑦𝑗 − 𝑥0|Λ) = 𝑃 (𝑌1 = 0, . . . , 𝑌𝑗 = 𝑦𝑗 , . . . , 𝑌𝑚 = 0, 𝑋0 = 0|Λ)
= 𝑃 (𝑋1 = 0, . . . , 𝑋𝑗 +𝑋0 = 𝑦𝑗 , . . . , 𝑌𝑚 = 0|𝑋0 = 0,Λ)𝑃 (𝑋0 = 0|𝜆0)
= 𝑃 (𝑋1 = 0, . . . , 𝑋𝑗 = 𝑦𝑗 − 0, . . . , 𝑌𝑚 = 0|𝑋0 = 0,Λ)𝑃 (𝑋0 = 0|𝜆0)
= 𝑃 (𝑋1 = 0, . . . , 𝑋𝑗 = 𝑦𝑗 − 0, . . . , 𝑌𝑚 = 0|Λ)𝑃 (𝑋0 = 0|𝜆0)
= 𝑃 (𝑋1 = 0|𝜆1) . . . 𝑃 (𝑋𝑗 = 𝑦𝑗 − 0|𝜆𝑗) . . . 𝑃 (𝑌𝑚 = 0|𝜆𝑚)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 1× . . .𝜆𝑦𝑗𝑗 𝑒
−𝜆𝑗
(𝑦𝑗)!× . . .× 1
onde Y−𝑗 = (𝑌1, . . . , 𝑌𝑗−1, 𝑌𝑗+1, . . . , 𝑌𝑚) e X−𝑗 = (𝑋0, 𝑋1, . . . , 𝑋𝑗−1, 𝑋𝑗+1, . . . , 𝑋𝑚).
• Equacao (4.21)
𝑓⋆3 (𝑦1 − 𝑥0, . . . , 𝑦𝑚 − 𝑥0|Λ) = 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = 𝑥0|Λ)
= 𝑃 (𝑋1 +𝑋0 = 𝑦1, . . . , 𝑋𝑚 +𝑋0 = 𝑦𝑚|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 𝑃 (𝑋1 = 𝑦1 − 𝑥0, . . . , 𝑋𝑚 = 𝑦𝑚 − 𝑥0|𝑋0 = 𝑥0,Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
= 𝑃 (𝑋1 = 𝑦1 − 𝑥0, . . . , 𝑋𝑚 = 𝑦𝑚 − 𝑥0|Λ)𝑃 (𝑋0 = 𝑥0|𝜆0)
=𝜆𝑦1−𝑥01 𝑒−𝜆1
(𝑦1 − 𝑥0)!. . .
𝜆𝑦𝑚−𝑥0𝑚 𝑒−𝜆𝑚
(𝑦𝑚 − 𝑥0)!
𝜆𝑥00 𝑒
−𝜆0
𝑥0!
= 𝑒−(𝜆0+𝜆1+...+𝜆𝑚)
(𝜆0
𝜆1 . . . 𝜆𝑚
)𝑥0 𝜆𝑦11 . . . 𝜆𝑦𝑚𝑚(𝑦1 − 𝑥0)! . . . (𝑦𝑚 − 𝑥0)!𝑥0!
Apendice B
Condicional Completa
Neste Apencide pode-se observar as condicionais completas para os modelos multiva-
riados propostos no capıtulo 4, no entanto, as contas serao apresentadas para o caso
bivariado ja que os dados que motivaram o presente trabalho sao bivariados. Note
que ao utilizar a tecnica de aumento de dados e prioris adequadas foi possıvel obter
condicionais completas conhecidas diminuindo o custo computacional.
Caso a tecnica de aumento de dados nao fosse adotada, ou seja, 𝑋0 nao fosse tratada
como variavel latente e nao fosse incorporada a variavel auxiliar W, as condicionais
completas dos modelos, aqui apresentados, seriam todas desconhecidas e seria neces-
sario recorrer a metodos intensivos de Monte Carlo, como M-H, em todos os passos
da estimacao. Alem disto, seria necessario calcular o somatorio presente na funcao
de probabilidade da distribuicao de Poisson multivariada. Para contagens pequenas
isto nao seria problema, mas para contagens grandes como apresentadas nos exemplos
simulados e aplicacao a dados reais, muitas vezes, resulta em somas infinitas e em um
alto custo computacional. (B.0)
Apendice B. Condicional Completa 118
B.1 Modelo Poisson multivariado
– [𝑋0𝑖 = 𝑥0𝑖|Y = y, 𝜆0,𝜆1, 𝜆2] 𝑖 = 1, . . . , 𝑁
𝑃 (𝑋0𝑖 = 𝑥0𝑖|·) ∝ 𝑃 (y𝑖,𝑋0𝑖 = 𝑥0𝑖|𝜃)
∝ 𝑃 (Y𝑖 = y𝑖|𝑋0𝑖 = 𝑥0𝑖,𝜃)𝑃 (𝑋0𝑖 = 𝑥0𝑖|𝜃)
∝(
𝜆0𝜆1𝜆2
)𝑥0𝑖 1
(𝑦1𝑖 − 𝑥0𝑖)!(𝑦2𝑖 − 𝑥0𝑖)!𝑥0𝑖!(B.2)
com 𝑥0𝑖 = 0,1, . . . ,𝑚𝑖𝑛(𝑦1𝑖,𝑦2𝑖). (B.2)
Isto e, a distribuicao a posteriori de 𝑋0𝑖 = 𝑥0𝑖, para 𝑖 = 1, . . . , 𝑁 , sera
discreta com probabilidade proporcional dada na equacao (B.2). (B.3)
– [𝜆0|Y = y, 𝜆1, 𝜆2,X0 = x0]
𝑝(𝜆0|·) ∝ 𝑃 (Y = y|X0 = x0,𝜆0, 𝜆1,𝜆2)𝑃 (X0 = x0|𝜆0)𝑝(𝜆0)
∝
{𝑁∏𝑖=1
𝜆𝑥0𝑖0 𝑒−𝜆0
}𝜆𝑎01−10 𝑒−𝑎02𝜆0
∝ 𝜆∑𝑁
𝑖=1 𝑥0𝑖+𝑎01−10 𝑒−(𝑁+𝑎02)𝜆0
⇓
𝜆0|· ∼ 𝐺𝑎𝑚𝑎
(𝑁∑𝑖=1
𝑥0𝑖 + 𝑎01;𝑁 + 𝑎02
)
119 B.1. Modelo Poisson multivariado
– [𝜆1|Y = y, 𝜆0, 𝜆2,X0 = x0]
𝑝(𝜆1|·) ∝ 𝑃 (Y = y|X0 = x0, 𝜆0, 𝜆1,𝜆2)𝑃 (𝜆1)
∝
{𝑁∏𝑖=1
𝜆𝑦1𝑖−𝑥0𝑖1 𝑒−𝜆1
}𝜆𝑎11−11 𝑒−𝑎12𝜆1
∝ 𝜆∑𝑁
𝑖=1(𝑦1𝑖−𝑥0𝑖)+𝑎11−11 𝑒−(𝑁+𝑎12)𝜆1
⇓
𝜆1|· ∼ 𝐺𝑎𝑚𝑎
(𝑁∑𝑖=1
(𝑦1𝑖 − 𝑥0𝑖) + 𝑎11;𝑁 + 𝑎12
)
– [𝜆2|Y = y, 𝜆0, 𝜆1,X0 = x0]
𝑝(𝜆2|·) ∝ 𝑃 (Y = y|X0 = x0,𝜆0, 𝜆1,𝜆2)𝑃 (𝜆2)
∝
{𝑁∏𝑖=1
𝜆𝑦2𝑖−𝑥0𝑖2 𝑒−𝜆2
}𝜆𝑎21−12 𝑒−𝑎22𝜆1
∝ 𝜆∑𝑁
𝑖=1(𝑦2𝑖−𝑥0𝑖)+𝑎21−12 𝑒−(𝑁+𝑎22)𝜆2
⇓
𝜆2|· ∼ 𝐺𝑎𝑚𝑎
(𝑁∑𝑖=1
(𝑦2𝑖 − 𝑥0𝑖) + 𝑎21;𝑁 + 𝑎22
)
Apendice B. Condicional Completa 120
B.2 Modelo de regressao de Poisson multivariado
– [𝛽0|Y = y,X0 = x0,B,𝛽1,𝛽2]
𝑝(𝛽0|·) ∝ 𝑃 (Y = y,B|X0 = x0,𝛽)𝑃 (X0 = x0|𝛽0)𝑝(𝛽0)
∝
[𝑁∏𝑖=1
𝑒𝑥𝑝{−𝑒𝑥𝑝{B′
0𝑖𝛽0}}]
×
[𝑁∏𝑖=1
𝑒𝑥𝑝{B′0𝑖𝛽0}
𝑥0𝑖
]
× 𝑒𝑥𝑝
{−1
2(𝛽0 − b0)
′Σ−10 (𝛽0 − b0)
}
– [𝛽𝑗 |Y = y,X0 = x0,B,𝛽0,𝛽−𝑗 ] para 𝑗 = 1,2
𝑝(𝛽𝑗 |·) ∝ 𝑃 (Y = y,B|X0 = x0,𝛽)𝑃 (X0 = x0|𝛽0)𝑃 (𝛽)
∝
[𝑁∏𝑖=1
𝑒𝑥𝑝{−𝑒𝑥𝑝{B′
𝑗𝑖𝛽𝑗}}]
×
[𝑁∏𝑖=1
𝑒𝑥𝑝{B′𝑗𝑖𝛽𝑗}𝑦𝑗𝑖−𝑥0𝑖
]
× 𝑒𝑥𝑝
{−1
2(𝛽𝑗 − b𝑗)
′Σ−1𝑗 (𝛽𝑗 − b𝑗)
}
com 𝛽−𝑗 o vetor de coeficientes sem ser o indexado por 𝑗 para 𝑗 = 1,2.
(B.4)
– [X0i = x0i,|Y = y,B,𝛽] ∀𝑖
121 B.3. Modelo ZIP multivariado
𝑃 (𝑋0𝑖 = 𝑥0𝑖|·) ∝ 𝑃 (y𝑖,𝑋0𝑖 = 𝑥0𝑖,B𝑖|𝜃)
∝ 𝑃 (Y𝑖 = y𝑖,B𝑖|𝑋0𝑖 = 𝑥0𝑖,𝜃)𝑃 (𝑋0𝑖 = 𝑥0𝑖|𝜃)
∝(
𝑒𝑥𝑝{B′0𝑖𝛽0}
𝑒𝑥𝑝{B′1𝑖𝛽1}𝑒𝑥𝑝{B′
2𝑖𝛽2}
)𝑥0𝑖 1
(𝑦1𝑖 − 𝑥0𝑖)!(𝑦2𝑖 − 𝑥0𝑖)!𝑥0𝑖!
(B.6)
com 𝑥0𝑖 = 0,1, . . . ,𝑚𝑖𝑛(𝑦1𝑖,𝑦2𝑖). (B.6)
Isto e, a distribuicao a posteriori de 𝑋0𝑖 = 𝑥0𝑖, para 𝑖 = 1, . . . , 𝑁 , sera
discreta com probabilidade proporcional dada na equacao (B.6). (B.7)
B.3 Modelo ZIP multivariado
– [𝑋0𝑖 = 𝑥0𝑖|Y = y,W = w, 𝜆0,𝜆1, 𝜆2,𝜋] ∀𝑖 = 1, . . . ,𝑁
𝑃 (𝑋0𝑖 = 𝑥0𝑖|·) ∝ 𝑃 (Y𝑖 = y𝑖,W𝑖 = w𝑖|𝜃, 𝑋0𝑖 = 𝑥0𝑖)𝑃 (𝜃, 𝑋0𝑖 = 𝑥0𝑖)
∝ 𝑃 (Y𝑖 = y𝑖,W𝑖 = w𝑖|𝜃, 𝑋0𝑖 = 𝑥0𝑖)𝑃 (𝑋0𝑖 = 𝑥0𝑖|𝜆0)
∝{(
𝜆0𝜆1𝜆2
)𝑥0𝑖 1
(𝑦1𝑖 − 𝑥0𝑖)!(𝑦2𝑖 − 𝑥0𝑖)!𝑥0𝑖!
}𝑤3𝑖
∝(
𝜆0𝜆1𝜆2
)𝑥0𝑖𝑤3𝑖(
1
𝑥0𝑖!
)𝑤3𝑖(
1
(𝑦1𝑖 − 𝑥0𝑖)!
)𝑤3𝑖(
1
(𝑦2𝑖 − 𝑥0𝑖)!
)𝑤3𝑖
(B.9)
com 𝑥0𝑖 = 0,1, . . . ,𝑚𝑖𝑛(𝑦1𝑖,𝑦2𝑖). (B.9)
Apendice B. Condicional Completa 122
Isto e, a distribuicao a posteriori de 𝑋0𝑖 = 𝑥0𝑖, para 𝑖 = 1, . . . , 𝑁 , sera
discreta com probabilidade proporcional dada na equacao (B.9). (B.10)
– [𝜆0|Y = y,W = w, 𝜆1, 𝜆2,𝜋,X0 = x0]
𝑃 (𝜆0|·) ∝ 𝑃 (Y = y,W = w|𝜆0, 𝜆1, 𝜆2,𝜋,X0 = x0)𝑃 (X0 = x0|𝜆0)𝑃 (𝜆0)
∝
{𝑁∏𝑖=1
𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|Λ)𝑤1𝑖𝑓⋆2 (𝑦2𝑖 − 𝑥0𝑖|Λ)𝑤2𝑖𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖,𝑦2𝑖 − 𝑥0𝑖|Λ)𝑤3𝑖
}𝑃 (𝜆0)
∝
{𝑁∏𝑖=1
[𝜆𝑥0𝑖0 𝑒−𝜆0 ]𝑤3𝑖
}𝑃 (𝜆0)
∝
{𝑁∏𝑖=1
𝜆𝑥0𝑖𝑤3𝑖0 𝑒𝑥𝑝{−𝜆0𝑤3𝑖}
}𝜆𝑎01−10 𝑒−𝑎02𝜆0
∝ 𝜆∑𝑁
𝑖=1 𝑥0𝑖𝑤3𝑖
0 𝑒𝑥𝑝
{−𝜆0
𝑁∑𝑖=1
𝑤3𝑖
}𝜆𝑎01−10 𝑒−𝑎02𝜆0
∝ 𝜆∑𝑁
𝑖=1 𝑥0𝑖𝑤3𝑖+𝑎01−10 𝑒𝑥𝑝
{−𝜆0
(𝑁∑𝑖=1
𝑤3𝑖 + 𝑎02
)}(B.12)
⇓
𝜆0|· ∼ 𝐺𝑎𝑚𝑎
(𝑁∑𝑖=1
𝑥0𝑖𝑤3𝑖 + 𝑎01;𝑁∑𝑖=1
𝑤3𝑖 + 𝑎02
)
– [𝜆1|Y = y,W = w, 𝜆0, 𝜆2,𝜋,X0 = x0]
123 B.3. Modelo ZIP multivariado
𝑃 (𝜆1|·) ∝ 𝑃 (Y = y,W = w|𝜆0, 𝜆1,𝜆2,𝜋,X0 = x0)𝑃 (𝜆1)
∝
{𝑁∏𝑖=1
𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|Λ)𝑤1𝑖𝑓⋆2 (𝑦2𝑖 − 𝑥0𝑖|Λ)𝑤2𝑖𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖,𝑦2𝑖 − 𝑥0𝑖|Λ)𝑤3𝑖
}𝑃 (𝜆1)
∝
{𝑁∏𝑖=1
[𝜆𝑦1𝑖−𝑥0𝑖1 𝑒−𝜆1 ]𝑤1𝑖 [𝜆𝑦1𝑖−𝑥0𝑖
1 𝑒−𝜆1 ]𝑤3𝑖
}𝑃 (𝜆1)
∝
{𝑁∏𝑖=1
𝜆(𝑦1𝑖−𝑥0𝑖)(𝑤1𝑖+𝑤3𝑖)1 𝑒−𝜆1(𝑤1𝑖+𝑤3𝑖)
}𝜆𝑎11−11 𝑒−𝑎12𝜆1
∝ 𝜆∑𝑁
𝑖=1(𝑦1𝑖−𝑥0𝑖)(𝑤1𝑖+𝑤3𝑖)1 𝑒−𝜆1
∑𝑁𝑖=1(𝑤1𝑖+𝑤3𝑖)𝜆𝑎11−1
1 𝑒−𝑎12𝜆1
∝ 𝜆∑𝑁
𝑖=1(𝑦1𝑖−𝑥0𝑖)(𝑤1𝑖+𝑤3𝑖)+𝑎11−11 𝑒𝑥𝑝
{−𝜆1
(𝑁∑𝑖=1
(𝑤1𝑖 + 𝑤3𝑖) + 𝑎12
)}(B.13)
⇓
𝜆1|· ∼ 𝐺𝑎𝑚𝑎
(𝑁∑𝑖=1
(𝑦1𝑖 − 𝑥0𝑖)(𝑤1𝑖 + 𝑤3𝑖) + 𝑎11;
𝑁∑𝑖=1
(𝑤1𝑖 + 𝑤3𝑖) + 𝑎12
)
– [𝜆2|Y = y,W = w, 𝜆0, 𝜆1,𝜋,X0 = x0] (B.13)
Apendice B. Condicional Completa 124
𝑃 (𝜆2|·) ∝ 𝑃 (Y = y,W = w|𝜆0, 𝜆1,𝜆2,𝜋,X0 = x0)𝑃 (𝜆2)
∝
{𝑁∏𝑖=1
𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|Λ)𝑤1𝑖𝑓⋆2 (𝑦2𝑖 − 𝑥0𝑖|Λ)𝑤2𝑖𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖,𝑦2𝑖 − 𝑥0𝑖|Λ)𝑤3𝑖
}𝑃 (𝜆2)
∝
{𝑁∏𝑖=1
[𝜆𝑦2𝑖−𝑥0𝑖2 𝑒−𝜆2 ]𝑤2𝑖 [𝜆𝑦2𝑖−𝑥0𝑖
2 𝑒−𝜆2 ]𝑤3𝑖
}𝑃 (𝜆2)
∝
{𝑁∏𝑖=1
𝜆(𝑦2𝑖−𝑥0𝑖)(𝑤2𝑖+𝑤3𝑖)2 𝑒−𝜆2(𝑤2𝑖+𝑤3𝑖)
}𝜆𝑎21−12 𝑒−𝑎22𝜆2
∝ 𝜆∑𝑁
𝑖=1(𝑦2𝑖−𝑥0𝑖)(𝑤2𝑖+𝑤3𝑖)2 𝑒−𝜆2
∑𝑁𝑖=1(𝑤2𝑖+𝑤3𝑖)𝜆𝑎21−1
2 𝑒−𝑎22𝜆1
∝ 𝜆∑𝑁
𝑖=1(𝑦2𝑖−𝑥0𝑖)(𝑤2𝑖+𝑤3𝑖)+𝑎21−12 𝑒𝑥𝑝
{−𝜆2
(𝑁∑𝑖=1
(𝑤2𝑖 + 𝑤3𝑖) + 𝑎22
)}(B.15)
⇓
𝜆2|· ∼ 𝐺𝑎𝑚𝑎
(𝑁∑𝑖=1
(𝑦2𝑖 − 𝑥0𝑖)(𝑤2𝑖 + 𝑤3𝑖) + 𝑎21;
𝑁∑𝑖=1
(𝑤2𝑖 + 𝑤3𝑖) + 𝑎22
)
– [𝜋|Y = y,W = w,Λ,X0 = x0]
125 B.3. Modelo ZIP multivariado
𝑃 (𝜋|·) ∝ 𝑃 (Y = y,W = w|𝜆0, 𝜆1, 𝜆2,𝜋,X0 = x0)𝑃 (𝜋)
∝ 𝑃 (Y = y|W = w,Λ,𝜋,X0 = x0)𝑃 (W = w|Λ,𝜋,X0 = x0)𝑃 (𝜋)
∝
{𝑁∏𝑖=1
𝑃 (W𝑖 = w𝑖|𝜋)
}𝑃 (𝜋)
∝
{𝑁∏𝑖=1
𝜋𝑤0𝑖0 𝜋𝑤1𝑖
1 𝜋𝑤2𝑖2 𝜋
(1−∑2
𝑗=0 𝑤𝑗𝑖)
3
}𝜋𝑝0−10 𝜋𝑝1−1
1 𝜋𝑝2−12 𝜋𝑝3−1
3
∝ 𝜋𝑝0+
∑𝑁𝑖=1 𝑤0𝑖−1
0 𝜋𝑝1+
∑𝑁𝑖=1 𝑤1𝑖−1
1 𝜋𝑝2+
∑𝑁𝑖=1 𝑤2𝑖−1
2 𝜋𝑝3+𝑁−
∑𝑁𝑖=1
∑2𝑗=0 𝑤𝑗𝑖−1
3
(B.16)
⇓
𝜋|· ∼ 𝐷𝑖𝑟𝑖𝑐ℎ𝑙𝑒𝑡
⎛⎝𝑝0 + 𝑁∑𝑖=1
𝑤0𝑖,𝑝1 +𝑁∑𝑖=1
𝑤1𝑖,𝑝2 +𝑁∑𝑖=1
𝑤2𝑖,𝑝3 +𝑁 −𝑁∑𝑖=1
2∑𝑗=0
𝑤𝑗𝑖
⎞⎠
– [W𝑖 = w𝑖|Y = y, 𝜆0,𝜆1, 𝜆2,𝜋,X0 = x0] para 𝑖 = 1, . . . , 𝑁
𝑃 (W𝑖 = w𝑖|·) ∝ 𝑃 (Y𝑖 = y𝑖|W𝑖 = w𝑖,𝜆0, 𝜆1, 𝜆2,𝜋, 𝑋0𝑖 = 𝑥0𝑖)𝑃 (W𝑖 = w𝑖|𝜋)
Apendice B. Condicional Completa 126
𝑃 (W𝑖 = (1,0,0,0)|·) ∝ 𝜋0
𝑃 (W𝑖 = (0,1,0,0)|·) ∝ 𝜋1𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|𝜆1)
𝑃 (W𝑖 = (0,0,1,0)|·) ∝ 𝜋2𝑓⋆2 (𝑦2𝑖 − 𝑥0𝑖|𝜆2)
𝑃 (W𝑖 = (0,0,0,1)|·) ∝ 𝜋3𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖,𝑦2𝑖 − 𝑥0𝑖|Λ)
⇓
W𝑖 = w𝑖|· ∼𝑀𝑢𝑙𝑡𝑖𝑛𝑜𝑚𝑖𝑎𝑙(1, 𝛿0𝑖,𝛿1𝑖,𝛿2𝑖,𝛿3𝑖)
onde
𝛿0𝑖 ∝ 𝜋0
𝛿1𝑖 ∝ 𝜋1𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|𝜆1)
𝛿2𝑖 ∝ 𝜋2𝑓⋆2 (𝑦2𝑖 − 𝑥0𝑖|𝜆2)
𝛿3𝑖 ∝ 𝜋3𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖,𝑦2𝑖 − 𝑥0𝑖|Λ)
B.4 Modelo de regressao ZIP multivariado
– [𝑋0𝑖 = 𝑥0𝑖|Y = y,W = w,𝛽,𝛾] 𝑖 = 1, . . . ,𝑁
127 B.4. Modelo de regressao ZIP multivariado
𝑃 (𝑋0𝑖 = 𝑥0𝑖|·) ∝ 𝑃 (Y𝑖 = y𝑖,W𝑖 = w𝑖|𝜃, 𝑋0𝑖 = 𝑥0𝑖)𝑃 (𝜃, 𝑋0𝑖 = 𝑥0𝑖)
∝ 𝑃 (Y𝑖 = y𝑖,W𝑖 = w𝑖|𝜃, 𝑋0𝑖 = 𝑥0𝑖)𝑃 (𝑋0𝑖 = 𝑥0𝑖|𝛽0)
∝{(
𝑒𝑥𝑝{B0𝑖𝛽0}𝑒𝑥𝑝{B1𝑖𝛽1}
)𝑥0𝑖 1
(𝑦1𝑖 − 𝑥0𝑖)!𝑥0𝑖!
}𝑤1𝑖
×{(
𝑒𝑥𝑝{B0𝑖𝛽0}𝑒𝑥𝑝{B2𝑖𝛽2}
)𝑥0𝑖 1
(𝑦2𝑖 − 𝑥0𝑖)!𝑥0𝑖!
}𝑤2𝑖
×{(
𝑒𝑥𝑝{B0𝑖𝛽0}𝑒𝑥𝑝{B1𝑖𝛽1}𝑒𝑥𝑝{B2𝑖𝛽2}
)𝑥0𝑖 1
(𝑦1𝑖 − 𝑥0𝑖)!(𝑦2𝑖 − 𝑥0𝑖)!𝑥0𝑖!
}𝑤3𝑖
∝(𝑒𝑥𝑝{B0𝑖𝛽0}𝑒𝑥𝑝{B1𝑖𝛽1}
)𝑥0𝑖𝑤1𝑖(𝑒𝑥𝑝{B0𝑖𝛽0}𝑒𝑥𝑝{B2𝑖𝛽2}
)𝑥0𝑖𝑤2𝑖
×(
𝑒𝑥𝑝{B0𝑖𝛽0}𝑒𝑥𝑝{B1𝑖𝛽1}𝑒𝑥𝑝{B2𝑖𝛽2}
)𝑥0𝑖𝑤3𝑖
×(
1
𝑥0𝑖!
)𝑤1𝑖+𝑤2𝑖+𝑤3𝑖(
1
(𝑦1𝑖 − 𝑥0𝑖)!
)𝑤1𝑖+𝑤3𝑖(
1
(𝑦2𝑖 − 𝑥0𝑖)!
)𝑤2𝑖+𝑤3𝑖
(B.17)
com 𝑥0𝑖 = 0,1, . . . ,𝑚𝑖𝑛(𝑦1𝑖,𝑦2𝑖). (B.17)
Isto e, a distribuicao a posteriori de 𝑋0𝑖 = 𝑥0𝑖, para 𝑖 = 1, . . . , 𝑁 , sera
discreta com probabilidade proporcional dada na equacao (B.17). (B.18)
– [𝛽0|Y = y,W = w,𝛽1,𝛽2,𝛾,X0 = x0]
Apendice B. Condicional Completa 128
𝑃 (𝛽0|·) ∝ 𝑃 (Y = y,W = w|𝛽,𝛾,X0 = x0)𝑃 (X0 = x0|𝛽0)𝑃 (𝛽0)
∝
{𝑁∏𝑖=1
𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|𝛽)𝑤1𝑖𝑓⋆2 (𝑦2𝑖 − 𝑥0𝑖|𝛽)𝑤2𝑖𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖,𝑦2𝑖 − 𝑥0𝑖|𝛽)𝑤3𝑖
}𝑃 (𝛽0)
∝
{𝑁∏𝑖=1
[𝑒𝑥𝑝{B′0𝑖𝛽0}𝑥0𝑖𝑒−𝑒𝑥𝑝{B′
0𝑖𝛽0}]𝑤3𝑖
}𝑃 (𝛽0)
∝
{𝑁∏𝑖=1
𝑒𝑥𝑝{B0𝑖𝛽0}𝑥0𝑖𝑤3𝑖𝑒𝑥𝑝{−𝑒𝑥𝑝{B0𝑖𝛽0}𝑤3𝑖}
}
× 𝑒𝑥𝑝
{−1
2(𝛽0 − b0)
′Σ−10 (𝛽0 − b0)
}(B.20)
– [𝛽1|Y = y,W = w,𝛽0,𝛽2,𝛾,X0 = x0]
𝑃 (𝛽1|·) ∝ 𝑃 (Y = y,W = w|𝛽,𝛾,X0 = x0)𝑃 (𝛽1)
∝
{𝑁∏𝑖=1
𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|𝛽)𝑤1𝑖𝑓⋆2 (𝑦2𝑖 − 𝑥0𝑖|𝛽)𝑤2𝑖𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖,𝑦2𝑖 − 𝑥0𝑖|𝛽)𝑤3𝑖
}𝑃 (𝛽1)
∝
{𝑁∏𝑖=1
𝑒𝑥𝑝{B′1𝑖𝛽1}(𝑦1𝑖−𝑥0𝑖)(𝑤1𝑖+𝑤3𝑖)𝑒−𝑒𝑥𝑝{B′
1𝑖𝛽1}(𝑤1𝑖+𝑤3𝑖)
}
× 𝑒𝑥𝑝
{−1
2(𝛽1 − b1)
′Σ−11 (𝛽1 − b1)
}(B.21)
– [𝛽2|Y = y,W = w,𝛽1,𝛽2,𝛾,X0 = x0]
129 B.4. Modelo de regressao ZIP multivariado
𝑃 (𝛽2|·) ∝ 𝑃 (Y = y,W = w|𝛽,𝛾,X0 = x0)𝑃 (𝛽2)
∝
{𝑁∏𝑖=2
𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|𝛽)𝑤1𝑖𝑓⋆2 (𝑦2𝑖 − 𝑥0𝑖|𝛽)𝑤2𝑖𝑓⋆3 (𝑦2𝑖 − 𝑥0𝑖,𝑦2𝑖 − 𝑥0𝑖|𝛽)𝑤3𝑖
}𝑃 (𝛽2)
∝
{𝑁∏𝑖=2
[𝑒𝑥𝑝{B′2𝑖𝛽2}𝑦2𝑖−𝑥0𝑖𝑒−𝑒𝑥𝑝{B′
2𝑖𝛽2}]𝑤2𝑖 [𝑒𝑥𝑝{B′2𝑖𝛽2}𝑦2𝑖−𝑥0𝑖𝑒−𝑒𝑥𝑝{B′
2𝑖𝛽2}]𝑤3𝑖
}
× 𝑒𝑥𝑝
{−1
2(𝛽2 − b2)
′Σ−12 (𝛽2 − b2)
}∝
{𝑁∏𝑖=2
𝑒𝑥𝑝{B′2𝑖𝛽2}(𝑦2𝑖−𝑥0𝑖)(𝑤2𝑖+𝑤3𝑖)𝑒−𝑒𝑥𝑝{B′
2𝑖𝛽2}(𝑤2𝑖+𝑤3𝑖)
}
× 𝑒𝑥𝑝
{−1
2(𝛽2 − b2)
′Σ−12 (𝛽2 − b2)
}(B.22)
– [𝛾0|Y = y,W = w,𝛾1,𝛾2,𝛽,X0 = x0]
𝑃 (𝛾0|·) ∝ 𝑃 (Y = y,W = w|𝛽,𝛾,X0 = x0)𝑃 (𝛾0)
∝ 𝑃 (Y = y|W = w,𝛽,𝛾,X0 = x0)𝑃 (W = w|𝛽,𝛾,X0 = x0)𝑃 (𝛾0)
∝
{𝑁∏𝑖=1
𝑃 (W𝑖 = w𝑖|𝛾)
}𝑃 (𝛾0)
∝
{𝑁∏𝑖=1
(𝑒𝑥𝑝 {G′
0𝑖𝛾0}1 +
∑2𝑗=0 𝑒𝑥𝑝 {G′
0𝑖𝛾0}
)𝑤0𝑖}𝑒𝑥𝑝
{−1
2(𝛾0 − g0)
′Ψ−10 (𝛾0 − g0)
}(B.23)
– [𝛾1|Y = y,W = w,𝛾0,𝛾2,𝛽,X0 = x0]
Apendice B. Condicional Completa 130
𝑃 (𝛾1|·) ∝ 𝑃 (Y = y,W = w|𝛽,𝛾,X0 = x0)𝑃 (𝛾1)
∝ 𝑃 (Y = y|W = w,𝛽,𝛾,X0 = x0)𝑃 (W = w|𝛽,𝛾,X0 = x0)𝑃 (𝛾1)
∝
{𝑁∏𝑖=1
𝑃 (W𝑖 = w𝑖|𝛾)
}𝑃 (𝛾1)
∝
⎧⎨⎩𝑁∏𝑖=1
⎛⎝ 𝑒𝑥𝑝 {G′1𝑖𝛾1}
1 +∑2
𝑗=0 𝑒𝑥𝑝{G′
𝑗𝑖𝛾𝑗
}⎞⎠𝑤1𝑖
⎫⎬⎭ 𝑒𝑥𝑝
{−1
2(𝛾1 − g1)
′Ψ−11 (𝛾1 − g1)
}(B.24)
– [𝛾2|Y = y,W = w,𝛾0,𝛾1,𝛽,X0 = x0]
𝑃 (𝛾2|·) ∝ 𝑃 (Y = y,W = w|𝛽,𝛾,X0 = x0)𝑃 (𝛾2)
∝ 𝑃 (Y = y|W = w,𝛽,𝛾,X0 = x0)𝑃 (W = w|𝛽,𝛾,X0 = x0)𝑃 (𝛾2)
∝
{𝑁∏𝑖=1
𝑃 (W𝑖 = w𝑖|𝛾)
}𝑃 (𝛾2)
∝
⎧⎨⎩𝑁∏𝑖=1
⎛⎝ 𝑒𝑥𝑝 {G′2𝑖𝛾2}
1 +∑2
𝑗=0 𝑒𝑥𝑝{G′
𝑗𝑖𝛾𝑗
}⎞⎠𝑤2𝑖
⎫⎬⎭ 𝑒𝑥𝑝
{−1
2(𝛾2 − g2)
′Ψ−12 (𝛾2 − g2)
}(B.25)
– [W𝑖 = w𝑖|Y = y,𝛽,𝛾,X0 = x0] para 𝑖 = 1, . . . , 𝑁
𝑃 (W𝑖 = w𝑖|·) ∝ 𝑃 (Y𝑖 = y𝑖|W𝑖 = w𝑖,𝛽,𝛾, 𝑋0𝑖 = 𝑥0𝑖)𝑃 (W𝑖 = w𝑖|𝛾)
131 B.4. Modelo de regressao ZIP multivariado
𝑃 (W𝑖 = (1,0,0,0)|·) ∝ 𝑒𝑥𝑝 {G′0𝑖𝛾0}
1 +∑2
𝑗=0 𝑒𝑥𝑝{G′
𝑗𝑖𝛾𝑗
}𝑃 (W𝑖 = (0,1,0,0)|·) ∝ 𝑒𝑥𝑝 {G′
1𝑖𝛾1}
1 +∑2
𝑗=0 𝑒𝑥𝑝{G′
𝑗𝑖𝛾𝑗
}𝑓⋆2 (𝑦1𝑖 − 𝑥0𝑖|𝛽)
𝑃 (W𝑖 = (0,0,1,0)|·) ∝ 𝑒𝑥𝑝 {G′2𝑖𝛾2}
1 +∑2
𝑗=0 𝑒𝑥𝑝{G′
𝑗𝑖𝛾𝑗
}𝑓⋆2 (𝑦2𝑖 − 𝑥0𝑖|𝛽)
𝑃 (W𝑖 = (0,0,0,1)|·) ∝ 1
1 +∑2
𝑗=0 𝑒𝑥𝑝{G′
𝑗𝑖𝛾𝑗
}𝑓⋆3 (𝑦1𝑖 − 𝑥0𝑖,𝑦2𝑖 − 𝑥0𝑖|𝛽)