Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP)...

71
Universidade Estadual de Maringá Departamento de Estatística Programa de Pós-graduação em Bioestatística Eudmar Paiva de Almeida Um Estudo Longitudinal de Dados de Huanglongbing em Pomares Maringá 2015

Transcript of Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP)...

Page 1: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Universidade Estadual de MaringáDepartamento de Estatística

Programa de Pós-graduação em Bioestatística

Eudmar Paiva de Almeida

Um Estudo Longitudinal de Dados deHuanglongbing em Pomares

Maringá2015

Page 2: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Eudmar Paiva de Almeida

Um Estudo Longitudinal de Dados deHuanglongbing em Pomares

Dissertação apresentada ao Programa dePós-Graduação em Bioestatística do Centrode Ciências Exatas da Universidade Estadualde Maringá, como requisito parcial para a ob-tenção do título de Mestre em Bioestatística.

Orientador: Dr. Vanderly Janeiro

Maringá2015

Page 3: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Dados Internacionais de Catalogação na Publicação (CIP)

(Biblioteca Central - UEM, Maringá, PR, Brasil) Almeida, Eudmar Paiva de A447u Um estudo longitudinal de dados de Huang longbing

em pomares / Eudmar Paiva de Almeida. -- Maringá, 2015.

67 f. : il., figs., tabs. + apêndice Orientador: Prof. Dr. Vanderly Janeiro. Dissertação (mestrado) - Universidade Es tadual de

Maringá, Centro de Ciências Exatas, Departamento de Estatística, Programa de Pós-Graduação em Bioestatística, 2015.

1. Modelo ZINB. 2. Método BLUP. 3. Algor itmo EM.

4. Pomares (Laranjeiras) - Estudo longitudinal. 5. Efeito aleatório. I. Janeiro, Vanderly, orient. II. Universidade Estadual de Maringá. Centro de Ciência s Exatas. Departamento de Estatística. Programa de Pós-Graduação em Bioestatística. III. Título.

CDD 21.ed. 570.15195

MN-002051

Page 4: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um
Page 5: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

As raízes do estudo são amargas, mas seus frutos são doces.

Aristótelis

Page 6: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Agradecimentos

Agradeço primeiramente a Deus e a Nossa Senhora de Nazaré por todas as suas

bênçãos e por toda a foça que me deram para chegar até aqui.

A meus pais, Francisco e Olivaldina, pelo seu total apoio e por sempre acreditarem

em mim e investirem em minha educação.

A Danielle Pompeu por sempre estar ao meu lado no meio acadêmico e hoje em

minha vida.

Ao meu orientador, Prof. Dr. Vanderly Janeiro, por acreditar em mim e por sua

dedicada orientação neste trabalho.

A prof. Terezinha Guedes por suas valiosas considerações.

Aos meus colegas de classe da primeira turma do Programa de Pós-Graduação em

Bioestatística.

A todos os professores com quem tive contato durante a Pós-Graduação.

Ao Programa de Pós-Graduação em Bioestatística.

Page 7: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Resumo

Em diversas áreas do conhecimento, dados com excesso de zeros são encontrados comfrequência. Para a análise de tais dados, é recomendado utilizar modelos que permitamuma contagem deste excesso de zeros de forma adequada. O objetivo deste trabalho foiencontrar um modelo para os dados referentes ao levantamento de plantas doentes empomares comerciais de laranjeiras. Foram comparados os modelos binomial negativo ebinomial negativo inflacionado de zeros (ZINB) a partir do teste de Vuong e, observou-se que o modelo ZINB é mais adequado para descrever os dados. Entretanto, deve-selevar em consideração que cada pomar é avaliado ao longo do tempo, sendo assim, nestecontexto, o modelo ZINB com efeito aleatório em ambas as funções de ligação, logit elog, apresentou melhor ajuste aos dados pois consideram as variações entre os pomares ea dependência do número de plantas doentes. As estimativas do modelo foram obtidas apartir da maximização da função log-verossimilhança, particionada pelo método BLUP,usando o algoritmo EM.

Palavras-chave: ZINB, efeito aleatório, método BLUP, algoritmo EM.

Page 8: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Sumário

1 Introdução 1

2 Revisão de Literatura 32.1 Dados Longitudinais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 Modelos Inflacionado de Zeros . . . . . . . . . . . . . . . . . . . . . . . . 42.3 A Distribuição Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . 6

2.3.1 Modelo de Regressão Binomial Negativo . . . . . . . . . . . . . . 72.4 Deviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.5 Melhor Preditor Linear não Viesado (BLUP) . . . . . . . . . . . . . . . . 82.6 Algoritmo de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . 9

3 Metodologia 113.1 Modelo de Binomial Negativo Inflacionado de Zeros (ZINB) . . . . . . . 113.2 Estimação para o Modelo ZINB . . . . . . . . . . . . . . . . . . . . . . . 133.3 Estimação para o Modelo ZINB com Efeito Aleatório (ZINBe) . . . . . . 15

3.3.1 Estimação da Componente de Variância pelo Método REML . . . 173.4 Razão de Chance e Risco Relativo . . . . . . . . . . . . . . . . . . . . . . 183.5 O Teste de Vuong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.6 Resíduo de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.7 Gráfico de Envelope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.8 Programa estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4 Resultados 224.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224.2 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2.1 Modelo de Regressão Binomial Negativo . . . . . . . . . . . . . . 234.2.2 Modelo de Regressão Binomial Negativo Inflacionado de Zeros

(ZINB) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.2.3 Modelo de Binomial Negativo Inflacionado de Zeros com Efeito

Aleatório (ZINB𝑒) . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5 Conclusões 38

Page 9: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

6 Perspectivas Futuras 39

A Programação 40

Referências Bibliográficas 53

A Estimação do Modelo ZINB 56

B Estimação para o Modelo ZINB com Efeito Aleatório 58

C Estimação da componente de variância e variância assintótica (REML) 60

Page 10: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Lista de Tabelas

2.1 Estrutura dos dados Longitudinais. . . . . . . . . . . . . . . . . . . . . . 4

4.1 Quantidade observada, percentual, média e variância do número de plan-tas doentes por tipo de Manejo. . . . . . . . . . . . . . . . . . . . . . . . 23

4.2 Modelos de regressão binomial negativo para o número de plantas doen-tes, e respectivas Deviance e graus de liberdade (g.l.). . . . . . . . . . . . 24

4.3 Percentuais observados e estimados do número de plantas doentes a partirdo modelo de regressão binomial negativo sem interação. . . . . . . . . . 25

4.4 Estimativas (Erro-Padrão), odds ratio - OR, risco relativo - RR e seusrespectivos intervalos de confiança (IC 95 %), para o modelo de regressãoZINB completo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.5 Percentuais observados e estimados do número de plantas doentes a partirdo modelo de regressão ZINB. . . . . . . . . . . . . . . . . . . . . . . . . 27

4.6 Estimativas (Erro-Padrão), odds ratio - OR, risco relativo - RR e seusrespectivos intervalos de confiança (IC 95 %), para o modelo de regressãoZINB𝑒 com efeito aleatório somente para a ligação logit (Inflacionada). . 30

4.7 Percentuais observados e estimados do número de plantas doentes a partirdo modelo de regressão ZINB𝑒 com efeito aleatório somente para a ligaçãologit (Inflacionada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.8 Estimativas (Erro-Padrão), odds ratio - OR, risco relativo - RR e seusrespectivos intervalos de confiança (IC 95 %), para o modelo de regressãoZINB𝑒 com efeito aleatório para ambas ligações logit e log (Inflacionadae Não Inflacionada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.9 Percentuais observados e estimados do número de plantas doentes a partirdo modelo de regressão ZINB𝑒 com efeito aleatório para ambas ligaçõeslogit e log (Inflacionada e Não Inflacionada). . . . . . . . . . . . . . . . . 35

Page 11: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Lista de Figuras

4.1 Gráfico quantil-quantil para a diferença do valor observado e valor ajus-tado, a partir do modelo de regressão binomial negativo sem interaçãopara o número de plantas doentes. . . . . . . . . . . . . . . . . . . . . . . 25

4.2 Gráfico quantil-quantil para a diferença do valor observado e valor ajus-tado, a partir do modelo de regressão ZINB para o número de plantasdoentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.3 Modelos estimados para o modelo de regressão binomial negativo (BN)e modelo de regressão ZINB para o número de plantas doentes. . . . . . . 28

4.4 Gráfico quantil-quantil para a diferença do valor observado e valor ajus-tado, a partir do modelo de regressão ZINB𝑒 com efeito aleatório somentepara a ligação logit (Inflacionada) para o número de plantas doentes. . . 31

4.5 Gráfico quantil-quantil e histograma para o efeito aleatório u para o mo-delo com efeito somente para a ligação logit (inflacionada). . . . . . . . . 32

4.6 Gráfico quantil-quantil para a diferença do valor observado e valor ajus-tado, a partir do modelo de regressão ZINB𝑒 com efeito aleatório paraambas ligações logit e log para o número de plantas doentes. . . . . . . . 35

4.7 Gráfico quantil-quantil e histograma para o efeito aleatório u para o mo-delo de regressão ZINB𝑒 com efeito aleatório para ambas as ligações logite log (Inflacionada e Não Inflacionada). . . . . . . . . . . . . . . . . . . . 36

4.8 Gráfico quantil-quantil e histograma para o efeito aleatório v para o mo-delo de regressão ZINB𝑒 com efeito aleatório para ambas as ligações logite log (Inflacionada e Não Inflacionada). . . . . . . . . . . . . . . . . . . . 36

4.9 Gráfico meio-normal com envelope simulado para o modelo de regressãoZINB𝑒 com efeito aleatório para ambas as ligações logit e log (Inflacionadae Não Inflacionada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Page 12: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 1

Introdução

O Huanglongbing (HLB) é uma das doenças mais relevantes da cultura dos citros.Devido ao fato ser muito destrutiva, representa uma grande ameaça para a citriculturado mundo e vem lentamente invadindo novas áreas de cultivo de citrus. Os primeiroscasos foram observados em 1919, ao sul da China, alastrando-se por mais de 40 paísesdiferentes da Ásia, África, Oceania, América do Sul e América do Norte (BOVÉ, 2006).

No continente americano os primeiros casos relatados ocorreram em território bra-sileiro, mais precisamente em pomares localizados em Araraquara região central doEstado São Paulo no ano de 2004 (COLETTA-FILHO et al., 2004)(TEIXEIRA et al.,2005).

O HLB é uma doença que não provoca a morte das plantas, porém, com o passar dosanos, estas passam a ficar debilitadas e improdutivas. Ao observar pomares afetadosem diferentes regiões de produção cítrica do mundo, foi possível verificar que pomaresinteiros podem tornar-se inviáveis economicamente em um período de sete a dez anos,após o aparecimento da primeira planta doente. Se medidas de controle não foremadotadas, esta doença se propaga a partir da introdução de uma determinada bactéria,por meio de um vetor, Diaphorina citri, em pomares livres da doença (GOTTWALD etal., 2007).

Devido a importância desta doença, foi realizado no noroeste do Estado do Paranáum levantamento de plantas doentes nos pomares comerciais de laranjeiras entre marçode 2010 e dezembro de 2011. Os dados provenientes neste levantamento foram obtidoscom o auxílio de técnicos de campo capacitados para realizar e averiguar o número deplantas doentes em cada pomar. Foram realizadas 7 avaliações, ao longo do tempo,respeitando um intervalo de 90 dias entre cada avaliação.

Os dados deste levantamento são discretos, sendo que apresentam excesso de zeros,em que este excesso se dá quando a planta observada está assintomática devido a suaresistência contra o HLB ou porque simplesmente o vetor da doença não estava presentepara infectar a planta.

Nestas situações, em que deve-se analisar dados discretos, é comum utilizar dis-

Page 13: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 1. Introdução 2

tribuições padrão, tais como, Poisson, binomial ou binomial negativa, para análise dedados discretos. Porém, quando os dados apresentam excesso de zeros, estimativas apartir destas distribuições não são adequadas para o excesso de zeros, logo, uma opçãoé utilizar modelos de Poisson ou binomial inflacionado de zeros.

Em muitos casos dados de contagem pode ocorrer superdispersão, isto é, a variânciaobservada é um valor muito superior a média observada. Porém, sendo mais comumquando se tem excesso de zeros. Em tais casos, é mais indicado o uso do modelo binomialnegativo inflacionado de zero.

Neste trabalho é utilizado o modelo binomial negativo inflacionado de zero (ZINB),para a modelagem de dados do número de laranjeiras acometidas pela doença Huan-glongbing. Porém, o modelo ZINB requer a independência da variável resposta, o quenão acontece, pois nos dados analisados, cada pomar é avaliado ao longo do tempo,violando a suposição de independência. Portanto, será introduzido um efeito aleatóriono modelo ZINB para descrever esta dependência. Assim, será considerado um mo-delo ZINB com a introdução de um efeito aleatório por pomar, a fim de descrever adependência das observações no tempo.

Page 14: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 2

Revisão de Literatura

2.1 Dados Longitudinais

Em diversas situações, nos deparamos com a necessidade de modelar dados com va-riáveis respostas medidas ao longo de alguma escala ordenada (como tempos diferentes,diferença de profundidades, diferentes distâncias, entre outros), tais escalas são referidascomo tempo, onde são observadas as medidas repetidas. Este tipo de dados envolve umestudo de planejamento longitudinal, em que a coleta da variável resposta é observadaou medida em instantes diferentes, para cada unidade amostral estudada (SINGER;ANDRADE, 2000).

Estudos longitudinais são basicamente utilizados para verificar a mudança de umadeterminada característica ao longo do tempo, medida repetidamente em cada objetode estudo (LAIRD; WARE, 1982). Em tais casos as unidades observadas são muitasvezes não independentes, ocasionando que as observações repetidas de cada unidade sãocorrelacionadas, logo, há necessidade de técnicas estatísticas adequadas para este tipode estudo.

Para um melhor entendimento da disposição básica dos dados neste estudo, as uni-dades amostrais devem estar dispostas de tal forma a conter uma referência para queas variáveis respostas e explicativas estejam ligadas. Na Tabela 2.1, encontra-se umexemplo para a disposição dos dados longitudinais. Neste exemplo diferentes unidadesamostrais são observadas em instantes de tempos diferentes, e para cada unidade amos-tral a variável resposta (𝑌 ) e as variáveis dependentes (𝑋, 𝑊 , 𝑉 e 𝑍) serão observadasem cada instante.

Segundo Costa (2003), estudos longitudinais são casos especiais dos estudos de me-didas repetidas, abrangendo delineamentos como parcelas subdivididas e crossover.

A análise de dados longitudinais, deve ser realizada considerando modelos estatís-ticos capazes de capturar a relação entre as repetidas observações na mesma unidadeamostral, utilizando modelos com efeitos aleatórios em dois estágios, como proposto por

Page 15: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 2. Revisão de Literatura 4

Tabela 2.1: Estrutura dos dados Longitudinais.

Unidadeamostral

CovariáveisResposta Tempo 𝑋 𝑊 𝑉 𝑍

1 𝑦11 𝑡11 𝑥1 𝑤1 𝑣1 𝑧11 𝑦21 𝑡12 𝑥1 𝑤1 𝑣1 𝑧1· · · · · · · · · · · · · · · · · · · · ·1 𝑦1𝑝1 𝑡1𝑝1 𝑥1 𝑤1 𝑣1 𝑧12 𝑦21 𝑡21 𝑥2 𝑤2 𝑣2 𝑧22 𝑦22 𝑡22 𝑥2 𝑤2 𝑣2 𝑧2· · · · · · · · · · · · · · · · · · · · ·2 𝑦2𝑝2 𝑡2𝑝2 𝑥2 𝑤2 𝑣2 𝑧2· · · · · · · · · · · · · · · · · · · · ·n 𝑦𝑛1 𝑡𝑛1 𝑥𝑛 𝑤𝑛 𝑣𝑛 𝑧𝑛n 𝑦𝑛2 𝑡𝑛2 𝑥𝑛 𝑤𝑛 𝑣𝑛 𝑧𝑛· · · · · · · · · · · · · · · · · · · · ·n 𝑦𝑛𝑝𝑛 𝑡𝑛𝑝𝑛 𝑥𝑛 𝑤𝑛 𝑣𝑛 𝑧𝑛

Laird e Ware (1982). Nestes modelos as distribuições de probabilidade para as respostasdos diferentes indivíduos pertencem a uma única família, mas alguns parâmetros comefeitos aleatórios variam entre esses indivíduos, com uma determinada distribuição deprobabilidade no segundo estágio. Tais autores, propõem o modelo

𝑦𝑖 = 𝑋𝛼 + 𝑍𝑏𝑖 + 𝜀𝑖

sendo, 𝜀𝑖 ∼ N(0, 𝑅) e 𝑅 é a matriz de covariância residual, 𝑋 e 𝑍 são matrizes deestudo conhecidas, ligadas a 𝛼 e a 𝑏, respectivamente. Para o primeiro estágio, 𝛼 e 𝑏

são vetores de parâmetros considerados de efeito fixo e 𝜀𝑖 assumido ser independente.No segundo estágio, 𝑏 é um vetor de parâmetros desconhecidos com efeitos aleatóriostal que 𝑏𝑖 ∼ N(0, 𝐷), em que 𝐷 é uma matriz de covariância dos efeitos aleatórios, e 𝛼

permanece com efeito fixo.

2.2 Modelos Inflacionado de Zeros

Dados com excesso de zero são comuns em diversas áreas do conhecimento, como naeconomia (MULLAHY, 1986), indústria (LAMBERT, 1992), saúde (GURMU, 1997),agricultura (HALL, 2000), social (FAMOYE; SINGH, 2006), entre outros. Para a análisede tais tipos de dados, serão utilizados modelos que permitem uma contagem de formaadequada para excesso de zeros.

O excesso de zeros em um conjunto de dados pode, decorrer por dois motivos, devidoaos zeros estruturais e os zeros amostrais. Os zeros estruturais são os que pertencema estrutura dos dados, ou seja, são zeros que nunca poderão assumir outro valor porcausa da natureza do objeto de estudo. Os zeros amostrais são os pertencentes a uma

Page 16: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

5 2.2. Modelos Inflacionado de Zeros

determinada distribuição de probabilidade, quando a sua resposta for nula, ou seja, oobjeto de estudo assumiu o valor zero por algum motivo determinado. Por exemplo, nacontagem de lesões em plantas, uma planta não apresenta lesões de uma determinadadoença porque é resistente a doença, logo possui zeros estruturais, outra planta nãoapresenta a lesão simplesmente porque os esporos não pousaram sobre a planta, logosão zeros amostrais (RIDOUT; DEMÉTRIO; HINDE, 1998).

Um modelo inflacionado de zero, poderá ser utilizado sempre que um conjunto dedados tiver uma quantidade maior de zeros do que seria esperado, baseada a partir dascontagens de não nulos, onde uma determinada distribuição de probabilidade padrão nãoconsiga capturar sua contagem excessiva de zeros de forma satisfatória (superdispersão).Um exemplo seria a distribuição de Poisson, muito utilizada para dados de contagem.Segundo Ridout, Demétrio e Hinde (1998), esta distribuição tem uma estrutura padrãopara dados de contagem, no entanto, não consegue capturar excesso de zeros quandonecessário.

Os primeiros modelos inflacionados de zero são datados de meados de 1960 (COHEN,1963) ou até mesmo anteriores. Este tipo de modelo ficou bastante conhecido apósLambert (1992) utilizar o modelo de Poisson inflacionado de zeros (ZIP), até entãoutilizado sem covariáveis, associando covariáveis à contagem de defeitos de fabricaçãoem placas de circuito interno.

Dependendo do planejamento de estudo utilizado para a coleta dos dados, a ocor-rência de muitos zeros (devido a natureza do objeto em estudo), e a dependência dosdados acabam ocorrendo simultaneamente, produzindo uma autocorrelação entre as ob-servações. Desta forma, modelos inflacionado de zeros padrão não são adequados paraa análise, pois estes modelos tem como pressuposto a independência entre as respostas(LEE et al., 2006).

Em um estudo para avaliar o antes e depois em um determinado programa de pre-venção de lesões entre os funcionários de um determinado hospital público, entre osanos de 1992 a 1995, Yau e Lee (2001), verificaram que as observações eram altamenterelacionadas, logo, no modelo de Poisson inflacionado de zeros foi inserido um efeitoaleatório, levando em consideração que as respostas não eram independentes entre si.

Segundo Yau, Wang e Lee (2003) as estimativas de parâmetros obtidas pelo modelode Poisson inflacionado de zeros, podem ser seriamente viesadas se as observações nãonulas são superdispersas e correlacionadas simultaneamente, devido ao procedimento decoleta de dados, logo utilizaram um modelo binomial negativo inflacionado de zeros comefeito aleatório para analisar um conjunto de dados, em que foi observando o número dedias que um paciente permaneceria com disfunção no pâncreas em diferentes hospitais.

Hall (2000) utiliza o modelo proposto por Lambert (1992), para estudar resultados deum experimento com medidas repetidas, no qual mostra os resultados após a aplicaçãode um determinado tipo de inseticida (Imidacloprid), em 640 plantas, para o controle

Page 17: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 2. Revisão de Literatura 6

da mosca-branca. Para verificar o número de insetos que não se desenvolveram, foiutilizado o modelo de Poisson inflacionado de zeros (ZIP) e para observar o númeroesperado de moscas-branca adultas vivas em uma planta, utilizou o modelo Binomialinflacionado de zeros (ZIB). No entanto, estes modelos têm seus efeitos fixos, logo, paraum experimento com medidas repetidas o pressuposto de independência é violado, entãoaos modelos ZIP e ZIB foi adicionado um efeito aleatório para descrever a dependênciada contagem não nula nas covariáveis.

2.3 A Distribuição Binomial Negativa

A distribuição binomial negativa, também conhecida como distribuição de Pascal, éuma distribuição de probabilidade discreta. Esta distribuição surge como uma generali-zação da distribuição geométrica, que considera uma sequência de ensaios de Bernoulliindependentes, sendo 𝑌 o número de fracassos anteriores ao primeiro sucesso, ou seja, otempo de espera para o primeiro sucesso. Logo, a distribuição binomial negativa nadamais é do que uma sequência de ensaios de Bernoulli com probabilidade de sucesso 𝑝,definindo 𝑌 como o número de fracassos anteriores ao 𝑘−ésimo sucesso (MAGALHÃES,2004).

A distribuição binomial negativa tem como parâmetros 𝑘 e 𝑝 com 0 < 𝑝 < 1 e 𝑘 > 0,sendo sua distribuição de probabilidade dada por:

𝑃 (𝑌 = 𝑦) =

(𝑦 + 𝑘 − 1

𝑘 − 1

)𝑝𝑘(1 − 𝑝)𝑦, 𝑦 = 0,1,...

Vale notar que se 𝑘 = 1 tem-se o modelo geométrico.Uma forma alternativa da distribuição binomial negativa pode ser observada notando

que (𝑦 + 𝑘 − 1

𝑘 − 1

)=

(𝑦 + 𝑘 − 1

𝑦

).

Portanto, uma forma equivalente para a distribuição de probabilidade binomial ne-gativa para 𝑌 (HASTINGS; PEACOCK, 1974) é dada por:

𝑃 (𝑌 = 𝑦) =

(𝑦 + 𝑘 − 1

𝑦

)𝑝𝑘(1 − 𝑝)𝑦, 𝑦 = 0,1,... (2.1)

A distribuição binomial negativa pode ser escrita de diversas maneiras dependendoda parametrização utilizada. Neste trabalho utilizou-se a mesma distribuição binomialnegativa apresentada em Yau e Lee (2001).

Seja 𝑌 uma variável aleatória cuja distribuição condicionada á uma variável aleatória

Page 18: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

7 2.3. A Distribuição Binomial Negativa

𝑍, tal que 𝑌 tem distribuição de Poisson com média 𝑧, isto é 𝑌 |𝑧 ∼ P(𝑧). Supondoagora que 𝑍 seja uma variável aleatória com distribuição gama com média 𝜆 e parâmetrode dispersão 𝑘 = 𝜑, isto é, 𝑍 ∼ 𝐺(𝜆, 𝜑). Neste caso E(𝑍) = 𝜆 e Var(𝑍) = 𝜆2

𝜑, logo

segue que E(𝑌 ) = 𝜆 e Var(𝑌 ) = 𝜆+𝜆2

𝜑. Tem-se então que:

𝑓(𝑦|𝑧) =𝑒−𝑧𝑧𝑦

𝑧!e 𝑔(𝑧;𝜆,𝜑) =

1

Γ(𝜑)

(𝑧𝜑

𝜆

)𝜑

𝑒−𝜑𝑧𝜆

1

𝑧,

são, respectivamente, as funções de densidade Poisson e Gama.

A função de probabilidade de 𝑌 é dada por

𝑃 (𝑌 = 𝑦) =

∫ ∞

0

𝑓(𝑦|𝑧)𝑔(𝑧;𝜆,𝜑)𝑑𝑧

=1

𝑦!𝜑

(𝜑

𝜆

)𝜑 ∫ ∞

0

𝑒−𝑧(1+𝜑𝜆)𝑧𝜑+𝑦−1𝑑𝑧.

Fazendo a transformação de variável 𝑡 = 𝑧(1 + 𝜑𝜆) tal que 𝑑𝑧

𝑑𝑡= (1 + 𝜑

𝜆)−1, tem-se

𝑃 (𝑌 = 𝑦) =1

𝑦!Γ(𝜑)

(𝜑

𝜆

)𝜑(1 +

𝜑

𝜆

)−(𝜑+𝑦) ∫ ∞

0

𝑒−𝑡𝑡𝜑+𝑦−1𝑑𝑡

=Γ(𝜑 + 𝑦)𝜆𝑦𝜑𝜑

Γ(𝜑)Γ(𝑦 + 1)(𝜆 + 𝜑)𝜑+𝑦

=Γ(𝜑 + 𝑦)

Γ(𝑦 + 1)Γ(𝜑)

(𝜑

𝜑 + 𝜆

)𝜑(𝜆

𝜑 + 𝜆

)𝑦

, 𝑦 = 0,1,2, . . .

(2.2)

Portanto, neste caso, 𝑌 segue distribuição binomial negativa com média 𝜆 e parâme-tro de dispersão 𝑘 = 𝜑, denotada por 𝑌 ∼ BN(𝜆, 𝑘) (PAULA, 2004) (ROSS; PREECE,1985).

2.3.1 Modelo de Regressão Binomial Negativo

Sejam 𝑌1,...,𝑌𝑛 variáveis aleatórias independentes tais que, 𝑌𝑖 segue distribuição bi-nomial negativa (2.2) de média 𝜆𝑖 e parâmetro de dispersão 𝑘, 𝑌𝑖 ∼ BN(𝜆𝑖, 𝑘).

De forma similar aos modelos lineares generalizados, assumimos parte sistemáticadada por 𝑔(𝜆𝑖) = 𝜂𝑖 = 𝑋 ′𝛽, em que 𝑋 ′ é a matriz transposta contendo valores devariáveis explicativas, 𝛽 é um vetor de parâmetros desconhecidos e 𝑔(· ) é a função deligação (PAULA, 2004).

O logaritmo da função de verossimilhança, ou simplesmente função log-verossimi-lhança, da distribuição binomial negativa (2.2), sendo 𝜃 = (𝛽,𝑘) o vetor de parâmetrosdesconhecidos, é dado por:

Page 19: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 2. Revisão de Literatura 8

𝑙(𝜃) =𝑛∑

𝑖=1

log

[Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)+ 𝑘 log 𝑘 + 𝑦𝑖 log 𝜆𝑖 − (𝑘 + 𝑦𝑖) log(𝜆𝑖 + 𝑘)

]

em que 𝜆𝑖 = 𝑔−1(𝑋 ′𝛽), irá linearizar a média da distribuição binomial negativa sendo𝑘 o parâmetro de dispersão.

2.4 Deviance

A deviance, também chamada de estatística da razão de verossimilhança, é utilizadapara avaliar a adequação de um modelo além de compará-lo com um modelo mais geral(completo) (DOBSON; BARNETT, 2011).

Nelder e Wedderburn (1972) propõe a deviance como medida de discrepância, dadapor:

𝐷 = 2[𝑙(𝜃; 𝑦) − 𝑙(𝜃0; 𝑦)]

em que 𝑙(𝜃; 𝑦) é a função log-verossimilhança do modelo completo a 𝑙(𝜃0; 𝑦) é funçãolog-verossimilhança do modelo restrito. Quanto menor for o valor da deviance melhoro modelo se ajusta aos dados. A distribuição amostral da deviance é aproximadamenteQui-quadrado com (𝑛− 𝑝) graus de liberdade, 𝐷 ∼ 𝜒2

𝑛−𝑝.

2.5 Melhor Preditor Linear não Viesado (BLUP)

A partir do método de modelo linear generalizado misto (GLMM), o BLUP (bestlinear unbiased prediction) (MCGILCHRIST, 1994), é aproximado para modelos comerros normais, podendo ser expresso a partir de um modelo linear, tal que;

𝑦 = 𝜂 + 𝜀,

com𝜂 = 𝑋𝛽 + 𝑍𝑢

sendo 𝑦 o vetor de respostas observadas e 𝜀 um vetor de erros aleatórios normalmentedistribuído com N(0, 𝜎2𝑅), 𝑅 é uma matriz de covariância residual conhecida. Para 𝜂, amédia da variável resposta, 𝑋𝛽 é a componente de efeitos fixos, no qual 𝑋 é uma matriz𝑛×𝑣 conhecida e 𝛽 é um vetor de parâmetros de regressão desconhecidos. A componentede efeitos aleatórios, 𝑍𝑢, pode ser descrita como 𝑍 = (𝑍1, · · · ,𝑍𝑘) e 𝑢′ = (𝑢′

1, . . . ,𝑢′𝑘),

com 𝑢𝑗 ∼ N(0, 𝜎2𝑗𝐷) e são independentes uma das outras, sendo 𝐷 uma matriz 𝑘 × 𝑘

de covariância definida-positiva.

Page 20: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

9 2.6. Algoritmo de Newton-Raphson

O procedimento BLUP consiste da maximização da soma de duas componentes dafunção log-verossimilhanças 𝑙. Seja

• 𝑙1 a função log-verossimilhança de 𝑦 dado 𝑢 condicionalmente fixado,

• 𝑙2 a função log-verossimilhança para 𝑢 e

• 𝑙 = 𝑙1 + 𝑙2, a função log-verossimilhança baseada na distribuição conjunta de 𝑦 e𝑢.

Para modelos com erro normal, no estimador BLUP, 𝛽 e �� são valores quando tomadaas derivadas de 𝑙 com respeito a 𝛽 e 𝑢 igualando as equações a 0. Entretanto, devidomuitas destas derivadas de 𝑙 não terem solução analítica, faz-se necessário a utilizaçãode métodos numéricos iterativos, como por exemplo, o algoritmo de Newton-Raphson.

2.6 Algoritmo de Newton-Raphson

O algoritmo de Newton-Raphson (DOBSON; BARNETT, 2011) é um método ite-rativo para obter o estimador de máxima verossimilhança (EMV) de um parâmetro 𝜃,sendo que o estimador é obtido a partir da função score 𝑆(𝜃) = 0, sendo

𝑆(𝜃) =𝜕 log𝐿(𝜃)

𝜕𝜃.

Não havendo solução analítica para a função score igualada a 0, 𝑆(𝜃) será expandidaem série de Taylor ao redor de 𝜃0, assim tem-se

0 = 𝑆(𝜃) = 𝑆(𝜃0) + (𝜃 − 𝜃0)𝑆′(𝜃0) + . . .

não sendo necessário os termos de maior ordem, isto é;

𝑆(𝜃) ≈ 𝑆(𝜃0) + (𝜃 − 𝜃0)𝑆′(𝜃0) = 0,

solucionado a equação em relação a 𝜃:

𝜃 ≈ 𝜃0 −𝑆(𝜃0)

𝑆 ′(𝜃0),

em que 𝑆 ′(𝜃0) é a informação de Fisher:

𝐼(𝜃) = −𝜕2 log𝐿(𝜃)

𝜕𝜃2.

Page 21: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 2. Revisão de Literatura 10

Assumindo um ponto de partida 𝜃𝑗, o método iterativo para obter o máximo dafunção de verossimilhança é dado por:

𝜃𝑗+1 = 𝜃𝑗 +𝑆(𝜃𝑗)

𝐼(𝜃𝑗)= 𝜃𝑗 + 𝐼(𝜃𝑗)−1𝑆(𝜃𝑗).

Este processo deve ser repetido até que estabilize, utilizado algum critério de parada,convergindo assim para o estimador de máxima verossimilhança.

Page 22: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 3

Metodologia

3.1 Modelo de Binomial Negativo Inflacionado de Ze-

ros (ZINB)

Seja 𝑌 uma variável aleatória discreta, tal que

𝑌 ∼

{0, com probabilidade 𝑝,

BN (𝜆, 𝑘), com probabilidade 1 − 𝑝,

com BN(𝜆, 𝑘) definida pela equação (2.2), então 𝑌 , um vetor de respostas (𝑌1, . . . ,𝑌𝑛)′

independentes, segue uma distribuição binomial negativa inflacionado de zeros, dadapor:

𝑃 (𝑌 = 𝑦) =

⎧⎪⎪⎨⎪⎪⎩𝑝 + (1 − 𝑝)

(𝑘

𝑘 + 𝜆

)𝑘

, 𝑦 = 0;

(1 − 𝑝)Γ(𝑦 + 𝑘)

Γ(𝑦 + 1)Γ(𝑘)

(𝑘

𝑘 + 𝜆

)𝑘(𝜆

𝑘 + 𝜆

)𝑦

, 𝑦 ≥ 1,

(3.1)

com parâmetros 𝜆 = (𝜆1, . . . ,𝜆𝑛)′ e 𝑘, 𝑝 = (𝑝1, . . . ,𝑝𝑛)

′ , sendo 𝑝 e (1 − 𝑝), a proporçãopara os zeros estruturais e zeros amostrais, respectivamente, e 𝑘 é o parâmetro dedispersão. Quando 𝑘 −→ ∞, 1/𝑘 se aproxima de 0, a distribuição binomial negativa seaproxima da Poisson, logo, as distribuições ZIP e ZINB também são próximas, assim adistribuição ZINB pode ser vista como uma extensão flexível da ZIP (MINAMI et al.,2007). A esperança e variância da distribuição ZINB, são respectivamente,

E[𝑌 ] = (1 − 𝑝)𝜆 e Var(𝑌 ) = (1 − 𝑝)𝜆

(𝜆𝑝 + 1 +

𝜆

𝑘

).

Na inclusão de covariáveis, o modelo ZINB se dá de forma semelhante a sugeridapor Lambert (1992) para o modelo ZIP, utilizando uma função de ligação logarítmica(log) para o parâmetro 𝜆, o que irá linearizar a média da binomial negativa e outrafunção ligação para o parâmetro 𝑝 que será a logística (logit), no qual será responsável

Page 23: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 3. Metodologia 12

por modelar a proporção de zeros, logo, essas funções de ligação são,

logit(𝑝) = log[ 𝑝

1 − 𝑝

]= 𝐺𝛾, (3.2)

elog(𝜆) = 𝑋𝛽, (3.3)

em que 𝐺 e 𝑋 são matrizes de covariáveis, tal que 𝐺 está relacionada ao excesso dezeros e 𝑋 ao modelo binomial negativo, 𝛾 e 𝛽 são vetores de parâmetros associados ascovariáveis.

Segundo Lambert (1992), no modelo ZIP as covariáveis que afetam a média, partenão inflacionada, podem ou não ser as mesmas que afetam a probabilidade (𝑝), parteinflacionada, podendo conduzir a duas formas para modelagem dos dados, os vetoresdos parâmetros 𝜆 e 𝑝 não relacionados ou 𝑝 como uma função de 𝜆. A mesma relaçãopode ser considerada para o modelo ZINB.

Page 24: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

13 3.2. Estimação para o Modelo ZINB

3.2 Estimação para o Modelo ZINB

A obtenção das estimativas para os parâmetros do modelo ZINB será por maximi-zação da função de verossimilhança. Assim, a partir da função apresentada em (3.1),tem-se a função de verossimilhança:

𝐿(𝑦; 𝜃) =∏𝑦=0

[𝑝𝑖 + (1 − 𝑝𝑖)

(𝑘

𝑘 + 𝜆𝑖

)𝑘]×

𝑛∏𝑦≥1

[(1 − 𝑝𝑖)

Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)

(𝑘

𝑘 + 𝜆𝑖

)𝑘(𝜆𝑖

𝑘 + 𝜆𝑖

)𝑦𝑖] (3.4)

sendo 𝜃 = (𝛽,𝛾,𝑘). Substituindo suas respectivas funções de ligação, (3.3) e (3.2), nafunção log-verossimilhaça (ver Apêndice A), tem-se

𝑙(𝑦; 𝜃) =∑𝑦=0

log

(𝑒𝐺𝑖𝛾 + 𝑡𝑘𝑖1 + 𝑒𝐺𝑖𝛾

)+

∑𝑦≥1

(log

Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖) + 𝑦𝑖 log(1 − 𝑡𝑖) − log(1 + 𝑒𝐺𝑖𝛾)

),

(3.5)

sendo 𝑡𝑖 =𝑘

𝑘 + 𝑒𝑋𝑖𝛽, 𝐺𝑖 e 𝑋𝑖 vetores de observações de 𝐺 e 𝑋, respectivamente.

Para obter os estimadores de máxima verossimilhança será necessário maximizar afunção (3.5), em relação a 𝛾, 𝛽 e 𝑘, e para tal será utilizado o algoritmo EM para suaestimação. O método de estimação EM (DEMPSTER; LAIRD; RUBIN, 1977), consisteem um processo iterativo de dois passos: E(Expectation), que depende do valor esperadocondicional da variável latente 𝑍 calculada. A variável latente corresponde aos aspectosda realidade física, o que poderia, em princípio, ser medido, mas não pode, por razõespráticas. Enquanto, o passo M(Maximization) consiste em maximizar o logaritmo dafunção de verossimilhança, que utiliza os dados observados e estimados do passo E.

Dessa forma, para solução do algoritmo utiliza-se o artifício da introdução de umavariável latente 𝑍, como sendo uma variável indicadora da resposta especificando umamistura entre duas populações a que cada ponto da variável resposta pertence. Deforma que assume 1 se a observação pertence a parte inflacionada de zeros, e 0 em casocontrário, assim tem-se que segue distribuição Bernoulli.

Logo, assumindo uma variável 𝑍𝑖 ∼ Ber(𝑝𝑖) tal que,

𝑍𝑖 =

{1, se y𝑖 = 0

0, se 𝑦𝑖 ∼ BN(𝜆𝑖,k)

a função de verossimilhança para os dados completos é dada por (LAMBERT, 1992):

Page 25: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 3. Metodologia 14

𝐿(𝑦,𝑧; 𝜃) =∏𝑖

𝑓(𝑧𝑖|𝛾)+∏𝑖

𝑓(𝑦𝑖|𝑧𝑖,𝛽,𝑘)

sendo 𝜃 = (𝛽,𝛾,𝑘). Sua função log-verossimilhança (ver Apêndice A) é:

𝑙𝑐(𝑦,𝑧; 𝜃) =𝑛∑

𝑖=0

[𝑧𝑖𝐺′𝛾𝑖 − log(1 + 𝑒𝐺

′𝛾𝑖)]+

𝑛∑𝑖=0

(1 − 𝑧𝑖)

[log

Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖) + 𝑦𝑖 log(1 − 𝑡𝑖)

]=𝑙𝑐(𝑦,𝑧; 𝛾) + 𝑙𝑐(𝑦,𝑧; 𝛽).

(3.6)

Pode-se perceber que, na função (3.6), 𝛾 e 𝛽 estão separados. Esta função é deno-minada por Lambert (1992) de função log-verossimilhança para os dados completos.

Como a parte inflacionada e a não inflacionada apresentam seus parâmetros, 𝛾 e 𝛽,não relacionados, com a criação da variável latente 𝑍, a iteração do algoritmo EM sereduz na estimação do vetor de parâmetros por um modelo de regressão logística com 𝑍

como variável resposta. A estimação dos vetores 𝛽 e do parâmetro 𝑘 se dão pelo modelode regressão binomial negativo com 𝑌 como variável resposta e peso 1−𝑍. Deste modo,na 𝑙-ésima iteração, o passo E consiste em substituir 𝑧 por sua esperança condicionalobtida a partir do teorema de Bayes, logo:

Passo E : Garay et al. (2011) mostra que a esperança condicional para 𝑧𝑖 é dada por:

𝑍(𝑙)𝑖 =𝑃 [zero estrutural|y𝑖,𝛾

(𝑙),𝛽(𝑙), 𝑘(𝑙)]

=𝑃 [𝑦𝑖|zero estrutural]𝑃 [zero estrutural]

𝑃 [𝑦𝑖|zero estrutural]𝑃 [zero estrutural] + 𝑃 [𝑦𝑖|BN]𝑃 [BN]=

=

{(1 + 𝑡𝑘

(𝑙)

𝑖 𝑒−𝐺𝛾(𝑙))−1, se 𝑦𝑖 = 0;

0, se y𝑖 = 1.

Passo M para 𝛾: As estimativa de 𝛾(𝑙) são obtidas ajustando o modelo de regres-são logístico, usando 𝑍

(𝑙)𝑖 como resposta, pois 𝑙𝑐(𝑦,𝑧; 𝛾) em (3.6) é igual a função log-

verossimilhança para uma regressão logística binomial não ponderada.

Passo M para 𝛽: As estimativas de 𝛽 em (3.6) no termo 𝑙𝑐(𝑦,𝑧; 𝛽) são obtidasajustando o modelo de regressão binomial negativo com pesos 1−𝑍

(𝑙)𝑖 e variável resposta

𝑦𝑖.

Page 26: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

15 3.3. Estimação para o Modelo ZINB com Efeito Aleatório (ZINBe)

3.3 Estimação para o Modelo ZINB com Efeito Alea-

tório (ZINBe)

Para o modelo ZINB padrão, a variável resposta é assumida independente no tempo.Entretanto, quando as observações são medidas ao longo do tempo, há uma grandepossibilidade de que haja correlação entre as observações. Sendo assim, para umapredição adequada da variável resposta, no modelo ZINB será adicionado um efeitoaleatório.

Seja 𝑌𝑖𝑗 (𝑖 = 1, . . . ,𝑚 e 𝑗 = 1, . . . ,𝑛𝑖 e𝑚∑𝑖=1

𝑛𝑖 = 𝑛 é o número total de observações),

será assumida uma aproximação condicional para a variável aleatória em um 𝑖-ésimoindivíduo no 𝑗-ésimo tempo (YAU; WANG; LEE, 2003):

𝑌𝑖𝑗 ∼

{0, com probabilidade 𝑝𝑖𝑗,

BN (𝜆𝑖𝑗, 𝑘), com probabilidade 1 − 𝑝𝑖𝑗,

sendo BN(𝜆, 𝑘) definida pela equação (2.2).

Assim 𝑌𝑖𝑗 segue distribuição ZINB com efeito aleatório (ZINBe), com função dedistribuição dada por:

𝑃 (𝑌𝑖𝑗 = 𝑦𝑖𝑗) =

⎧⎨⎩ 𝑝𝑖𝑗 + (1 − 𝑝𝑖𝑗)𝑡𝑖𝑗𝑘, 𝑦𝑖𝑗 = 0

(1 − 𝑝𝑖𝑗)Γ(𝑦 + 𝑘)

Γ(𝑦 + 1)Γ(𝑘)𝑡𝑖𝑗

𝑘(1 − 𝑡𝑖𝑗)𝑦𝑖𝑗 , 𝑦𝑖𝑗 ≥ 1

(3.7)

sendo 𝑡𝑖𝑗 =𝑘

𝑘 + 𝜆𝑖𝑗

.

A inclusão do efeito aleatório será em ambas funções de ligação, ou seja,

logit(𝑝𝑖𝑗) = 𝜉𝑖𝑗 = 𝐺𝛾 + 𝑢𝑖, (3.8)

elog(𝜆𝑖𝑗) = 𝜂𝑖𝑗 = 𝑋𝛽 + 𝑣𝑖, (3.9)

sendo, 𝑋 e 𝐺 matrizes de covariáveis, 𝛽 e 𝛾 seus vetores de coeficientes de regressão, 𝑢 =

(𝑢1, . . . ,𝑢𝑚)′ e 𝑣 = (𝑣1, . . . ,𝑣𝑚)′ seus vetores de parâmetros desconhecidos com efeitosaleatórios, onde 𝑚 é o número de observações, assumindo que 𝑢 e 𝑣 são independentese normalmente distribuídos, isto é, N(0, 𝜎2

𝑢𝐼𝑚) e N(0, 𝜎2𝑣𝐼𝑚), respectivamente.

Seguindo o método GLMM (MCGILCHRIST, 1994), utilizando o procedimentoBLUP para maximizar 𝑙 = 𝑙1 + 𝑙2 a partir da função (3.7), sendo 𝑙1 a função log-verossimilhança de 𝑦𝑖𝑗 dado 𝑢 e 𝑣 condicionalmente fixados , então 𝑙1 (ver Apêndice B)

Page 27: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 3. Metodologia 16

com suas respectivas funções de ligação, (3.8) e (3.9), é dada por:

𝑙1 =∑𝑦𝑖𝑗=0

log

(𝑒𝜉𝑖𝑗 + 𝑡𝑖𝑗

𝑘

1 + 𝑒𝜉𝑖𝑗

)+

∑𝑦𝑖𝑗≥1

(log

Γ(𝑦𝑖𝑗 + 𝑘)

Γ(𝑦𝑖𝑗 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖𝑗) + 𝑦𝑖𝑗 log(1 − 𝑡𝑖𝑗) − log(1 + 𝑒𝜉𝑖𝑗)

)

sendo 𝑡𝑖𝑗 =𝑘

𝑘 + 𝑒𝜂𝑖𝑗.

A função log-verossimilhança, 𝑙2 (ver Apêndice B), para 𝑢 e 𝑣 é

𝑙2 = log𝐿𝑓(𝑢;𝜎2𝑢) + log𝐿𝑓(𝑣;𝜎2

𝑣)

= − 1

2

[𝑚 log(2𝜋𝜎2

𝑢) + 𝑢′𝑢𝜎−2𝑢 + 𝑚 log(2𝜋𝜎2

𝑣) + 𝑣′𝑣𝜎−2𝑣

] (3.10)

A maximização da função log-verossimilhança pode ser realizada por um procedi-mento numérico estável, tal como o algoritmo EM (DEMPSTER; LAIRD; RUBIN, 1977)para assegurar a convergência, devido a complexidade de maximização das exponenciaisdo primeiro termo de 𝑙1.

Assumindo uma variável latente 𝑍𝑖𝑗, com distribuição de Bernoulli de parâmetro 𝑝𝑖𝑗,tal que

𝑍𝑖𝑗 =

{1, se y𝑖𝑗 = 0

0, se 𝑦𝑖𝑗 ∼ BN(𝜆𝑖𝑗,k),

assim, a função de verossimilhança, conjunta de 𝑌 e 𝑍, para os dados completos é dadapor

𝐿(𝑦,𝑧; 𝜃) =∏𝑖𝑗

𝑓(𝑧𝑖𝑗|𝛾)+∏𝑖𝑗

𝑓(𝑦𝑖𝑗|𝑧𝑖𝑗; 𝛽,𝑘)

sendo 𝜃 = (𝛽,𝛾,𝑘), o logaritmo da sua função de verossimilhança conjunta será

𝑙(𝑦,𝑧; 𝜃) =∑𝑖𝑗

[𝑧𝑖𝑗𝜉𝑖𝑗 − log(1 + 𝑒𝜉𝑖𝑗)]+

∑𝑖𝑗

(1 − 𝑧𝑖𝑗)

[log

Γ(𝑦𝑖𝑗 + 𝑘)

Γ(𝑦𝑖𝑗 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖𝑗) + 𝑦𝑖𝑗 log(1 − 𝑡𝑖𝑗)

].

(3.11)

A construção da função log-verossimilhança segue o mesmo princípio do modeloZINB em (3.1), logo função (3.11) pode ser reescrita, com 𝜉𝑖𝑗 e 𝜂𝑖𝑗 separados. Então afunção log-verossimilhança para os dados completos dada a partir de (3.10) e (3.11) éconstruída como

𝑙𝑐 = 𝑙𝜉 + 𝑙𝜂,

Page 28: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

17 3.3. Estimação para o Modelo ZINB com Efeito Aleatório (ZINBe)

sendo

𝑙𝜉 =∑𝑖𝑗

[𝑧𝑖𝑗𝜉𝑖𝑗 − log(1 + 𝑒𝜉𝑖𝑗)] − 1

2[𝑚 log(2𝜋𝜎2

𝑢) + 𝑢′𝑢𝜎−2𝑢 ]

𝑙𝜂 =∑𝑖𝑗

(1 − 𝑧𝑖𝑗)

[log

Γ(𝑦𝑖𝑗 + 𝑘)

Γ(𝑦𝑖𝑗 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖𝑗) + 𝑦𝑖𝑗 log(1 − 𝑡𝑖𝑗)

]−

1

2[𝑚 log(2𝜋𝜎2

𝑣) + 𝑣′𝑣𝜎−2𝑣 ].

O algoritmo EM consiste em substituir 𝑧𝑖𝑗 pela sua esperança condicional obtida apartir do teorema de Bayes 𝑧

(𝑙)𝑖𝑗 sob as estimativas atuais 𝛾(𝑙), 𝛽(𝑙), ��(𝑙) e 𝑣(𝑙), no passo

E. Yau, Wang e Lee (2003) mostram que o valor esperado de 𝑧𝑖𝑗 é dado por:

𝑍(𝑙)𝑖𝑗 =𝑃 [zero estrutural|y𝑖𝑗,𝛾

(𝑙),𝛽(𝑙), 𝑘(𝑙), ��(𝑙), 𝑣(𝑙)]

=𝑃 [𝑦𝑖𝑗|zero estrutural]𝑃 [zero estrutural]

𝑃 [𝑦𝑖𝑗|zero estrutural]𝑃 [zero estrutural] + 𝑃 [𝑦𝑖𝑗|BN]𝑃 [BN]

=

{(1 + 𝑡𝑘

(𝑙)

𝑖𝑗 𝑒−(𝐺𝛾(𝑙)+��(𝑙)))−1, se 𝑦𝑖𝑗 = 0;

0, se y𝑖𝑗 = 1.

Com os 𝑧𝑖𝑗 fixados em 𝑧(𝑙)𝑖𝑗 , as estimativas (𝛾(𝑙+1),��(𝑙+1)) e (𝛽(𝑙+1),𝑘(𝑙+1),𝑣(𝑙+1)) podem

ser obtidas, separadamente, a partir do passo M, o qual maximiza a função 𝑙𝑐 = 𝑙𝜉 +

𝑙𝜂. A estimação de 𝑙𝜉 e 𝑙𝜂, neste trabalho, será realizada utilizando dois conjuntos dealgoritmos Newton-Raphson, dados por

[𝛾

��

]=

[𝛾0

𝑢0

]+ 𝐼−1

𝛾,𝑢

⎡⎢⎣ 𝜕𝑙𝜉𝜕𝛾𝜕𝑙𝜉𝜕𝑢

⎤⎥⎦ (3.12)

e [𝛽

𝑣

]=

[𝛽0

𝑣0

]+ 𝐼−1

𝛽,𝑣

⎡⎢⎣ 𝜕𝑙𝜂𝜕𝛽𝜕𝑙𝜂𝜕𝑣

⎤⎥⎦ (3.13)

em que, 𝛾0, 𝑢0, 𝛽0, 𝑣0 são valores iniciais para 𝛾, 𝑢, 𝛽, 𝑣, respectivamente. 𝐼𝛾,𝑢 é a segundaderivada negativa de 𝑙𝜉 com respeito a 𝛽 e 𝑢. 𝐼𝛽,𝑣 é a segunda derivada negativa de 𝑙𝜂

com respeito a 𝛽 e 𝑣. As primeiras e segundas derivadas para os algoritmos de Newton-Raphson, (3.12) e (3.13), são apresentadas no Apêndice A.

3.3.1 Estimação da Componente de Variância pelo Método REML

A partir do passo M, o qual irá maximizar a função log-verossimilhança 𝑙𝑐 = 𝑙𝜉 + 𝑙𝜂,é assumido que o parâmetro de dispersão 𝑘 e os componentes de variância 𝜎2

𝑢 e 𝜎2𝑣 são

obtidas, mas na prática, são desconhecidos e necessitam ser estimados.

Page 29: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 3. Metodologia 18

A partir das estimativas atuais (𝛽(𝑙), 𝑣(𝑙)) e 𝑧(𝑙−1)𝑖𝑗 , 𝑙𝜂 é maximizada para obter a

estimativa atual, 𝑘(𝑙), do parâmetro de dispersão. Da mesma forma, dado os valoresiniciais de 𝜎2

𝑢 e 𝜎2𝑣 , o algoritmo de Newton-Raphson é utilizado para estimar os elementos

do preditor linear, e quando a convergência do método é atingida, os componentes 𝜎2𝑢 e

𝜎2𝑣 são dados pelos valores mais atuais de ��, 𝑣 e os correspondentes elementos da matriz

de informação.

Para a estimação dos componentes de variância, o estimador de máxima verossimi-lhança residual (REML) é adotado para minimizar o viés causado pela estimação pormáxima verossimilhança (YAU; LEE, 2001)(MCGILCHRIST, 1994). O estimador doscomponentes de variâncias e as variâncias dos efeitos fixos são apresentados no ApêndiceC.

3.4 Razão de Chance e Risco Relativo

Em relação a parte inflacionada do modelo binomial negativo inflacionado de zeros,com a ligação logística (3.2), pode-se calcular a razão de chances (odds ratio - OR) paraas covariáveis em estudo. Sendo obtido da razão entre a chance de um evento ocorrer emum grupo e a chance de ocorrer em outro grupo, em que a chance é a probabilidade deocorrência deste evento dividida pela probabilidade da não ocorrência do mesmo evento(AGRESTI, 2013). Considere que a 𝑖-ésima covariável da matriz 𝐺 assuma valor 0 ou1, isto é 𝐺𝑖 = 0 ou 𝐺𝑖 = 1. Seja 𝑝|𝐺𝑖 = 1 a proporção de zeros estruturais quando 𝐺𝑖

é 1 e 𝑝|𝐺𝑖 = 0 a proporção de zeros estruturais quando 𝐺𝑖 é 0. Assim, o logaritmo darazão de chance, entre o grupo 𝐺𝑖 = 1 e 𝐺𝑖 = 0, é dado por

log(𝑂𝑅) = log

⎛⎜⎜⎝𝑝|𝐺𝑖 = 1

1 − 𝑝|𝐺𝑖 = 1

𝑝|𝐺𝑖 = 0

1 − 𝑝|𝐺𝑖 = 0

⎞⎟⎟⎠=logit(𝐺𝑖 = 1) − logit(𝐺𝑖 = 0)

=𝛾0 + . . . + 𝛾𝑖−1𝐺𝑖−1 + 𝛾𝑖 + 𝛾𝑖+1𝐺𝑖+1 + . . . + 𝛾𝑛𝐺𝑛

−𝛾0 − . . .− 𝛾𝑖−1𝐺𝑖−1 − 𝛾𝑖+1𝐺𝑖+1 − . . .− 𝛾𝑛𝐺𝑛

=𝛾𝑖.

Portanto, a razão de chances é dada por 𝑂𝑅 = 𝑒𝛾𝑖 .

Para a parte não inflacionada de zeros em que utiliza-se a ligação logarítmica (3.2),foi calculado o risco relativo (RR), para as covariáveis em estudo. Obtido como a razãoentre a incidência nos expostos e a incidência nos não expostos. Sendo a incidência aproporção de indivíduos que, não tinham desenvolvido o evento de interesse e que, aolongo do estudo, mudaram de status ao desenvolvê-lo (MERCHÁN-HAMANN; TAUIL;

Page 30: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

19 3.5. O Teste de Vuong

COSTA, 2000).Para o calculo do RR, considere que a 𝑖-ésima covariável da matriz 𝑋 assuma valores

0 ou 1, isto é, 𝑋𝑖 = 0 ou 𝑋𝑖 = 1. Seja 𝜆|𝑋𝑖 = 1 a média da distribuição binomialnegativa para 𝑋𝑖 igual a 1, e 𝜆|𝑋𝑖 = 0 a média quando 𝑋𝑖 é 0. Assim, o logaritmo dorisco relativo, entre o grupo 𝑋𝑖 = 1 e 𝑋𝑖 = 0, é dado por

log(𝑅𝑅) =log(𝜆|𝑋𝑖 = 1)

log(𝜆|𝑋𝑖 = 0)

=𝛽0 + . . . + 𝛽𝑖−1𝑋𝑖−1 + 𝛽𝑖 + 𝛽𝑖+1𝑋𝑖+1 + . . . + 𝛽𝑛𝑋𝑛

𝛽0 + . . . + 𝛽𝑖−1𝑋𝑖−1 + 𝛽𝑖+1𝑋𝑖+1 + . . .− 𝛽𝑛𝑋𝑛

=𝛽𝑖.

Portanto, o risco relativo é dado por 𝑅𝑅 = 𝑒𝛽𝑖 .

3.5 O Teste de Vuong

O teste de Vuong (1989) é utilizado para comparar modelos padrão, como Poissonou binomial negativo, com modelos inflacionado de zeros, como Poisson e binomialnegativo inflacionado de zeros. Vuong mostra a construção de um teste para modelosnão aninhados, cuja estatística padrão do teste é denotada por 𝑉 . A estatística testede que os modelos são equivalentes é dada por:

𝑉 =

√𝑁

𝑠𝑚𝑚

sendo 𝑁 é o tamanho da amostra observada, 𝑚 é a média dos 𝑚𝑖 = log𝑓(𝑦𝑖)

𝑔(𝑦𝑖), 𝑖 =

1, . . . ,𝑛, 𝑓(· ) é a distribuição inflacionada de zeros, 𝑔(· ) a distribuição padrão e 𝑠𝑚 é odesvio-padrão de 𝑚𝑖. A hipótese nula do teste é 𝐻0 : E(𝑚𝑖) = 0, implicando 𝑓 e 𝑔 sãoequivalentes, contra 𝐻1 : E(𝑚𝑖) > 0, implicando 𝑓 é melhor que 𝑔, ou 𝐻1 : E(𝑚𝑖) < 0,implicando 𝑓 é pior que 𝑔. O teste é realizado sob a hipótese 𝐻0, no qual sob certascondições de regularidade, quando 𝑛 −→ ∞, 𝐻0 : 𝑉 −→ 𝑁(0,1). Logo, o critériode decisão para o teste se dá verificando se sua estatística está contido em 𝑅𝑐, sendo𝑅𝑐 = (𝑌 : |𝑉 | > 𝑧1−𝛼/2) e 𝛼 o nível de significância adotado. Assim, se a estatística 𝑉

contido na região 𝑅𝑐, não rejeita-se 𝐻0 ao nível 𝛼 fixado (JUNIOR, 2010).

3.6 Resíduo de Pearson

Avaliar o modelo ajustado é uma parte importante da análise dos dados, princi-palmente em modelos de regressão, os resíduos são úteis para a validação do modelo

Page 31: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 3. Metodologia 20

ajustado. A análise dos resíduos pode ser utilizado, por exemplo, para detectar a pre-sença de observações de pontos extremos. Os resíduos são baseados nas diferenças entreas respostas observadas e a média condicional ajustada (GARAY et al., 2011). En-contrar resíduos adequados em modelos de regressão não-normais, particularmente emmodelos superdispersos, como o caso de modelos inflacionado de zeros, é de extremaimportância para a validação destes modelos. Neste trabalho é utilizado o resíduo dePearson (𝑑𝑖𝑗), que é definido como:

𝑑𝑖𝑗 =𝑦𝑖𝑗 − E(𝑌𝑖𝑗)√

𝑉 𝑎𝑟(𝑌𝑖𝑗)

onde, para esta dissertação, E(𝑌𝑖𝑗) é a média e Var(𝑌𝑖𝑗) é a variância estimadas domodelo binomial negativo inflacionada de zero. Para comparação de modelos será con-

siderado o total do resíduo de Pearson, dado por 𝑅𝑃 =𝑚∑ 𝑛𝑖∑

𝑑𝑖𝑗2, sendo o modelo com

menor RP considerado de melhor ajuste.

3.7 Gráfico de Envelope

Para avaliar o ajuste do modelo ZINB𝑒 também será adotado o gráfico de probabi-lidade meio-normal com envelope simulado (ATKINSON, 1985).

Este gráfico é construído, neste trabalho, a partir dos resíduos de Pearson. Os deta-lhes para a construção do gráfico meio-normal (half-normal plot) podem ser encontradosem Neter et al. (1996) ou Venezuela, Botter e Sandoval (2007). O nome envelope serefere às bandas de confiança, que neste trabalho são construídas com 95% de confiança,no qual a ocorrência de pontos, resíduos de Pearson, muito próximos ou fora da bandade confiança indicam que o modelo não é adequando aos dados.

3.8 Programa estatístico

Para obter todos os resultados presentes neste trabalho, foi utilizado o ambienteestatístico R versão 3.0.2. No ajuste dos modelos de regressão binomial negativo, aonúmero de plantas doentes, foi utilizado o pacote MASS com a função glm.nb. Osmodelos de regressão inflacionado de zeros ZINB e ZINB𝑒 com efeito aleatório, foramajustados a partir do programa criado para Splus por Andy Lee e Kelvin Yau e adaptadopara o R por Dave Atkins1. A comparação dos modelos usuais (binomial negativo), einflacionado (ZINB), pelo teste de Vuong, comparar os modelos inflacionados a partir daLog-verossimilhança, Deviance e Resíduo de Pearson também foi realizada em ambiente

1Disponível em: <http://www.ats.ucla.edu/stat/paperexamples/atkins_zero_inflated/R_-_Multilevel_ZINB .txt>. Acesso em: dezembro de 2014.

Page 32: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

21 3.8. Programa estatístico

R. As saídas dos programas dos modelos de regressão inflacionado de zeros, foramorganizadas em tabelas que apresentam:

∙ a estimativa dos parâmetros de cada covariável e parâmetro de dispersão 1/𝑘, comseus respectivos erros padrão (EP);

∙ a razão de chances (odds ratio - OR), para a parte inflacionada, e o risco relativo(RR), para a parte não inflacionada, com seus respectivos intervalos de confiança a 95%(IC95%);

∙ para os modelos com efeitos aleatórios são apresentadas as componentes de vari-ância 𝜎2;

∙ a Log-verossimilhança, Deviance e o Resíduo de Pearson;∙ a significância do teste (*Valor-P), com nível de significância de 5%, para cada

covariável é obtida a partir do teste de Wald, definida pela razão da estimativa dacovariável e seu respectivo erro-padrão (WEISBERG, 2005).

Page 33: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 4

Resultados

4.1 Dados

Foram realizados estudos em diversos pomares comerciais de laranja doce localiza-dos na região noroeste do Estado do Paraná, para o monitoramento da doença Hu-anglongbing (HLB) em laranjeiras , causada por uma bactéria denominada de Candi-datus liberibacter spp., que é transmitida pelo vetor Diaphorina citri. Estes pomaresencontravam-se em área de dimensões variadas, desde chácaras até fazendas, no en-tanto em todos os pomares eram realizados manejos condizentes para a cultura cítrica,utilizando equipamentos adequados e acompanhamento agronômico.

O número de plantas inspecionadas no estudo foi de 1.200.000 árvores. A coleta dosdados teve início em março de 2010 e término em dezembro de 2011, respeitando umintervalo de 90 dias entre cada avaliação, totalizando 7 avaliações.

Com base no monitoramento dos pomares, foi possível verificar o número de plantasdoentes, para três variedades de laranja doce (Pera, Valência e Folha Murcha), trêstipos de monitoramento para posterior controle químico (manejo) do vetor Diaphorinacitri (M1 = controle somente na presença do vetor, M2 = aplicação de inseticidas embrotações novas e M3 = por calendário) e três idades de plantas diferentes (0 a 5 anos,6 a 10 anos e acima de 11 anos), em sete avaliações de 2010 a 2011 (A1 = março/10,A2 = maio/10, A3 = agosto/10, A4 = janeiro/11, A5 = março/11, A6 = agosto/11, A7

= dezembro/11).

A coleta dos dados foi realizada com o apoio do Núcleo de Biotecnologia Aplicada(NBA), vinculado ao Centro de Ciências Agrárias da Universidade Estadual de Maringá,Paraná, Brasil.

A Tabela 4.1 mostra a variável resposta, número de plantas doentes, onde é possívelperceber o excesso de zeros, plantas não doentes, por Manejo. Pode ser notado tambémuma alta variabilidade em todos os manejos.

Page 34: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

23 4.2. Aplicação

Tabela 4.1: Quantidade observada, percentual, média e variância do número de plantasdoentes por tipo de Manejo.

Nº de PlantasDoentes

M1 M2 M3 GeralQtd. % Qtd. % Qtd. % Qtd. %

0 360 73,49 686 57,97 216 63,00 1262 62,601 73 14,90 172 14,54 42 12,24 287 14,242 25 5,10 83 7,02 22 6,41 130 6,453 14 2,86 66 5,58 18 5,25 98 4,864 5 1,02 34 2,87 9 2,62 48 2,385 3 0,61 30 2,54 12 3,50 45 2,236 0 0,00 14 1,18 2 0,58 16 0,797 1 0,20 12 1,01 2 0,58 15 0,748 0 0,00 15 1,27 7 2,04 22 1,099 1 0,20 10 0,85 4 1,17 15 0,7410 0 0,00 8 0,68 2 0,58 10 0,5011 1 0,20 7 0,59 2 0,58 10 0,5012 1 0,20 8 0,68 2 0,58 11 0,5513 0 0,00 8 0,68 0 0,00 8 0,40≥ 14 6 1,22 30 2,54 3 0,87 39 1,93Total 490 100,00 1183 100,00 343 100,00 2016 100,00Média 2,2816 2,4801 1,4023 2,2485Variância 523,1966 123,4021 8,8143 201,007

4.2 Aplicação

4.2.1 Modelo de Regressão Binomial Negativo

Para avaliar os efeitos das covariáveis no número de plantas doentes, os dados pri-meiramente foram ajustados a partir dos modelos lineares generalizados (MLG) paracada resposta, 𝑌𝑖, o número de plantas doentes, seguindo modelo binomial negativocomo na seção 2.3.1 e com função de ligação log(𝜆𝑖) = 𝑋𝛽.

As covariáveis relacionadas ao número de plantas doentes foram categorizadas como:

Na Tabela 4.2 são apresentados alguns modelos de regressão binomial negativo ajus-tados para o número de plantas doentes, no qual observa-se que o modelo com interaçãoManejo × Avaliação não diferencia-se muito do modelo sem interação em relação aosvalores da Deviance.

Page 35: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 4. Resultados 24

Manejo

Manejo2 =

{1, se M2

0, c.c.Manejo3 =

{1, se M3

0, c.c.

Variedade

Pera =

{1, se Pera0, c.c.

Valência =

{1, se Valência0, c.c.

Idade

Idade2 =

{1, se 6 a 10 anos0, c.c.

Idade3 =

{1, se acima de 11 anos0, c.c.

Avaliação

Avaliação2 =

{1, se A2

0, c.c.Avaliação3 =

{1, se A3

0, c.c.

Avaliação4 =

{1, se A4

0, c.c.Avaliao5 =

{1, se A5

0, c.c.

Avaliao6 =

{1, se A6

0, c.c.Avaliao7 =

{1, se A7

0, c.c.

Tabela 4.2: Modelos de regressão binomial negativo para o número de plantas doentes,e respectivas Deviance e graus de liberdade (g.l.).

Modelos Deviance g.l.Sem Interação 1564,245 2003Manejo x Variedade 1564,942 1999Manejo x Idade 1570,725 1999Manejo x Avaliação 1563,780 1991Manejo x Variedade + Manejo x Idade + Manejo x Avaliação 1564,841 1983

Na Tabela 4.3 são apresentados os percentuais observados e estimados a partir domodelo binomial negativo considerado de melhor ajuste a partir dos resultados da Tabela4.2, modelo sem interação. Pode-se observar que o modelo consegue capturar bem aosdados de plantas doentes. O que é reforçado pelo gráfico quantil-quantil apresentadona Figura 4.1.

Page 36: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

25 4.2. Aplicação

Tabela 4.3: Percentuais observados e estimados do número de plantas doentes a partirdo modelo de regressão binomial negativo sem interação.

Intervalo Observado (%) Estimado (%) Diferença0 62,60 62,42 0,181 14,24 14,35 −0,112 6,45 7,15 −0,703 4,86 4,30 0,564 2,38 2,83 −0,455 2,23 1,97 0,266 0,79 1,43 −0,647 0,74 1,07 −0,338 1,09 0,81 0,289 0,74 0,63 0,1110 0,50 0,50 0,0011 0,50 0,40 0,1012 0,55 0,33 0,2213 0,40 0,27 0,13≥14 1,93 2,20 −0,27

Figura 4.1: Gráfico quantil-quantil para a diferença do valor observado e valor ajustado,a partir do modelo de regressão binomial negativo sem interação para o número deplantas doentes.

Page 37: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 4. Resultados 26

4.2.2 Modelo de Regressão Binomial Negativo Inflacionado de

Zeros (ZINB)

Por meio do ajuste do modelo ZINB, Tabela 4.4, é possível observar que a idade 3(> 11 anos) tem influência significativa na probabilidade de zero, parte inflacionada. Épossível observar também que no modelo de regressão, para a probabilidade do númerode plantas não doentes, esta mesma categoria tendem apresentar uma probabilidademaior de números de plantas não doentes (OR = 3,869 com IC(95%) = (1,555; 9,625))em relação a idade 1 (plantas de 0 a 5 anos).

Para parte não inflacionada, binomial negativa, manejo 2 e 3, variedade pera, idade2 e 3 e avaliação 6 e 7 são fatores significativos relacionados a média de plantas doentes,(Tabela 4.4). É possível observar que para esta parte do modelo, o manejo 2 (apli-cação de inseticidas em brotações novas) e manejo 3 (manejo por calendário) tendemapresentar um número de plantas doentes maior em relação ao manejo 1 (controle so-mente na presença do vetor), RR = 2,770 com IC(95%) = (2,139; 3,588) e RR = 2,061com IC(95%)= (1,474; 2,881), respectivamente. A variedade pera tende apresentar umnúmero de plantas doentes maior em relação a variedade folha murcha (RR = 1,779com IC(95%) = (1,409; 2,246)), a idade 2 (plantas de 6 a 10 anos) e idade 3 (plantasacima de 11 anos) tendem apresentar um número de plantas doentes maior em relaçãoa idade 1 (plantas de 0 a 5 anos), RR = 1,412 com IC(95%) = (1,088; 1,832) e RR= 1,514 com IC(95%) = (1,155; 1,985), respectivamente. Quanto as avaliações 6 e 7,estas tendem a apresentar um número de plantas doentes significativamente superior aonúmero encontrado na primeira avaliação.

A estimativa do parâmetro de dispersão, 1/𝑘 = 2,026, é significativo indicando umasuperdispersão substancial nas contagens diferentes de zero.

Tabela 4.4: Estimativas (Erro-Padrão), odds ratio - OR, risco relativo - RR e seus res-pectivos intervalos de confiança (IC 95 %), para o modelo de regressão ZINB completo.

Variável Inflacionada Não InflacionadaEstimativa (EP) OR (IC 95%) Estimativa (EP) RR (IC 95%)

Intercepto −1,508(0,896) 0,221 (0,038; 1,282) −1,084(0,241) 0,338 (0,211; 0,542)Manejo2 0,333(0,433) 1,395 (0,597; 3,260) 1,019(0,132)* 2,770 (2,139; 3,588)Manejo3 −1,348(0,936) 0,260 (0,041; 1,627) 0,723(0,171)* 2,061 (1,474; 2,881)Pera −0,065(0,331) 0,937 (0,490; 1,793) 0,576(0,119)* 1,779 (1,409; 2,246)Valência −0,366(0,432) 0,694 (0,297; 1,617) −0,164(0,126) 0,849 (0,663; 1,086)Idade2 −4,941(2,814) 0,007 (0,000; 1,776) 0,345(0,133)* 1,412 (1,088; 1,832)Idade3 1,353(0,465)* 3,869 (1,555; 9,625) 0,415(0,138)* 1,514 (1,155; 1,985)Avaliação2 0,490(0,497) 1,632 (0,616; 4,324) −0,040(0,196) 0,961 (0,654; 1,411)Avaliação3 −0,285(0,548) 0,752 (0,257; 2,201) −0,380(0,195) 0,684 (0,467; 1,002)Avaliação4 0,243(0,492) 1,275 (0,486; 3,345) 0,283(0,191) 1,327 (0,913; 1,930)Avaliação5 −1,934(1,004) 0,145 (0,020; 1,034) 0,227(0,178) 1,255 (0,885; 1,779)Avaliação6 −0,380(0,511) 0,684 (0,251; 1,862) 0,984(0,185)* 2,675 (1,862; 3,844)Avaliação7 −0,030(0,534) 0,970 (0,341; 2,764) 0,852(0,196)* 2,344 (1,597; 3,442)1/𝑘 2,026(0,129)*Log-verossimilhança −2782,946Deviance 1136,456Resíduo de Pearson 2157,025*Valor-p <0,05.

Page 38: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

27 4.2. Aplicação

Na Tabela 4.5 são apresentados os percentuais observados e estimados a partir domodelo de regressão ZINB ajustado (Tabela 4.4). Pode-se observar que o modelo con-segue capturar bem o número de plantas doentes, particularmente para plantas que nãoestão doentes (0). O que é reforçado pelo gráfico quantil-quantil apresentado na Figura4.2.

Tabela 4.5: Percentuais observados e estimados do número de plantas doentes a partirdo modelo de regressão ZINB.

Intervalo Observado (%) Estimado (%) Diferença0 62,60 62,68 −0,081 14,24 13,51 0,732 6,45 7,22 −0,773 4,86 4,44 0,424 2,38 2,95 −0,575 2,23 2,06 0,176 0,79 1,49 −0,707 0,74 1,11 −0,378 1,09 0,84 0,259 0,74 0,65 0,0910 0,50 0,51 −0,0111 0,50 0,41 0,0912 0,55 0,33 0,2213 0,40 0,27 0,13≥ 14 1,93 2,21 −0,28

Figura 4.2: Gráfico quantil-quantil para a diferença do valor observado e valor ajustado,a partir do modelo de regressão ZINB para o número de plantas doentes.

Na Figura 4.3, é apresentado a diferença entre o modelo de regressão binomial ne-gativo e o modelo de regressão ZINB, respectivamente. Pode-se notar que a diferença

Page 39: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 4. Resultados 28

entre os modelos ajustados é muito pequena, logo, foi realizado o teste de Vuong quemostra o modelo ZINB é mais adequado para a modelagem dos dados estudados, vistoque sua estatística teste foi de 𝑉 = 4,478 e valor-p= 0,000.

Figura 4.3: Modelos estimados para o modelo de regressão binomial negativo (BN) emodelo de regressão ZINB para o número de plantas doentes.

4.2.3 Modelo de Binomial Negativo Inflacionado de Zeros com

Efeito Aleatório (ZINB𝑒)

Os modelos de regressão apresentados anteriormente levavam em consideração aindependência da variável resposta, número de plantas doentes. Entretanto, a variávelresposta é obtida a partir da repetição da avaliação de cada pomar e, neste caso, éassumido que existe uma correlação entre o número de plantas doentes, quebrando asuposição de independência. Logo o modelo de regressão binomial negativo inflacionadode zero com efeito aleatório é, mas indicado para esta situação.

Na Tabela 4.6 são apresentadas as estimativas para o modelo de regressão ZINB𝑒.Para a ligação logística (parte inflacionada), é possível observar que as estimativase seus respectivos erros-padrão tendem, em magnitude, a ser menores após o ajusteassumindo efeitos aleatórios para pomares, se comparado ao apresentado na Tabela 4.4.A estimativa da componente de variância (��2

𝑢 = 1,377) relativamente alta, colabora coma suposição de dependência entre as observações e a necessidade de um efeito aleatóriono modelo. Para a parte inflacionada as covariáveis idade 2 e 3 e avaliação 5, 6 e 7apresentam influência significativa na probabilidade de zero inflacionada. É possívelobservar também que neste modelo, para a probabilidade do número de plantas nãodoentes, a idade 2 tem uma tendência a apresentar mais plantas doentes em relação

Page 40: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

29 4.2. Aplicação

a idade 1, OR=0,567 com IC(95%) = (0,331; 0,971), entretanto, as plantas da idade3 apresentam maior resistência a doença, OR=1,958 e IC(95%)= (1,231; 3,116), emrelação a idade 1. Nas avaliações 5, 6 e 7 tem maior tendência a apresentar plantasdoentes em relação a avaliação 1, OR = 0,346 com IC(95%) = (0,198; 0,603), OR = 0,401com IC(95%) = (0,245; 0,656) e OR = 0,427, IC(95%) = (0,259; 0,704), respectivamente.

Para parte não inflacionada (ligação logarítmica) referente a binomial negativa, suasestimativas e seus respectivos erros-padrão não apresentam muita diferença se compara-dos ao modelo anterior (Tabela 4.4), sendo a avaliação 3 a única alteração importante,passando a contribuir significativamente para o menor número de plantas doentes.

A estimativa significativa do parâmetro de dispersão, indica uma superdispersãosubstancial nas contagens diferentes de zero. O gráfico de quantil-quantil e histogramapara o efeito aleatório 𝑢, Figura 4.5, indicam possível distribuição normal para 𝑢.

Page 41: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 4. Resultados 30

Tabela 4.6: Estimativas (Erro-Padrão), odds ratio - OR, risco relativo - RR e seusrespectivos intervalos de confiança (IC 95 %), para o modelo de regressão ZINB𝑒 comefeito aleatório somente para a ligação logit (Inflacionada).

Variável Inflacionada Não InflacionadaEstimativa (EP) OR (IC 95%) Estimativa (EP) RR (IC 95%)

Intercepto 0,632(0,376) 1,881 (0,900; 3,931) −0,278(0,201) 0,757 (0,511; 1,123)Manejo2 −0,500(0,255) 0,607 (0,368; 1,000) 0,754(0,120)* 2,125 (1,680; 2,689)Manejo3 −0,062(0,321) 0,940 (0,501; 1,763) 0,824(0,155)* 2,280 (1,682; 3,089)Pera −0,041(0,243) 0,960 (0,596; 1,545) 0,489(0,102)* 1,631 (1,335; 1,992)Valência 0,175(0,267) 1,191 (0,706; 2,010) −0,042(0,112) 0,959 (0,770; 1,194)Idade2 −0,568(0,275)* 0,567 (0,331; 0,971) 0,341(0,107)* 1,406 (1,140; 1,735)Idade3 0,672(0,237)* 1,958 (1,231; 3,116) 0,351(0,104)* 1,420 (1,159; 1,742)Avaliação2 0,073(0,266) 1,076 (0,639; 1,812) −0,116(0,178) 0,890 (0,628; 1,262)Avaliação3 −0,196(0,282) 0,822 (0,473; 1,429) −0,412(0,181)* 0,662 (0,465; 0,944)Avaliação4 −0,100(0,255) 0,905 (0,549; 1,492) 0,206(0,167) 1,229 (0,886; 1,705)Avaliação5 −1,062(0,284)* 0,346 (0,198; 0,603) 0,029(0,158) 1,029 (0,755; 1,403)Avaliação6 −0,913(0,251)* 0,401 (0,245; 0,656) 0,641(0,155)* 1,898 (1,401; 2,572)Avaliação7 −0,851(0,255)* 0,427 (0,259; 0,704) 0,492(0,162)* 1,636 (1,191; 2,247)��2𝑢 1,377

1/𝑘 0,826 (0,065)*Log-verossimilhança −2586,953Deviance 666,094Resíduo de Pearson 1604,567*Valor-p <0,05.

O percentual observado e estimado a partir do modelo ZINB𝑒 com efeito aleatóriosomente para a ligação logit é apresentado na Tabela 4.7. Pode-se observa que nosintervalos 0 e 1, o percentual de plantas doentes não foram bem preditos pelo modelo.A Figura 4.4 apresenta o gráfico quantil-quantil no qual é possível observar a falta deajuste referente a uma (1) planta doente, e nenhuma (0) planta doente.

Page 42: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

31 4.2. Aplicação

Tabela 4.7: Percentuais observados e estimados do número de plantas doentes a partirdo modelo de regressão ZINB𝑒 com efeito aleatório somente para a ligação logit (Infla-cionada).

Intervalo Observado (%) Estimado (%) Diferença0 62,60 64,83 −2,111 14,24 9,66 4,582 6,45 6,85 −0,333 4,86 4,85 −0,034 2,38 3,47 −1,185 2,23 2,52 −0,386 0,79 1,84 −1,147 0,74 1,37 −0,708 1,09 1,03 0,029 0,74 0,78 −0,0710 0,50 0,59 −0,1111 0,50 0,46 0,0412 0,55 0,35 0,2013 0,40 0,28 0,13≥ 14 1,93 2,18 −0,15

Figura 4.4: Gráfico quantil-quantil para a diferença do valor observado e valor ajustado,a partir do modelo de regressão ZINB𝑒 com efeito aleatório somente para a ligação logit(Inflacionada) para o número de plantas doentes.

Page 43: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 4. Resultados 32

Figura 4.5: Gráfico quantil-quantil e histograma para o efeito aleatório u para o modelocom efeito somente para a ligação logit (inflacionada).

Na Tabela 4.8 é apresentado o modelo de regressão ZINB𝑒 com efeito aleatório emambas funções de ligação, logit e log, parte inflacionada e parte não inflacionada. É pos-sível observar que para a parte inflacionada, algumas das estimativas e seus respectivoserros-padrão pouco mudam em relação ao modelo anterior (Tabela 4.6), sendo que aestimativa da componente de variância também pouco se altera (��2

𝑢 = 1,288). Para aparte inflacionada as covariáveis idades 2 e 3 e avaliações 5, 6 e 7 apresentam influênciasignificativa na probabilidade de zero inflacionada. É possível observar que neste modelode regressão, a idade 2 (plantas de 6 a 10 anos) tem uma tendência a apresentar plantasdoentes (OR = 0,520, IC(95%) = (0,296; 0,913)) em relação a idade 1 (plantas de 0 a5 anos), entretanto, a idade 3 tendem apresentar uma probabilidade maior de númerosde plantas não doentes (OR = 1,879, IC(95%) = (1,167; 3,026)) em relação a idade 1(plantas de 0 a 5 anos), e avaliações 5, 6 e 7 tem uma tendência a apresentar plantasdoentes (OR = 0,313, IC(95%) = (0,172; 0,572), OR = 0,405, IC(95%) = (0,248; 0,663)e OR = 0,480, IC(95%) = (0,295; 0,782), respectivamente) em relação a avaliação 1.

Para parte não inflacionada, as estimativas e seus respectivos erros-padrão não seapresentam muito diferente se comparado ao modelo ZINB sem efeito aleatório (Tabela4.4), a estimativa da componente de variância é relativamente pequena (��2

𝑣 = 0,483).Para a parte não inflacionada as covariáveis manejos 2 e 3 e avaliações 3, 6 e 7 são fatoressignificativos relacionados a média de plantas doentes. É possível observar que para estaparte do modelo, o manejo 2 e 3 tendem apresentar uma média de plantas doentes maiorem relação ao manejo 1, RR = 3,068 com IC(95%) = (2,169; 4,340) e RR = 2,826 com

Page 44: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

33 4.2. Aplicação

IC(95%) = (1,836; 4,350), respectivamente. A avaliação 3 tende apresentar uma médiade plantas doentes menor em ralação a avaliação 1, RR = 0,617 com IC(95%) = (0,454;0,838), entretanto, avaliações 5 e 6 tendem apresentar uma média de plantas doentesmaior em relação a avaliação 1, RR = 1,929 com IC(95%) = (1,492; 2,494).

Destaca-se como importante mudança, em termos de estimativas de parâmetros,que a inclusão de efeito aleatório na parte não inflacionada do modelo fez com que avariedade pera e idades 2 e 3 deixassem de ser significativas.

A estimativa do parâmetro de dispersão, 1/𝑘 = 0,298, é significativa indicando umasuperdispersão substancial nas contagens diferentes de zero.

Observando a Deviance e resíduos de Pearson dos modelo apresentados, é possívelconcluir que o modelo que melhor se ajusta aos dados é o modelo de regressão binomialnegativo inflacionado de zeros com efeito aleatório em ambas as ligações.

Page 45: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 4. Resultados 34

Tabela 4.8: Estimativas (Erro-Padrão), odds ratio - OR, risco relativo - RR e seusrespectivos intervalos de confiança (IC 95 %), para o modelo de regressão ZINB𝑒 comefeito aleatório para ambas ligações logit e log (Inflacionada e Não Inflacionada).

Variável Inflacionada Não InflacionadaEstimativa (EP) OR (IC 95%) Estimativa (EP) RR (IC 95%)

Intercepto 0,350(0,423) 1,419 (0,619; 3,251) −0,643(0,247) 0,526 (0,324; 0,853)Manejo2 −0,031(0,313) 0,969 (0,525; 1,790) 1,121(0,177)* 3,068 (2,169; 4,340)Manejo3 0,306(0,375) 1,358 (0,651; 2,832) 1,039(0,220)* 2,826 (1,836; 4,350)Pera −0,138(0,248) 0,871 (0,536; 1,416) 0,230(0,148) 1,259 (0,942; 1,682)Valência 0,171(0,273) 1,186 (0,695; 2,026) −0,110(0,164) 0,896 (0,650; 1,235)Idade2 −0,654(0,287)* 0,520 (0,296; 0,913) 0,234(0,159) 1,264 (0,925; 1,726)Idade3 0,631(0,243)* 1,879 (1,167; 3,026) 0,207(0,153) 1,230 (0,911; 1,660)Avaliação2 −0,038(0,274) 0,963 (0,563; 1,647) −0,198(0,153) 0,820 (0,608; 1,107)Avaliação3 −0,420(0,301) 0,657 (0,364; 1,185) −0,483(0,156)* 0,617 (0,454; 0,838)Avaliação4 −0,099(0,254) 0,906 (0,551; 1,490) 0,246(0,139) 1,279 (0,974; 1,679)Avaliação5 −1,160(0,307)* 0,313 (0,172; 0,572) 0,058(0,140) 1,060 (0,805; 1,394)Avaliação6 −0,903(0,251)* 0,405 (0,248; 0,663) 0,657(0,131)* 1,929 (1,492; 2,494)Avaliação7 −0,734(0,249)* 0,480 (0,295; 0,782) 0,622(0,138)* 1,863 (1,421; 2,441)��2 1,288 0,4831/𝑘 0,298 (0,034)*Log-verossimilhança −2351,772Deviance 274,108Resíduo de Pearson 1433,095*Valor-p <0,05.

Nos percentuais observados e estimados a partir do modelo ZINB𝑒, Tabela 4.9observa-se que o percentual de uma (1) planta doente não foi bem ajustada pelo modelo.Na Figura 4.6, é apresentado o gráfico quantil-quantil no qual é possível observar a faltade ajuste para uma (1) planta doente.

Page 46: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

35 4.2. Aplicação

Tabela 4.9: Percentuais observados e estimados do número de plantas doentes a partirdo modelo de regressão ZINB𝑒 com efeito aleatório para ambas ligações logit e log(Inflacionada e Não Inflacionada).

Intervalo Observado (%) Estimado (%) Diferença0 62,60 63,44 −0,841 14,24 11,23 3,012 6,45 7,75 −1,303 4,86 5,18 −0,324 2,38 3,49 −1,115 2,23 2,40 −0,176 0,79 1,68 −0,897 0,74 1,20 −0,468 1,09 0,87 0,229 0,74 0,64 0,1010 0,50 0,47 0,0311 0,50 0,36 0,1412 0,55 0,27 0,2813 0,40 0,21 0,19≥ 14 1,93 1,63 0,30

Figura 4.6: Gráfico quantil-quantil para a diferença do valor observado e valor ajustado,a partir do modelo de regressão ZINB𝑒 com efeito aleatório para ambas ligações logit elog para o número de plantas doentes.

Page 47: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 4. Resultados 36

Nas Figura 4.7 e 4.8 são apresentados gráficos de quantil-quantil para os efeitosaleatórios 𝑢 e 𝑣, respectivamente, em que observam-se valores estimados com tendênciaa ser normalmente distribuídos.

Figura 4.7: Gráfico quantil-quantil e histograma para o efeito aleatório u para o modelode regressão ZINB𝑒 com efeito aleatório para ambas as ligações logit e log (Inflacionadae Não Inflacionada).

Figura 4.8: Gráfico quantil-quantil e histograma para o efeito aleatório v para o modelode regressão ZINB𝑒 com efeito aleatório para ambas as ligações logit e log (Inflacionadae Não Inflacionada).

A partir do gráfico meio-normal, Figura 4.9, gerado para o modelo ZINB𝑒 com efeitoaleatório para ambas as ligações, é possível observar que os resíduos estão dentro dasbandas de confiança de 95%, logo pode-se considerar que o modelo se adequou bem aosdados de número de plantas doentes.

Page 48: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

37 4.2. Aplicação

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●

●●●●●●●

●●●●●●●●●

●●●●●●●●●●

●●●●●●●●●●●●●●●●

●●●●●●●●●●●

●●●●●●●●●●●

●●●●●●●

●●●●●●●●●

●●●●●●●●●

●●●●●●●●●●

●●●●●

●●●●

● ● ● ●●

●●

●●

● ●

0 1 2 3

01

23

45

6

Valor esperado dos percentis normais

Res

íduo

s de

Pea

rson

Figura 4.9: Gráfico meio-normal com envelope simulado para o modelo de regressãoZINB𝑒 com efeito aleatório para ambas as ligações logit e log (Inflacionada e Não Infla-cionada).

Page 49: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 5

Conclusões

Neste trabalho foi descrito a metodologia do modelo de regressão binomial negativoinflacionado de zero sem e com efeito aleatório, com objetivo de modelar dados referentesao número de laranjeiras atacadas pela doença HLB. Para tanto, foi realizado o ajustedos dados a partir dos modelos binomial negativo, binomial negativo inflacionado dezero (ZINB) e binomial negativo inflacionado de zero com efeito aleatório ZINB𝑒.

O modelo binomial negativo inflacionado de zero com efeito aleatório nas duas fun-ções de ligação, logit e log, apresentou o melhor ajuste aos dados. Este modelo apresen-tou o menor erro-padrão associado aos coeficientes de regressão da parte inflacionada,menor resíduos de Pearson e Deviance que os outros modelos ajustados corroboradopor meio do gráfico meio-normal.

A partir do modelo ZINB𝑒 nas duas funções de ligação, é possível observar quequanto mais velha é a planta menos provável o desenvolvimento da doença Huanglong-bing. Entretanto, utilizar a aplicação de inseticidas em brotações novas e o manejo porcalendário tendem a aumentar a média do número de plantas doentes. Adicionalmente,foi verificado que nas avaliações dos meses agosto e dezembro de 2011 apresentaram umaumento na média de plantas doentes com HLB, entretanto agosto de 2010 verificou-seuma diminuição.

Page 50: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Capítulo 6

Perspectivas Futuras

Como perspectivas futuras do trabalho destaca-se utilizar outras funções de ligaçãopara o modelo ZINB, como a probito e complementar log-log. Fazer também o ajuste deoutras distribuições como Poisson, Poisson inflacionada de zeros, Poisson inflacionadacom efeito aleatório e distribuição Hurdle.

Page 51: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Anexo A

Programação

#-------------------------------------------------------------------------# ZINB com e sem efeito aleatório# última modificação em 15/12/2000; 5/11/2002# codigo original em Splus feito por Drs. Andy Lee and Kelvin Yau# Modificações para o R por Dave Atkins# Artigo relevante, ver website Drs. Lee e Yau:# http://fbstaff.cityu.edu.hk/mskyau/# http://www.publichealth.curtin.edu.au/html/about_staffprofile.cfm?ID=482#-------------------------------------------------------------------------### Este código ajusta uma regressão ZINB com até dois possíveis efeitos### aleatórios: 1) um para a parte logística do modelo, e 2) na parte de### contágem do modelo

### Primeiro, chamamos o programa (source) no R com título "R - Multilevel ZINB.R"source("R - Multilevel ZINB.txt")

### A função sumzinbmix requer os seguintes argumentos:#### y = vetor da variável resposta### x.l = matriz de preditores para parte logística### x.nb = matriz de preditores para parte binomial negativa### random = vetor para o efeito aleatório### r.l = TRUE/FALSE: efeito aleatório na parte logística### r.nb = TRUE/FALSE: efeito aleatório na parte binomial negativa

### Usar o mesmo preditor em ambas as partes utilizando a função model.matrix()### Exemplox.mat <- model.matrix(~ factor(Manejo) + factor(Variedade)+ factor(Idade) +factor(Avaliação), data = dados)[,-1]

### model sem efeito aleatóriomsi.zinbmix <- sumzinbmix(y = dados$n.plantas.doentes,

x.nb = x.mat,x.l = x.mat,r.nb = FALSE, r.l = FALSE)

### model com efeito aleatóriora na parte logísticamsi.zinbmix2 <- sumzinbmix(y = dados$n.plantas.doentes,

x.nb = x.mat,x.l = x.mat,random = dados$id,r.nb = FALSE, r.l = TRUE)

### model com efeito aleatóriora em ambas as partes

Page 52: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

41

msi.zinbmix3 <- sumzinbmix(y = dados$n.plantas.doentes,x.nb = x.mat,x.l = x.mat,random = dados$id,r.nb = TRUE, r.l = TRUE)

### log-verossimilhançamsi.zinbmix$loglik ; msi.zinbmix2$loglik ; msi.zinbmix3$loglik

### coeficientes do modelo finalzinb.coef(msi.zinbmix3)

### componente do objetostr(msi.zinbmix3)

### variância do efeito aleatório para a parte logísticamsi.zinbmix3$sigu

### variância do efeito aleatório para a parte BNmsi.zinbmix3$sigv

### efeitos aleatórios para a parte logísticamsi.zinbmix3$risku

### QQplot e histogramapar(mfrow = c(1,2))qqnorm(msi.zinbmix3$risku)qqline(msi.zinbmix3$risku)hist(msi.zinbmix3$risku, col = "yellow")

### efeitos aleatórios para a parte BNmsi.zinbmix3$riskv

### QQplot e histogramapar(mfrow = c(1,2))qqnorm(msi.zinbmix3$riskv)qqline(msi.zinbmix3$riskv)hist(msi.zinbmix3$riskv, col = "yellow")

#-------------------------------------------------------------------------

## ---------------------------------------# Estimação do Parâmetro de dispersão alpha (1/k) da regressão BN# ---------------------------------------

agetk.ml <- function(y, mu, w) # calculate the k{loglik <- function(th,y,mu,w){u <- exp(th)/(exp(th)+mu)(sum(w*(log(gamma(y+exp(th))/gamma(y+1)/gamma(exp(th)))+exp(th)*log(u)+log((1-u)^y))))}objm <- optimize(loglik,lower =-8, upper =5, y=y,mu=mu,w=w,maximum=T)res <- objm$maximum1/exp(res)

}

## ---------------------------------------

Page 53: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Anexo A. Programação 42

# GLMM da regressão de Poisson regression com peso mzk

# ---------------------------------------

wreml.poi <- function(y, mzk, x, z, beta1, va1, sig2, fam="Poisson", epsilon=1e-3){

M <- ncol(z);n <- length(y)X <- cbind(1,x);p1 <- ncol(X)zero1 <- matrix(0,ncol=p1,nrow=M)X1 <- rbind(X,zero1)Z <- rbind(z,diag(M))XX <- cbind(X1,Z)

itmax <- 1000;alfa0 <- c(beta1,va1)beta <- beta1 ; va <- va1flag <- 0for(iter in 1:itmax){

theta <- as.vector(X%*%beta+z%*%va)lamda <- exp(theta)w1 <- mzk*lamdaw <- c(w1,rep(1/sig2,M))mu <- lamda

w.sq <- w^0.5zy <- c((theta+(y-mu)/mu),rep(0,M))*w.sqzx <- XX*w.sqtfit <- lm.fit(zx,zy) # Dave: change to lm.fit

Alfa <- coef(tfit)beta <- Alfa[1:p1]va <- Alfa[(p1+1):(p1+M)]if(max(abs(Alfa-alfa0))<epsilon) { flag <- 1;break}alfa0 <- Alfa;#cat(beta, iter,’\n’)

}if(flag) result <- list(beta = beta, va = va)else stop("error: not reach the convergence")

}

# ---------------------------------------

# GLMM da regressão logística

# ---------------------------------------wreml.logit <- function(y,x,z,alfa1,yu1,sig1,famaly="logistic",epsilon=1e-3){

M <- ncol(z);n <- length(y)X <- cbind(1,x)p1 <- ncol(X)zero1 <- matrix(0,ncol=p1,nrow=M)X1 <- rbind(X,zero1)Z <- rbind(z,diag(M))XX <- cbind(X1,Z)

itmax <- 1000alfa0 <- c(alfa1,yu1)

Page 54: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

43

alfa <- alfa1yu <- yu1;flag <- 0for(iter in 1:itmax){

theta <- as.vector(X%*%alfa+z%*%yu)w1 <- exp(theta)/(1+exp(theta))^2w <- c(w1,rep(1/sig1,M))mu <- exp(theta)/(1+exp(theta))

w.sq <- w^0.5zy <- c((theta+(y-mu)/w1),rep(0,M))*w.sqzx <- XX*w.sqtfit <- lm.fit(zx,zy) # Dave: change to lm.fit

Alfa <- coef(tfit)alfa <- Alfa[1:p1]yu <- Alfa[(p1+1):(p1+M)]

if(max(abs(Alfa-alfa0))<epsilon) { flag <- 1;break}alfa0 <- Alfa

}if(flag) result <- list(alfa=alfa,yu=yu)else stop("error:not reach the convergence")

}

hznb <- function(y,X,G,Z,pai,mu,th,sig=NULL,sigu=NULL){

yzero <- ifelse(y>0,0,1)ksi <- pai/(1-pai)u <- th/(th+mu)ep1 <- u^thep2 <- (ksi+ep1)^2

# information matrix

w11<--(yzero*ksi*ep1/ep2-ksi/(1+ksi)^2)w12<--(yzero*th*ksi*ep1*(1-u)/ep2)

w22 <- (-yzero*th*ksi*(ksi+ep1+(1-u)*th*ep1/u)/ep2+th+(1-yzero)*y)*u*(1-u)

# second derivtive of alpha#B<-log(u)+(1-u)#B1<-(1-u)^2/th#w23<-(1-u-(1-yzero)*y*u/th+yzero*ksi*(u/(ksi+ep1)/th+ep1*B/ep2))*(1-u)#-------------------------------------pa <- ncol(G)pb <- ncol(X)p <- ncol(Z)

ww11 <- t(matrix(rep(w11,pa),ncol=pa))ww12 <- t(matrix(rep(w12,pa),ncol=pa))ww22 <- t(matrix(rep(w22,pb),ncol=pb))m11 <- (t(G)*ww11)m12 <- (t(G)*ww12)m22 <- (t(X)*ww22)

I11 <- m11%*%GI12 <- m12%*%X

Page 55: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Anexo A. Programação 44

I22 <- m22%*%X

if(!is.null(sig)){

z22 <- t(Z)*t(matrix(rep(w22,p),ncol=p))I14 <- m12%*%ZI24 <- m22%*%ZI44 <- z22%*%Z+diag(1/sig,p)

}if(!is.null(sigu)){

z11 <- t(Z)*t(matrix(rep(w11,p),ncol=p))z12 <- (matrix(rep(w12,p),ncol=p))*Z

I13 <- m11%*%ZI23 <- t(X)%*%z12I33 <- z11%*%Z+diag(1/sigu,p)

}

if(is.null(sigu)&is.null(sig)){

V1 <- cbind(I11,I12)V2 <- cbind(t(I12),I22)V <- rbind(V1,V2)

}if((!is.null(sigu))&(!is.null(sig))){

I34 <- t(Z)%*%z12

V1 <- cbind(I11,I12,I13,I14)V2 <- cbind(t(I12),I22,I23,I24)V3 <- cbind(t(I13),t(I23),I33,I34)V4 <- cbind(t(I14),t(I24),t(I34),I44)V <- rbind(V1,V2,V3,V4)

M2 <- diag(0,(pa+pb+p+p))M2[pa+pb+1:p,pa+pb+1:p] <- diag(1/sigu,p)M2[(pa+pb+p)+1:p,(pa+pb+p)+1:p] <- diag(1/sig,p)

H <- V-M2}

if(is.null(sigu)&(!is.null(sig))){

V1 <- cbind(I11,I12,I14)V2 <- cbind(t(I12),I22,I24)V4 <- cbind(t(I14),t(I24),I44)V <- rbind(V1,V2,V4)

}if((!is.null(sigu))&(is.null(sig))){

V1 <- cbind(I11,I12,I13)V2 <- cbind(t(I12),I22,I23)V3 <- cbind(t(I13),t(I23),I33)

V <- rbind(V1,V2,V3)}

Page 56: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

45

IV <- solve(V)if((!is.null(sigu))&(!is.null(sig))){

df <- length(y)-sum(diag(IV%*%H))list(dd=diag(IV),df=df)

}

else dd <- diag(IV)

}

################### Função de estimação da média #########################

zinbmix <- function(y, x.p=NULL, rv=NULL, random, x.l=NULL, model){

itmax <- 1000n <- length(y)yz <- ifelse(y > 0, 0, 1)ct0 <- list(epsilon = 0.001, maxit = 50, trace = F)if(!is.null(x.l)){

x.l <- as.matrix(x.l)G <- cbind(1,x.l)alfa <- coef(glm(yz ~ x.l, family = binomial(link = logit),

na.action = na.omit, control = ct0))}else{

alfa <- coef(glm(yz ~ 1, family = binomial(link = logit),na.action = na.omit, control = ct0))

G <- as.matrix(rep(1,n))}if(!is.null(x.p)){

x.p <- as.matrix(x.p)X <- cbind(1,x.p)beta <- coef(glm(y ~ x.p, family = poisson(link =log),

na.action = na.omit, control = ct0))}else{

beta <- coef(glm(y ~ 1, family = poisson(link = log),na.action = na.omit, control = ct0))

X <- as.matrix(rep(1,n))}

pa <- ncol(G)pb <- ncol(X)m <- ncol(rv)

#initial valueZK1 <- ifelse(y > 0, 1, 0)th <- 1

yu <- rep(0., m)va <- rep(0, m)sigu <- 1.2sig2 <- 0.1

Page 57: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Anexo A. Programação 46

names(sig2) <- "RandomEffect"flag <- 0# beginning of outer loopfor( ie in 1:itmax){

for (iter in 1:itmax){

if(is.null(x.l))theta <- as.vector(exp(G*alfa))

else{

if(model == "rnb" | model == "zinb" )theta <- as.vector(exp(G %*% alfa))

else theta <- as.vector(exp(G %*% alfa+rv%*%yu))}

if(is.null(x.p))mu <- as.vector(exp(X*beta))

else{

if(model == "rlg" | model == "zinb" )mu <- as.vector(exp(X %*% beta))

else mu <- as.vector(exp(X%*%beta+rv%*%va))}k <- agetk.ml(y,mu,(1-ZK1))th <- 1/k# E-stepZK <- ifelse(y > 0, 0, 1/(1+1/theta*(th/(mu+th))^th))# M-stepwmm <- 1/(1+k*mu)*(1-ZK) #weight

if(!is.null(x.l)){

if((model != "rnb")&(model != "zinb")){

lgt <- wreml.logit(ZK,x.l,rv,alfa,yu,sigu)alfa <- lgt$alfayu <- lgt$yu

}else

alfa <- coef(glm(ZK ~ x.l, family = binomial(link = logit),na.action = na.omit, control = ct0))

}else alfa <- coef(glm(ZK ~ 1, family = binomial(link = logit),

na.action = na.omit, control = ct0))

if(!is.null(x.p)){

if(model != "rlg" & model != "zinb"){

glm.poi <- wreml.poi(y,wmm,x.p,rv,beta,va,sig2)beta <- glm.poi$betava <- glm.poi$va

}else

beta <- coef(glm(y ~ x.p, family = poisson(link =log),weights = wmm, na.action = na.omit, control = ct0))

}else

Page 58: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

47

beta <- coef(glm(y ~ 1, family = poisson(link =log),weights = wmm, na.action = na.omit, control = ct0))

if(max(abs(ZK-ZK1))<1e-3) {flag <- 1;break;}ZK1 <- ZKcat(’\n’,iter,k,alfa,’\n’)

} # end of inner loop

if(is.null(x.l)) pai <- mean(ZK1)else pai <- theta/(1 + theta)

if(model=="zinbmix"){

hz <- hznb(y,X,G,rv,pai,mu,th,sig2,sigu)vd <- hz$ddnsigu <- as.numeric(t(yu)%*%yu+sum(vd[pa+pb+1:m]))/mnsigv2 <- as.numeric(t(va)%*%va+sum(vd[pa+pb+m+1:m]))/mif(nsigv2<=0) nsigv2 <- 1if(nsigu<=0) nsigu <- 1# cat("model=zinbmix")

}if(model=="rnb"){ vd <- hznb(y,X,G,rv,pai,mu,th,sig2)

nsigv2 <- as.numeric(t(va)%*%va+sum(vd[(pa+pb+1):(pa+pb+m)]))/mif(nsigv2<=0)

nsigv2 <- 1;sigu <- nsigu <- 1;cat("model=rnb")

}if(model=="rlg"){ vd <- hznb(y,X,G,rv,pai,mu,th,,sigu)

nsigu <- as.numeric(t(yu)%*%yu+sum(vd[(pa+pb+1):(pa+pb+m)]))/mif(nsigu<=0) nsigu <- 1;sig2 <- nsigv2 <- 1;cat("model=rlg")

}if(model=="zinb"){

vd <- hznb(y,X,G,rv,pai,mu,th)flag <- 1;cat("model=zinb")break

}if((abs(nsigv2-sig2)<1e-4)&(abs(nsigu-sigu)<1e-4)) {flag <- 1;break}sig2 <- nsigv2sigu <- nsigucat(’\n’,ie,sig2,sigu,th,’\n’)

} #end of loop

names(beta) <- c("Intercept", dimnames(x.p)[[2]]) # NOTE: problem here?names(alfa) <- c("Intercept", dimnames(x.l)[[2]])std <- sqrt(vd)

if(model=="zinbmix"){

risku <- as.vector(yu)#/std[pa+pb+1:m])riskv <- as.vector(va)#/std[pa+pb+m+1:m])names(riskv) <- names(risku) <- names(table(random))

}if(model=="rnb")

Page 59: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Anexo A. Programação 48

{riskv <- as.vector(va/std[pa+pb+1:m])names(riskv) <- names(table(random))#cat("OK2")

}if(model=="rlg"){

risku <- as.vector(yu/std[pa+pb+1:m])names(risku) <- names(table(random))

}

stda <- std[1:pa]stdb <- std[pa+1:pb]

eta <- cbind(alfa,stda,alfa/stda,2*(1-pnorm(abs(alfa/stda))))dimnames(eta) <- list(names(alfa),c("Estimate","SD","t-value","p-value"))etb <- cbind(beta,stdb,beta/stdb,2*(1-pnorm(abs(beta/stdb))))dimnames(etb) <- list(names(beta),c("Estimate","SD","t-value","p-value"))eta <- round(eta,3)etb <- round(etb,3)

obj.call <- match.call()if(model=="zinbmix"){

result <- list(call=obj.call, th=th, pai=pai, mu=mu, beta=etb, alfa=eta)result$sigv <- round(sig2,4)result$riskv <- round(riskv,4)result$sigu <- round(sigu,4)result$risku <- round(risku,4)result$df <- hz$df#cat("OKmix")

}if(model=="rnb"){

result <- list(call=obj.call, th=th, beta=etb, pai=pai, mu=mu, alfa=eta,sigv=sig2, riskv=round(riskv,4))

cat("OKrnb")}if(model=="rlg"){ result <- list(call=obj.call, th=th, pai=pai, mu=mu, beta=etb, alfa=eta)

result$sigu <- round(sigu,4)result$risku <- round(risku,4)cat("OKrlg")

}if(model=="zinb"){result <- list(call=obj.call, th=th, beta=etb, pai=pai, mu=mu, alfa=eta)cat("OKzinb")

}if(flag) resultelse stop("error:not reach the convergence")

}

#-----------------# função média#-----------------# function sumzinbmix()# y------count

Page 60: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

49

# x.nb-----covariate matrix for mean# x.l ----covariate matrix for logistic part# random, r.nb,r.l are flags for whether including random effects in the models.

sumzinbmix <- function(y, x.nb=NULL, x.l=NULL, random=NULL, r.nb=F, r.l=F){

if(!is.null(random)){Group <- c(as.factor(random)) # DAVE: codes --> cn <- length(y)m <- max(Group)z <- matrix(0, ncol = m, nrow = n)for(i in 1:m)

z[, i] <- ifelse(Group == i, 1,0)}else z <- diag(10)if(r.nb&r.l)

obj <- zinbmix(y, x.nb, z, random, x.l, model="zinbmix") # random effects in both partsif(r.nb&(!r.l))

obj <- zinbmix(y, x.nb, z, random, x.l, model="rnb") # random in nb partif((!r.nb)&r.l)

obj <- zinbmix(y, x.nb, z, random, x.l, model="rlg") # random in logistic partif((!r.nb)&(!r.l))

obj <- zinbmix(y, x.nb, z, random, x.l, model="zinb") # no random

#read the objectpai <- obj$paith <- obj$thbeta <- obj$betaalfa <- obj$alfa #parameters in logistic partmu <- obj$mu #mean of y

#*****************************************************************

#*****************************************************************#--------------calculate the sumarry results ------------------- #frequency

k <- max(y) ; n <- length(y)fr.z <- fr.ob <- 0:kfr.z[1] <- sum(pai+(1-pai)*(th/(th+mu))^th)for(jj in 1:k){

fr.z[jj+1] <- sum((gamma(jj+th)/gamma(jj+1)/gamma(th)*(th/(mu+th))^th*(mu/(mu+th))^jj)*(1-pai))}for(jj in 0:k){fr.ob[jj+1] <- sum(ifelse(y==jj,1,0))}fr.ob <- round(fr.ob[1:(k+1)],3);fr.z <- round(fr.z[1:(k+1)],3)devia <<- cbind(0:k,(fr.z-fr.ob)/n)

fr.with <- matrix(c((0:k),fr.ob,fr.z),ncol=3)dimnames(fr.with) <- list(NULL,c("count","observed","expected"))

fr.ob <- c(fr.ob[fr.z>5],n-sum(fr.ob[fr.z>5]))fr.z <- c(fr.z[fr.z>5],n-sum(fr.z[fr.z>5]))chi.z <- sum((fr.ob-fr.z)^2/fr.z)pv <- 1-pchisq(chi.z,length(fr.z)-4)

#std error of alpha

ksi <- pai/(1-pai)

Page 61: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Anexo A. Programação 50

u <- th/(th+mu)yzero <- ifelse(y > 0, 0, 1)#____________________________________f0 <- table(y[y > 0])f <- rep(0, k)f[as.numeric(names(f0))] <- f0tot <- sum(f0)f <- tot + f - cumsum(f)#------------------------------------

# first deriv of A(th)i <- sum(f/(th+1:k-1))ii <- sum(f/(th + 1:k-1)^2)

B <- log(u)+(1-u)B1 <- (1-u)^2/thep1 <- u^thep2 <- (ksi+ep1)^2

w33 <- sum(yzero*ksi*(B1*(ksi+ep1)-B^2*ep1)/ep2-B1-(1-yzero)*y*(u/th)^2)+iisdc <- sqrt(1/w33)/th^2etc <- cbind(1/th,sdc,1/sdc/th,2*(1-pnorm(abs(1/sdc/th))))etc <- round(etc,4)dimnames(etc) <- list("alpha",c("Estimate","SD","t-value","p-value"))

# log-likehood

loglik <- (sum(yzero*log(ksi+ep1)-log(1+ksi)+(1-yzero)*(lgamma(y+th)-lgamma(y+1)-lgamma(th)+log(ep1)+y*log(1-u))))

#pearson residuals

mu.y <- (1-pai)*mustd.y <- sqrt(mu.y*(1+(1/th+pai)*mu))r.p <- (y-mu.y)/std.yPearChi <- round(sum(r.p^2),3) #Pearson residualsr.p <- round(r.p,4) #residuals

#Deviance residual

lnb <- (lgamma(y+th)-lgamma(y+1)-lgamma(th)+th*log(th/(y+th))+log((y/(th+y))^y))

lzinb <- (yzero*log(ksi+ep1)-log(1+ksi)+(1-yzero)*(lgamma(y+th)-lgamma(y+1)-lgamma(th)+log(ep1)+y*log(1-u)))

d <- 2*(lnb-lzinb)Dev <- round(sum(d),3)# Deviance;r.d <- round(sign(y-mu.y)*sqrt(d),4) #Deviance residuals

residm <<- cbind(y, mu.y, r.p, r.d, lnb, lzinb) # output to a data sheet

#-----------------------------------------------------#******************************************************#******************************************************# setTextOutputRouting("Report","Default") # DAVE: escape text routingcat("\n","Fit of ZINB mixed model",’\n’)cat(’\n’,"inflated part",’\n’)print(obj$alfa)cat(’\n’,’_____________________________________’,’\n\n’)

Page 62: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

51

cat(’\n\n’,"negative binomial part",’\n’)print(obj$beta)cat(’\n’,’_____________________________________’,’\n\n’)print(etc)

if(r.l){

cat(’\n’,"sigma^2 of random effect in inflate :", round(obj$sigu,5),’\n’)cat(’\n’,"random effects:\n")risku <<- as.matrix(obj$risku)print(obj$risku)cat(’\n’,’_____________________________________’,’\n\n’)

}if(r.nb){

cat(’\n’,"sigma^2 of random effect in NB :", round(obj$sigv,5),’\n’)cat(’\n’,"random effects:\n")riskv <<- as.matrix(obj$riskv) #print(obj$riskv)cat(’\n’,’_____________________________________’,’\n\n’)

}

cat(’\n’,"--------------------------------------",’\n\n’)obj$count.tab <- fr.with # Dave: add table of counts to output objectprint(fr.with)cat(’\n’,’_____________________________________’,’\n\n’)cat(’\n\n’,"Chisquare test statistics: ",round(chi.z,3))cat(’\n’,"loglikelihood : ",round(loglik,3))cat(’\n’,"Pearson residuals : ",round(PearChi,3))obj$chi.sq <- chi.z # Dave: save indices to model objectobj$loglik <- loglikcat(’\n’,"Deviance : ",round(Dev, 3))#cat(’\n’, round(obj$df,3)) # Dave: error msg ?

# setTextOutputRouting("Default","Default") # Dave: escape text-outputting# cat("\n")# return("End of program. See results in the report window !") # Dave: escape#### Dave: output whole model objectreturn(obj)

}

# example# sumzinbmix(y,x.nb=NULL,,x.l=NULL,random=NULL,r.nb=F,r.l=F)

######################### Coefficient Extraction Function ######################

zinb.coef <- function(obj, dig=3){lr.coef <- data.frame(obj$alfa)nb.coef <- data.frame(obj$beta)lr.coef$OR <- exp(lr.coef[,"Estimate"])lr.coef$Lower <- exp(lr.coef[,"Estimate"] - 1.96*lr.coef[,"SD"])lr.coef$Upper <- exp(lr.coef[,"Estimate"] + 1.96*lr.coef[,"SD"])nb.coef$exp.b <- exp(nb.coef[,"Estimate"])nb.coef$Lower <- exp(nb.coef[,"Estimate"] - 1.96*nb.coef[,"SD"])nb.coef$Upper <- exp(nb.coef[,"Estimate"] + 1.96*nb.coef[,"SD"])cat("\n", "Logistic Model", "\n")

Page 63: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Anexo A. Programação 52

print(round(lr.coef, dig))cat("\n", "Negative Binomial Model", "\n")print(round(nb.coef, dig))

}

Page 64: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Referências Bibliográficas

AGRESTI, A. Categorical data analysis. [S.l.]: John Wiley & Sons, 2013.

ATKINSON, A. C. Plots, transformations, and regression: an introduction to graphicalmethods of diagnostic regression analysis. [S.l.]: Clarendon Press Oxford, 1985.

BOVÉ, J. M. Huanglongbing: a destructive, newly-emerging, century-old disease ofcitrus. Journal of plant pathology, JSTOR, p. 7–37, 2006.

COHEN, A. C. Estimation in mixtures of discrete distributions. [S.l.]: Statistical Pub.Society, 1963.

COLETTA-FILHO, H.; TARGON, M.; TAKITA, M.; NEGRI, J. D.; JR, J. P.;MACHADO, M.; AMARAL, A. D.; MULLER, G. First report of the causal agentof huanglongbing (“candidatus liberibacter asiaticus”) in brazil. Plant Disease, AmPhytopath Society, v. 88, n. 12, p. 1382–1382, 2004.

COSTA, S. C. D. Modelos lineares generalizados mistos para dados longitudinais. Tese(Doutorado) — Universidade de São Paulo, 2003.

DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum likelihood fromincomplete data via the em algorithm. Journal of the royal statistical society. Series B(methodological), JSTOR, p. 1–38, 1977.

DOBSON, A. J.; BARNETT, A. An introduction to generalized linear models. [S.l.]:CRC press, 2011.

FAMOYE, F.; SINGH, K. P. Zero-inflated generalized poisson regression model withan application to domestic violence data. Journal of Data Science, v. 4, n. 1, p.117–130, 2006.

GARAY, A. M.; HASHIMOTO, E. M.; ORTEGA, E. M.; LACHOS, V. H. Onestimation and influence diagnostics for zero-inflated negative binomial regressionmodels. Computational Statistics & Data Analysis, Elsevier, v. 55, n. 3, p. 1304–1318,2011.

GOTTWALD, T. R.; GRAÇA, J. V. da; BASSANEZI, R. B. et al. Citrushuanglongbing: the pathogen and its impact. Plant Health Progress, PlantManagement Network, v. 6, 2007.

GURMU, S. Semi-parametric estimation of hurdle regression models with anapplication to medicaid utilization. Journal of applied econometrics, Wiley OnlineLibrary, v. 12, n. 3, p. 225–242, 1997.

Page 65: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Referências Bibliográficas 54

HALL, D. B. Zero-inflated poisson and binomial regression with random effects: a casestudy. Biometrics, Wiley Online Library, v. 56, n. 4, p. 1030–1039, 2000.

HASTINGS, N. A. J.; PEACOCK, J. B. Statistical distributions. Butterworths, 1974.

JUNIOR, J. D. O. dos S. Considerações sobre o efeito de fatores de prognosticona alocação em ensaios clínicos e sobre o teste de vuong. Tese (Doutorado) —Universidade Federal do Rio de Janeiro, 2010.

LAIRD, N. M.; WARE, J. H. Random-effects models for longitudinal data. Biometrics,JSTOR, p. 963–974, 1982.

LAMBERT, D. Zero-inflated poisson regression, with an application to defects inmanufacturing. Technometrics, Taylor & Francis, v. 34, n. 1, p. 1–14, 1992.

LEE, A. H.; WANG, K.; SCOTT, J. A.; YAU, K. K.; MCLACHLAN, G. J. Multi-levelzero-inflated poisson regression modelling of correlated count data with excess zeros.Statistical Methods in Medical Research, SAGE Publications, v. 15, n. 1, p. 47–61,2006.

MAGALHÃES, M. N. Probabilidade e variáveis aleatórias. [S.l.]: Edusp, 2004.

MCGILCHRIST, C. Estimation in generalized mixed models. Journal of the RoyalStatistical Society. Series B (Methodological), JSTOR, p. 61–69, 1994.

MERCHÁN-HAMANN, E.; TAUIL, P. L.; COSTA, M. P. Terminologia das medidase indicadores em epidemiologia: subsídios para uma possível padronização da nomen-clatura. Informe Epidemiológico do SUS, Centro Nacional de Epidemiologia/FundaçãoNacional de Saúde/Ministério da Saúde, v. 9, n. 4, p. 276–284, 2000.

MINAMI, M.; LENNERT-CODY, C. E.; GAO, W.; ROMÁN-VERDESOTO, M.Modeling shark bycatch: the zero-inflated negative binomial regression model withsmoothing. Fisheries Research, Elsevier, v. 84, n. 2, p. 210–221, 2007.

MULLAHY, J. Specification and testing of some modified count data models. Journalof econometrics, Elsevier, v. 33, n. 3, p. 341–365, 1986.

NELDER, J. A.; WEDDERBURN, R. W. M. Generalized linear models. Journal ofthe Royal Statistical Society A, Wiley Online Library, p. 370—-384, 1972.

NETER, J.; KUTNER, M. H.; NACHTSHEIM, C. J.; WASSERMAN, W. Appliedlinear statistical models. [S.l.]: Irwin Chicago, 1996.

PAULA, G. A. Modelos de regressão: com apoio computacional. [S.l.]: IME-USP SãoPaulo, 2004.

RIDOUT, M.; DEMÉTRIO, C. G.; HINDE, J. Models for count data with many zeros.In: Proceedings of the XIXth International Biometric Conference. [S.l.: s.n.], 1998.v. 19, p. 179–192.

ROSS, G.; PREECE, D. The negative binomial distribution. The Statistician, JSTOR,p. 323–335, 1985.

Page 66: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

55 Referências Bibliográficas

SINGER, J. M.; ANDRADE, D. F. Analysis of longitudinal data. Handbook ofstatistics, Elsevier, v. 18, p. 115–160, 2000.

TEIXEIRA, D. C.; SAILLARD, C.; EVEILLARD, S.; DANET, J. L.; COSTA, P. I.da; AYRES, A. J.; BOVÉ, J. ’candidatus liberibacter americanus’, associated withcitrus huanglongbing (greening disease) in são paulo state, brazil. International Journalof Systematic and Evolutionary Microbiology, v. 55, n. Pt 5, p. 1857–1862, 2005.

VENEZUELA, M. K.; BOTTER, D. A.; SANDOVAL, M. C. Diagnostic techniques ingeneralized estimating equations. Journal of Statistical Computation and Simulation,Taylor & Francis, v. 77, n. 10, p. 879–888, 2007.

VUONG, Q. H. Likelihood ratio tests for model selection and non-nested hypotheses.Econometrica: Journal of the Econometric Society, JSTOR, p. 307–333, 1989.

WEISBERG, S. Applied linear regression. [S.l.]: John Wiley & Sons, 2005.

YAU, K. K.; LEE, A. H. Zero-inflated poisson regression with random effects toevaluate an occupational injury prevention programme. Statistics in medicine, WileyOnline Library, v. 20, n. 19, p. 2907–2920, 2001.

YAU, K. K.; WANG, K.; LEE, A. H. Zero-inflated negative binomial mixed regressionmodeling of over-dispersed count data with extra zeros. Biometrical Journal, WileyOnline Library, v. 45, n. 4, p. 437–452, 2003.

Page 67: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Apêndice A

Estimação do Modelo ZINB

A função log-verossimilhança para o modelo ZINB em 3.4 é dada por

𝐿(𝑦; 𝜃) = log𝐿𝑓(𝑦; 𝛾,𝛽,𝑘 | 𝑢,𝑣)

=∑𝑦𝑖=0

log[𝑝𝑖 + (1 − 𝑝𝑖)𝑡𝑖

𝑘]

+

∑𝑦𝑖≥1

[log

Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖) + 𝑦𝑖 log(1 − 𝑡𝑖) + log(1 − 𝑝𝑖)

]

dada suas respectivas funções de ligação para 𝜆 e 𝑝

log

(𝑝

1 − 𝑝

)= 𝐺𝛾 → 𝑝 =

𝑒𝐺𝛾

1 + 𝑒𝐺𝛾,

log(𝜆) = 𝑋𝛽 → 𝜆 = 𝑒𝑋𝛽,

substituindo as respectivas funções de ligação, tem-se

𝐿(𝑦; 𝜃) =∑𝑦𝑖=0

log

(𝑒𝐺𝛾

1 + 𝑒𝐺𝛾+

(1 − 𝑒𝐺𝛾

1 + 𝑒𝐺𝛾

)𝑡𝑘)

+∑𝑦≥1

×(log

Γ(𝑦𝑖𝑗 + 𝑘)

Γ(𝑦𝑖𝑗 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖𝑗) + 𝑦𝑖𝑗 log(1 − 𝑡𝑖𝑗) − log(1 + 𝑒𝐺𝛾)

)=∑𝑦𝑖𝑗=0

log

(𝑒𝜉𝑖𝑗 + 𝑡𝑘𝑖1 + 𝑒𝐺𝛾

)+∑𝑦𝑖𝑗≥1

×(log

Γ(𝑦𝑖𝑗 + 𝑘)

Γ(𝑦𝑖𝑗 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖𝑗) + 𝑦𝑖𝑗 log(1 − 𝑡𝑖𝑗) − log(1 + 𝑒𝐺𝛾)

)

Assumindo uma variável 𝑍𝑖 ∼ Ber(𝑝𝑖) tal que,

𝑍𝑖 =

{1, se y𝑖 = 0

0, se 𝑦𝑖 ∼ BN(𝜆𝑖,k)

tem-se que a função de verossimilhança conjunta para os dados completos é dada por

Page 68: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

57

𝐿(𝑦,𝑧; 𝜃) =∏𝑖

𝑓(𝑧𝑖|𝛾)+∏𝑖

𝑓(𝑦𝑖|𝑧𝑖; 𝛽, 𝑘)

sendo 𝜃 = (𝛽,𝛾,𝑘).O logarítmo da função é dada por

𝑙(𝑦,𝑧; 𝛾,𝛽) =∑𝑖

log[𝑝𝑧𝑖𝑖 (1 − 𝑝𝑖)1−𝑧𝑖 ] +

∑𝑖

log

[Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)𝑡𝑘𝑖 (1 − 𝑡𝑖)

𝑦𝑖

]1−𝑧𝑖

=∑𝑖

log[𝑝𝑧𝑖𝑖 (1 − 𝑝𝑖)(1 − 𝑝𝑖)𝑧𝑖 ] +

∑𝑖

(1 − 𝑧𝑖)×[log

Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖) + 𝑦𝑖 log(1 − 𝑡𝑖)

]=∑𝑖

log

[(𝑝𝑖

1 − 𝑝𝑖

)𝑧𝑖

(1 − 𝑝𝑖)

]+∑𝑖

(1 − 𝑧𝑖)×[log

Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖) + 𝑦𝑖 log(1 − 𝑡𝑖)

]=∑𝑖

[𝑧𝑖 log

(𝑝𝑖

1 − 𝑝𝑖

)+ log(1 − 𝑝𝑖)

]+∑𝑖

(1 − 𝑧𝑖)×[log

Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖) + 𝑦𝑖 log(1 − 𝑡𝑖)

]e considerando respectivas funções de ligação de 𝜆 e 𝑝

𝑙(𝑦,𝑧; 𝛾,𝛽) =∑𝑖

[𝑧𝑖𝐺𝛾 − log(1 + 𝑒𝐺𝛾)] +∑𝑖

(1 − 𝑧𝑖)×[log

Γ(𝑦𝑖 + 𝑘)

Γ(𝑦𝑖 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖) + 𝑦𝑖 log(1 − 𝑡𝑖)

]=𝑙𝑐(𝑦,𝑧; 𝛾) + 𝑙𝑐(𝑦,𝑧; 𝛽),

sendo 𝑡𝑖 =𝑘

𝑘 + 𝑒𝑋𝛽.

Page 69: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Apêndice BEstimação para o Modelo ZINB com Efeito Aleatório

A função log-verossimilhança para o modelo ZINB com efeito aleatório em 3.7 par-tindo do metodo GLMM, utilizando o procedimento BLUP para maximizar 𝑙 = 𝑙1 + 𝑙2

é dada por

𝑙1 =∑𝑦𝑖𝑗=0

log

(𝑒𝜉𝑖𝑗 + 𝑡𝑘𝑖1 + 𝑒𝜉𝑖𝑗

)+

∑𝑦𝑖𝑗≥1

(log

Γ(𝑦𝑖𝑗 + 𝑘)

Γ(𝑦𝑖𝑗 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖𝑗) + 𝑦𝑖𝑗 log(1 − 𝑡𝑖𝑗) − log(1 + 𝑒𝜉𝑖𝑗)

)

A log verossimilhança, 𝑙2, para o vetor da componete aleatório 𝑢 e 𝑣, sabendo queas componentes tem distribuição N(0,𝜎2

𝑢𝐼𝑛) e N(0,𝜎2𝑣𝐼𝑚), respectivamente, logo

𝑙2 =𝑚∑𝑖=1

log 𝑓(𝑢;𝜎𝑢) +𝑚∑𝑖=1

log 𝑓(𝑣;𝜎𝑣)

=𝑚∑𝑖=1

log

[1√

2𝜋𝜎2𝑢

𝑒− 𝑢′𝑢

2𝜎2𝑢

]+

𝑚∑𝑖=1

log

[1√

2𝜋𝜎2𝑣

𝑒− 𝑣′𝑣

2𝜎2𝑢

]

=𝑚∑𝑖=1

log[(2𝜋𝜎2𝑢)−

12 ] − 𝑢′𝑢

2𝜎2𝑢

+𝑚∑𝑖=1

log[(2𝜋𝜎2𝑣)−

12 ] − 𝑣′𝑣

2𝜎2𝑣

= − 𝑚

2log(2𝜋𝜎2

𝑢) − 1

2𝑢′𝑢𝜎−2

𝑢 − 𝑚

2log(2𝜋𝜎2

𝑣) − 1

2𝑣′𝑣𝜎−2

𝑣

= − 1

2

[𝑚 log(2𝜋𝜎2

𝑢) + 𝑢′𝑢𝜎−2𝑢 + 𝑚 log(2𝜋𝜎2

𝑣) + 𝑣′𝑣𝜎−2𝑣

].

A função log-verossimilhança para os dados completo segue o mesmo princípio domodelo ZINB, logo dada suas respectivas funções de ligação para 𝜆 e 𝑝, tem-se

𝑙(𝑦,𝑧; 𝛾,𝛽) =∑𝑖𝑗

[𝑧𝑖𝑗𝜉𝑖𝑗 − log(1 + 𝑒𝜉𝑖𝑗)] +∑𝑖𝑗

(1 − 𝑧𝑖𝑗)×[log

Γ(𝑦𝑖𝑗 + 𝑘)

Γ(𝑦𝑖𝑗 + 1)Γ(𝑘)+ 𝑘 log(𝑡𝑖𝑗) + 𝑦𝑖𝑗 log(1 − 𝑡𝑖𝑗)

],

como 𝜉𝑖𝑗 e 𝜂𝑖𝑗 podem ser separados, então a função log-verossimilhança para os dadoscompletos é 𝑙𝑐 = 𝑙𝜉 + 𝑙𝜂.

As primeiras e segundas derivadas do algoritmo de Newton-Raphson 3.12 e 3.13, são

Page 70: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

59

respectivamente:𝜕𝑙𝜉𝜕𝛽

= 𝐺′𝜕𝑙𝜉𝜕𝜉

; onde𝜕𝑙𝜉𝜕𝜉

= 𝑧𝑖𝑗 −𝑒𝜉𝑖𝑗

1 + 𝑒𝜉𝑖𝑗,

𝜕𝑙𝜉𝜕𝑢

= 𝑍 ′𝑢𝜕𝑙𝜉𝜕𝜉

− 𝜎−2𝑢 𝑢

e

𝜕𝑙𝜂𝜕𝛾

= 𝐺′𝜕𝑙𝜂𝜕𝜂

; onde𝜕𝑙𝜂𝜕𝜂

=1 − 𝑧𝑖𝑗

1 + 𝑒𝜂𝑖𝑗

𝑘

(𝑦𝑖𝑗 − 𝑒𝜂𝑖𝑗),

𝜕𝑙𝜂𝜕𝑣

= 𝑍 ′𝑣𝜕𝑙𝜂𝜕𝜂

− 𝜎−2𝑣 𝑣

sendo as segundas derivadas

− 𝜕2𝑙1𝜕𝜉𝜕𝜉′

= Diag[(1 + 𝑒

𝜉

)−2𝑒𝜉]

= Diag

[𝑒𝜉

(1 + 𝑒𝜉)2

]e − 𝜕2𝑙𝜂

𝜕𝜂𝜕𝜂′= Diag

[1 − 𝑧

1 + 𝑒𝜂/𝑘𝑒𝜂]

onde as respectivas matrizes de informação são

𝐼𝛾,𝑢 =

[𝐺′

𝑍𝑢′

](− 𝜕2𝑙𝜉𝜕𝜉𝜕𝜉′

)[𝐺 𝑍𝑢

]+

[0 0

0 𝜎−2𝑢 𝐼𝑚

]

𝐼𝛽,𝑣 =

[𝑋 ′

𝑍𝑣′

](− 𝜕2𝑙𝜂𝜕𝜂𝜕𝜂′

)[𝑋 𝑍𝑣

]+

[0 0

0 𝜎−2𝑣 𝐼𝑚

],

em que 𝜉, 𝜂 são vetores de 𝜉𝑖𝑗 e 𝜂𝑖𝑗, respectivamente, e 𝐺, 𝑋, 𝑍𝑢 e 𝑍𝑣 são matrizes decovariáveis para 𝛾, 𝛽, 𝑢 e 𝑣, respectivamente.

Page 71: Eudmar Paiva de Almeida - PBE UEM...Dados Internacionais de Catalogação na Publicação (CIP) (Biblioteca Central - UEM, Maringá , PR, Brasil) Almeida, Eudmar Paiva de A447u Um

Apêndice CEstimação da componente de variância e variância assintótica (REML)

Supondo 𝐼𝛾,𝑢 é particionada conforme 𝛾|𝑢 tem-se

𝐼−1𝛾,𝑢 =

[𝐴11 𝐴12

𝐴21 𝐴22

]

e 𝐼𝛽,𝑣 é particionada conforme 𝛽|𝑣 tem-se

𝐼−1𝛽,𝑣 =

[𝐴33 𝐴34

𝐴43 𝐴44

]

as variâncias das estimativas dos efeitos fixos é obtida por Var(𝛾) = 𝐴11 e Var(𝛽) = 𝐴33.Yau (YAU; WANG; LEE, 2003) mostra a partir de McGilchrist (MCGILCHRIST,

1994), que os estimadores dos componentes de variância para 𝑢 e 𝑣, respectivamente,são

��2𝑢 = 𝑚−1[𝑡𝑟𝐴22 + ��′��] 𝑒 ��2

𝑣 = 𝑚−1[𝑡𝑟𝐴44 + 𝑣′𝑣].