MODELO DE REGRESSÃO BETA RETANGULAR PARA ANÁLISE DE …

UNIVERSIDADE FEDERAL DO CEARÁ

CENTRO DE CIÊNCIAS

DEPARTAMENTO DE ESTATÍSTICA E MATEMÁTICA APLICADA

PROGRAMA DE PÓS-GRADUAÇÃO EM MODELAGEM E MÉTODOS

QUANTITATIVOS

VINÍCIUS SILVA OSTERNE RIBEIRO

MODELO DE REGRESSÃO BETA RETANGULAR PARA ANÁLISE DE DADOS

COM MEDIDAS REPETIDAS

FORTALEZA

MODELO DE REGRESSÃO BETA RETANGULAR PARA ANÁLISE DE DADOS COM

MEDIDAS REPETIDAS

Dissertação apresentada ao Curso de Pós-Graduação em Modelagem e MétodosQuantitativos, como requisito parcial à obtençãodo título de mestre em Modelagem e AnáliseQuantitativa. Área de Concentração: Modela-gem e Análise Quantitativa

Orientador: Prof. Dr. Juvêncio SantosNobre

Coorientador: Prof. Dr. José RobertoSilva dos Santos

FORTALEZA

Dados Internacionais de Catalogação na Publicação Universidade Federal do Ceará

Biblioteca UniversitáriaGerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)

R372m Ribeiro, Vinícius Silva Osterne. Modelo de regressão beta retangular para análise de dados com medidas repetidas /Vinícius Silva Osterne Ribeiro. – 2019. 98 f. : il.

Dissertação (mestrado) – Universidade Federal do Ceará, Centro de Ciências, Programade Pós-Graduação em Modelagem e Métodos Quantitativos, Fortaleza, 2019. Orientação: Prof. Dr. Juvêncio Santos Nobre. Coorientação: Prof. Dr. José Roberto Silva dos Santos.

1. Dados Longitudinais. 2. Modelos de Regressão. 3. Equações de Estimação. I. Título.

CDD 510

MODELO DE REGRESSÃO BETA RETANGULAR PARA ANÁLISE DE DADOS COM

MEDIDAS REPETIDAS

Dissertação apresentada ao Curso de Pós-Graduação em Modelagem e MétodosQuantitativos, como requisito parcial à obtençãodo título de mestre em Modelagem e AnáliseQuantitativa. Área de Concentração: Modela-gem e Análise Quantitativa

Aprovada em: 12/08/2019

BANCA EXAMINADORA

Prof. Dr. Juvêncio Santos Nobre (Orientador)Universidade Federal do Ceará (UFC)

Prof. Dr. José Roberto Silva dosSantos (Coorientador)

Universidade Federal do Ceará (UFC)

Prof. Dr. Gualberto Segundo Agamez MontalvoUniversidade Federal do Ceará (DEMA - UFC)

Prof. Dr. Gilberto Alvarenga de PaulaUniversidade de São Paulo (IME - USP)

À minha família, pelo amor, carinho e compa-

nheirismo.

Mãe, Pai e Alice, amo vocês.

AGRADECIMENTOS

Agradeço a Deus por todos os momentos da minha vida. À minha família pelo apoio

em todas as circunstâncias. Mãe (Joselanda), Pai (Marcus) e Alice, vocês são exemplos de amor,

carinho, atenção e companheirismo. À Neila, Socorro, Jusmar, Gina e Raimundo, sou muito feliz

em tê-los na minha vida. À minha companheira de estudos, trabalho, tango e de vida, Jamile

você foi e é muito importante para mim. À sua mãe, Dona Terezinha, por me acolher sempre

com muito amor e paciência.

Agradeço também aos professores que foram meus companheiros durante esse pro-

cesso de pós-graduação. Em primeiro lugar ao professor Juvêncio, pelo exemplo de profissional

e de estudante que é. Sua ajuda e incentivo foram fundamentais para o meu amadurecimento no

campo científico. Ao professor José Roberto, pelos ensinamentos e paciência em cada encontro

que fizemos. Aos professores Gualberto Segundo e Gustavo Pinho, grandes responsáveis pelo

meu avanço computacional.

Aos amigos, pela construção de largos conhecimentos nos momentos de conversa e

estudo. Lívia, Rossana, Kennedy, Armando e Raul, todos os momentos com vocês foram sempre

cheios de alegria e bom humor, fazendo com que essa caminhada se tornasse menos cansativa e

mais prazerosa.

À Fundação Ceará de Apoio ao Desenvolvimento Científico e Tecnológico (FUN-

CAP) Brasil pelo apoio financeiro parcial.

O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de

Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001.

É dessa forma que agradeço a todos por terem participado da minha vida de forma

tão significativa e terem moldado o indivíduo que sou hoje.

“Todo el mundo está esperando

Mejorar su situación,

Todos viven suspirando

Con razón o sin razón.

Todo el mundo se lamenta

Si en la buena ya no están,

Nadie aguanta la tormenta

Si la contra se le da.

La vida es una milonga

Y hay que saberla bailar,

En la pista está sobrando

El que pierde su compás.

La vida es una milonga

Y hay que saberla bailar,

Porque es triste estar sentado

Mientras bailan los demás.”

(PEDRO LAURENZ, 1941)

RESUMO

A independência entre observações é uma hipótese usual para a aplicação de inúmeras técnicas

estatísticas e se adequa, em geral, quando somente um valor é observado para cada unidade

amostral. Todavia, é comum a existência de experimentos com medidas repetidas, isto é, quando

há mais de uma observação para cada uma dessas unidades. Considerando a estrutura de medidas

repetidas, a possível existência de correlação entre as observações de uma mesma unidade e

casos em que a variável resposta é restrita ao intervalo (0,1), propomos a modelagem da média

de um modelo de regressão beta retangular a partir das Equações de Estimação Generalizadas sob

a suposição de homogeneidade do parâmetro de precisão. Sob esse modelo construímos técnicas

de diagnóstico como pontos de alavanca, distância de Cook e influência local e apresentamos um

exemplo para ilustrar a metodologia desenvolvida.

Palavras-chave: Dados Longitudinais. Modelos de Regressão. Equações de Estimação. Méto-

dos de Diagnóstico.

ABSTRACT

The independence between observations is a usual hypothesis for the application of numerous

statistical techniques and is generally adequate when only one value is observed for each sample

unit. However, it is common to have experiments with repeated measures, that is, when there

is more than one observation for each of these units. Considering the structure of repeated

measures, the possible existence of a correlation between the observations of the same unit and

cases in which the response variable is restricted to the interval (0,1), we propose the modeling

of the mean of a rectangular beta regression model from the Generalized Estimation Equations

under the assumption of homogeneity of the precision parameter. Under this model we construct

diagnostic techniques such as leverage points, Cook’s distance and local influence, and present

an example to illustrate the methodology developed.

Keywords: Longitudinal Data. Regression Models. Estimation Equations and Methods of

Diagnosis.

LISTA DE FIGURAS

Figura 1 – Desconto versus vendas de 5 produtos. . . . . . . . . . . . . . . . . . . . . 16

Figura 2 – Densidade da distribuição beta, B(p,q), para diferentes valores de p e q,

respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Figura 3 – Densidade da distribuição beta, B(µ,φ), para diferentes valores de µ e φ ,

respectivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Figura 4 – Densidade da distribuição beta retangular, BR(µ,φ ,θ), para diferentes valo-

res de µ , φ e θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

Figura 5 – Densidade da distribuição beta retangular reparametrizada, BR(γ,φ ,α), para

diferentes valores de γ , φ e α . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Figura 6 – Gráfico de perfis dos pacientes para as concentrações de gás iguais a 15%

(A), 20% (B) e 25% (C). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Figura 7 – Envelope simulado meio-normal para o modelo de regressão beta para me-

didas repetidas (valor esperado da estatística de ordem meio-normal versus

valor absoluto ordenado do resíduo padronizado). . . . . . . . . . . . . . . 74

Figura 8 – Envelope simulado meio-normal para o modelo de regressão beta retangular

para medidas repetidas (valor esperado da estatística de ordem meio-normal

versus valor absoluto ordenado do resíduo padronizado). . . . . . . . . . . . 76

Figura 9 – Influência local para os esquemas de ponderação de casos (A), perturbação

na variável resposta (B) e pertubação na variável logarítmo do tempo (C) e

da variável quadrado do logarítmo do tempo (D). . . . . . . . . . . . . . . . 77

Figura 10 – Dispersão dos dados e curvas ajustadas dos modelos de regressão beta (A) e

beta retangular (B). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

LISTA DE TABELAS

Tabela 1 – Estimativas e erros padrão dos parâmetros, considerando o modelo de regres-

são beta para medidas repetidas, para o modelo (7.1) extraído de Venezuela

(2008). Estudo oftalmológico. . . . . . . . . . . . . . . . . . . . . . . . . . 74

Tabela 2 – Medida QIC considerando o modelo de regressão beta retangular para medi-

das repetidas. Estudo oftalmológico. . . . . . . . . . . . . . . . . . . . . . 75

Tabela 3 – Estimativas e erros padrão dos parâmetros, considerando o modelo de re-

gressão beta retangular para medidas repetidas, para o modelo (7.1). Estudo

oftalmológico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Tabela 4 – Variações percentuais referentes às estimativas dos parâmetros do modelo

de regressão beta retangular com todas as observações - estimativa antes - e

retirando as observações (21,1), (21,3) e (25,20) - estimativa depois. Estudo

oftalmológico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

Tabela 5 – Bias and Mean Square Error of the beta regression model estimators for

repeated measures, for the case φ = 10. . . . . . . . . . . . . . . . . . . . . 86

Tabela 9 – Variáveis dos pacientes observados (Parte I). Estudo oftalmológico. . . . . . 90

Tabela 10 – Variáveis dos pacientes observados (Parte II). Estudo oftalmológico. . . . . 91

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.1 Conceitos iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2 Motivação e contribuição do trabalho . . . . . . . . . . . . . . . . . . . 19

1.3 Organização da dissertação . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 MODELOS PARA OBSERVAÇÕES INDEPENDENTES . . . . . . . . 20

2.1 Modelos Lineares Generalizados . . . . . . . . . . . . . . . . . . . . . . 20

2.2 Modelo de Regressão Beta . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3 Modelo de Regressão Beta Retangular . . . . . . . . . . . . . . . . . . . 27

3 EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS . . . . . . . . . . . 33

3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Funções de estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2.1 Função de estimação regular e informação de Godambe . . . . . . . . . . 36

3.2.2 Função de estimação ótima e função de estimação linear . . . . . . . . . . 38

3.3 Quase verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4 Equações de Estimação Generalizadas . . . . . . . . . . . . . . . . . . . 42

3.4.1 Equações de estimação para modelos lineares generalizados com medidas

repetidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.4.2 Equações de estimação para o modelo de regressão beta com medidas re-

petidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4 EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS PARA O MODELO

DE REGRESSÃO BETA RETANGULAR . . . . . . . . . . . . . . . . . 48

4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2 Modelagem do parâmetro de posição (φ e α conhecidos) . . . . . . . . . 48

4.2.1 Estimação de β e ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.2.2 Etapas do processo iterativo para estimação dos parâmetros . . . . . . . . 53

4.3 Modelagem do parâmetro de posição (φ e α desconhecidos) . . . . . . . 53

4.3.1 Estimação de β , φ , α e ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.3.2 Etapas do processo iterativo para estimação dos parâmetros . . . . . . . . 54

5 MÉTODOS DE DIAGNÓSTICO . . . . . . . . . . . . . . . . . . . . . . 56

5.1 Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.2 Pontos de alavanca, discrepantes e influentes . . . . . . . . . . . . . . . . 58

5.3 Medidas de influência local . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.3.1 Influência local para equações de estimação . . . . . . . . . . . . . . . . . 61

5.3.2 Esquemas de perturbação . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.3.2.1 Ponderação de casos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.3.2.2 Perturbação da variável resposta . . . . . . . . . . . . . . . . . . . . . . . 63

5.3.2.3 Perturbação em uma covariável contínua . . . . . . . . . . . . . . . . . . . 64

5.3.2.4 Perturbação na matriz de correlação de trabalho . . . . . . . . . . . . . . . 67

5.4 Seleção de modelos e matriz de correlação . . . . . . . . . . . . . . . . . 68

5.5 Envelope simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6 SIMULAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

7 APLICAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

7.1 Análise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

7.2 Análise inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

7.2.1 Ajuste com o Modelo de Regressão beta para medidas repetidas . . . . . . 73

7.2.2 Ajuste com o Modelo de Regressão beta retangular para medidas repetidas 75

8 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . 79

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

APÊNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

APÊNDICE A – Resultados de simulação . . . . . . . . . . . . . . . . . 86

A.1 Caso gerado com estrutura AR-1 e estimado pela estrutura AR-1 para

φ = 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

A.2 Caso gerado com estrutura AR-1 e estimado pela estrutura AR-1 para

φ = 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

A.3 Caso gerado com estrutura AR-1 e estimado pela estrutura indepen-

dente para φ = 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

A.4 Caso gerado com estrutura AR-1 e estimado pela estrutura indepen-

dente para φ = 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

APÊNDICE B – Dados utilizados . . . . . . . . . . . . . . . . . . . . . . 90

B.1 Estudo oftalmológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

APÊNDICE C – Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . 92

C.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

C.2 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

C.2.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

C.2.2 Exemplo 1 - Densidade mista . . . . . . . . . . . . . . . . . . . . . . . . . 93

C.2.3 Exemplo 2 - Distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . 94

APÊNDICE D – Introdução à Teoria de cópulas . . . . . . . . . . . . . . 97

D.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

D.2 Transformada integral de probabilidade . . . . . . . . . . . . . . . . . . 97

D.3 Distribuições multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . 97

D.4 Funções de acoplamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

1 INTRODUÇÃO

1.1 Conceitos iniciais

A independência entre observações é uma hipótese usual para a aplicação de inúmeras

técnicas estatísticas e se mostra adequada, em geral, quando somente um valor é observado

para cada unidade amostral. Nessa estrutura, denominada de estudo transversal, a coleta da

amostra é realizada em um único momento. Todavia, é comum a existência de experimentos

que possuem mais de uma observação para cada uma das unidades (estrutura denominada de

medidas repetidas), sendo razoável considerar a existência de algum grau de dependência entre

essas observações (dependência intra-unidade amostral) e, consequentemente, se faz necessário

o uso de metodologias mais sofisticadas para garantir resultados mais confiáveis.

Um caso especial dos estudos com medidas repetidas são os denominados estudos

longitudinais (chamados de estudo de coorte ou painel em áreas da saúde), cuja característica

inerente é considerar a coleta da amostra obtida em sucessivos momentos ordenados sob alguma

dimensão, seja ela tempo, velocidade, dosagem, altura, dentre outras, na qual a medição é feita

considerando uma mesma quantidade física. Existem, portanto, outros casos que envolvem

medidas repetidas, mas que não são considerados do tipo longitudinal, ou seja, envolvem uma

outra abordagem. Como exemplo, temos Séries Temporais, Análise de Sobrevivência e Análise

Multivariada, que consideram, respectivamente, o acompanhamento em muitos instantes de

uma única variável (série histórica); o acompanhamento, ao longo do tempo, até o desfecho

da unidade observada (tempo de vida); e a observação de um vetor de medidas de uma mesma

unidade, cujos valores podem representar quantidades físicas diferentes.

A aplicação de estudos do tipo longitudinal tem uso frequente em diversos campos

científicos (Psicologia, Economia, Saúde e Educação, por exemplo) e, não diferente de outras

metodologias estatísticas, apresenta vantagens e desvantagens quanto à sua utilização. O acom-

panhamento de unidades amostrais durante a realização do estudo, por exemplo, pode não ser

uma tarefa simples, pois em alguns casos gera alto custo para a pesquisa. Entretanto, conforme

Venezuela (2008), essa abordagem requer menos unidades amostrais do que planejamentos com-

pletamente casualizados; proporcionam condições mais adequadas para o estudo de covariáveis

que possam ter influência na variável resposta; além de avaliar o comportamento da resposta ao

longo do tempo e permitir o estudo da mudança do comportamento da resposta média da unidade

amostral nos diferentes tratamentos (incorpora a informação sobre a variação intra-indivíduos na

análise).

A coleta dos dados para a análise de dados longitudinais pode receber diferentes

denominações dependendo da sua característica. Se todas as unidades amostrais são observadas

nos mesmos instantes (igualmente espaçados ou não), por exemplo, a caracterizamos como um

experimento balanceado com relação ao tempo. Por outro lado, caso a coleta seja feita de

forma que as observações sejam coletadas irregularmente no tempo, ou mesmo se houver dados

omissos, a caracterizamos como experimento desbalanceado com relação ao tempo. Além

disso, outra terminologia importante em estudos longitudinais refere-se às ti respostas da i-ésima

unidade amostral (i = 1,2, ...,n), conhecido como perfil individual de resposta, caracterizado

por yi = (yi1,yi2, ...,yiti)>.

Acresça-se, ainda, que o estudo de dados do tipo longitudinal apresenta também

peculiaridades em sua análise descritiva. A possível existência de correlação entre as observações

motiva a necessidade da construção de um gráfico de dispersão e correlação em relação ao

tempo (matriz de covariância amostral ou matriz de correlações amostrais), por exemplo. Outra

importante ferramenta é o denominado gráfico de perfis. Esse gráfico, com o auxílio do

perfil médio ou mediano (em alguns casos são mostradas também as barras de erros-padrão),

identifica possíveis correlações intra-unidades amostrais, bem como a possível existência de

heterocedasticidade e pontos remotos. Mais detalhes sobre esses termos, consultar (SINGER et

al., 2018), por exemplo.

O diferencial, portanto, da análise de dados do tipo longitudinal é considerar a

dependência existente dentro desses perfis individuais de respostas das unidades observadas. Não

considerar essa característica inerente pode nos levar a conclusões/interpretações equivocadas

dos resultados obtidos. Como ilustração, simulamos um exemplo hipotético, similar àquele

conhecido na literatura como paradoxo das vendas (DEMIDENKO, 2013), o qual temos interesse

em investigar se o desconto de um produto específico (aqui consideramos 5 categorias de produtos,

totalizando 10 produtos) afeta sua quantidade vendida. Observe na Figura 1 os valores coletados.

O gráfico do lado esquerdo apresenta a plotagem de todas as observações coletadas

considerando a independência entre as mesmas. Se ajustássemos um modelo de regressão

neste caso, poderíamos concluir que as vendas dos produtos caem com o aumento de seu

desconto. Entretanto, se considerarmos a existência de dependência entre as observações, isto é,

considerando que os produtos pertencem a categorias diferentes, como mostra o gráfico do lado

direito, a interpretação é totalmente diferente, ou seja, quanto maior o desconto oferecido, mais

Figura 1 – Desconto versus vendas de 5 produtos.

vendido é o produto, evidenciando-se, nesse caso, um paradoxo.

Desse modo, o trabalho adicional da metodologia de estudos envolvendo dados

longitudinais refere-se a forma sobre como será feita a modelagem da estrutura de dependência

dos dados. Em alguns casos, podemos fazer uma redução de um estudo multivariado para um

estudo univariado, não sendo necessária a utilização de técnicas sofisticadas para a análise. A

utilização do teste-t pareado ou ANOVA (paramétrica ou não-paramétrica), por exemplo, podem

ser suficientes. A primeira abordagem pode ser utilizada quando somente duas observações

são feitas sob a mesma unidade e, assim, um teste de comparação de médias será eficiente

para a situação. No caso da ANOVA (que pode ser utilizada quando tivermos mais que duas

observações de uma mesma unidade), entretanto, será necessária a utilização de medidas resumo,

como a área sob a curva e análise de desfecho. Detalhes a respeito podem ser vistos em Singer et

al. (2018), por exemplo.

Apesar de serem muito aplicadas em diversas situações, as análises utilizando

técnicas como as listadas acima podem ser limitadas em alguns casos. A partir disso, muitos

autores propuseram, ao longo do tempo, alternativas para as abordagens com o estudo do tipo

longitudinal. Grande parte das pesquisas iniciais destinaram-se aos casos em que a variável

resposta do modelo segue distribuição Normal. Dentre elas, podemos citar a análise de variância

com medidas repetidas (NETER et al., 1996), análise uni/multivariada de perfis e a análise de

curvas de crescimento Singer e Andrade (1986).

Mais propostas, portanto, foram desenvolvidas com a finalidade de dispor outras

alternativas para o estudo de dados longitudinais. Henderson (1953), por exemplo, propõe

modelar a estrutura de correlação por meio da inclusão de novas fontes de variação aleatória ao

modelo – chamados efeitos aleatórios –, para que seja possível a modelagem da dependência

intra-unidade amostral. Essa classe de modelos, denominada de Modelos Lineares Mistos, foi,

posteriormente, estendida à uma abordagem denominada de modelo em dois estágios por Laird e

Ware (1982) e Ware (1985). Essa proposta generaliza alguns modelos importantes, tais como o

modelo linear clássico, o modelo de componentes de variância e os modelos hierárquicos.

Todavia, nem sempre é razoável supor a hipótese de normalidade para alguns casos.

Seguindo a mesma ideia que Nelder e Wedderburn (1972) tiveram, ao propor a modelagem da

variável resposta por meio das distribuições da família exponencial linear (Modelos Lineares

Generalizados), Breslow e Clayton (1993) propuseram uma extensão dos modelos lineares

mistos, denominando de Modelos Lineares Generalizados Mistos. Outras abordagens que

podemos citar neste contexto são: Modelos Lineares Mistos Elípticos (SAVALLI et al., 2006)

e Modelos Lineares Mistos Assimétricos (LACHOS, 2004; ARELLANO-VALLE et al., 2005;

LACHOS et al., 2010).

Concomitantemente aos avanços dos estudos para dados longitudinais utilizando

modelos mistos, outras metodologias também foram apresentadas como extensões dos modelos

lineares generalizados para dados longitudinais. A proposta de Liang e Zeger (1986), a partir

das Equações de Estimação Generalizadas (EEG’s), teve importante contribuição na literatura.

Diferentemente dos modelos de efeitos aleatórios, que permitem modelar o comportamento

individual (na literatura denominados de modelos subject-specific), as EEG’s avaliam a diferença

na resposta média populacional entre grupos (na literatura, esses modelos são denominados

population-averaged).

A EEG’s surgem a partir da proposta de Wedderburn (1974), que desenvolveu os

modelos de quase verossimilhança, cuja teoria é considerada uma extensão da proposta de Nelder

e Wedderburn (1972), citada anteriormente. Wedderburn (1974) aborda a quase verossimilhança

no seu caso uni e multivariado, sendo este capaz de incluir a estrutura de correlação dos

dados (denominado de quase-verossimilhança multivariada). Porém, (ARTES; BOTTER, 2005)

afirmam que essa versão multivariada apresenta dificuldades no seu uso, tendo em vita que

a modelagem da matriz de correlação em função da média pode fornecer equações de difícil

solução analítica e, ao mesmo tempo, a proposta não garante que as correlações pertençam

ao intervalo [−1,1]. O que os autores das EEG’s propõem, portanto, é modelar a matriz de

correlação de trabalho independentemente da média, ou seja, os parâmetros de correlação são

estimados adicionalmente.

De uma forma geral, as Equações de Estimação Generalizadas são caracterizadas

por serem construídas sem a especificação de uma distribuição conjunta (por isso são baseadas

nos modelos de quase verossimilhança) e utilizam uma matriz de correlação de trabalho para

o vetor de medidas repetidas de cada unidade amostral (essa matriz não precisa ser correta

para se obter consistência dos estimadores de regressão). No intuito de aprimorar o trabalho de

Liang e Zeger (1986), Crowder (1987) propõs a teoria de função de estimação linear ótima para

obtenção de estimadores com boas propriedades a partir da EEG’s. Além disso, Prentice e Zhao

(1991) propõe a estimação dos parâmetros de correlação também via Equações de Estimação

Generalizadas, sendo conhecida como EEG do tipo 2, ou simplesmente EEG2.

Como na prática a suposição de homogeneidade da dispersão pode ser questionada,

as equações de estimação também passaram a ser utilizadas para modelar tal parâmetro – deno-

minada EEG do tipo 3, ou simplesmente EEG3, seguindo a proposta de Song et al. (2004). Além

disso, as equações de estimação têm sido estendidas para outras classes de modelos. Jorgensen

(1997) desenvolve para modelos de dispersão. Sob o contexto de que variáveis preditoras podem

influenciar a variável resposta através de uma função desconhecida, Lin e Carroll (2001) avaliam

o uso de funções Kernel para EEG’s semiparamétricas. Outras abordagens recentes utilizam os

Modelos Aditivos Generalizados (HASTIE; TIBSHIRANI, 1990) e as EEG’s sob a estrutura de

Modelos Parcialmente Lineares Aditivos Generalizados para dados correlacionados (WANG

et al., 2014; LIAN et al., 2014; MANGHI et al., 2019).

Venezuela et al. (2007) estenderam algumas técnicas de diagnóstico para EEG’s

considerando propostas similares às usadas nos Modelos Lineares Generalizados. Posteriormente,

Venezuela (2008) assume que a variável resposta de um modelo com observações correlacionadas

assumem valores somente no intervalo (0,1). Supõe, portanto, a distribuição marginal beta –

com a estrutura de regressão proposta por Ferrari e Cribari-Neto (2004) – e distribuição marginal

simplex. A partir disso, elabora uma extensão das propostas de EEG1 e EEG3 para os modelos,

desenvolvendo também medidas de diagnóstico, incluindo análise de influência local.

Além da distribuição beta e da distribuição simplex, outras extensões considerando

diferentes distribuições vem sendo desenvolvidas no campo das Equações de Estimação Gene-

ralizadas. Oesselmann (), por exemplo, desenvolve o modelo de regressão binomial negativo

para dados de contagem com sobredispersão, e Tsuyuguchi (2017) utiliza a metodologia com a

distribuição Birnbaum-Saunders.

1.2 Motivação e contribuição do trabalho

Delimitando o estudo para respostas com suporte em (0,1) (ou um suporte limitado

qualquer (a,b), com a < b), Hahn (2008) e García et al. (2011) observam que a distribuição

beta pode não modelar de forma satisfatória eventos próximos a cauda da distribuição, além

de não permitir uma flexibilidade maior na especificação da variância, limitando o uso de tal

distribuição para dados de taxas e proporções. A distribuição beta retangular, portanto, é proposta

por Hahn (2008) com intuito de acomodar essa limitação, considerando uma mistura entre a

distribuição beta e a distribuição uniforme. Bayes et al. (2012) propõem uma reparametrização

para a distribuição beta retangular e uma estrutura de regressão mais adequada para a média da

distribuição beta retangular.

Em vista disso, o presente trabalho utilizará a distribuição beta retangular, bem como

a estrutura de regressão da respectiva distribuição, para desenvolver equações de estimação

generalizadas para modelos de regressão beta retangular com medidas repetidas. Essas equações

de estimação serão desenvolvidas sob o enfoque da modelagem da média com homogeneidade

de dispersão e parâmetro de mistura fixo, tendo como base os trabalhos de Venezuela (2008),

que apresenta equações de estimação para os modelos de regressão beta e regressão simplex, e

no trabalho de Santos et al. (2017b), que apresentam a estimação dos parâmetros do modelo beta

retangular (sob uma nova parametrização) na visão frequentista.

1.3 Organização da dissertação

O trabalho está, portanto, dividido em duas partes, as quais visam, respectivamente,

realizar uma revisão bibliográfica sobre os modelos para observações independentes, tais como

modelos lineares generalizados – base para aplicação do estudo de Liang e Zeger (1986) –,

modelo de regressão beta – modelo utilizado por Venezuela (2008) para a construção de EEG’s –

e modelo de regressão beta retangular – modelo base para o desenvolvimento desta dissertação –,

além de mostrar conceitos básicos sobre as Equações de Estimação Generalizadas; e apresentar o

desenvolvimento da proposta com base na extensão das Equações de Estimação Generalizadas

para o modelo de regressão beta retangular, como as etapas de estimação, os métodos de

diagnóstico, simulações e aplicação.

2 MODELOS PARA OBSERVAÇÕES INDEPENDENTES

2.1 Modelos Lineares Generalizados

A suposição de normalidade para a variável resposta de um modelo de regressão

linear foi, por muito tempo, bastante utilizada para modelagem de diversos fenômenos aleatórios.

Mesmo nos casos em que os dados não tinham tal comportamento, algumas modificações eram

feitas para que se pudesse adotar a suposição, como é o caso da transformação de Box e Cox

(1964), por exemplo. Com o avanço computacional, alguns modelos foram ganhando espaço

na literatura e mostraram ser bem mais flexíveis do que os modelos antes utilizados. Dentre

eles, podemos citar os Modelos Lineares Generalizados, propostos por Nelder e Wedderburn

(1972), que constituem uma extensão dos modelos lineares usuais, de forma que a distribuição

da variável resposta é um caso regular da família exponencial linear.

(Família exponencial linear) A família exponencial linear é uma família de distribui-

ções cuja função densidade pode ser escrita na forma:

f (yi;θi,φ) = exp[

1ai(φ)

yiθi−b(θi)+ c(yi,φ)

], (2.1)

em que a(·), b(·), c(·) são funções conhecidas, θi é o parâmetro natural ou canônico e ai(φ) =

φ/wi, com wi o peso a priori e φ > 0, conhecido, o parâmetro de dispersão ou escala.

Muitas distribuições importantes podem ser escritas na forma (2.1), tais como:

binomial, Poisson, binomial negativa, Normal, gama e normal inversa, por exemplo.

Nesse contexto, o modelo se caracteriza pela especificação de três componentes,

sendo eles o componente aleatório, dado por (2.1), o componente sistemático (preditor linear),

ηi, e a função de ligação, g(·), que podem ser expressos da seguinte maneira:

ηi = g(µi).

O componente sistemático, dado por ηi = x>i β , é definido pelas variáveis regressoras

e o vetor η é denominado vetor de preditores lineares, em que β = (β1,β2, ...,βp)>, p < n,

é um vetor de parâmetros a serem estimados, xi = (xi1,xi2, ...,xip)> representam as variáveis

explicativas (cuja matriz de especificação formada deve ser de posto completo). Além disso,

considera-se que g(µ) é uma função (monótona e duplamente diferenciável) de ligação que

relaciona a média, µi, (ou componente aleatório, Y) com o componente sistemático η (PAULA,

2015).

É possível mostrar, sob as condições de regularidade, que

∂ log f (yi;θi,φ)

∂θi

)= 0 e (2.2)

∂ 2 log f (yi;θi,φ)

∂θ 2i

)=−E

[∂ log f (yi;θi,φ)

∂θi

2], (2.3)

em que E(yi) = µi = b′(θi) e Var(yi) = φ−1V (µi), em que V (µi) =∂ µi

∂θié denominada de função

de variância (caracteriza a distribuição) e φ−1 é o parâmetro de dispersão.

Jorgensen (1987) apresenta uma propriedade importante que relaciona a distribuição

de Y e a função de variância:

√φ(Y −µi)

d−→N (0,V(µ)) quando φ → ∞,

ou seja, não há necessidade de uma tamanho amostral grande, basta que φ seja grande para que

o comportamento da variável aleatória se aproxime de uma distribuição normal (mesmo essa

variável sendo discreta). A importância desse resultado reflete na facilidade da construção de

intervalos de confiança e testes de hipóteses.

O processo de estimação para esse modelo é baseado no método de máxima veros-

similhança. Nesse caso, após alguma álgebra, pode-se mostrar que o vetor escore é expresso

Uβ j =l(θ)∂β j

∑i=1

1ai(φ)

∂θi

∂ µi

∂ηi

∂β j− ∂b(θ)

∂θi

∂ µi

∂ηi

∂β j

∑i=1

1ai(φ)

yiV−1

i∂ µi

∂ηixi j−µiV−1

i∂ µi

∂ηixi j

∑i=1

1ai(φ)

(yi−µi)xi jV−1

i∂ µi

∂ηi

∑i=1

1ai(φ)

√ωi

Vi(yi−µi)xi j

com ai(φ) = φ/ωi e ωi =1

V(µi)

(∂ηi

∂ µi

O estimador de β é obtido quando resolvemos a equação Uβ = 0. Entretanto, essas

equações, em geral, não são lineares, fazendo-se necessário o uso de aproximações numéricas

para calcular as soluções do sistema. A abordagem mais utilizada é o método de Newton-

Raphson, cuja forma pode ser reexpressa por:

β(m+1) = β

(m)+(−U′(m)β

)−1(U(m)β

), m = 0,1,2, ...,

em que U′β

denota a primeira derivada de Uβ com respeito a β>, sendo U′(m)β

e U(m)β

as respectivas

quantidades avaliadas em β (m) (estimativa de β na m-ésima iteração).

Como a matriz −U′β

pode não ser positiva definida 1, essa quantidade é substituida

pelo seu valor esperado, I, gerando assim o método denominado Escore de Fisher:

β(m+1) = β

(m)+(I−1)(m)U(m) m = 0, 1, 2, ...,

sendo a matriz de informação de Fisher, I, dada por:

Ii =1φ

X>i WiXi,

com Wi = diag

V(µi)

(∂ µi

∂ηi

representado a matriz de pesos.

Utilizando os termos ai(φ) e Wi, expressos anteriormente, podemos reescrever a

função escore na forma:

Uβ j =1φ

∑i=1

(yi−µi)xi jWiDi

sendo Di =∂ηi

∂ µi= diagg′(µi). De forma que a função escore de β pode ser reescrita matrici-

almente como:

Ui =1φ

X>i WiDi(yi−µi). (2.4)

Os termos do processo iterativo também podem ser reescritos e expressos – como

um processo iterativo de mínimos quadrados reponderados – da seguinte forma

β(m+1) = (X>W(m)X)−1X>W(m)Z(m),

Z(m) = Xβ(m)+D(m)(y− µ

= η(m)+D(m)(y− µ

desempenhando o papel de uma variável dependente modificada.

Para mais detalhes sobre os modelos lineares generalizados, incluindo métodos de

diagnóstico e aplicações, sugerimos ao leitor ver McCulloch e Searle (2004) ou Paula (2015),

por exemplo.1 Uma matriz M é dita ser positiva definida se z>Mz > 0 para z vetores não nulos com entradas reais, Rn.

2.2 Modelo de Regressão Beta

Em diversas situações, como por exemplo em casos de variáveis respostas expressas

como contagens ou aquelas que assumem apenas valores positivos, a classe dos MLGs fornecem

boas alternativas de modelagem. Entretanto, em algumas outras situações, o comportamento

da variável resposta pode não apresentar semelhança alguma com as distribuições pertencentes

à família exponencial linear e, portanto, se faz necessário expandir o leque de distribuições a

serem utilizadas.

Um caso particular, por exemplo, é quando a variável resposta de interesse se

distribui continuamente no intervalo (0,1) - ou mais geralmente em um intervalo (a,b), com a e b

conhecidos e a < b - frequentemente encontrada em dados de taxas, índices e proporções. Para

esse caso, é sabido que a abordagem de modelos lineares generalizados pode não ser satisfatória

e uma outra distribuição, que não pertença à família exponencial linear, pode ser mais adequada

para essa modelagem. Dentre as possíveis distribuições, podemos citar a distribuição beta (a

ser utilizada neste trabalho), cujas diferentes especificações para modelos de regressão são

discutidas, como em Paolino (2001), Kieschnick e McCullough (2003), Ferrari e Cribari-Neto

(2004) e Smithson e Verkuilen (2006), por exemplo.

Dessa forma, considere Y uma variável aleatória com distribuição beta de parâmetros

denotados por p e q, com p > 0 e q > 0 e p,q ∈ R, denotada por Y ∼ B(p,q), cuja respectiva

densidade é dada por:

f (y; p,q) =Γ(p+q)Γ(p)Γ(q)

yp−1(1− y)q−1 I(0,1)(y). (2.5)

Para diferentes valores dos parâmetros p e q, respectivamente, o comportamento

da densidade beta é bastante flexível, assumindo diferentes formas, conforme é apresentado na

Figura (2).

O trabalho de Ferrari e Cribari-Neto (2004) destaca-se dentre os demais pelo fato

de especificar a estrutura de regressão, baseada na distribuição beta, de forma similar à classe

dos MLG’s. Os autores utilizam a seguinte reparametrização para o parâmetro de posição, µ , e

precisão, φ , na especificação do modelo de regressão:

p+qφ = p+q,

de forma que a densidade pode ser reescrita como:

g(y; µ,φ) =Γ(φ)

Γ(µφ)Γ((1−µ)φ)yµφ−1(1− y)(1−µ)φ−1, (2.6)

0.00 0.25 0.50 0.75 1.00

Figura 2 – Densidade da distribuição beta, B(p,q), para diferentes valores de p e q, respectiva-mente.

em que 0 < µ < 1 e φ > 0. A média e a variância são dados, respectivamente, por:

E(Y ) = µ e Var(Y ) =V(µ)

em que V(µ) = µ(1−µ), µ representa a média e φ , pode ser entendido como o parâmetro de

precisão (para um valor fixo de µ , quanto maior o valor de φ , menor a variância de Y ).

A seguir podemos observar os diferentes comportamentos que a distribuição beta

reparametrizada assume para diferentes valores de µ e φ , respectivamente:

0.00 0.25 0.50 0.75 1.00

(0.2,10)

(0.5,10)

(0.6,10)

(0.8,10)

0.00 0.25 0.50 0.75 1.00

(0.2,50)

(0.5,50)

(0.6,50)

(0.8,50)

Figura 3 – Densidade da distribuição beta, B(µ,φ), para diferentes valores de µ e φ , respectiva-mente

A estimação dos parâmetros da distribuição apresentada em (2.6) pode ser realizada

através do método de máxima verossimilhança, por exemplo. O logaritmo natural da função de

verossimilhança baseado numa única observação é dado por

l(µ,φ) = logB(y; µ,φ)

= logΓ(φ)− logΓ(µφ)− logΓ((1−µ)φ)+(µφ −1) logy

+ ((1−µ)φ −1) log(1− y).

A função escore de µ e φ são dadas, respectivamente, por

Uµ(µ,φ) =∂ l(µ,φ)

∂ µ= φ(y∗−µ

Uφ (µ,φ) = µ(y∗−µ∗)+ log(1− y)−Ψ((1−µ)φ)+Ψ(φ).

em que y∗i = log(y/1− y), µ∗ = Ψ(µφ)−Ψ[(1− µ)φ ] e Ψ(.) representa a função digama,

derivada da função gama (ABRAMOWITZ; STEGUN, 1965).

Note que as funções escores referentes aos parâmetros µ e φ podem ser reescritas

em função de uma nova resposta, y∗, e de um novo parâmetro, µ∗. Dessa forma, os resultados

inferenciais da distribuiçao beta de Ferrari e Cribari-Neto (2004) muito se assemelham aos dos

Modelos Lineares Generalizados.

Utilizando o fato de que o modelo assume as condições de regularidade definidas em

(2.2) e (2.3), temos que a média dessa nova variável é dada por:

E(φ(y∗−µ∗)) = 0⇔ E(y∗) = µ

e a variância, por:

Var(y∗) = Var(y∗−µ∗) = Var(y∗) = E[(y∗−µ

∗)2]

φ 2E[φ2(y∗−µ

∗)2]

= Ψ′(µφ)+Ψ

′((1−µ)φ),

sendo Ψ′a função trigama.

Considerando agora a estrutura de um modelo de regressão, considere y um vetor, tal

que y = (y1,y2, ...,yn)>, representando n variáveis aleatórias independentes, na qual cada yi, com

i = 1,2, ...,n, tem densidade beta, com média µi e parâmetro de precisão φ . Então, o modelo de

regressão beta (FERRARI; CRIBARI-NETO, 2004) pode ser expresso funcionalmente como:

g(µi) =p

∑j=1

xi jβ j = ηi, i = 1,2, ...,n.

Sendo g(µi) a função de ligação com domínio em (0,1) e imagem em R (duplamente

diferenciável e monótona); xi1,xi2, ...,xip observações de p covariáveis conhecidas (p < n) e β o

vetor de parâmetros de posição desconhecidos.

A estimação dos parâmetros do modelo ocorre de forma semelhante ao dos MLG’s.

A função escore para cada um dos parâmetros é dada por:

Uβ (β ,φ) = φX>T(y∗−µ∗) (2.7)

Uφ (β ,φ) =n

∑i=1µi(y∗i −µ

∗i )+ log(1− yi)−Ψ((1−µi)φ)+Ψ(φ) , (2.8)

em que X é uma matriz de especificação n× p, de posto completo, com a i-ésima linha dada

por x>i , y∗i = log(yi/1−yi), µ∗ = Ψ(µφ)−Ψ[(1−µ)φ ], T = diag(1/g′(µ1), ...,1/g

′(µn)), com

g′(µi) denotando a derivada de g(µi).

Os estimadores de máxima verossimilhança são obtidos resolvendo o seguinte sis-

tema de equações: Uβ (β ,φ) = 0,

Uφ (β ,φ) = 0.

Sob certas condições de regularidade, para tamanhos amostrais grandes, a distribui-

ção conjunta de β e φ é aproximadamente normal bivariada, de forma que √n(β −β )√

n(φ −φ)

∼Np+1

(0, K−1

sendo K a matriz de informação de Fisher que, segundo Ferrari e Cribari-Neto (2004), é dada

Kββ Kβφ

Kφβ Kφφ

em que Kββ = φX>WX, Kβφ = K>φ .β = X>Tc e Kφφ = tr(D), sendo W = diag(w1, ...,wn),

com wi = φΨ′(µiφ)+Ψ

′((1−µi)φ)g′(µi)2; D= diag(d1, ...,dn), com di = φΨ′

(µiφ)µ2+

Ψ′((1−µi)φ)(1−µi)

2−Ψ′(φ); e c = (c1, ...,cn)

>, com ci = φΨ′(µiφ)−Ψ

′((1−µi)φ)(1−

Existem na literatura algumas extensões do modelo de regressão beta (Smithson e

Verkuilen (2006), Simas et al. (2010)), que incremetam a dispersão variável no modelo, que

passa a ser denotado por B(µi,φi). Esse último ainda aborda preditores não-lineares no modelo.

Além dos métodos iniciais de diagnóstico apresentados em Ferrari e Cribari-Neto

(2004), existem ainda propostas relacionadas à medidas de influência e análise de resíduos, veja,

por exemplo, em Espinheira et al. (2008a) e Espinheira et al. (2008b). Além disso, Huang e

Oosterlee (2008) propõem um modelo de regressão beta generalizado misto com efeito aleatório

no preditor linear. Uma discussão a respeito da modelagem da regressão beta no software R,

incluindo tanto o trabalho de Ferrari e Cribari-Neto (2004) quanto o de Simas et al. (2010), é

apresentada com detalhes em Cribari-Neto e Zeileis (2010), o qual também consta a apresentação

do pacote betareg. E Ospina e Ferrari (2012) estendem o modelo beta no sentido de considerar

regressão beta para dados inflacionados de zero ou um.

2.3 Modelo de Regressão Beta Retangular

Apesar da vantagem relacionada à sua flexibilidade, a distribuição beta pode apre-

sentar limitações, visto que em alguns contextos prescrevem a utilização de uma distribuição de

cauda mais leve para a modelagem dos dados. Conforme observou Hahn (2008), cujo estudo

apresentou a aplicação da distribuição beta-PERT 2na avaliação do tempo de atividade de geren-

ciamentos de projetos, as conclusões excessivamente otimistas em relação aos resultados desses

projetos podem ser injustificáveis se valores extremos forem mais prováveis.

Nesse contexto, a distribuição beta não é particularmente flexível. Tal cenário induz

ao autor sugerir uma distribuição, baseada em uma mistura de uma distribuição beta usual e

uma uniforme padrão, que permite a modelagem de eventos mais extremos, bem como maior

flexibilidade na especificação da sua função de variância, denominando-a de distribuição beta

retangular, cuja densidade é definida abaixo:

g(y; µ,φ ,θ) = θ I(y)(0,1) + (1−θ)B(y; µ,φ) I(y)(0,1), (2.9)

em que 0 ≤ θ ≤ 1 é um parâmetro de mistura e B(y; µ,φ) é a densidade da distribuição beta

proposta por (FERRARI; CRIBARI-NETO, 2004).

Observe que para θ = 0, obtemos a distribuição beta e para θ = 1, obtemos a

distribuição uniforme padrão, ou seja, pela definição dada em (2.9), percebe-se que a distribuição

beta retangular nada mais é do que uma mistura de distribuições beta, de parâmetros µ e φ , e

uniforme padrão.

Denotamos a distribuição beta retangular por Y ∼ BR(µ,φ ,θ), na qual sua média e

variância são dadas, respectivamente, por (HAHN, 2008):

E(Y ) =θ

2+(1−θ)µ e Var(Y ) =

1+φ(1−θ)[1−θ(1+φ)]+

12(4−3θ). (2.10)

2 A distribuição PERT, amplamente utilizada em análise de risco, é uma família de distribuições de probabilidadecontínuas definidas pelos valores mínimo (a), mais provável (b) e máximo (c) que uma variável pode assumir. Éuma transformação da distribuição beta de quatro parâmetros com uma suposição adicional de que seu valor

esperado é µ =a+4b+ c

6(CLARK, 1962).

A seguir, podemos observar diferentes comportamentos que a distribuição beta

retangular assume para valores distintos de µ , φ e , θ , respectivamente:

0.00 0.25 0.50 0.75 1.00

(0.2, 10, 0)

(0.2, 10, 0.5)

(0.2, 10, 0.6)

(0.2, 10, 0.8)

0.00 0.25 0.50 0.75 1.00

(0.5, 10, 0)

(0.5, 10, 0.5)

(0.5, 10, 0.6)

(0.5, 10, 0.8)

Figura 4 – Densidade da distribuição beta retangular, BR(µ,φ ,θ), para diferentes valores de µ ,φ e θ .

Em sua representação gráfica é possível notar vantagens da distribuição beta retangu-

lar em relação à distribuiçao beta. A primeira delas consiste na possibilidade do controle das

caudas da distribuição por meio do incremento do parâmetro θ ao modelo, ou seja, dependendo

do seu valor, esse pode tornar a cauda mais leve ou pesada. A segunda é consequência da

primeira, ou seja, o fato de existir um parâmetro que controla as caudas, resulta em uma maior

abragência da distribuição, visto que permite a modelagem de eventos extremos.

Para a obtenção de uma estrutura de regressão mais adequada para a média da

distribuição beta retangular, Bayes et al. (2012) sugerem a seguinte reparametrização:

γ =θ

2+(1−θ)µ e α =

(1− θ

)+(1−θ)2µ(1−µ)

de modo que o espaço paramétrico de γ e α é um quadrado dado por

0≤ γ ≤ 1,0≤ α ≤ 1,

θ = 1−√

1−4αγ(1− γ) e µ =γ− 1

√1−4αγ(1− γ)√

1−4αγ(1− γ). (2.11)

Após a reparametrização, a média e variância da distribuição beta retangular são

obtidas substituindo (2.11) em (2.10). A respectiva densidade da distribuição, denotada por

Y ∼ BRr(γ,φ ,α), com parâmetro da média sendo representado por γ , pode ser expressa por:

h(y;γ,φ ,α) = 1−√

1−4αγ(1− γ)+√

1−4αγ(1− γ) I(0,1)(y)

γ− 12+

√1−4αγ(1− γ)√

1−4αγ(1− γ),φ

I(0,1)(y), (2.12)

sendo B

γ− 12+

√1−4αγ(1− γ)√

1−4αγ(1− γ),φ

a função densidade de probabilidade da distribuição

beta, conforme (2.6), com o parâmetro µ definido conforme a reparametrização sugerida por

Bayes et al. (2012).

A seguir podemos observar os diferentes comportamentos que a distribuição beta

retangular assume para diferentes valores de γ , φ e α , respectivamente:

0.00 0.25 0.50 0.75 1.00

(0.3, 10, 0)

(0.3, 10, 0.2)

(0.3, 10, 0.5)

(0.3, 10, 0.8)

0.00 0.25 0.50 0.75 1.00

(0.5, 10, 0)

(0.5, 10, 0.2)

(0.5, 10, 0.5)

(0.5, 10, 0.8)

0.00 0.25 0.50 0.75 1.00

(0.3, 50, 0)

(0.3, 50, 0.2)

(0.3, 50, 0.5)

(0.3, 50, 0.8)

0.00 0.25 0.50 0.75 1.00

(0.5, 50, 0)

(0.5, 50, 0.2)

(0.5, 50, 0.5)

(0.5, 50, 0.8)

Figura 5 – Densidade da distribuição beta retangular reparametrizada, BR(γ,φ ,α), para diferen-tes valores de γ , φ e α .

Considerando a estrutura de um modelo de regressão, tome y1,y2, ...,yn uma amostra

da distribuição BRr(γi,φi,α), i = 1,2, ...,n. A estrutura de regressão proposta por Bayes et al.

(2012) é dada por

g1(γi) = x>i β g2(φi) =−w>i δ , (2.13)

sendo β e δ os vetores de parâmetros associados a xi e wi, respectivamente; x>i = (xi1,xi2, ...,xik)

e w>i = (wi1,wi2, ...,wil) os vetores de k e l covariaveis, respectivamente; g1(·) uma função cuja

inversa é uma função de ligação que relaciona γi com as covariáveis xi; e g2(·) uma função de

ligação que relaciona φi com as covariáveis wi, com o sinal negativo presente para facilitar a

interpretação dos coeficientes estimados (SMITHSON; VERKUILEN, 2006).

Vale destacar que o modelo de regressão beta retangular apresenta a generalização de

dois casos particulares: se α = 0 e φi é constante, obtemos o modelo de regressão beta proposto

por Ferrari e Cribari-Neto (2004), por outro lado, se α = 0, obtemos o modelo de regressão beta

com dispersão variável proposta por Smithson e Verkuilen (2006).

A função de verossimilhança do modelo pode ser expressa, conforme (2.9) e (2.12),

respectivamente, por:

L(ϑ ,Y ) =n

∏i=1

fY (yi|µi,φi,θi) =n

∏i=1

gY (yi|γi,φi,α),

em que ϑ = (β>,γ>,α)>, são definidos em (2.13) sob a reparametrização definida em (2.11).

A estimação dos parâmetros do modelos de regressão pode ser feita tanto pela

abordagem frequentista (SANTOS et al., 2017b) como pela abordagem bayesiana (BAYES;

BAZÁN, 2014; SANTOS et al., 2017a). Para a primeira, é considerada a estimação por máxima

verossimilhança via algoritmo EM 3 (Expectation-Maximization), o que facilita o processo, dado

que a distribuição beta retangular é obtida através de uma mistura finita.

Nessa abordagem, portanto, considera-se ϑ = (β>,γ>,α)> e

L(ϑ ,Y ) =n

∏i=1

gY (yi|γi,φi,α).

O algoritmo EM, para os casos de distribuições de mistura, consiste em aumentar

os dados observados (ou incompletos) considerando um vetor U = (U1,U2, ...,Un)>, não obser-

vável, que informa de qual componente da mistura Yi se originou. Dessa forma, Santos et al.

(2017b) definem a seguinte variável latente

0, se Yi ∼ B(µi,φi) com probabilidade 1−θi,

1, se Yi ∼U(0,1) com probabilidade θi.

3 Detalhes são apresentados no Apêndice A.

Então, a distribuição dos dados faltantes tem distribuição Bernoulli, Ui|(yi,µi) ∼

Ber(θi), com probabilidade de sucesso dada por:

ui = E(Ui|yi,ϑ) = P(Ui = 0|yi,ϑ)+P(Ui = 1|yi,ϑ)

= P(Ui = 1|yi,ϑ)

θi +(1−θi)B(yi; µi,φi), (2.14)

em que θi = 1−√

1−4αγi(1− γi) e µi =γi−

√1−4αγi(1− γi)√

1−4αγi(1− γi).

A densidade conjunta dos dados completos (y>,U>) pode ser escrita da seguinte

forma:

g(yi,ui|ϑ) = θuii (1−θi)

1−uiB(yi; µi,φi)1−uiI(ui)0,1I(yi)(0,1),

com o logaritmo da função de verossimilhança na forma:

l(β ,γ,α,ui) =n

∑i=1ui logθi +(1−ui) log(1−θi)− (1−ui)

× [log(Γ(φi))− log(Γ(µiφi))− log(Γ(1−µi)φi)

+ (µiφi−1) logyi +((1−µi)φi−1) log(1− yi)].

Q(ϑ |ϑ (m)) = E(l(ϑ |y,µ)|y, ϑ))

∑i=1u(m)

i logθi +(1− u(m)i ) log(1−θi)− (1− u(m)

× [log(Γ(φi)) log(Γ(µiφi))− log(Γ(1−µi)φi)

+ (µiφi−1) logyi +((1−µi)φi−1) log(1− yi)]

∑i=1

Qi(ϑ |ϑ (m)),

e o segundo passo, passo M, maximiza Qi(ϑ |ϑ (m)) com relação a ϑ , obtendo ϑ (m+1). Pelo fato

de Q(ϑ |ϑ (m)) não possuir solução analítica, (SANTOS et al., 2017b) faz o uso da estimação

por métodos numéricos, neste caso usando L-BFGS-B (BYRD et al., 1995). A implementação

do algoritmo, portanto, é realizada em dois passos:

Passo E: Dado ϑ = ϑ , calcule u(m)i , para i = 1,2, ...,n utilizando (2.14);

Passo M: Atualize ϑ (m+1) maximizando Q(ϑ |ϑ (m)).

Esse processo será utilizado como base na estimação dos parâmetros do modelo

proposto neste trabalho. Para mais detalhes sobre o estudo do modelo de regressão beta retangular,

sob as perspectivas frequentista e bayesiana, consultar Santos et al. (2017b), Santos et al. (2017a)

e Alencar (2016), por exemplo.

No próximo capítulo, apresentamos conceitos Funções de Estimação, inclunido as

funções de estimação regular, ótima e linear, além da informação de Godambe. Em seguida,

introduzimos conceitos sobre quase verossimilhança e Equações de Estimação Generalizadas.

Nesta última, abordaremos sua extensão para modelos lineares generalizados e para regressão

3 EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS

3.1 Introdução

As Equações de Estimação Generalizadas, desenvolvidas inicialmente por Liang e

Zeger (1986), formam uma importante classe de modelos para análise de dados longitudinais

(e análise de dados multivariados em geral) com distribuição marginal pertencente à família

exponencial linear. Alguns trabalhos que trazem uma boa revisão sobre esse tema, incluindo

aplicações, são Godambe (1997), Ziegler et al. (1998) e Hardin e Hilbe (2003), por exemplo.

Tais equações foram basedas na teoria envolvendo as funções de estimação, cujos

conceitos podem ser encontrados em Godambe (1960), Godambe (1997), Jorgensen e Laboriau

(1994), Artes et al. (2000), Jorgensen (2003) e Artes e Botter (2005), e os modelos de quase

verossimilhança, proposto por Wedderburn (1974).

Neste capítulo apresentamos de forma sucinta as definições envolvendo tanto funções

de estimação – incluindo função de estimação regular, linear e linear ótima, além de informação

de Godambe – quanto conceitos sobre os modelos de quase verossimilhança, cujas funções

de estimação levam a estimadores consistentes e assintoticamente normais dos parâmetros do

modelo de regressão.

Ademais, são apresentados pontos resumidos do trabalho de Liang e Zeger (1986),

que serviram como base para o trabalho de Venezuela (2008) (também apresentado na sequência),

que utiliza as equações de estimação para o desenvolvimento do modelo de regressão beta para

dados de medidas repetidas. Esses trabalhos servirão como base para o desenvolvimento da

metodologia proposta nesta dissertação.

Vale ressaltar que muitas outras extensões, considerando diferentes distribuições,

vem sendo desenvolvidas no campo das Equações de Estimação Generalizadas. A título de

ilustração, podemos citar o trabalho de Oesselmann (), que propõe uma abordagem alternativa

para analisar dados correlacionados com distribuição binomial negativa, considerando dados de

contagem com sobredispersão, bem como o trabalho de Tsuyuguchi (2017), que propõe uma

abordagem alternativa para analisar dados correlacionados com distribuição Birnbaum-Saunders.

3.2 Funções de estimação

As funções de estimação, de acordo com (ARTES et al., 2000), são funções mensurá-

veis dos dados e dos parâmetros de interesse, cujas raízes resultantes das equações de estimação

são as estimativas dos parâmetros.

(Função de estimação) Seja (X ,A ,P) um espaço de probabilidade, tal que X ∈R

e P ∈ Pθ : θ ∈ Θ ⊆ Rp, tal que p ∈ N (dimensão do espaço paramétrico). Uma função

ψ : X ×Θ −→ Rp é uma função de estimação se para cada θ ∈ Θ, ψ(·,θ) é uma variável

aleatória.

Assumindo a existência de uma amostra com n vetores aleatórios independentes,

estende-se o conceito de estimação para a amostra:

(Função de estimação da amostra) Seja ψi(yi,θ) a função de estimação da i-ésima

unidade amostral, então:

Ψn(y;θ) =n

∑i=1

ψi(yi;θ), (3.1)

com dimensão p×1, sendo y = (y>1 ,y>2 , ...,y

>n )> um vetor (N×1), N = ∑

ni=1 ti, i = 1,2, ...,n

(com ti denotando o número de observações do indivíduo i) é denominada função de estimação

da amostra.

Por apresentar uma definição muito ampla e que engloba os mais variados tipos

de funções, vamos restringir os estudos das funções de estimação àquelas cujas raízes são

estimadores dos parâmetros de interesse, ou seja,

Ψn(y; θ) = 0, (3.2)

então estaremos avaliando as chamadas equações de estimação (que será o foco do estudo neste

trabalho).

(ARTES; BOTTER, 2005) Considere uma amostra y1,y2, ...,yn, de variáveis aleató-

rias independentes, na qual p(yi;θ) é a função densidade de probabilidade regular associada a yi.

Portanto, a função escore

Ψn(y;θ) =n

∑i=1

∂θlog p(yi;θ),

é uma função de estimação.

Para facilitar a escrita da notação, vamos utilizar Ψ(θ) quando a referência for feita

à função de estimação – conforme Artes e Botter (2005).

A função de estimação não viciada é outra definição importante para o desenvolvi-

mento da teoria de funções de estimação.

(Função de estimação não viciada) Uma função de estimação é dita ser não viciada,

Eθ Ψn(y;θ)= 0, ∀θ ∈Θ. (3.3)

A seguir definimos a matriz de variabilidade e matriz de sensibilidade de uma função

de estimação Ψ(θ).

(Matriz de variabilidade) Seja Ψ(θ) uma função de estimação não viciada. A matriz

de variabilidade de Ψ(θ) é definida por

VΨ(θ) = Eθ (Ψ(y,θ)Ψ>(y,θ))

(Matriz de sensibilidade) Seja Ψ(θ) uma função de estimação não viciada. A matriz

de sensibilidade de Ψ(θ) é definida por

SΨ(θ) = Eθ

∂θ>Ψ(θ)

)= Eθ ∇θ Ψ(y,θ)

No caso da matriz de sensibilidade, relacionada à derivada parcial da mesma em

relação aos parâmetros, é desejável que uma pequena variação no vetor paramétrico leve a uma

grande variação no valor da função de estimação, pois quanto maior essa variação, mais eficiente

a função será na estimação do parâmetro. No caso da matriz de variabilidade, espera-se que

a função de estimação apresente pequena variabilidade, pois dessa forma garante-se que no

verdadeiro valor do parâmetro, seu valor aproxime-se de seu valor médio, que é nulo (ARTES;

BOTTER, 2005).

Ademais, é necessário estabelecer algumas condições sob as quais as raízes de

uma função de estimação possuam boas propriedades assintóticas. Os conceitos sobre função

de estimação regular e informação de Godambe são pontos importantes para o estudo dessas

propriedades, as quais abordaremos no próximo tópico. Mais detalhes podem ser encontrados

em Godambe (1960), Godambe (1997), Jorgensen e Laboriau (1994), Artes et al. (2000) e Artes

e Botter (2005), por exemplo.

3.2.1 Função de estimação regular e informação de Godambe

(Função de estimação regular) Uma função de estimação ψ(y;θ)= (ψ1,ψ2, ...,ψp)> :

X ×Θ−→ Rp é dita ser uma função de estimação regular se as condições a seguir forem satis-

feitas para todo θ ∈Θ:

i. ψi(y;θ) é não viciada;

ii. A derivada parcial de Ψi(y;θ) com respeito a θi existe e é contínua quase certamente;

iii. É possível permutar o sinal de integração e diferenciação da seguinte forma:

∂θl

Ψ(y;θ)dPθ =∫X

∂θlΨ(y;θ)dPθ ,

com l = 1,2, ..., p;

iv. Eθ (ψ j(θ)ψk(θ)) ∈ R, com j,k = 1,2, ..., p e

Vψ(θ) = Eθ (Ψ(y,θ)Ψ>(y,θ))

é positiva definida;

v. Eθ

∂θlψ j(θ)

∂θmψk(θ)

), com j,k, l,m = 1,2, ..., p e

SΨ(θ) = Eθ ∇θ Ψ(y,θ)

é não singular.

Se o parâmetro de interesse é unidimensional, então os pontos (iv.) e (v.) se reduzem,

respectivamente, a

0 < EθΨ2(y;θ)< ∞ Eθ

∣∣∣∣∂Ψ(y;θ)

∣∣∣∣< ∞.

A seguir, apresentaremos a definição de Informação de Godambe, que desempenha

um papel similar à Informação de Fisher, para funções de estimação regulares.

(Informação de Godambe) Seja Ψ(y;θ) uma função de estimação regular. Define-se

a matriz de informação de Godambe de θ associada a Ψ por

JΨ(θ) = S>Ψ(θ)V−1Ψ

(θ)SΨ(θ).

Vale ressaltar que a função escore, obtida a partir de uma função densidade de

probabilidade regular, satisfaz as propriedades da Definição 3.2.1 e, além disso, SΨ(θ) =

−VΨ(θ), o que faz com que sua matriz de informação de Godambe coincida com a matriz de

informação de Fisher (ARTES; BOTTER, 2005).

A seguir, é apresentado o teorema que estabelece condições para normalidade

assintótica de estimadores obtidos a partir de funções de estimação regulares no caso de θ

unidimensional.

(JORGENSEN; LABORIAU, 1994). Seja θ um parâmetro unidimensional e con-

sidere a amostra de variáveis aleatórias independentes y1,y2, ...,yn, com y = (y1,y2, ...,yn)>.

Uma sequência de raízes θnn≥1 associada a uma função de estimação regular Ψn(y,θ) =

∑ni=1 Ψi(yi;θ) é tal que

θnp−→ θ ,

assintoticamente normal√

n(θ −θ)d−→N (0,J−1

Ψ(θ)),

em que

JΨ = S2(θ)/V (θ)

S(θ) = limn→∞

∑i=1

n(θ); SΨi(θ) = Eθ∇θ ψi(yi,θ), (3.4)

V (θ) = limn→∞

∑i=1

n(θ); VΨi(θ) = Eθψ2

i (yi,θ). (3.5)

No caso do parâmetro ser unidimensional, basta provar a consistência das raízes de

uma função de estimação regular para que se tenha distribuição assintótica conhecida (ARTES;

BOTTER, 2005). No caso multidimensional – desenvolvido por (ARTES, 1997) –, sob condições

de regularidade, a matriz

JΨ(θ) = S>(θ)V−1(θ)S(θ),

em que

S(θ) = limn→∞

∑i=1

Sn(θ)

n= lim

n→∞

∑i=1

SΨi(θ)

n(3.6)

V (θ) = limn→∞

∑i=1

Vn(θ)

n= lim

n→∞

∑i=1

VΨi(θ)

n, (3.7)

com SΨi(θ) = Eθ∇θ ψi(yi;θ) e VΨi(θ) = Eθψi(yi;θ)ψ>i (yi;θ), desempenha o papel de

uma matriz de informação de Godambe assintótica associada a Ψn.

Dessa forma, o vetor de parâmetros θ também é consistente e tem distribuição

assintótica normal, ou seja,

θnp−→ θ

√n(θ −θ)

d−→N (0,J−1Ψ

(θ)). (3.8)

3.2.2 Função de estimação ótima e função de estimação linear

O conceito de otimalidade de uma função de estimação regular foi

desenvolvido por Godambe (1960). Para o caso de θ ser unidimensional, é possível definir uma

função de estimação ótima como aquela cujas raízes possuem variância assintótica mínima. No

caso multidimensional esse conceito pode ser estendido como por meio e uma ordenação das

matrizes de covariâncias assintóticas. Chandrasekar e Kale (1984) mostra a definição para essa

ordenação e Artes e Botter (2005) fazem comentários sobre esse resultado.

Partindo dessa questão, (CROWDER, 1987) avalia a geração de funções de estimação

que são ótimas em uma sub-classe de funções regulares. Nesse sentido, o autor estuda as

chamadas funções de estimação lineares.

(Função de estimação linear) Sejam Qi(θ), i = 1,2, ...,n, matrizes não estocásticas,

não singulares e de pesos que, eventualmente, podem depender de θ e bi, i = 1,2, ...,n, vetores

aleatórios de média zero e mutualmente independentes satisfazendo as condições de função de

estimação regular. Então, bi gera uma classe de funções de estimação lineares definida por:

L (b) =

Ψn(θ) ∈ R : Ψn(θ) =

∑i=1

Qi(θ)bi(yi;θ)

, (3.9)

sendo R o conjunto contendo todas as funções regulares de θ e b = (b>1 ,b>2 , ...,b

>n )>.

Segundo o autor, a função de estimação linear ótima dentre as da classe L (b) é

obtida quando a matriz de pesos é dada por:

Ψon(θ) =

∑i=1

Qoi (θ)bi(yi;θ), (3.10)

em que

Qoi (θ) = E

(∂bi

∂θ>

)Cov(bi)

−1 (3.11)

Cov(bi) = Var(bi)1/2R(bi)Var(bi)

1/2, (3.12)

sendo Var(bi) = diagVar(bi1), ...,Var(bis) e R(bi) a verdadeira matriz de correlação de bi com

dimensão s× s.

Acresça-se, ainda, que as equações normais obtidas a partir do método de mínimos

quadrados é ótima em uma classe de funções de estimação regulares e lineares. O mesmo ocorre

para o método dos mínimos quadrados generalizados (ARTES; BOTTER, 2005).

3.3 Quase verossimilhança

Nem sempre especificar um correspondente multivariado para distribuição de proba-

bilidade de uma variável é uma tarefa simples – o caso da normal multivariada é uma rara exceção

a qual conseguimos especificar. São necessárias, portanto, opções que não levem em considera-

ção a função de verossimilhança para a estimação de parâmetros do modelo. Como alternativas

a esse problema são propostos os chamados modelos marginais, os quais não necessitam que

a distribuição conjunta de yi seja especificada, isto é, apenas é conhecido o comportamento da

média da distribuição em função das variáveis explicativas e a relação entre a média e a variância

da mesma.

Artes e Botter (2005) utilizam um exemplo para ilustrar o desconhecimento da

distribuição conjunta e, consequentemente, o uso da estimação por quase verossimilhança,

considerando uma variável resposta de um modelo de regressão que representa contagem. Para

esse caso, seria natural admitir a modelagem utilizando a distribuição de Poisson. Entretanto,

ao realizar a análise descritiva e ao calcular a função desvio, nota-se evidências de que existe

superdispersão dos dados, ou seja, a variância dos dados é superior à sua média, evidenciando uma

possível limitação ao uso da distribuição Poisson. Neste caso, várias extensões são apresentadas

na literatura como alternativas de modelagem, em nosso caso, vamos considerar o uso do método

de quase verossimilhança.

Dessa forma, sendo Y uma variável aleatória de interesse, Wedderburn (1974) define

o logaritmo da função de quase verossimilhança por

Q(µ;y) =1

y− tV (t)

em que V (t) é uma função positiva e conhecida,−∞< y<∞ e σ2 > 0 é o parâmetro de dispersão.

Pelo fato de termos uma integral definida, então

∂Q(µ;y)∂ µ

=y− t

σ2V (t)|µy =

y−µ

σ2V (µ). (3.13)

Wedderburn (1974) chama a função (3.13) de função quase escore, em analogia

a função escore da família exponencial linear, pelo fato de ambas apresentarem as mesmas

propriedades, ou seja,

∂Q(µ;Y )∂ µ

)= 0 e

[∂Q(µ;Y )

∂ µ

2]=−E

∂ 2Q(µ;Y )

∂ 2µ

com E(Y ) = µ e Var(Y ) = σ2V (µ). Dessa forma, o cenário se assemelha aos Modelos Lineares

Generalizados, visto que, µ é a média da variável Y e a variância de Y é proporcional à V (µ).

Outrossim, o autor mostra ainda que

iii. −E

∂ 2Q(µ;Y )∂ 2µ

≤−E

∂ 2L(µ;Y )

∂ 2µ

sendo L(µ;Y ) a função de verossimilhança de µ . Essa terceira propriedade mostra que quando

se conhece a verossimilhança dos dados, a informação à respeito de µ é maior.

Considerando agora a existência de um modelo de regressão, com yi, i = 1,2, ...,n,

uma amostra de variáveis aleatórias independentes com distribuição desconhecida, com média µi

e parâmetro de dispersão φ−1, associa-se à observação i, a existência de um vetor p-dimensional

de covariáveis fixas xi, de modo que

g(µi) = x>i β = η e Var(yi) = φ−1V(µi),

sendo g(·) a função de ligação, monótona e duplamente diferenciável, e β um vetor p-dimensional

de parâmetros de regressão. A função de quase verossimilhança para a observação i é dada por

Qi(µi;yi) = Qi = φ

∫µi

yi−µi

V(µi)dµi, (3.14)

e para a amostra completa é dada por

∑i=1

(yi−µi)2

Var(yi)=

∑i=1

(yi−µi)2

φ−1V(µi).

Note que a ideia desse método consiste na estimação dos parâmetros utilizando

mínimos quadrados ponderados pela variância de yi.

Utilizando os conceitos expostos anteriormente, a função de estimação ótima na

classe L (y−µ) para um único indivíduo é dada por

Qi(µi;yi) = Qi = φ

∫µi

yi−µi

V(µi)dµi, (3.15)

cuja derivada em relação à β é expressa por:

Ψi(β ) =∂Qi

∂β= φ

∂ µi

∂ηi

∂β= φxi

∂ µi

∂ηi

yi−µi

V(µi).

Utilizando a representação dos termos pela forma matricial e considerando Ψn(β ) =

∑ni=1 ψi(β ), temos que a função de estimação é dada por

Ψn(β ) = φX>HW−1(y−µ) = φD>W−1(y−µ), (3.16)

com Hi = diag∂dµi/∂dηi e W = Cov(y) = diagV1,V2, ...,Vn, sendo D> = X>H.

Para relacionar a função quase escore e as funções de estimação lineares ótimas,

considere o Teorema a seguir.

Sob condições gerais de regularidade, a função de estimação (3.16) é a função de

estimação linear ótima da classe L (y−µ). Além disso, a informação de Godambe de β baseada

em Ψn(β ) é dada por

JΨn(β ) = φD>W−1D.

McCullagh (1983) provou, sob condições gerais de regularidade, que o estimador de

quase verossimilhança, obtido como raiz da função quase escore, é consistente e que√

n(βn−

β ) converge em distribuição para uma normal p-variada com vetor média zero e matriz de

covariância J−1, com J = limn−→∞

n. As estimativas de β e φ podem ser obtidas através de

algoritmos semelhantes aos apresentados para os modelos lineares generalizados (ARTES;

BOTTER, 2005). (WEDDERBURN, 1974) apresenta ainda a função quase desvio e mostra uma

proposta para a estimação do parâmetro φ .

Considere agora que tenhamos um modelo multivariado, ou seja, uma amostra

(y>i ,x>i )>, com yi vetores aleatórios t dimensionais independentes e X>i = (xi1,xi2, ...,xit) veto-

res não aleatórios p-dimensionais. Define-se o modelo de quase verossimilhança multivariado

E(yi j) = x>i jβ = µi j, Var(yi j) = φ−1V(µi j) e Corr(yi) = Γ(µi).

A função quase escore multivariada (ARTES; BOTTER, 2005), que sob condições

gerais de regularidade é regular e função de estimação ótima na classe das lineares geradas por

yi−µi, é dada então por

Ψ(β ) = φ

∑i=1

D>i W−1i (yi−µi),

com Wi = Cov(yi) = φ−1A1/2i Γ(µi)A

1/2i e Ai = diagV1, ...,Vn.

Alguns pontos, todavia, limitam e tornam o uso da teoria de quase verossimilhança

multivariada inviável. Artes e Botter (2005) apresentam-os da seguinte forma:

i. Em alguns casos não há uma função de quase verossimilhança;

ii. Apresenta problemas na modelagem com dados desbalanceados;

iii. A modelagem de Γ como função da média pode acarretar dificuldades técnicas.

O autor afirma ainda que para existir uma função de quase verossimilhança, no caso

multivariado, faz-se necessário que ∂Ψn/∂β seja simétrica, o que geralmente não ocorre. Outro

problema frisado, refere-se à modelagem de Γ, ou seja, deve-se garantir que Γ seja sempre uma

matriz de correlação, isto é, que os elementos de fora da diagonal principal estejam restritos

ao intervalo [−1;1] e, além disso, é necessário que a mesma seja uma matriz positiva definida.

Considere como exemplo que t = 3 e admita que ρi, jk = Corr(yi j,yik). Ao tomarmos ρi, jk =

arctang( f (µi)), como exemplo, sendo f uma função qualquer, garantimos que −1≤ ρi, jk ≤ 1,

mas não garantimos que a matriz resultante será positiva definida.

Uma solução para contornar esse problema e garantir que a matriz seja positiva

definida, seria modelar ρi,12 e ρi,13 e modelar a correlação parcial entre yi2 e yi3 eliminado o

efeito de yi1. Todavia, apesar de ser uma interessante solução teórica, essa abordagem torna a

modelagem bem complicada e que não tem grande aplicabilidade (ARTES; BOTTER, 2005).

3.4 Equações de Estimação Generalizadas

A solução para esses problemas, proposta por Liang e Zeger (1986), estende a

situação anterior elaborando as chamadas Equações de Estimação Generalizadas para análise

de dados longitudinais (EEGs). Os autores propõem uma matriz de correlação dada por Ri(ρ) –

substituindo a matriz Γ(µi) proposta na quase verossimilhança – em que ρ = (ρ1,ρ2, ...,ρp)> é

um vetor de parâmetros de perturbação que, funcionalmente, independem de β . Dessa forma, o

problema na modelagem presente no método de quase verossimilhança seria amenizado, pois os

parâmetros da matriz de correlação não dependem mais dos parâmetros de posição. A seguir

apresentamos os pontos principais abordados em (LIANG; ZEGER, 1986).

3.4.1 Equações de estimação para modelos lineares generalizados com medidas repetidas

Considere o perfil de respostas referentes à i-ésima unidade amostral denotado

por yi = (yi1,yi2, ...,yiti)>, i = 1,2, ...,n (por simplicidade, consideraremos o caso balanceado

ti = t, todavia os resultados continuam válidos para os casos desbalanceados), assumindo que a

distribuição marginal de yi j pertence à família exponencial linear. Assim como Liang e Zeger

(1986), apresentaremos, inicialmente, o caso mais simples, ou seja, o caso em que a existência

de dependência entre as observações é ignorada.

É possível definir um modelo linear generalizado para cada instante t acrescentando

a (2.1) a parte sistemática

g(µit) = ηit .

Para a construção da função de estimação ótima, precisamos da quantidade definida

em (3.10), logo:

(∂bi

∂β>

∂β>(yi−µi)

(∂ µi

∂θi

∂ηi

∂βi

)>=−Xi∆iAi =−D>i

Covβ (bi) = Cov(yi) = diagVar(yi j)= φ−1diagb′′(θi)= φ

−1Ai,

sendo Xi = ∂ηi/∂β , ∆i = diag∂θi j/∂ηi j e Ai = diag∂ µi j/∂θi j = diagb′′(θi j) (neste

caso, b(·) denota a função da família exponencial) na qual ∆i é uma matriz que define a função

de ligação e Ai é uma matriz definida a partir da função de variância.

Dessa forma, a função de estimação ótima (que nesse caso é denominada de equação

de estimação de indepedência) coincide com a expressão da função escore do MLG, e é denotada

ΨIn(β ) = φ

∑i=1

D>i A−1i (yi−µi). (3.17)

Segundo (LIANG; ZEGER, 1986), o estimador obtido em (3.17) é consistente e tem

distribuição assintótica normal multivariada de média zero e matriz de covariância JI dada por:

J−1I = lim

n−→∞n

∑i=1

−1 n

∑i=1

que, conforme (3.4) e (3.5), pode ser reescrita na forma:

J−1I = lim

n−→∞n

∑i=1

X>i ΛiAiΛiXi

−1 n

∑i=1

X>i ΛiCov(Yi)ΛiXi

∑i=1

X>i ΛiAiΛiXi

A desvantagem do estimador obtido a partir da equação de estimação de indepen-

dência, entretanto, é que ele pode não ter alta eficiência nos casos em que a correlação entre as

observações é grande (LIANG; ZEGER, 1986).

Sob essa conjuntura, que muito se assemelha à estrutura do modelo de quase ve-

rossimilhança para dados independentes, os autores propõem uma modificação na equação de

estimação independente, para desenvoler a equação de estimação generalizada, ao considerar

Ri (que não depende de µi) como sendo a verdadeira matriz de correlação dos dados. Porém, a

função originada a partir dessa matriz de correlação é pouco utilizada, visto que, na prática, Ri é

desconhecida.

A partir disso, (LIANG; ZEGER, 1986) consideram, então, a matriz Ri(ρ), que não

necessariamente precisa ser a verdadeira matriz de correlação dos dados. Ou seja

Var(yi) = Ωi = φA1/2i Ri(ρ)A

1/2i , (3.18)

sendo Ri(ρ) uma matriz de dimensão ri× ri, em que ρ = (ρ1,ρ2, ...,ρp)> é um vetor de parâme-

tros de perturbação que, funcionalmente, independem de β . A essa matriz, os autores chamam

de matriz de correlação de trabalho.

Para a estimação do vetor β é necessário resolver o seguinte sistema de equações

que, como já dito, recebe o nome de Equações de Estimação Generalizadas.

Ψn(β ) =n

∑i=1

D>i Ω−1i (yi−µi) = 0. (3.19)

Entretanto, a função equação (3.17) se torna viciada e, consequentemente, deixa de

ser ótima. É necessário, portanto, que ρ satisfaça algumas condições, de modo que o estimador

obtido em (3.17) continue apresentando as propriedades de consistência e distribuição assintótica

normal.

(LIANG; ZEGER, 1986) – Seja βn a raiz de (3.19), sob condições gerais de regulari-

dade, com ||βn−β ||= Op(1) e assumindo que ρ é um estimador√

n-consistente de ρ , dados β

e φ−1, têm-se que β é um estimador consistente de β e

√n(β −β )

d−→Np(0,J−1),

quando n−→ ∞, no qual

J−1 = limn−→∞

∑i=1

−1 n

∑i=1

que, conforme (3.4) e (3.5), são expressas por

∑i=1

Si = E[

∂β>Ψ1(β )

]= −

∑i=1

X>i WiΛ−1i Eβ

∂β>(y∗i −µ

∗i )

)= −

∑i=1

X>i WiΛ−1i XiΛi

= −n

∑i=1

X>i WiXi, (3.20)

∑i=1

Vi = E[Ψ1(β )Ψ1(β )>] =

∑i=1

X>i ΛiΩ−1i E[(y∗i −µ

∗i )(y

∗i −µ

∗i )>]Ω−1

i ΛiXi

∑i=1

X>i ΛiΩ−1i Cov(y∗i −µ

∗i )Ω

−1i ΛiXi. (3.21)

Para mais detalhes sobre inferência e diagnóstico, consultar (LIANG; ZEGER, 1986),

(ARTES; BOTTER, 2005) e Venezuela (2008), por exemplo.

3.4.2 Equações de estimação para o modelo de regressão beta com medidas repetidas

Venezuela (2008) propôs o uso de equações de estimação generalizadas para situa-

ções em que a variável dependente é medida de forma contínua no intervalo (0,1) e há mais do

que uma observação realizada em uma mesma unidade amostral.

As equações de estimação apresentadas aqui são baseadas na suposição de que a

variável resposta tem distribuição marginal Beta (a parametrização será a mesma de Ferrari

e Cribari-Neto (2004)), cuja explanação se limitará a apresentar somente a modelagem do

parâmetro de posição, supondo homogeneidade do parâmetro de precisão (a autora também

apresenta a modelagem supondo heterogeneidade para o parâmetro de precisão).

Seja, portanto, yi =(yi1,yi2, ...,yit)> o vetor de respostas da i-ésima unidade amostral,

com i = 1,2, ...,n, com ti = t, sem perda de generalidade. Assumindo que yi j ∼ B(µi j,φ), isto é,

que a densidade de yi j seja dada por:

b(yi j; µi j,φ) =Γ(φ)

Γ(µi jφ)Γ((1−µi j)φ)yµi jφ−1

i j (1− yi j)(1−µi j)φ−1. (3.22)

Para a construção das equações de estimação generalizadas para o modelo de re-

gressão beta, Venezuela (2008) utilizou a definição de função de estimação linear ótima. Nessa

definição, é necessário ter vetores bi = bi(yi,β ) com média zero e mutualmente independentes

que satisfazem as mesmas propriedades das funções de estimação regulares.

No contexto de modelos de regressão beta com medidas repetidas, inicialmente,

define-se bi = yi−µi, com yi = (yi1,yi2, ...,yit)> e µi = (µi1,µi2, ...,µit)

> os quais satisfazem

tais propriedades.

Entretanto, quando temos independência entre as mesmas unidades amostrais, caso

que seria reduzido ao modelo proposto por Ferrari e Cribari-Neto (2004), os vetores bi’s não

geram uma classe L (b). Para contornar tal problema, Venezuela (2008) propôs

bi = y∗i −µ∗i ,

com y∗i e µ∗i seguindo estrutura semelhante a encontrada no modelo de regressão beta.

Com essa transformação, os vetores agora geram uma classe L (b), no caso de

independência, e continuam sendo vetores com média zero e mutualmente independentes, e

ainda com propriedades das funções de estimação regulares.

Considerando a possível dependência entre as observações da mesma unidade amos-

tral, os termos da função de estimação são dados por:

(∂bi

∂β>

∂β>(y∗i −µ

∗i )

)>=−

(∂ µ∗i∂ µi

∂ µi

∂ηi

∂βi

)>=−φX>i GiAi

Cov(bi) = V(y∗i )1/2R(y∗i )V(y∗i )

1/2 = A1/2i R(y∗i )A

1/2i ,

com Xi = (xi1, ...,xit)>, Gi = diag∂g−1(ηi1/∂ηi1), ...,∂g−1(ηit/∂ηit e Ai = diagai1, ...,ait,

com ai j = Ψ′(µi jφ)+Ψ′((1−µi j)φ), e R(y∗i ) a verdadeira matriz de correlação de y∗i .

A função de estimação linear ótima de β , quando consideramos a verdadeira matriz

de correlação de y∗i e φ conhecido é:

Ψo1(β ) = ∑XiΛiCov(bi)

−1(y∗i −µ∗i ).

Sob as condições do Teorema 1 (ARTES; BOTTER, 2005), temos que β , solução de

Ψo1(β ) = 0 é um estimador consistente de β e que

√n(β −β )

D−→Np(0,J−1).

Como, na prática, a verdadeira matriz de correlação é desconhecida, (VENEZUELA,

2008) considera a proposta de (LIANG; ZEGER, 1986) considerando R(ρ), satisfazendo as

condições para ser uma matriz de correlação de trabalho, em que ρ caracteriza completamente

R(ρ). A função de estimação generalizada de β é dada por:

Ψ1(β ) =n

∑i=1

X>i ΛiΩ−1(y∗i −µ

∗i ) =

∑i=1

X>i WiΛi(y∗i −µ∗i ), (3.23)

com Ωi = A1/2i R(ρ)A1/2

i e Wi = AiΩiAi.

A função de estimação definida anteriormente deixa de ser ótima. Nesse caso é

necessário que um estimador, ρ , de ρ seja determinado de modo que o estimador de β obtido

em (3.23) seja consistente e assintoticamente normal. A autora apresenta o Teorema 4.2 para

conseguir tais propriedades.

Além disso, como φ quase sempre é desconhecido, também é necessário propor um

estimador para esse parâmetro, de forma que o mesmo seja ao menos fracamente consistente (de

modo a garantir propriedades assintóticas).

Venezuela (2008) propõe, portanto, a utilização de processo iterativo que combina o

método Escore de Fisher para estimar β com o método dos momentos para estimar ρ e φ . Além

disso, apresenta a modelagem conjunta dos parâmetros de posição e precisão, incluindo técnicas

de diagnóstico, simulações e aplicações para ambas as abordagens. A autora ainda desenvolve

a abordagem considerando a distribuição simplex (abordagem alternativa para dados de taxas

e proporções). Os comentários e as extensões sobre as técnicas de diagnóstico utilizadas por

(VENEZUELA, 2008) serão abordados com mais detalhes no Capítulo 5.

Como dito no início do capítulo, muitas outras extensões, considerando distribuições

diferentes da beta, vem sendo desenvolvidas no campo das Equações de Estimação Generalizadas.

(VENEZUELA, 2008) ainda estende a proposta para o modelo de regressão simplex; Oesselmann

() propõe o modelo de regressão binomial negativo para dados de contagem com sobredispersão; e

Tsuyuguchi et al. (2019) propõem a análise de dados correlacionados com distribuição Birnbaum-

Saunders. Neste trabalho, será desenvolvida a proposta para a análise de dados correlacionados

com distribuição beta retangular.

4 EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS PARA O MODELO DE RE-

GRESSÃO BETA RETANGULAR

4.1 Introdução

Venezuela (2008) propôs equações de estimação generalizadas para dados de medidas

repetidas cujo comportamento da variável resposta é modelado pela distribuição beta. Entretanto,

adotar a distribuição beta para a modelagem de variáveis restritas ao intervalo (0,1) com a

presença de valores extremos pode gerar um modelo mal ajustado e/ou pouco robusto, conforme

observou Hahn (2008). O autor sugere então, a utilização da distribuição beta retangular, cujo

modelo de regressão com abordagem bayesiana foi desenvolvido por Bayes et al. (2012) e cuja

abordagem frequentista foi desenvolvida por Santos et al. (2017b).

Seguindo a linha de estudo de Venezuela (2008), que utilizou a proposta de Ferrari e

Cribari-Neto (2004) para construir equações de estimação generalizadas para a construção do

modelo de regressão beta para dados de medidas repetidas, bem como o estudo de Santos et al.

(2017b), apresentamos neste capítulo a construção de equações de estimação generalizadas para

o modelo de regressão beta retangular com medidas repetidas.

Inicialmente, considerar-se-á o caso mais simples: a modelagem da média sob a

suposição da homogeneidade do parâmetro de precisão (supondo que o parâmetro de precisão φ

e o parâmetro de mistura α são conhecidos e assumindo que ti = t, sem perda de generalidade).

Posteriormente, apresentamos a modelagem considerando a mesma estrutura, porém supondo

que o parâmetro de precisão φ e o parâmetro de mistura α são desconhecidos. Nesta última

abordagem, o processo de estimação se dará por meio da extensão do algoritmo EM.

4.2 Modelagem do parâmetro de posição (φ e α conhecidos)

Seja yi = (yi1,yi2, ...,yit)> o vetor de respostas da i-ésima unidade amostral, com

i = 1,2, ...,n. Considere que a densidade marginal de yi j seja distribuição beta retangular, com

respectiva densidade dada por:

h(yi j;γi j,φ ,α) = 1−√

1−4αγi j(1− γi j)+√

1−4αγi j(1− γi j) I(0,1)(y)

γi j−12+

√1−4αγi j(1− γi j)√

1−4αγi j(1− γi j),φ

I(0,1)(y), (4.1)

sendo E(yi j) = γi j, φ−1 o parâmetro de dispersão e α o parâmetro associado a mistura, ambos

conhecidos.

Dessa forma, as médias γi j são modeladas como nos modelos lineares generalizados,

ou seja,

g(γi j) = ηi j, (4.2)

com ηi j = x>i jβ o preditor linear, β = (β1, ...,βp)>, p < n, o vetor de parâmetros a serem

estimados e g(·) uma função monótona e duplamente diferenciável (função de ligação).

Considerando a densidade de yi j dada por (4.1) e o componente sistemático dado

por (4.2), com bi = y∗i −µ∗i , i = 1,2, ...,n, vetores com média zero e mutuamente independentes

(mesma estrutura da distribuição beta), temos que os termos da função de estimação para modelos

de regressão beta retangular para dados de medidas repetidas são dados por:

(∂bi

∂β>

∂β>(y∗i −µ

∗i )

)>=−

(∂ µ∗i∂ µi

∂ µi

∂γi

∂ηi

∂βi

)>=−φX>i GiAiEi

Cov(bi) = A1/2i R(y∗i )A

1/2i ,

sendo Xi =(xi1, ...,xit)>, Gi = diag

∂g−1(ηi1)/∂ηi1, ...,∂g−1(ηit)/∂ηit

, Ai = diagai1, ...,ait,

com ai j = (Ψ′(µi jφ)−Ψ′((1−µi j)φ)), sendo Ψ′ a função trigama, e Ei = diagei1, ...,eit, com

ei j =

14− 1

αγi j(γi j−1)+14

]√4αγi j(γi j−1)+1

para i = 1,2, ...,n e j = 1,2, ..., t, com R(y∗i ) a verdadeira matriz de correlação de y∗i (para

facilitar a notação, utilizaremos Λi = φGiAiEi).

A função de estimação linear ótima de β , quando consideramos a verdadeira matriz

de correlação de y∗, com φ e α conhecidos, é equivalente a:

Ψo1(β ) =

∑i=1

XiΛiCov(bi)−1(y∗i −µ

∗i ). (4.3)

Sob as condições do Teorema 3.2.1, temos que β , solução de Ψo1(β ) = 0, é um

estimador consistente de β e que

√n(β −β )

d−→Np

0, limn−→∞

∑i=1

X>i ΛiCov(bi)−1

−1 .

Como na prática a verdadeira matriz de correlação geralmente é desconhecida,

seguimos a proposta de (LIANG; ZEGER, 1986) e definimos R(ρ) para ser a matriz simétrica

(t× t) que satisfaz as condições para ser uma matriz de correlação em que o vetor ρ (s× 1),

caracteriza completamente R(ρ). Com isso, a função de estimação generalizada de β é dada por

Ψ1(β ) =n

∑i=1

X>i ΛiΩ−1i (y∗i −µ

∗i ) =

∑i=1

X>i WiΛ−1i bi, (4.4)

sendo Ωi = A1/2i R(ρ)A1/2

i e Wi = ΛiΩ−1i Λi.

Todavia, o incrementando da matriz R(ρ) em (4.4) a tornará, provavelmente, uma

função de estimação viciada, deixando assim de ser ótima. Tal situação pode prejudicar a

qualidade do estimador de β em termos de suas propriedades assintóticas (como já dito tanto

para o caso das EEG’s para MLG’s quanto para o caso das EEG’s para regressão beta).

Seguindo a abordagem de (LIANG; ZEGER, 1986), consideramos um estimador

ρ de ρ determinado de modo que o estimador de β , obtido a partir de (4.4), seja consistente e

assintoticamente normal, embora essa função de estimação continue sendo viciada. O teorema a

seguir, semelhante ao apresentado no Teorema 4.2, pois agora precisamos incluir a existência do

parâmetro α , garante tais propriedades.

Seja βn a raiz de (4.4), sob condições gerais de regularidade, com ||βn−β ||= Op(1)

e assumindo que ρ é um estimador√

n-consistente de ρ , dados β , φ e α , têm-se que β é um

estimador consistente de β e√

n(β −β )d−→Np(0,J−1),

quando n−→ ∞, no qual

J−1 = limn−→∞

∑i=1

−1 n

∑i=1

que, conforme (3.4) e (3.5), são expressas por

∑i=1

Si = E[

∂β>Ψ1(β )

]= −

∑i=1

X>i WiΛ−1i Eβ

∂β>(y∗i −µ

∗i )

)= −

∑i=1

X>i WiΛ−1i XiΛi

= −n

∑i=1

X>i WiXi, (4.5)

∑i=1

Vi = E[Ψ1(β )Ψ1(β )>] =

∑i=1

X>i ΛiΩ−1i E[(y∗i −µ

∗i )(y

∗i −µ

∗i )>]Ω−1

i ΛiXi

∑i=1

X>i ΛiΩ−1i Cov(y∗i −µ

∗i )Ω

−1i ΛiXi. (4.6)

Logo, a partir do Teorema 4.2, a matriz de covariâncias de β pode ser consistente-

mente estimada pelo chamado estimador sanduíche:

J−1n =

∑i=1

−1 n

∑i=1

X>i ΛiΩibib>i ΩiΛiXi

∑i=1

no qual todas as quantidades são avaliadas no ponto β .

Quando, de fato, a matriz de correlação de trabalho, R(ρ), coincidir com a verdadeira

matriz de correlação dos y∗i , os estimadores de β terão aumento de eficiência (LIANG et al.,

1992). Além disso, Ωi = Cov(ui) e o estimador robusto se reduz ao estimador naive:

J−1n = n

∑i=1

4.2.1 Estimação de β e ρ

Para obter β , combinaremos no processo iterativo, o método Escore de Fisher para

estimar β com o método dos momentos para estimar ρ , já que φ e α são fixos e conhecidos.

Precisamos então, resolver a equação:

Ψ1(β ) =n

∑i=1

XiΛiΩ−1i (y∗i −µ

∗i ) = 0. (4.7)

Utilizando um processo similar ao dos MLGs, tem-se que o processo iterativo obtido

através do método de Newton-Raphson pode ser expresso por:

β(m+1) = β

(m)−E[

∂β>Ψ1(β

Ψ1(β(m)),

= β(m)+

∑i=1

X>i WiXi

]−1[ n

∑i=1

XiΛiΩ−1i (y∗i −µ

∗i )

sendo m = 0,1,2, ... as atualizações das estimativas no passo vigente.

De forma similar ao que é realizado nos MLGs, podemos reescrever a estimativa do

vetor de parâmetros β na (m+1)-iteração como a solução de mínimos quadrados reponderados,

com o auxílio da matriz de pesos Wi e de uma variável modificada zi:

β(m+1) =

∑i=1

X>i WiXi

]−1[ n

∑i=1

X>i Wizi

, (4.8)

sendo Xi = (xi1, ...,xit)>, Wi = ΛiΩ

−1i Λi e zi = η + Λbi, com Ωi = A1/2

i R(ρ)A1/2i . Além disso,

Λi = φGiAiEi, sendo Gi = diag

∂g−1(ηi1)/∂ηi1, ...,∂g−1(ηit)/∂ηit

, Ai = diagai1, ...,ait,

com ai j = Ψ′(µi jφ)−Ψ′((1−µi j)φ), e Ei = diagei1, ...,eit, com

ei j =14(1−α)[

αγi j(γi j−1)+14

]√4αγi j(γi j−1)+1

para i = 1,2, ...,n e j = 1,2, ..., t.

Para o parâmetro ρ , a estrutura de correlação entre as observações da unidade

amostral pode ser especificada de várias formas, conforme Artes (1997), dentre elas: identidade,

padrão uniforme, auto-regressiva de ordem 1 e não-estruturada. É importante frisar que a matriz

de correlação reflete as correlações de y∗i j e y∗il , ou de bi j e bil , com

bi j = y∗i j−µ∗i j,

para i = 1, ...,n, j = 1, ..., t e l = 1, ..., t, com j 6= l. Desse modo, apresentamos a seguir as

estruturas citadas:

i. (Matriz de correlação padrão uniforme). Assume que Cov(bi j,bil) = ρ , ∀ j 6= l e 1≤ j,

l ≤ t. Assim, no passo m, teremos a estimativa expressa por:

ρ(m) =

ni=1 ∑

tj>l b(m)

i j b(m)il

∑ni=1 ∑

t−1.

ii. (Matriz de correlação autoregressiva de primeira ordem). Assume que Cov(bi j,bil) =

ρ | j−l|, com 1≤ j, l ≤ t. Assim, no passo m, teremos a estimativa expressa por:

ρ(m) =

∑ni=1 ∑

t−1j=1 b(m)

i j b(m)i, j+1[

∑ni=1 ∑

t−1j=1

∑ni=1 ∑

)2]1/2 .

iii. (Matriz de correlação não estruturada) Assume que ρ = (ρ12,ρ13, ...,ρt−1,t) é um vetor

com l(l−1)/2 componentes, com ρ jl denotando a correlação entre bi j e bil , i = 1,2, ...,n

e j, l = 1,2, ..., t, com j < l. Assim, no passo m, teremos a estimativa de ρ jl expressa por:

ρ(m)jl =

ni=1 b(m)

i j b(m)il

∑ni=1

)2]1/2[

∑ni=1

)2]1/2 .

4.2.2 Etapas do processo iterativo para estimação dos parâmetros

Apresentamos a seguir os passos para a estimação dos parâmetros apresentados, com

base na metodologia apresentada para estimação de β e ρ .

1. Supondo que as observações de uma mesma unidade amostral sejam independentes,

utilizamos a função betareg (CRIBARI-NETO; ZEILEIS, 2010) para obter as estimativas

iniciais de β .

2. Utilizando a equação de estimação independente (subtituindo R(ρ) pela matriz indentidade

em 4.4), consideramos as estimativas obtidas no passo (1) e utilizamos o método Escore de

Fisher para estimar β . As estimativas são calculadas até a convergência de β no processo

iterativo.

3. Por fim, utilizando a equação de estimação generalizada (dada por 4.4), consideramos as

estimativas obtidas no passo (2) e utilizamos o método Escore de Fisher para estimar β e o

métodos dos momentos para estimar ρ . As estimativas são calculadas até a convergência

de β no processo iterativo.

4.3 Modelagem do parâmetro de posição (φ e α desconhecidos)

Conforme foi apresentado, a função de estimação generalizada de β é dada por (4.4),

ou seja,

Ψ1(β ) =n

∑i=1

∗i ) =

∑i=1

X>i WiΛ−1i bi,

sendo Ωi = A1/2i R(ρ)A1/2

i e Wi = ΛiΩ−1i Λi.

Para a estimação dos parâmetros do modelo, considerando agora φ , α e ρ desco-

nhecidos, a proposta deste trabalho consiste em combinar o processo iterativo do algoritmo EM

(adaptado para nossa abordagem) para a estimação dos parâmetros β , φ e α , com o método dos

momentos para estimação de ρ .

Utilizando o Teorema 4.2, temos que dados β , φ e α , β é um estimador consistente

de β . Logo, a matriz de covariâncias de β pode ser consistentemente estimada pelo chamado

estimador sanduíche:

J−1n =

∑i=1

−1 n

∑i=1

X>i ΛiΩibib>i ΩiΛiXi

∑i=1

no qual todas as quantidades são avaliadas no estimador β . Para o parâmetro ρ , as estruturas de

correlação seguem as mesmas propostas anteriormente, isto é, as estruturas padrão uniforme,

autoregressiva de primeira ordem e não estruturada.

4.3.1 Estimação de β , φ , α e ρ

Conforme apresentamos no tópico dedicado à regressão beta retangular, a estimação

dos parâmetros envolvidos pode ser obtida utilizando o algoritmo EM. Todavia, devido ao

fato de estarmos trabalhando com equações de estimação generalizadas, é necessário adaptar a

abordagem do algoritmo.

Primeiramente, o vetor β será estimado considerando independência entre as obser-

vações. Posteriormente, definimos os valores iniciais para os parâmetros φ e α , sendo φ , obtido

por meio da estimativa do parâmetro de precisão utilizando a função betareg do software R

(CRIBARI-NETO; ZEILEIS, 2010) e α sendo obtido utilizando a ideia de Santos et al. (2017b).

A proposta de Santos et al. (2017b) se baseia na ideia de que α controla as caudas da

distribuição beta retangular (conforme vimos na Figura 5). Os autores consideraram relacionar

esse parâmetro com os graus de liberdade (g) da distribuição t-Student (que também possui a

mesma característica) e considerar o chute inicial como a estimativa pelo método dos momentos

(gMM). Entretanto, esse parâmetro assume valores positivos, g > 0, e α é um parâmetro limitado

ao intervalo [0;1]. A proposta então limita-se em considerar a transformação grep = gMM/(1+

gMM). A estimativa de α , conforme Santos et al. (2017b), no processo iterativo de passo (m) é

então expressa por:

α(0) =

−2∑ni=1 ∑

tj=1 y2

∑ni=1 ∑

tj=1 y2

i j + t. (4.9)

Definidos estes valores, estima-se β novamente, agora considerando a dependência

e estima φ e α utilizando o algoritmo EM.

4.3.2 Etapas do processo iterativo para estimação dos parâmetros

1. Supondo que as observações de uma mesma unidade amostral sejam independentes,

utilizamos a função betareg (CRIBARI-NETO; ZEILEIS, 2010) para obter as estimativas

iniciais φ e β . O valor inicial para α é calculado com base em (4.9).

2. Utilizando a equação de estimação independente (subtituindo R(ρ) pela matriz indentidade

em 4.4), consideramos as estimativas obtidas no passo (1) e combinamos o algoritmo EM

para estimar φ e α com o método Escore de Fisher para estimar β . As três estimativas são

calculadas até a convergência de β no processo iterativo.

3. Por fim, utilizando a equação de estimação generalizada (dada por 4.4), consideramos as

estimativas obtidas no passo (2) e combinamos o algoritmo EM para estimar φ e α , com

métodos dos momentos para estimar ρ , e o método Escore de Fisher para estimar β . As

quatro estimativas são calculadas até a convergência de β no processo iterativo.

Obtidas as estimativas dos parâmetros de interesse, abordaremos, no próximo capí-

tulo, métodos de avaliação do modelo de regressão beta retangular considerando a homogenei-

dade do parâmetro de dispersão, apresentando métodos para identificação de pontos remotos,

observações influentes e envelope simulado.

5 MÉTODOS DE DIAGNÓSTICO

O ajuste de um modelo de regressão na análise de dados nada mais é do que uma

tentativa de aproximação da real relação funcional existente entre as variáveis. É de interesse,

portanto, avaliar o quão próximo o modelo ajustado está do real, além de avaliar o quão robusto o

mesmo é após a realização do ajuste. Para isso, são necessárias técnicas, descritas neste capítulo,

que auxiliam na indicação de um bom ajuste.

O conjunto dessas técnicas forma uma vasta área de estudo chamada de análise

de diagnóstico. Sua abordagem é dividida em dois tópicos, o primeiro consiste na análise de

resíduos e a segundo refere-se à análise de sensibilidade. No primeiro, o interesse é avaliar as

suposições a respeito da fonte de variação do modelo e de sua forma funcional; já no segundo, o

interesse é avaliar sua robustez, isto é, se o mesmo é sensível ou não a observações extremas

(por meio da identificação de pontos influentes e/ou alavanca).

Para os modelos lineares e os modelos lineares generalizados essas técnicas estão

detalhadamente apresentadas e podem ser encontradas, por exemplo, em Paula (2015). Conside-

rando a estrutura de dependência, Tan et al. (1997) desenvolveram tais técnicas para modelos de

regressão logística. Com base no trabalho desses autores, Venezuela et al. (2007) propõem uma

generalização para os modelos lineares generalizados com medidas repetidas e, posteriormente,

Venezuela (2008) apresenta uma extensão de tais procedimentos para o modelo de regressão

Com base nesses autores, são apresentadas a seguir as técnicas existentes para

identificação de pontos remotos e observações influentes – por meio dos elementos da diagonal

principal da matriz de projeção, distância de Cook e resíduos – para equações de estimação em

modelos de regressão beta retangular considerando a homogeneidade do parâmetro de dispersão.

5.1 Resíduos

Resgatando o que apresentamos no capítulo anterior, o processo iterativo na forma

de mínimos quadrados reponderados, para estimar β , com o auxílio da matriz de pesos Wi e de

uma variável modificada zi, é dado por:

β(m+1) =

∑i=1

X>i WiXi

]−1[ n

∑i=1

X>i Wizi

, (5.1)

sendo zi = η + Λbi.

Na convergência do processo iterativo para estimar o vetor de parâmetros, temos a

seguinte simplificação da expressão 5.1:

X>WX)−1

X>Wz, (5.2)

Note que, se considerarmos uma analogia de (5.2) com a solução de mínimos

quadrados da regressão normal linear, os termos W1/2

z e W1/2

X podem ser interpretados,

respectivamente, como o vetor de respostas e a matriz de especificação (essa extensão é a mesma

utilizada por Pregibon (1981) para os Modelos Lineares Generalizados).

Dessa forma, vetor de resíduos ordinários é dado por

ro = yi− µi

= yi−Xβ

= W1/2z−W1/2Xβ

= W1/2z−W1/2X(X>WX)−1X>Wz

= (I−W1/2X(X>WX)−1X>W1/2)W1/2z

= (I−H)W1/2z,

que também pode ser reescrito como ro = W1/2(z−η), sendo In a matriz identidade (n×n) e

H uma matriz bloco diagonal (t× t), isto é, H = diag(H1, ...,Hn), com

H = W1/2X(X>WX)−1X>W1/2.

Como os elementos de ro podem possuir variâncias diferentes, utiliza-se o resíduo

padronizado associado à observação yi j. Para isso, é necessário calcular a Cov(ro), ou seja:

Cov(ro) = Cov((I−H)W1/2z)

= (I−H)W1/2Cov(z)W1/2(I−H),

utilizando o fato de que z = η +Λbi, então

Cov(z) = Λ−1Cov(y)Λ−1 = W−1,

logo, Cov(ro) = (I−H).

O resíduo padronizado, conforme Venezuela (2008), é então definido por

rpi j =e>W 1/2(z−η)√

1−hi j.

5.2 Pontos de alavanca, discrepantes e influentes

Os pontos de alavanca são aqueles que possuem um perfil diferente dos demais no

que tange aos valores das variáveis explicativas - têm uma influência desproporcional no próprio

valor ajustado (um valor alto de hi j indica a influência de xi j sobre o respectivo valor ajustado,

yi j). Os pontos aberrantes são aqueles que possuem um perfil diferente dos demais no que tange

aos valores da variáveis resposta (e também apresenta baixo valor na matriz de projeção H). Por

esse motivo, dificilmente um ponto é alavanca e aberrante. Os pontos influentes, por sua vez, são

aqueles que têm uma influência desproporcional nas estimativas dos coeficientes.

Conforme apresentado no tópico anterior, o resíduo ordinário pode ser escrito como

r0 = (I−H)W1/2z. Utilizando novamente o fato anteriormente exposto, de que W1/2

z faz o

papel do vetor resposta, podemos utilizar H como sendo a matriz de projeção ortogonal, de

forma semelhante ao que se faz no modelo normal linear. Ou seja, os elementos da diagonal

principal dessa matriz,

Hi = Wi1/2Xi(Xi

>WiXi)−1Xi

>Wi1/2,

serão utilizados para detecção de pontos de alavanca.

Portanto, a j-ésima observação da i-ésima unidade amostral será um ponto de

alavanca, se a j-ésima observação da diagonal principal de Hi apresentar um valor alto comparado

aos demais valores observados, para i = 1,2, ...,n e j = 1,2, ..., l. Venezuela (2008) lembra que

os valores altos de hi j nem sempre são pontos de alavanca, pois tais valores dependem da matriz

de pesos Wi.

Para identificar a existência de possíveis pontos discrepantes, Venezuela (2008)

sugere a utilização do gráfico que consiste na plotagem do resíduo padronizado, (rPD)i j, definido

em (5.3), versus o indíce i. Para detectar um ponto influente, é utilizada a distância de Cook

(COOK, 1977), que mede o afastamento entre a estimativa do vetor paramétrico utilizando todas

as observações, θ e a estimativa do vetor paramétrico sem a observação yi j, θi j, com i = 1,2, ...,n

e j = 1,2, ..., l′.

Dessa forma, quando se exclui a observação yi j, a distância de Cook é dada por

DCi j =1d(θ − θi j)

>X>WX(θ − θi j)

= r2pdi j

d(1−hi j).

Para a indentificação de pontos influentes, portanto, plota-se o gráfico de DCi j versus

o índice i e verifica-se qual observação possui valor destacado das demais. Essa maneira de

avaliar a existência de pontos influentes é baseada na exclusão de cada observação. Entretanto,

(COOK, 1986) desenvolveu outro procedimento baseado na avaliação desses pontos a partir do

efeito de pequenas perturbações em componentes do modelo. No tópico a seguir, detalhamos

mais sobre essa abordagem.

5.3 Medidas de influência local

Os trabalhos desenvolvidos nesta área de diagnóstico, iniciaram com Cook (1986),

que apresentou o que é conhecido na literatura como influência local. Sua proposta avalia a

influência de perturbações, nos dados ou no modelo, por meio do comportamento de medidas

específicas. Essas medidas auxiliam na escolha do melhor modelo para os dados coletados.

Para um melhor entendimento da importância desse método de diagnóstico, Paula

(2015) faz uma ilustração motivadora para o tema. O autor considera uma variável explicativa

que mede uma distância particular. É possível identificar, por meio de uma medida de influência,

que pontos com distâncias altas produzem grandes variações na respectiva medida adotada, ou

seja, a variável explicativa escolhida pode ser muito sensível para valores altos, podendo não ser

indicada sua utilização na modelagem.

Dessa forma, denotando L(θ) como o logaritmo da função de verossimilhança do

modelo ajustado e θ um vetor r-dimensional, o método proposto por Cook (1986) considera per-

turbações feitas no logaritmo da verossimilhança, de forma que a função de log-verossimilhança

associada ao modelo perturbado é denotada por L(θ |ω). Para denotar o vetor de não pertur-

bação, usaremos L(θ |ω0), assumindo-se que existe um vetor de não perturbação ω0, tal que

L(θ |ω0) = L(θ).

Para avaliar a influência das perturbações considera-se a medida

LD(ω) = 2L(θ)−L(θω),

denominada afastamento da verossimilhança (Likelihood Displacement), em que θω denota o

estimador de máxima verossimilhança obtido sob o modelo L(θ |ω), sendo ω ∈ O ⊆ R (em

geral, ω é um vetor de dimensão N×1).

Com essa proposta, podemos então avaliar a influência sobre a estimativa de θ

quando variamos ω . Porém, ω pode assumir uma infinidade de valores, o que torna essa

abordagem inviável. Cook (1986) propõe então, avaliar o comportamento local de LDω para

valores numa vizinhança de ω0 (vetor não perturbação).

Segundo o autor, ao avaliar LD(ω) em torno de ω0, procura-se uma direção de

norma unitária `, ||`||= 1, e então avaliamos o gráfico de LD(ω0+al) contra a, em que a∈R. O

gráfico é conhecido como linha projetada, e cada linha pode ser caracterizada por uma curvatura,

denotada por C`(θ), em torno de a = 0. A direção `max é sugerida, pois corresponde à maior

curvatura, denotada por C`max (PAULA, 2015).

Com base nisso, para identificar quais observações exercem influência desproporci-

onal em LD(ω), sob pequenas perturbações, utilizamos o gráfico de `max versus a ordem das

observações.

Cook (1986) mostra, após manipulações algébricas, que a curvatura normal na

direção ` assume a forma

C`(θ) = 2|`>∆>L−1

∆`|,

em que L−1 é a matriz de informação de Fisher, ∆ é uma matriz r× q com elementos ∆i j =

∂ 2L(θ |ω)

∂θi∂ω j, avaliados em θ = θ e ω = ω0, i = 1, ...,r e j = 1, ...,q.

Considerando um caso mais geral, Cadigan e Farrell (2002) avaliam a medida de

influência por meio do afastamento de qualquer função de ajuste F (θ) (como por exemplo,

a quase verossimilhança), duplamente diferenciável em θ e que tem como estimador de θ ,

denotado por θ , a solução de

Ψ(θ) =∂F (θ)

∂θ= 0.

Assim, a medida de afastamento é dada por:

FDω = 2F (θ)−F (θω),

sendo θω o estimador que maximiza a função de ajuste perturbada F (θ |ω). Observe que quando

a função de ajuste é definida pelo logaritmo da verossimilhança, temos LDω = FDω .

Neste caso geral então, a curvatura normal passa a ser expressa por:

Cl(θ) = 2|`>∆>F−1

∆`|,

em que

∆ =∂ 2F (θ |ω)

∂θ∂ω>=

∂(θ |ω)

∂ω>

F =∂ 2F (θ |ω)

∂θ∂θ>=

∂(θ |ω)

∂θ>,

com todas as quantidades avaliadas em θ = θ e ω = ω0, com Ψ(· |·) é o vetor gradiente da

função de ajuste F (· |·).

Com base nisso, para identificar os pontos influentes, sob alguma perturbação,

seguimos o mesmo raciocínio no caso anterior. Observamos o direção do autovetor `max cor-

respondente à linha projetada de maior curvatura Cmax que é obtida pelo maior autovalor da

matriz

∆>F−1

5.3.1 Influência local para equações de estimação

Sabemos que no contexto de equação de estimação generalizada a função de veros-

similhança é desconhecida, bem como a função de ajuste que gera essa equação. Venezuela

(2008), entretanto, assume que a função de ajuste existe e que qualquer equação de estimação ge-

neralizada que utiliza a verdadeira matriz de correlação, ou que utiliza uma matriz de correlação

de trabalho conhecida, satisfaz as propriedades de quase verossimilhança citadas por McCullagh

e Nelder (1989).

Vale ressaltar, que esses autores descrevem que a função quase escore com obser-

vações dependentes é um vetor gradiente associada a uma quase verossimilhança, desde que a

derivada dessa função quase escore com relação a β seja uma matriz simétrica ou, similarmente,

desde que as derivadas dos componentes de Cov(yi)−1 com respeito a µi sejam iguais sob a

permutação de três índices, ou seja

∂Cov(yi jyil)−1

∂ µik=

∂Cov(yi jyik)−1

∂ µil=

∂Cov(yilyik)−1

∂ µi j,

para i = 1, ...,n e j,k, l = 1, ..., t.

Em nosso caso, temos que quando utilizamos a verdadeira matriz de correlação

R(bi) ou a matriz de correlação de trabalho R(ρ) conhecida, ambas não dependem de µ . Logo,

as derivadas dessas componentes são iguais. Com isso, pode-se assumir que

∃F (θ) tal queF (θ)

∂θ= Ψ(θ) e Ψ(θ) = 0,

em que θ é o ponto de máximo da função de ajuste F (θ).

Dessa forma, Venezuela (2008) propõe uma medida de influência local para equa-

ções de estimação definida por `max correspondendo ao maior autovalor da matriz

B =−∆S−1∆,

∆ =∂Ψ(θ |ω)

∂ω>e S = E(F ) = E

(∂Ψ(θ)

∂θ>

avaliadas em θ = θ e ω = ω0. Assim, o gráfico de índices versus `max pode revelar quais

observações são sensíveis (influentes) ao esquema de perturbação considerado.

5.3.2 Esquemas de perturbação

Conforme apresentamos no capítulo 4, a função de estimação generalizada de β é

dada por (4.4), ou seja,

Ψ1(β ) =n

∑i=1

∗i ) =

∑i=1

X>i WiΛ−1i bi, (5.3)

cuja matriz de sensibilidade é

S =−X>WX, (5.4)

sendo X = (X>1 , ...,X>n )> e W = diag(W>1 , ...,W

>n )>, além de Λ = diag(Λ>1 , ...,Λ

>n )>, Ω =

diag(Ω>1 , ...,Ω>n )> e b = diag(b>1 , ...,b

>n )>.

Baseado em (5.3) e (5.4), apresentaremos a seguir medidas de influência local para

alguns esquemas de perturbação para o modelo de regressão beta retangular sob homogeneidade

do parâmetro de precisão, baseado na proposta de Venezuela (2008).

Vamos considerar os seguintes esquemas: ponderação de casos, perturbação da

variável resposta, perturbação individual das covariáveis e perturbação na matriz de correlação

de trabalho.

5.3.2.1 Ponderação de casos

Neste caso, o esquema de perturbaçãao consiste em verificar a sensibilidade do

modelo ao atribuir diferentes pesos para cada observação, visando verificar a contribuição

individual de cada unidade amostral no processo de estimação, avaliando quais observações

exercem contribuições desproporcionais ao modelo. O respectivo esquema tem a forma

Ψ1(β |ω) = X>WΛ−1diag(ω)b, (5.5)

em que ω = (ω>1 , ...,ω>n )>.

Com isso, temos que ∆1 = X>WΛ−1diag(b). Logo, a medida de influência local

para o esquema de ponderação de casos é definida pelo autovetor lmax correspondente ao maior

autovalor da matriz

B1 = diag(b)Λ−1W>X(X>WX)−1X>WΛ−1diag(b). (5.6)

O gráfico de índices do autovetor de B1 (`max) pode revelar quais observações são

influentes na estimação de β .

5.3.2.2 Perturbação da variável resposta

Neste caso, o esquema de perturbação consiste em verificar a sensibilidade do modelo

ao considerar perturbações de forma aditiva na variável resposta, yi j, tal que

yωi j = yi j−ωi j

√Var(yi j),

sendo ωi j = 0 a indicação de ausência de perturbação.

Como a perturbação é apenas em yi j, então a alteração ocorrerá somente no vetor b.

A forma da perturbação é dada por:

Ψ1(β |ω) = X>WΛ−1bω , (5.7)

em que bω = (b>ω1, ...,b

>ωn)>, com bωi = bωi1, ...,bωit , i = 1, ...,n.

Com isso, temos que ∆2 = X>WΛ−1B, sendo

B =∂bω

∂ω>.

Essa derivada é facilmente encontrada, pois bωi j = y∗ωi j−µi j, em que

y∗ωi j = log(

yωi j

1−yωi j

)= log

(yi j +ωi jsi j

1−yi j−ωi jsi j

logo, sabendo também que yωi j = yi j−ωi j√

Var(yi j), temos:

∂bωi j

ωi j=

∂y∗ωi j

ωi j=

yωi j

1−yωi j

ωi jlog(yωi j)−

ωi jlog(1−yωi j)

= − 1yωi j

√Var(yi j)−

11−yωi j

√Var(yi j)

= −√

Var(yi j)

yωi j(1−yωi j).

Considerando Si = diag(si1, ...,sit), sendo si j =√

Var(yi j), e Yi = diag(yωi1(1−

yωi1), ...,yωit(1− yωit)), para i = 1, ...,n e j = 1, ..., t, podemos escrever

B = S Y −1.

Portanto, medida de influência local para o esquema de ponderação de casos é

definida pelo autovetor `max correspondente ao maior autovalor da matriz

B2 = BΛ−1W>X(X>WX)−1X>WΛ

−1B. (5.8)

O gráfico de índices do autovetor de B2 (`max) pode revelar quais observações são

influentes na estimação de β .

5.3.2.3 Perturbação em uma covariável contínua

Neste caso, o esquema de perturbação consiste em verificar a sensibilidade do modelo

ao introduzir modificações nas covariáveis (esse esquema pode ser interpretado como um erro de

medição dessas variáveis). A estrutura é semelhante à perturbação da variável resposta, porém a

adição será na k-ésima coluna da matriz de covariáveis X (valendo apenas se essa for contínua).

O esquema tem a forma

xωi jk = xi jk +ωi jsxk ,

sendo sxk o desvio padrão de xk, com i = 1, ...,n e j = 1, ..., t.

Pelo fato do esquema interferir em X, então a forma da perturbação terá todos os

componentes perturbados, ou seja:

Ψ1(β |ω) = X>ω ΛωΩ−1ω bω . (5.9)

Com isso, temos que

∆3 = X>ω Λω

[Ω−1ω

∂bω

∂ω>+

∂Ω−1ω

∂ω>diag(bω)

X>ω∂Λω

∂ω>+

∂X>ω∂ω>

]Ω−1ω diag(bω),

sendo∂Ω−1

∂ω>=−Ω

−1ω

∂Ωω

∂ω>Ω−1ω ,

∂bω

∂ω>= diag

(∂bω1

∂ω>1, ...,

∂bωn

∂ω>n

)∂Ω−1

∂ω>= diag

(∂Ωω1

∂ω>1, ...,

∂Ωωn

∂ω>n

)∂Λω

∂ω>= diag

(∂Λω1

∂ω>1, ...,

∂Λωn

∂ω>n

Vamos desenvolver o cálculo de cada componente das derivadas, lembrando que

a perturbação é feita somente na k-ésima coluna de X e resgatando os cálculos feitos para a

equação de estimação do modelo de regressão beta retangular no Capítulo 3, isto é, resgatando

as seguintes quantidades:

bωi = y∗i −µ∗ωi, Ωωi = A1/2

ωi R(ρ)A1/2ωi e Λωi = φGωiAωiEωi (5.10)

Para a derivada da primeira quantidade de (5.10), temos:

∂bωi

∂ω>i= −

∂ µ∗ωi

∂ω>i=−diag

(∂ µ∗

∂ω>i1, ...,

∂ µ∗ωit

∂ω>it

∂ µ∗ωi j

∂ωi j= φ

∂ µ∗ωi j

∂ µωi j

∂γωi j

∂ηωi j

∂γη i j

∂βωi j

= φaωi jeωi j∂g−1(ηωi j)

∂ηωi jβksxk .

Na forma matricial, temos que:

∂bωi

∂ω>i=−φβksxkGωiAωiEωi.

Para a derivada da segunda quantidade de 5.10, temos:

∂Ωωi

∂ω>i=

∂ω>i

ωi R(ρ)A1/2ωi

)= A1/2

ωi R(ρ)∂A1/2

∂ω>i+

∂A1/2ωi

∂ω>iR(ρ)A1/2

∂A1/2ωi

∂ω>i= diag

(∂a1/2

ωi1∂ωi1

, ...,∂a1/2

ωit∂ωit

∂a1/2ωi j

∂ωi j=

a−1/2ωi j

∂aωi j

∂ωi jφ(ψ

′′(µωiφ)+ψ

′′(1−µωi)φ)βksxk .

Voltando para a derivada principal e escrevendo os temos na forma matricial, temos:

∂Ωωi

∂ω>i= A1/2

ωi R(ρ)

A−1/2ωi GωiPωi

]βksxk +

A−1/2ωi Pωi

]βksxkR(ρ)A1/2

βksxk

ωi R(ρ)A−1/2ωi GωiPωi +A−1/2

ωi GωiPωiR(ρ)A1/2ωi

sendo Pωi = φ(ψ′′(µωiφ)+ψ

′′(1−µωi)φ).

Para a derivada da terceira quantidade de 5.10, temos:

∂Λωi

∂ω>i= φ

[∂Gωi

∂ωiAωiEωi +Gωi

∂Aωi

∂ωiEωi +GωiAωi

∂Eωi

∂ωi

]= φ [GωiAωiEωi +GωiAωiEωi +GωiAωiEωi] ,

em que

Gωi =∂Gωi

∂ωi=

∂ 2g−1(ηwi)

∂ 2wiβksxk ,

Aωi =∂Aωi

∂ωi= P

∂g−1(ηwi)

∂wiβksxk ,

Eωi =∂Eωi

∂ωi.

A derivada∂X>ω∂ω>

é uma matriz de dimensão p×N de zeros exceto a k-ésima linha é

dada pela constante sxk . Logo, a medida de influência local para o esquema de perturbação em

uma covariável é definida pelo autovetor lmax correspondente ao maior autovalor da matriz

B3 =−∆3S∆3. (5.11)

5.3.2.4 Perturbação na matriz de correlação de trabalho

Neste caso, o esquema de perturbação possibilita identificar a necessidade de atribuir

matrizes de correlação de trabalho diferentes para cada grupo de unidades experimentais que, a

princípio, assumiu-se ser a mesma para todas essas unidades (VENEZUELA, 2008). O esquema

tem a forma

ρωi( j j′) =ρ j j′

ωi( j j′),

com ρ j j = 1, ρ j j′ = ρ j′ j, com j, j′ = 1, ..., t. Ou seja, a abordagem considera que ρ é diferente

para cada unidade amostral. Com base nisso, a equação de estimação perturbada tem a forma:

Ψ1(β |ω) = X>ΛΩ−1ω b, (5.12)

que sofre alterações somente em Ωω .

A matriz ∆ para esse caso fica expressa por

∆4 = X>Λ∂Ω−1

∂ω>diag(b)

Para a derivada de Ω−1ω , com respeito a ω>, já vimos que

∂Ω−1ω

∂ω>=−Ω

−1ω

∂Ωω

∂ω>Ω−1ω ,

e, para o atual esquema de perturbação, temos que

∂Ωω

∂ω>= Var(b)1/2 ∂R(ρω)

∂ω>Var(b)1/2.

A derivada neste caso é facilmente resolvida, pois o cálculo é feito diretamente nos

valores componentes da matriz de correlação e assume a mesma estrutura qualquer que seja a

forma da matriz de correlação (AR-1, padrão uniforme), ou seja,

∂ρωi( j j′)

∂ωi( j j′)=−

−ρ j j′

∂ω2i( j j′)

A medida de influência local para o esquema de perturbação na matriz de correlação

de trabalho é definida pelo autovetor lmax correspondente ao maior autovalor da matriz

B4 = diag(b)Λ−1W>X(X>WX)−1X>WΛ−1diag(b). (5.13)

A estrutura de B4 coincide com a de B1. Essa medida, portanto, avalia tanto a

perturbação para o esquema de ponderação de casos quanto para a perturbação da matriz de

correlação de trabalho. Essa conclusão também aconteceu para o modelo de regressão beta

proposto por Venezuela (2008).

5.4 Seleção de modelos e matriz de correlação

Comentamos na subseção anterior, métodos para identificar pontos que podem ou

não afetar o ajuste do modelo, bem como aqueles que destoam do comportamento padrão dos

demais. Agora, vamos discutir formas para selecionar o modelo que melhor representa/explica

um fenômeno em estudo dados que temos outros modelos possíveis. Utilizaremos, para isso,

critérios de seleção baseados na teoria da informação.

O AIC (Critério de Informação de Akaike) é um dos métodos de seleção mais

utilizados e foi proposto por Akaike (1973). Esse critério é baseado na minimização da distância

de Kullback-Leibler, K-L, (KULLBACK; LEIBLER, 1951), que é uma medida de distância

entre o modelo verdadeiro e um modelo candidato. O AIC foi desenvolvido sobre a estimativa

da informação K-L baseada na função de log-verosssimilhança em seu ponto máximo acrescida

de uma penalidade associada ao número de parâmetros do modelo. A medida AIC é dada por

AIC =−2n

∑i=1

logL(µi,yi)+2p,

sendo L a função de verossimilhança atribuída aos dados, yi o i-ésimo valor da resposta, µi a

estimativa de yi e p o número de parâmetros.

Note que o critério citado anteriormente é baseado na função de verossimilhança,

logo não podemos usar essa medida pra a seleção de modelos na abordagem da EEG’s. Uma

alternativa é proposta por Pan (2001), que modifica a medida AIC e faz ser útil também para a

escolha de uma matriz de correlação de trabalho, nomeando-a de QIC (Quasi-likelihood under

the Independence model Criterion) é dada por

QIC =−2n

∑i=1

∑t=1

Q(β ,φ ;Yit ,xit)+2tr(SI J−1nR ),

sendo Q(·) a quase verossimilhança, SI a matriz de sensibilidade considerando uma estrutura de

independência e J−1nR a matriz de covariância estimada a partir da estrutura de correlação, R(ρ),

assumida.

De forma geral, a medida QIC é calculada comparando um modelo com uma

determinada estrutura de correlação de trabalho com um modelo gerado utilizando a estrutura

independente. Os valores obtidos também podem ser utilizados de forma semelhante ao AIC, ou

seja, quanto menor o valor do QIC, melhor o modelo.

5.5 Envelope simulado

Uma outra abordagem para avaliar o ajuste de um modelo de regressão é utilizando

o gráfico denominado envelope simulado (ATKINSON, 1985). Esse gráfico pode construido

considerando o gráfico de probabilidade normal ou o gráfico de probabilidade meio-normal, com

observações independentes ou dependentes.

No caso de observações dependentes, a construção do gráfico requer que para cada

unidade amostral i, simulemos um vetor de variáveis correlacionadas de tamanho t, levando em

conta o vetor de médias e a matriz de covariâncias encontrados após o ajuste do modelo. Para

gerar variáveis correlacionadas, muitos abordagens são descritas em (ARTES; BOTTER, 2005),

por exemplo. Neste trabalho, como já descrito, utilizamos o método por meio de cópulas.

O gráfico é construído, então, considerando os valores absolutos ordenados dos

resíduos padronizados de cada observação da amostra e seus respectivos valores esperados da

estatística de ordem da distribuição normal padrão, dados por

Φ−1(

l +N−1/82N +1/2

com Φ−1 indicando a função de distribuição acumulada da distribuição normal padrão e l

indicando a posição ocupada pelo valor absoluto ordenado dos resíduos padronizados obtidos.

O passo a passo para a construção desse gráfico pode ser visto em (VENEZUELA, 2003), por

exemplo.

6 SIMULAÇÃO

Considerando as equações de estimação obtidas no Capítulo 4, estudos de simulação

foram aplicados para avaliar o desempenho dos estimadores do modelo considerando diferentes

cenários para o modelo.

Em um primeiro cenário, consideramos uma simulação através do modelo

1− γi j

)= 1−0,5x1i j +0,5x2i j, (6.1)

sendo x1i j e x2i j valores uniformemente distribuídos no intervalo [0,1], em que i = 1,2, ...,ni (a

quantidade de indivíduos será modificada em cada situação) e j = 1,2, ...,mi (a quantidade de

momentos distintos será modificada em cada situação).

A estimação dos estimadores de modelos foi realizada com base no viés absoluto

relativo (viés) e no erro médio quadrático (MSE), dados respectivamente, por|θ j− θ j|

∑Rr=1(θ j− θ

(r)j )2

Foi considerado para cada simulação um valor de R, número de réplicas utilizadas,

igual a 1000. Consideramos cenários diferentes para os parâmetros a serem estimados: φ1 = 10

e φ2 = 50; α1 = 0,1, α2 = 0,5 e α3 = 0,9; ρ1 = 0,3 e ρ2 = 0,8. Os tamanhos das amostras em

cada situação foram 25, 50 e 100, e em cada umas delas os indivíduos foram observados em

cinco tempos distintos.

As estruturas de correlação consideradas foram a independente, autorregressiva de

primeira ordem e desestruturada, quando o objetivo foi a geração dos dados, e autorregressiva

de primeira ordem e desestruturada, quando o objetivo foi a estimação da matriz de correlação.

As tabelas 5, 6, 7 e 8, presentes no apêndice, apresentam as estimativas para alguns dos casos

citados.

A partir dos resultados obtidos, verificou-se que o erro médio quadrático diminui à

medida que o tamanho da amostra aumenta para todos os estimadores envolvidos, o que mostra

a propriedade de consistência dos estimadores β .

Observamos, ainda, que quando se considera a mesma estrutura para ajustar os dados

gerados e obter as estimativas, ou seja, quando escolhemos a estrutura de correlação correta, os

vieses relativos de β0, β1 e β2 são, em geral, menores que 0,2% e apresentam valores muito

aproximados de β0, β1 e β2, respectivamente.

Quando ocorre uma má especificação da estrutura de correlação, entretanto, temos um

distanciamento do valor verdadeiro de ρ estimado independente do tamanho da amostra. Quando

se considera a verdadeira estrutura, as estimativas de ρ tendem para os valores verdadeiros à

medida que n aumenta.

Com relação a φ , seu erro quadrático médio é menor quando o verdadeiro valor de

α é 0.1. Quando analisamos as estimativas de α percebemos que as estimativas obtidas tendem

para os valores verdadeiros quando seu valor verdadeiro é 0.1 ou 0.5.

7 APLICAÇÃO

Apresentaremos neste capítulo o ajuste do modelo de regressão beta retangular para

medidas repetidas em um conjunto de dados já estudados na literatura. Serão aplicadas as

técnicas de diagnósticos desenvolvidas no Capítulo 5, como ferramental para avaliar a qualidade

do ajuste do modelo.

O caso utilizado como aplicação foi apresentado por Meyers et al. (1992) e também

discutido por Venezuela (2008) e Manco (2013). Os dados estão descritos no livro Correlated

Data Analysis: Modeling, Analytics and Aplications, de Song e Song (2007), como material

suplementar.

Esta aplicação refere-se a um estudo oftalmológico que avalia o uso de gás intrao-

cular, C3F8, em reparação cirúrgica na retina. Esse gás foi injetado nos olhos de 31 pacientes em

três diferentes níveis de concentração (15%, 20% e 25%) no momento da cirurgia.

7.1 Análise descritiva

Os pacientes foram observados de 3 a 15 vezes, num período de 3 meses, e em cada

visita foi observado a porcentagem do volume de gás nos olhos dos indivíduos. Essas unidades

amostrais foram observadas de forma desbalanceada no tempo. Os dados são apresentados na

tabela presente no apêndice.

A seguir apresentamos três gráficos de perfis referentes aos pacientes com gás de

concentração 15% (7 pacientes), com gás de concentração 20% (14 pacientes) e com gás de

concentração 25% (10 pacientes). Vale ressaltar que o comportamento observado nos dados é a

diminuição da percentagem de gás com o passar do tempo.

(A) (B) (C)

0 20 40Tempo (dias)

0 20 40 60 80Tempo (dias)

0 20 40 60Tempo (dias)

Figura 6 – Gráfico de perfis dos pacientes para as concentrações de gás iguais a 15% (A), 20%(B) e 25% (C).

7.2 Análise inferencial

Admitindo-se, portanto, que yi j é a porcentagem de volume de gás para o i-ésimo

indivíduo no tempo ti j, com i = 1, ...,31 e j = 1, ...,mi, e considerando o fato de que a variável

resposta pertence ao intervalo (0,1), poderíamos ajustar o modelo de regressão beta proposto por

Ferrari e Cribari-Neto (2004). Porém, considerar esse modelo seria, na verdade, desconsiderar a

presença de correlação inerente aos dados, visto que estamos trabalhando com dados de medidas

repetidas.

Esse comportamento, portanto, sugere a procura por uma estrutura que não ignore

essa presença de correlação entre as variáveis e que, ao mesmo tempo, considere o modelo de

regressão para dados limitados ao intervalo (0,1). Baseado nessa situação, Venezuela (2008)

desenvolve o modelo de regressão beta para medidas repetidas, cujos resultados para esta

aplicação são apresentados no próximo tópico.

7.2.1 Ajuste com o Modelo de Regressão beta para medidas repetidas

A autora considera para esta aplicação o ajuste do modelo com base na estrutura

para a média proposta por Song e Tan (2000), que utilizada a função de ligação complemento

log-log, supondo a homogeneidade da dispersão. A estrutura é apresentada a seguir.

log(− log(1− γi j)) = β0 +β1 logx1i j +β2 log2 x1i j +β3x2i j, (7.1)

sendo x1i j o tempo após a cirurgia e

x2i j =gasi j−20

−1, se a concentração do gás é 15,

0, se a concentração do gás é 20,

1, se a concentração do gás é 25.

Os resultados das estimativas dos parâmetros presentes são apresentados na Tabela 1.

Vale ressaltar que a estrutura de correlação definida pela autora foi a do tipo AR-1 (escolhida a

partir da medida QIC).

Tabela 1 – Estimativas e erros padrão dos parâmetros, considerando o modelo de regressão betapara medidas repetidas, para o modelo (7.1) extraído de Venezuela (2008). Estudooftalmológico.

Parâmetro Estimativa Erro padrão Nível descritivoβ0 0,7386 0,0782 < 0,001β1 0,1435 0,0834 0,0850β2 -0,1687 0,0228 < 0,001β3 0,1556 0,1150 0,1760φ 2,9195ρ 0,7096

Nesse cenário, somente o intercepto e quadrado do logarítmo neperiano do tempo

são significativos para explicar, em média, a percentagem do volume de gás presente nos olhos

dos pacientes. O valor de φ resultou em 2,9195. Com relação a ρ , temos uma alta correlação

entre os dados, com coeficiente igual a 0,7096.

Para avaliar se a estrutura baseada no modelo de regressão beta modela bem os dados,

construímos a probabilidade de envelope semi-normal simulado com 95% de confiança, como

mostra a Figura 7.

0.0 0.5 1.0 1.5 2.0 2.5 3.0

Valor esperado da estatística de ordem meio−normal

Figura 7 – Envelope simulado meio-normal para o modelo de regressão beta para medidasrepetidas (valor esperado da estatística de ordem meio-normal versus valor absolutoordenado do resíduo padronizado).

Observe que muitos pontos estão fora dos intervalos de confiança. Esses resultados

indicam que o ajuste ao modelo de regressão longitudinal beta, baseado na proposta de Venezuela

(2008), não é adequado, e se faz necessária a busca por um modelo baseado em uma estrutura

mais flexível, que será apresentado no próximo tópico.

7.2.2 Ajuste com o Modelo de Regressão beta retangular para medidas repetidas

Considerando o fato de que esse conjunto de dados correlacionados apresenta pontos

muito próximos aos extremos do intervalo (0,1), com valores iguais a 0,001 e 0,999 para a

variável resposta, por exemplo, sabemos que a estrutura de regressão beta, mesmo considerando

medidas repetidas, pode não ser a ideal para esse caso, ou seja, é interessante que possamos

tornar ainda mais robusta essa modelagem com o incremento de algum componente que permita

abranger a presença de valores extremos no modelo de regressão.

Com base nisso, ajustamos o modelo proposto nesta dissertação - modelo de re-

gressão beta retangular para medidas repetidas - com intuito de avaliar uma possível melhora

no ajuste de um modelo de regressão aos dados. Para isso, continuaremos a utilizar a mesma

estrutura para a média apresentada na equação (7.1).

A estrutura de correlação escolhida para esse ajuste também foi a do tipo AR-1,

conclusão obtida a partir das medidas QIC para cada estrutura, conforme é apresentado na Tabela

Tabela 2 – Medida QIC considerando o modelo de regressão beta retangular para medidasrepetidas. Estudo oftalmológico.

Estrutura QICUniforme -441.5678

AR-1 -453.1998Desestruturada -431.2587

Os resultados das estimativas dos parâmetros considerando o modelo beta retangular

são apresentados na Tabela 3.

Tabela 3 – Estimativas e erros padrão dos parâmetros, considerando o modelo de regressão betaretangular para medidas repetidas, para o modelo (7.1). Estudo oftalmológico.

Parâmetro Estimativa Erro padrão Nível descritivoβ0 1,7397 0,1407 < 0,001β1 0,1116 0,0141 < 0,001β2 -0,2481 0,0100 < 0,001β3 0,3004 0,0316 < 0,001φ 4,7937ρ 0,7958α 0,0868

Observe que nesse ajuste todos os parâmetros foram significativos para explicar, em

média, a percentagem do volume de gás presente nos olhos dos pacientes. O valor de φ estimado

resultou em 4,7937 e o valor de ρ resultou em 0,7958. Além disso, o modelo oferece mais um

parâmetro, α , que nesse caso resultou em 0.0868. O incremento desse parâmetro provavelmente

contribuiu para uma melhoria no ajuste de dados, como mostra o gráfico de envelope simulado

na Figura 8.

0.0 0.5 1.0 1.5 2.0 2.5 3.0

Valor esperado da estatística de ordem meio−normal

Figura 8 – Envelope simulado meio-normal para o modelo de regressão beta retangular paramedidas repetidas (valor esperado da estatística de ordem meio-normal versus valorabsoluto ordenado do resíduo padronizado).

Executando análise de influência local, os gráficos da Figura 9 mostram, respectiva-

mente, os esquemas de perturbação das variáveis de ponderação (A), de resposta a caso (B) e

pertubação na variável logarítmo do tempo (C) e da variável quadrado do logarítmo do tempo

(D). O esquema de perturbação da covariável tipo de gás é inviável, pois trata-se de uma variável

categorizada.

Podemos observar que, em pelo menos um dos esquemas, as observações (21,1),

(21,3) e (25,20) apareceram destacadas. As duas primeiras observações referem-se ao paciente

21 com um dia e três dias, respectivamente, após a cirurgia, com gás de concentração 25 e

com percentagem de 0.999; a outra observação refere-se ao paciente 25, com vinte dias após a

cirurgia, com gás de concentração iguai a vinte, e percentagem de 0.001.

(A) (B)

0.2 0.4 0.6 0.8 1.0

Valor predito

( 21 , 1 )

( 21 , 3 )

0.2 0.4 0.6 0.8 1.0

Valor predito

( 25 , 20 )

(C) (D)

0.2 0.4 0.6 0.8 1.0

Valor predito

( 8 , 1 )

( 21 , 1 )

0.2 0.4 0.6 0.8 1.0

Valor predito

( 19 , 1 )

( 21 , 1 )

Figura 9 – Influência local para os esquemas de ponderação de casos (A), perturbação na variávelresposta (B) e pertubação na variável logarítmo do tempo (C) e da variável quadradodo logarítmo do tempo (D).

Com base nisso, ajustamos novamente o modelo sem as observações (21,1), (21,3) e

(25,20). Conforme mostra a Tabela 4, as maiores variações percentuais ocorreram nas estimativas

de β1 e β3.

Tabela 4 – Variações percentuais referentes às estimativas dos parâmetros do modelo de re-gressão beta retangular com todas as observações - estimativa antes - e retirando asobservações (21,1), (21,3) e (25,20) - estimativa depois. Estudo oftalmológico.

Parâmetro Estimativa antes Estimativa depois Variação percentualβ0 1,7397 1,7745 2,0%β1 0,1645 0,1116 47,4%β2 -0,2613 -0,2481 5,3%β3 0,2579 0,3004 -14,1%

Com base nos dois ajustes, é possível afirmar que a proposta baseada no modelo

de regressão beta retangular apresentou melhores resultados que o modelo beta, proposto por

Venezuela (2008). Isso pode ser visto nas figuras 7 e 8, cujo ajuste com base no modelo de

regressão beta não apresenta bom desempenho para a fonte de variação e o ajuste com base

no modelo de regressão beta retangular, porque todas as pontos estão no intervalo do envelope.

Além disso, na análise da influência local, poucos pontos foram discrepantes em relação aos

demais.

A Figura 10, a seguir, apresenta as curvas ajustadas para os dois modelos apresenta-

dos neste artigo.

(A) (B)

0 20 40 60 80Tempo (dias)

raçã

0 20 40 60 80Tempo (dias)

raçã

Figura 10 – Dispersão dos dados e curvas ajustadas dos modelos de regressão beta (A) e betaretangular (B).

Observe que as curvas ajustadas a partir do modelo de regressão beta retangular para

medidas repetidas apresentaram melhor comportamento do que àquelas ajustadas com o modelo

de regressão beta para medidas repetidas. Isso é notado, principalmente, nas observações mais

próximas de um, as quais foram melhor ajustadas com o modelo de regressão beta retangular.

Dessa forma, indicamos utilizar o modelo de regressão beta retangular para medidas

repetidas tanto se o interesse for saber se a variável tempo após a cirurgia e a concentração de

gás são importantes ou não para explicar a porcentagem do volume de gás ainda presente nos

olhos dos pacientes - com relação ao volume injetado no dia da cirurgia - quanto se o interesse

for utilizar o modelo para realizar previsões, por exemplo.

8 CONSIDERAÇÕES FINAIS

Neste trabalho, propomos um novo modelo de regressão para análise de dados com

medidas repetidas e dados agrupados restritos à faixa de (0,1), com base na abordagem das

Equação de Estimação Generalizada (LIANG; ZEGER, 1986; ZEGER et al., 1988). Uma

estrutura de regressão beta retangular foi considerada para adicionar robustez à modelagem

de valores extremos como uma extensão ao modelo de regressão beta proposto por Venezuela

(2008).

Um algoritmo de estimação que combina o escore de Fisher para estimar β ’s;

métodos dos momentos, para estimar ρ ; e o algoritmo EM, para estimar φ e α , foi desenvolvido.

Além disso, foram propostas técnicas de influência local, como ponderação de casos, variável

de resposta e perturbação na covariável, com base na proposta de Venezuela et al. (2011). A

construção de envelopes simulados também foi abordada como uma técnica para avaliar o modelo

proposto.

Os resultados do estudo de simulação mostraram que os estimadores propostos para

os parâmetros envolvidos são imparciais e consistentes em diferentes cenários considerados na

simulação. Observamos que, para φ igual a dez, suas estimativas eram menos tendenciosas; e

para α com valor verdadeiro próximo a um, sua estimativa afetou as estimativas dos parâmetros

de posição.

Na análise de dados reais, ajustamos o modelo de regressão beta proposto por

Venezuela (2008) e o modelo de regressão beta retangular proposto neste trabalho. A escolha da

estrutura de covariância do tipo AR-1 foi feita com base no critério QIC, modificação para o

contexto de equações de estimação do critério AIC.

Observamos melhores resultados com o modelo baseado na proposta desta disserta-

ção em comparação com o modelo que considera a distribuição beta, fato que atende às nossas

expectativas.

Como trabalho futuro, sugerimos a modelagem a partir do modelo de regressão beta

retangular, considerando o parâmetro de dispersão variável. Também sugerimos que a matriz de

correlação de trabalho, R(α), não deva ser a mesma para todas as unidades de amostra.

REFERÊNCIAS

ABRAMOWITZ, M.; STEGUN, I. A. Handbook of mathematical functions dover publications.New York, p. 361, 1965.

AKAIKE, H. Maximum likelihood identification of gaussian autoregressive moving averagemodels. Biometrika, Oxford University Press, p. 255–265, 1973.

ALENCAR, F. H. C. d. Diagnóstico de influência para uma família de modelos de regressãopara dados de taxas e proporções. Universidade Federal de Pernambuco, 2016.

ARELLANO-VALLE, R.; BOLFARINE, H.; LACHOS, V. Skew-normal linear mixed models.Journal of Data Science, p. 415–438, 2005.

ARTES, R. Extensões da teoria das equações de estimação generalizadas a dadoscirculares e modelos de dispersão. 1997, 130 f. Tese (Doutorado) — Instituto de Matemáticae Estatística da Universidade de São Paulo, 1997.

ARTES, R.; BOTTER, D. A. Funçoes de estimaçao em modelos de regressao. São Paulo:ABE, 2005.

ARTES, R.; PAULA, G. A.; RANVAUD, R. Analysis of circular longitudinal data based ongeneralized estimating equations. Australian & New Zealand Journal of Statistics, WileyOnline Library, p. 347–358, 2000.

ATKINSON, A. C. Plots, transformations and regression; an introduction to graphicalmethods of diagnostic regression analysis. [S. l.]: Oxford University Press, 1985.

BAYES, C.; BAZÁN, J. An em algorithm for beta-rectangular regression models. ComunicaçãoPessoal, 2014.

BAYES, C. L.; BAZÁN, J. L.; GARCÍA, C. et al. A new robust regression model for proportions.Bayesian Analysis, International Society for Bayesian Analysis, p. 841–866, 2012.

BOX, G. E.; COX, D. R. An analysis of transformations. Journal of the Royal StatisticalSociety. Series B (Methodological), JSTOR, p. 211–252, 1964.

BRESLOW, N. E.; CLAYTON, D. G. Approximate inference in generalized linear mixedmodels. Journal of the American statistical Association, Taylor & Francis Group, p. 9–25,1993.

BYRD, R. H.; LU, P.; NOCEDAL, J.; ZHU, C. A limited memory algorithm for boundconstrained optimization. SIAM Journal on Scientific Computing, SIAM, p. 1190–1208,1995.

CADIGAN, N.; FARRELL, P. Generalized local influence with applications to fish stock cohortanalysis. Journal of the Royal Statistical Society: Series C (Applied Statistics), WileyOnline Library, p. 469–483, 2002.

CASELLA, G.; BERGER, R. L. Statistical inference. [S. l.]: Duxbury Pacific Grove, CA,2002.

CHANDRASEKAR, B.; KALE, B. Unbiased statistical estimation functions for parameters inpresence of nuisance parameters. Journal of statistical planning and inference, Elsevier, p.45–54, 1984.

CLARK, C. E. Letter to the editor—the pert model for the distribution of an activity time.Operations Research, INFORMS, p. 405–406, 1962.

COOK, R. D. Detection of influential observation in linear regression. Technometrics, Taylor &Francis Group, p. 15–18, 1977.

COOK, R. D. Assessment of local influence. Journal of the Royal Statistical Society. SeriesB (Methodological), JSTOR, p. 133–169, 1986.

CRIBARI-NETO, F.; ZEILEIS, A. Beta regression in r. Department of Statistics andMathematics x, WU Vienna University of . . . , 2010.

CROWDER, M. On linear and quadratic estimating functions. Biometrika, Oxford UniversityPress, p. 591–597, 1987.

DEMIDENKO, E. Mixed models: theory and applications with R. [S. l.]: John Wiley &Sons, 2013.

DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum likelihood from incomplete datavia the em algorithm. Journal of the Royal Statistical Society: Series B (Methodological),Wiley Online Library, p. 1–22, 1977.

ESPINHEIRA, P. L.; FERRARI, S. L.; CRIBARI-NETO, F. Influence diagnostics in betaregression. Computational Statistics & Data Analysis, Elsevier, p. 4417–4431, 2008.

ESPINHEIRA, P. L.; FERRARI, S. L.; CRIBARI-NETO, F. On beta regression residuals.Journal of Applied Statistics, Taylor & Francis, p. 407–419, 2008.

FERRARI, S.; CRIBARI-NETO, F. Beta regression for modelling rates and proportions.Journal of Applied Statistics, Taylor & Francis, p. 799–815, 2004.

GARCÍA, C.; PÉREZ, J. G.; DORP, J. R. van. Modeling heavy-tailed, skewed and peakeduncertainty phenomena with bounded support. Statistical Methods & Applications, Springer,p. 463–486, 2011.

GODAMBE, V. Estimating functions: A synthesis of least squares and maximum likelihoodmethods. Lecture Notes-Monograph Series, JSTOR, p. 5–15, 1997.

GODAMBE, V. P. An optimum property of regular maximum likelihood estimation. TheAnnals of Mathematical Statistics, JSTOR, p. 1208–1211, 1960.

HAHN, E. D. Mixture densities for project management activity times: A robust approach topert. European Journal of Operational Research, Elsevier, p. 450–459, 2008.

HARDIN, J. W.; HILBE, J. M. Generalized estimating equations. [S. l.]: Chapman andHall/CRC, 2003.

HASTIE, T. J.; TIBSHIRANI, R. J. Generalized additive models. [S. l.]: Chapman & Hall,London, 1990.

HENDERSON, C. R. Estimation of variance and covariance components. Biometrics, JSTOR,p. 226–252, 1953.

HUANG, X.; OOSTERLEE, C. W. Generalized beta regression models for randomloss-given-default. [S. l.]: Delft University of Technology, 2008.

JORGENSEN, B. Exponential dispersion models. Journal of the Royal Statistical Society.Series B (Methodological), JSTOR, p. 127–162, 1987.

JORGENSEN, B. The theory of dispersion models. [S. l.]: CRC Press, 1997.

JORGENSEN, B. Estimating functions and longitudinal data analysis. [S. l.]: São Paulo,2003.

JORGENSEN, B.; LABORIAU, R. Exponential families and theoretical inference. Lecturenotes, 1994.

KIESCHNICK, R.; MCCULLOUGH, B. D. Regression analysis of variates observed on (0,1): percentages, proportions and fractions. Statistical modelling, Sage Publications Sage CA:Thousand Oaks, CA, p. 193–213, 2003.

KULLBACK, S.; LEIBLER, R. A. On information and sufficiency. The annals ofmathematical statistics, JSTOR, p. 79–86, 1951.

LACHOS, V. H. Modelos lineares mistos assimétricos. 2004, 100 f. Tese (Doutorado) —Instituto de Matemática e Estatística da Universidade de São Paulo, 2004.

LACHOS, V. H.; GHOSH, P.; ARELLANO-VALLE, R. B. Likelihood based inference forskew-normal independent linear mixed models. Statistica Sinica, JSTOR, p. 303–322, 2010.

LAIRD, N. M.; WARE, J. H. Random-effects models for longitudinal data. Biometrics, JSTOR,p. 963–974, 1982.

LIAN, H.; LIANG, H.; WANG, L. Generalized additive partial linear models for clustered datawith diverging number of covariates using gee. Statistica Sinica, JSTOR, p. 173–196, 2014.

LIANG, K.-Y.; ZEGER, S. L. Longitudinal data analysis using generalized linear models.Biometrika, Oxford University Press, p. 13–22, 1986.

LIANG, K.-Y.; ZEGER, S. L.; QAQISH, B. Multivariate regression analyses for categorical data.Journal of the Royal Statistical Society: Series B (Methodological), Wiley Online Library, p.3–24, 1992.

LIN, X.; CARROLL, R. J. Semiparametric regression for clustered data using generalizedestimating equations. Journal of the American statistical Association, Taylor & Francis, p.1045–1056, 2001.

MANCO, O. C. U. Modelos de regressão beta com efeitos aleatórios normais e nãonormais para dados longitudinais. 2013, 168 f. Tese (Doutorado) — Instituto de Matemáticae Estatística da Universidade de São Paulo, 2013.

MANGHI, R. F.; CYSNEIROS, F. J. A.; PAULA, G. A. Generalized additive partial linearmodels for analyzing correlated data. Computational Statistics & Data Analysis, Elsevier, p.47–60, 2019.

MCCULLAGH, P. Quasi-likelihood functions. The Annals of Statistics, JSTOR, p. 59–67,1983.

MCCULLAGH, P.; NELDER, J. A. Generalized linear models. [S. l.]: CRC press, 1989.

MCCULLOCH, C. E.; SEARLE, S. R. Generalized, linear, and mixed models. [S. l.]: JohnWiley & Sons, 2004.

MEYERS, S. M.; AMBLER, J. S.; TAN, M.; WERNER, J. C.; HUANG, S. S. Variation ofperfluoropropane disappearance after vitrectomy. Retina (Philadelphia, Pa.), p. 359–363,1992.

NELDER, J. A.; WEDDERBURN, R. W. Generalized linear models. Journal of the RoyalStatistical Society: Series A (General), Wiley Online Library, p. 370–384, 1972.

NETER, J.; KUTNER, M. H.; NACHTSHEIM, C. J.; WASSERMAN, W. Applied linearstatistical models. [S. l.]: Irwin Chicago, 1996.

OESSELMANN, C. C. Tese (Doutorado).

OSPINA, R.; FERRARI, S. L. A general class of zero-or-one inflated beta regression models.Computational Statistics & Data Analysis, Elsevier, p. 1609–1623, 2012.

PAN, W. Akaike’s information criterion in generalized estimating equations. Biometrics, WileyOnline Library, p. 120–125, 2001.

PAOLINO, P. Maximum likelihood estimation of models with beta-distributed dependentvariables. Political Analysis, Cambridge University Press, p. 325–346, 2001.

PAULA, G. A. Modelos de Regressão com Apoio Computacional. São Paulo: IME-USP,2015.

PREGIBON, D. Logistic regression diagnostics. The Annals of Statistics, Institute ofMathematical Statistics, p. 705–724, 1981.

PRENTICE, R. L.; ZHAO, L. P. Estimating equations for parameters in means and covariancesof multivariate discrete and continuous responses. Biometrics, JSTOR, p. 825–839, 1991.

SANTOS, A. R.; AZEVEDO, C. L.; BAZAN, J. L.; NOBRE, J. S. Bayesian inference forzero-and/or-one augmented rectangular beta regression models. 2017. Disponível em:<https://www.ime.unicamp.br/sites/default/files/pesquisa/relatorios/rp-2017-07.pdf>. Acessoem: 28 jun. 2018.

SANTOS, A. R. S.; AZEVEDO, C. L. N.; BAZAN, J. L.; NOBRE, J. S. Likelihoodbasedinference for zero-and/or-one augmented rectangular beta regression models. 2017.Disponível em: <https://www.ime.unicamp.br/sites/default/files/pesquisa/relatorios/rp-2017-07.pdf>. Acesso em: 28 jun. 2018.

SANTOS, J. S. d. Simulação de variáveis aleatórias dependentes: aplicação ao riscode subscrição. 2008, 60 f. Tese (Mestrado) — Instituto de Matemática e Estatística daUniversidade de São Paulo, 2008.

SAVALLI, C.; PAULA, G. A.; CYSNEIROS, F. J. Assessment of variance components inelliptical linear mixed models. Statistical Modelling, Sage Publications Sage CA: ThousandOaks, CA, p. 59–76, 2006.

SIMAS, A. B.; BARRETO-SOUZA, W.; ROCHA, A. V. Improved estimators for a general classof beta regression models. Computational Statistics & Data Analysis, Elsevier, p. 348–366,2010.

SINGER, J. M.; ANDRADE, D. F. Análise de dados longitudinais. VII Simpósio Nacional deProbabilidade e Estatística, São Paulo, 1986.

SINGER, J. M.; NOBRE, J. S.; ROCHA, F. M. M. Análise de dados longitudinais. São Paulo:IME-USP, 2018.

SKLAR, M. Fonctions de repartition an dimensions et leurs marges. Publ. inst. statist. univ.Paris, p. 229–231, 1959.

SMITHSON, M.; VERKUILEN, J. A better lemon squeezer? maximum-likelihood regressionwith beta-distributed dependent variables. Psychological methods, American PsychologicalAssociation, p. 54, 2006.

SONG, P. X.-K.; QIU, Z.; TAN, M. Modelling heterogeneous dispersion in marginal models forlongitudinal proportional data. Biometrical Journal: Journal of Mathematical Methods inBiosciences, Wiley Online Library, p. 540–553, 2004.

SONG, P. X.-K.; TAN, M. Marginal models for longitudinal continuous proportional data.Biometrics, Wiley Online Library, p. 496–502, 2000.

SONG, X.-K.; SONG, P. X.-K. Correlated data analysis: modeling, analytics, andapplications. [S. l.]: Springer Science & Business Media, 2007.

TAN, M.; QU, Y.; KUTNER, M. H. Model diagnostics for marginal regression analysis ofcorrelated binary data. Communications in Statistics-Simulation and Computation, Taylor& Francis, p. 539–558, 1997.

TSUYUGUCHI, A. B. Modelos Birnbaum-Saunders usando equações de estimação.2017, 100 f. Tese (Doutorado) — Instituto de Matemática e Estatística da Universidade de São

Paulo, 2017.

TSUYUGUCHI, A. B.; PAULA, G. A.; BARROS, M. Analysis of correlated birnbaum–saundersdata based on estimating equations. TEST, Springer, p. 1–21, 2019.

VENEZUELA, M. K. Modelos lineares generalizados para análise de dados commedidas repetidas. 2003, 107 f. Tese (Mestrado) — Instituto de Matemática e Estatística daUniversidade de São Paulo, 2003.

VENEZUELA, M. K. Equação de estimação generalizada e influência local para modelosde regressão beta com medidas repetidas. 2008, 168 f. Tese (Doutorado) — Instituto deMatemática e Estatística da Universidade de São Paulo, 2008.

VENEZUELA, M. K.; BOTTER, D. A.; SANDOVAL, M. C. Diagnostic techniques ingeneralized estimating equations. Journal of Statistical Computation and Simulation, Taylor& Francis, p. 879–888, 2007.

VENEZUELA, M. K.; SANDOVAL, M. C.; BOTTER, D. A. Local influence in estimatingequations. Computational Statistics & Data Analysis, Elsevier, p. 1867–1883, 2011.

VIOLA, M. L. L. Tipos de dependência entre variáveis aleatórias e teoria de cópulas. Institutode Matemática, Estatıstica e Computaçao Cientıfica, 2009.

WANG, L.; XUE, L.; QU, A.; LIANG, H. et al. Estimation and model selection in generalizedadditive partial linear models for correlated data with diverging number of covariates. TheAnnals of Statistics, Institute of Mathematical Statistics, p. 592–624, 2014.

WARE, J. H. Linear models for the analysis of longitudinal studies. The American Statistician,Taylor & Francis Group, p. 95–101, 1985.

WEDDERBURN, R. W. Quasi-likelihood functions, generalized linear models, and thegauss—newton method. Biometrika, Oxford University Press, p. 439–447, 1974.

ZEGER, S. L.; LIANG, K.-Y.; ALBERT, P. S. Models for longitudinal data: a generalizedestimating equation approach. Biometrics, JSTOR, p. 1049–1060, 1988.

ZIEGLER, A.; KASTNER, C.; BLETTNER, M. The generalised estimating equations:an annotated bibliography. Biometrical Journal: Journal of Mathematical Methods inBiosciences, Wiley Online Library, p. 115–139, 1998.

APÊNDICE A – RESULTADOS DE SIMULAÇÃO

A.1 Caso gerado com estrutura AR-1 e estimado pela estrutura AR-1 para φ = 10

Tabela 5 – Bias and Mean Square Error of the beta regression model estimators for repeatedmeasures, for the case φ = 10.

n = 25 n = 50 n = 100Bias MSE Bias MSE Bias MSE

β0 0.1862 0.0718 0.1908 0.0548 0.2061 0.0511β1 0.1307 0.0759 0.1592 0.0451 0.1790 0.0247β2 0.1394 0.0756 0.1770 0.0435 0.1521 0.0226φ1 0.0283 1.2916 0.0122 0.6206 0.0011 0.2957α1 0.2723 0.0061 0.0581 0.0035 0.0035 0.0019ρ1 0.1620 0.0030 0.1727 0.0031 0.1773 0.0030

β0 0.1711 0.1445 0.1872 0.0903 0.1994 0.0682β1 0.1464 0.2208 0.1441 0.1110 0.1614 0.0589β2 0.1683 0.2203 0.1552 0.1204 0.1583 0.0573φ1 0.0697 2.7920 0.0308 1.2859 0.0133 0.5722α1 0.3067 0.0087 0.0804 0.0062 0.0325 0.0034ρ2 0.0038 0.0004 0.0080 0.0002 0.0095 0.0002

β0 0.2473 0.1187 0.2657 0.0964 0.2678 0.0850β1 0.1531 0.1270 0.1816 0.0594 0.1866 0.0324β2 0.1902 0.1176 0.1919 0.0600 0.2071 0.0373φ1 0.0474 6.4719 0.0245 2.6456 0.0283 1.4537α2 0.0751 0.0141 0.1308 0.0089 0.1614 0.0089ρ1 0.0515 0.0019 0.0820 0.0013 0.0860 0.0010

β0 0.2601 0.2562 0.2548 0.1515 0.2631 0.1121β1 0.1429 0.3550 0.1417 0.1702 0.1863 0.0885β2 0.0860 0.3531 0.1832 0.1727 0.2072 0.0858φ1 0.0575 11.3776 0.0410 5.3402 0.0297 2.3892α2 0.0102 0.0230 0.1035 0.0125 0.1480 0.0097ρ2 0.0121 0.0009 0.0063 0.0004 0.0051 0.0002

β0 0.2462 0.1435 0.2518 0.1035 0.2586 0.0843β1 0.0483 0.1568 0.0277 0.0732 0.0066 0.0343β2 0.0241 0.1653 0.0040 0.0707 0.0158 0.0336φ1 0.4227 49.6784 0.3578 38.9791 0.3327 35.8930α3 0.4148 0.2378 0.3226 0.1732 0.2900 0.1472ρ1 0.0846 0.0017 0.1113 0.0016 0.1169 0.0014

β0 0.2206 0.2970 0.2524 0.1804 0.2683 0.1238β1 0.0671 0.4553 0.0068 0.2244 0.0099 0.0927β2 0.0161 0.4645 0.0124 0.2102 0.0138 0.1045φ1 0.4264 58.6103 0.4215 46.2085 0.3503 38.4133α3 0.4939 0.3162 0.4134 0.2471 0.3278 0.1818ρ2 0.0010 0.0003 0.0026 0.0001 0.0057 0.0001

A.2 Caso gerado com estrutura AR-1 e estimado pela estrutura AR-1 para φ = 50

β0 0.1874 0.0484 0.2009 0.0479 0.2021 0.0445β1 0.1543 0.0324 0.1884 0.0236 0.1826 0.0152β2 0.1715 0.0331 0.1796 0.0214 0.1856 0.0155φ1 0.0087 29.2879 0.0003 14.1591 0.0005 7.5208α1 0.0518 0.0041 0.1211 0.0025 0.2263 0.0017ρ1 0.3599 0.0177 0.2704 0.0108 0.2249 0.0068

β0 0.1828 0.0773 0.1917 0.0588 0.2077 0.0545β1 0.1743 0.0867 0.1709 0.0473 0.2053 0.0317β2 0.1873 0.0867 0.1961 0.0538 0.1908 0.0289φ1 0.0271 41.2447 0.0095 20.9417 0.0046 11.5247α1 0.0654 0.0057 0.1580 0.0044 0.2390 0.0031ρ2 0.0184 0.0043 0.0350 0.0040 0.0370 0.0028

β0 0.2904 0.1247 0.2920 0.1061 0.2927 0.0959β1 0.2504 0.0903 0.2348 0.0507 0.2451 0.0345β2 0.2141 0.0920 0.2281 0.0525 0.2541 0.0347φ1 0.0627 118.1344 0.0147 57.8458 0.0226 29.5971α2 0.1820 0.0117 0.2143 0.0132 0.2369 0.0149ρ1 0.0618 0.0060 0.0417 0.0030 0.0402 0.0017

β0 0.2520 0.2057 0.2855 0.1434 0.2903 0.1146β1 0.1879 0.2617 0.2347 0.1295 0.2377 0.0726β2 0.2585 0.2699 0.2251 0.1300 0.2603 0.0731φ1 0.1769 250.6145 0.0786 104.7161 0.0161 48.5194α2 0.1151 0.0105 0.1937 0.0127 0.2291 0.0147ρ2 0.0780 0.0085 0.0631 0.0046 0.0565 0.0032

β0 0.3130 0.1659 0.3287 0.1382 0.3332 0.1246β1 0.1703 0.1332 0.1533 0.0647 0.1799 0.0352β2 0.1968 0.1454 0.1508 0.0634 0.1709 0.0338φ1 0.0430 268.0856 0.0223 118.8253 0.0474 47.8439α3 0.0085 0.0126 0.0329 0.0019 0.0372 0.0011ρ1 0.0118 0.0022 0.0471 0.0012 0.0609 0.0008

β0 0.3066 0.3094 0.3169 0.1916 0.3315 0.1503β1 0.1537 0.4034 0.1362 0.1777 0.1818 0.0866β2 0.1473 0.4180 0.1505 0.1746 0.1720 0.0845φ1 0.1853 641.2221 0.0663 223.5373 0.0026 81.9273α3 0.0980 0.0756 0.0087 0.0138 0.0342 0.0017ρ2 0.0228 0.0015 0.0166 0.0006 0.0126 0.0003

A.3 Caso gerado com estrutura AR-1 e estimado pela estrutura independente para φ =

β0 0.1920 0.0659 0.1875 0.0500 0.2019 0.0482β1 0.1776 0.0680 0.1417 0.0368 0.1734 0.0220β2 0.1580 0.0668 0.1709 0.0374 0.1641 0.0222φ1 0.0278 1.1905 0.0081 0.5502 0.0025 0.3105α1 0.2513 0.0058 0.0878 0.0034 0.0339 0.0020ρ1 - - - - - -

β0 0.1752 0.1096 0.1913 0.0724 0.1971 0.0551β1 0.1451 0.1760 0.1508 0.0746 0.1679 0.0386β2 0.1705 0.1526 0.1634 0.0760 0.1715 0.0390φ1 0.0848 3.4002 0.0318 1.2890 0.0106 0.5629α1 0.2440 0.0090 0.0726 0.0061 0.0149 0.0033ρ2 - - - - - -

β0 0.2841 0.1350 0.2621 0.0946 0.2711 0.0851β1 0.2393 0.1107 0.1700 0.0545 0.1781 0.0311β2 0.1336 0.1172 0.1926 0.0568 0.1859 0.0310φ1 0.0419 6.2322 0.0359 3.0143 0.0305 1.4941α2 0.0747 0.0124 0.1363 0.0099 0.1635 0.0089ρ1 - - - - - -

β0 0.2575 0.2001 0.2685 0.1253 0.2639 0.0958β1 0.1865 0.2727 0.2026 0.1169 0.1747 0.0582β2 0.1488 0.2547 0.1836 0.1117 0.2035 0.0604φ1 0.0446 11.3502 0.0346 4.8689 0.0318 2.3866α2 0.0043 0.0237 0.1014 0.0119 0.1460 0.0093ρ2 - - - - - -

β0 0.2423 0.1278 0.2579 0.1008 0.2598 0.0839β1 0.0431 0.1347 0.0059 0.0646 0.0027 0.0316β2 0.0100 0.1352 0.0014 0.0598 0.0179 0.0309φ1 0.4034 51.5010 0.3720 41.2139 0.3255 33.3356α3 0.4055 0.2308 0.3386 0.1815 0.2745 0.1413ρ1 - - - - - -

β0 0.2496 0.2442 0.2683 0.1458 0.2609 0.0995β1 0.0311 0.3425 0.0030 0.1560 0.0144 0.0622β2 0.0188 0.3440 0.0448 0.1484 0.0242 0.0623φ1 0.4641 60.2318 0.4178 46.6813 0.3596 38.7691α3 0.5207 0.3340 0.4141 0.2456 0.3246 0.1740ρ2 - - - - - -

A.4 Caso gerado com estrutura AR-1 e estimado pela estrutura independente para φ =

β0 0.1921 0.0493 19.4789 0.0440 20.5822 0.0455β1 0.1832 0.0317 16.6476 0.0179 18.8895 0.0147β2 0.1795 0.0315 18.1665 0.0190 17.7453 0.0137φ1 0.0097 29.0094 0.0010 14.0010 0.1935 7.9296α1 0.0311 0.0044 12.9875 0.0025 23.0581 0.0018ρ1 - - - - - -

β0 0.1839 0.0602 19.4882 0.0521 20.4506 0.0484β1 0.1530 0.0562 17.9326 0.0346 18.7857 0.0217β2 0.1791 0.0583 19.7660 0.0354 18.0395 0.0212φ1 0.0242 45.3449 0.9943 21.1336 0.2727 11.2603α1 0.0884 0.0062 16.0293 0.0045 22.4474 0.0028ρ2 - - - - - -

β0 0.2772 0.1138 29.2834 0.1029 29.7295 0.0972β1 0.2155 0.0816 24.4079 0.0500 25.1812 0.0335β2 0.2112 0.0816 22.3012 0.0470 24.1142 0.0305φ1 0.0718 111.6624 1.8213 59.8326 2.7428 28.6777α2 0.1700 0.0108 21.3051 0.0131 23.7958 0.0149ρ1 - - - - - -

β0 0.2633 0.1717 28.6987 0.1260 29.7240 0.1101β1 0.2187 0.1964 21.1786 0.0937 25.1750 0.0542β2 0.2561 0.2039 20.3496 0.0925 23.5465 0.0563φ1 0.1870 239.5442 9.2682 109.1949 2.8844 48.9572α2 0.1242 0.0110 18.7932 0.0123 22.2235 0.0142ρ2 - - - - - -

β0 0.3174 0.1632 32.3979 0.1328 32.2188 0.1167β1 0.1288 0.1158 16.5143 0.0598 16.0316 0.0309β2 0.1373 0.1290 17.6684 0.0609 19.5770 0.0344φ1 0.0234 263.2457 2.4673 108.7081 4.7979 51.3658α3 0.0096 0.0124 3.3301 0.0020 3.7152 0.0011ρ1 - - - - - -

β0 0.2945 0.2390 31.3799 0.1634 0.3226 0.1322β1 0.1277 0.2948 13.0453 0.1231 0.1589 0.0630β2 0.2070 0.2962 17.4871 0.1345 0.1905 0.0670φ1 0.1959 657.2999 5.8595 225.0563 0.0005 80.5104α3 0.1077 0.0851 1.0778 0.0127 0.0349 0.0014ρ2 - - - - - -

APÊNDICE B – DADOS UTILIZADOS

B.1 Estudo oftalmológico

Tabela 9 – Variáveis dos pacientes observados (Parte I). Estudo oftalmológico.Observação Paciente Tempo Gás Resposta

1 2 1 15 1,002 2 2 15 0,953 2 3 15 0,904 2 4 15 0,905 2 12 15 0,556 2 21 15 0,477 2 29 15 0,258 2 44 15 0,059 5 2 15 0,60

10 5 15 15 0,3511 5 22 15 0,3012 12 1 15 0,4013 12 2 15 0,4014 12 3 15 0,3015 12 4 15 0,3016 12 18 15 0,3017 14 1 15 0,7218 14 11 15 0,6519 14 32 15 0,2820 16 1 15 1,0021 16 10 15 1,0022 16 24 15 0,8523 16 29 15 0,8024 16 36 15 0,7525 22 1 15 0,8226 22 6 15 0,7527 22 12 15 0,4528 22 26 15 0,1529 27 1 15 0,7530 27 4 15 0,7531 27 9 15 0,7532 27 23 15 0,5033 27 36 15 0,2034 27 54 15 0,0035 1 1 20 0,9936 1 2 20 0,9537 1 3 20 0,9538 1 8 20 0,5039 1 16 20 0,3840 1 33 20 0,2241 1 61 20 0,0542 4 1 20 1,0043 4 10 20 0,8544 4 24 20 0,4745 4 30 20 0,5046 4 44 20 0,1047 6 1 20 0,9548 6 4 20 0,8549 6 8 20 0,7550 6 22 20 0,45

Observação Indivíduo Tempo Gás Resposta

51 7 1 20 1,0052 7 3 20 1,0053 7 5 20 1,0054 7 8 20 1,0055 7 13 20 0,9856 7 21 20 0,7557 7 35 20 0,7558 7 54 20 0,7059 10 1 20 1,0060 10 2 20 1,0061 10 4 20 0,9762 10 13 20 0,9563 10 22 20 0,9064 10 34 20 0,8265 11 1 20 0,8266 11 2 20 0,7567 11 3 20 0,7568 11 9 20 0,7869 11 20 20 0,6070 11 30 20 0,3071 11 37 20 0,3072 13 1 20 0,9073 13 3 20 0,9074 13 10 20 0,9075 13 24 20 0,6076 17 1 20 0,6577 17 2 20 0,5578 17 4 20 0,6079 17 13 20 0,2580 17 19 20 0,2581 17 31 20 0,2282 24 1 20 1,0083 24 8 20 0,9984 24 15 20 0,7085 24 22 20 0,4586 24 29 20 0,1587 24 38 20 0,0588 25 1 20 0,5089 25 4 20 0,4090 25 7 20 0,3091 25 13 20 0,2092 25 20 20 0,0093 26 1 20 0,9094 26 4 20 1,0095 26 14 20 0,9096 26 29 20 0,7597 26 78 20 0,0098 28 1 20 0,9099 28 2 20 0,90100 28 25 20 0,25

Tabela 10 – Variáveis dos pacientes observados (Parte II). Estudo oftalmológico.

Observação Paciente Tempo Gás Resposta

101 29 1 20 0,95102 29 5 20 0,60103 29 13 20 0,35104 29 27 20 0,22105 29 33 20 0,20106 30 1 20 1,00107 30 3 20 0,90108 30 9 20 0,60109 3 1 25 0,99110 3 2 25 0,99111 3 3 25 0,95112 3 4 25 0,90113 3 7 25 0,88114 3 12 25 0,72115 3 15 25 0,72116 3 19 25 0,55117 3 25 25 0,50118 3 28 25 0,50119 3 31 25 0,50120 8 1 25 1,00121 8 9 25 0,97122 8 20 25 0,60123 8 49 25 0,10124 9 1 25 1,00125 9 2 25 1,00126 9 6 25 1,00127 9 12 25 1,00128 9 19 25 0,90129 9 25 25 0,85130 15 3 25 0,40131 15 4 25 0,40132 15 8 25 0,40133 15 21 25 0,20134 18 1 25 0,98135 18 2 25 0,98136 18 3 25 0,98137 18 4 25 0,90138 18 7 25 0,88139 18 10 25 0,78140 18 25 25 0,42

Observação Indivíduo Tempo Gás Resposta

141 18 31 25 0,38142 18 40 25 0,20143 18 47 25 0,17144 18 61 25 0,07145 19 1 25 0,82146 19 64 25 0,10147 19 67 25 0,10148 20 1 25 0,85149 20 2 25 0,85150 20 3 25 0,80151 20 4 25 0,88152 20 11 25 0,80153 20 40 25 0,42154 21 1 25 1,00155 21 3 25 1,00156 21 8 25 0,85157 21 15 25 0,80158 21 21 25 0,60159 21 31 25 0,20160 23 1 25 1,00161 23 9 25 0,95162 23 26 25 0,70163 23 33 25 0,40164 23 40 25 0,12165 23 44 25 0,15166 23 54 25 0,10167 31 1 25 0,90168 31 2 25 0,90169 31 3 25 0,90170 31 4 25 0,90171 31 5 25 0,90172 31 7 25 0,95173 31 9 25 0,95174 31 11 25 0,80175 31 15 25 0,80176 31 18 25 0,75177 31 24 25 0,50178 31 28 25 0,45179 31 36 25 0,33180 31 42 25 0,12181 31 49 25 0,12

APÊNDICE C – ALGORITMO EM

C.1 Introdução

O algoritmo EM (Expectation–Maximization), apresentado em (DEMPSTER et al.,

1977), tem como ideia base substituir uma difícil maximização da verossimilhança por uma

sequência de maximizações mais simples, ou seja, é projetado para encontrar estimadores de

máxima verossimilhança (CASELLA; BERGER, 2002).

Sua metodologia pode ser utiliza em duas situações: a primeira quando temos o

problema de com dados faltantes (missing data) e a segunda, quando o cálculo da maximização

da função de verossimilhança é problemático.

No contexto dessa dissertação, o algoritmo EM foi utilizado para calcular o estima-

dores do modelo de regressão beta retangular, conforme Santos et al. (2017a), e depois, uma

extensão foi considerada para encontrar os estimadores baseados nas equações de estimação. A

seguir apresentaremos os dois métodos de forma breve.

C.2 Algoritmo EM

C.2.1 Definição

Sendo yo o conjunto de dados observados, ou dados incompletos, e u o conjunto de

dados não observados, então os dados completos, yc, podem ser denotados por yc = (yo,u)>,

com função de densidade p(yc|θ).

Dessa forma, l(θ ,yc) e l(θ ,y) representam, respectivamente, a função log-verossimilhança

dos dados completos e observados. O algoritmo sugere então que em um primeiro passo encon-

tremos o valor esperado do logaritmo da verossimilhança (passo E) e em seguida encontremos o

seu máximo (passo M), ou seja:

• Passo E: Calcular Q(θ |θ (k)) = E(lc(θ ,yc)|y,θ (k));

• Passo M: Encontrar θ (k+1) que maximiza Q(θ |θ (k)).

O processo é repetido até atingir convergência, podendo ser adotado um critério de

parada, dentre os muitos existentes, dado por ||θ (k+1)−θ (k)||< ε .

C.2.2 Exemplo 1 - Densidade mista

Neste caso, o algoritmo surge quando temos variáveis não observáveis (exemplo

típicos de distribuições de mistura) e cada observação vem de uma distribuição com alguma

probabilidade, porém só observamos o valor da variável, não sabemos de qual distribuição ela

Para o nosso exemplo, vamos simular valores para formar o conjunto de dados

observados. Para isso, suponha um moeda cuja probabilidade de cara é 0,25. Dependendo da

face sorteada, vamos gerar um número aleatório de uma distribuição normal, ou seja, se a face

for cara, geramos uma variável seguindo N (1,1), e se a face for coroa, geramos uma variável

seguindo N (7,1).

A variável não observável (latente) neste caso é a moeda e temos um parâmetro

associado a ela que define se a variável pertence à distribuição N (1,1), denotada por f1 ou à

distribuição N (7,1), denotada por f2. Portanto, a moeda segue uma distribuição Bernoulli de

parâmetro 0,25.

O "banco de dados", ou valores observados do experimento, está montado. Agora,

imaginando que não conhecemos as características das distribuições envolvidas (seus parâmetros

de média e mistura), vamos estimar os valores da média de f1 e da média de f2, bem como o

parâmetro de mistura associado. O algoritmo EM apresenta então, os seguintes passos:

Passo E (esperança): dados os parâmetros atuais e os dados observados, estimamos as

variáveis latentes;

Passo M (maximização): dados os dados observados e as variáveis latentes, estimamos os

parâmetros.

O chute inicial será considerar que X ∼N (0,1) e Y ∼N (1,1). Então, se tivermos

observado em nossa amostra o valor 7,8, é razoável pensar que esta observação vem de uma

distribuição N (7,1). Para identificar, substituímos cada valor da amostra na densidade das

distribuições consideradas como chute. Considerando o exemplo em particular, temos:

f1(7,8|0;1) =1√

2πσ2exp(7,8−0)2

= 2,442 ·10−14

f2(7,8|1;1) =1√

2πσ2exp(7,8−1)2

= 3,617 ·10−11.

Após isso, como não sabemos com qual probabilidade cada observação pertence a

uma distribuição, façamos α = 1−α = 0,5 o parâmetro de mistura associado, ou seja:

d1 = 0,5 · f1(7,8|0,1)

d2 = 0,5 · f2(7,8|1,1).

Se fizermos p1 =d1

d1 +d2, encontramos a chance da observação pertencer à distri-

buição 1 e p2 =d2

d1 +d2, encontramos a chance da observação pertencer à distribuição 2. Para o

nosso valor 7,8, temos p1 = 0,0006747 e p2 = 0,9993253. Logo, é provável que ela venha da

distribuição 2.

Agora, partimos para o segundo passo do algoritmo, pois já estimamos as variáveis

latentes, precisamos agora estimar os parâmetros µ1, µ2 e α . Considerando a observação 7,8

como exemplo, encontramos a chance dela vir da distribuição 1 e de vir da distribuição 2. Esses

dois valores vão contribuir para a estimativa da média, ou seja, 0,0006747 deve contribuir para

estimar a média da distribuição 1 e 0,9993253 deve contribuir para a estimação da média da

distribuição 2, bem como do parâmetro de mistura, da seguinte forma:

µ1 =∑

ni=1 p1i · xi

∑ni=1 p1i

µ2 =∑

ni=1 p2i · xi

∑ni=1 p2i

α =∑

ni=1 p1i

sendo µ1 e µ2 as respectivas médias de f1 e f2 e α o parâmetro de mistura. As novas médias

são, portanto, consideradas e o processo é repetido até que algum critério de convergência seja

obtido.

C.2.3 Exemplo 2 - Distribuição t-Student

Considere Y1,Y2, ...,Yn variáveis aleatórias independentes com distribuição t-Student

com v graus de liberdade e parâmetros de localização e escala dados, respectivamente, por µ e

σ2. A função de densidade de Yi é dada por

fYi(yi) =

vπσ2Γ

) (1+(yi−µ)2

)−v+12 I(−∞,∞)(yi)

Para encontrar os estimadores de máxima verossimilhança desse modelo é necessário

aplicar o logaritmo na função de verossimilhança e, em seguida, derivar em relação a cada um

dos parâmetros. Entretanto, tal álgebra não é trivial e o algoritmo EM é uma técnica que facilita

a obtenção de tais estimadores.

Para isso, usa-se a relação

Yi|Si ∼ N

)Si ∼ Gama(v/2,v/2).

Dessa forma, o logarítmo da função de verossimilhança é dada por:

l(µ,σ2,v|Y,S) =n

∑i=1

log fYi|Si(yi|si)+n

∑i=1

log fYi(yi).

Considerando o caso em que os graus de liberdade (v) são fixos e conhecidos, temos

que a expressão l(µ,σ2,v|Y,S) é dada por:

l(µ,σ2,v|Y,S) = K−n

∑i=1

logσ2/2+

∑i=1

si(yi−µ)2

2σ2 ,

sendo k os termos que não dependem dos parâmetros de interesse.

Assim, seguindo os passos do algoritmo EM, temos a seguinte expressão para a

esperança:

E[l(µ,σ2,v|Y,S)] = E(K|Y )−n

∑i=1

logσ2/2+

∑i=1

(yi−µ)2

2σ2 E(Si|Yi),

Utilizando o fato de que Si|Yi ∼ Gama(

(y−µ)2

2σ2 ,v+1

), temos que si =

E(Si|Yi) =v+1v+di

, sendo di =(yi−µ)2

σ2 , para i = 1,2, ...,n,

Derivando a função em relação a cada um dos parâmetros envolvidos e igualando a

zero, temos:

µ =∑

ni=1 siyi

∑ni=1 si

∑ni=1 si(yi− µ)

n. (C.1)

Com os passos E e M finalizados, o algoritmo EM é implementado da seguinte forma

Passo 1: Defina valores iniciais para µ(1) e σ2(1), considerando si = 1;

Passo 2: Calcular si =v+1v+di

, sendo di =(yi−µ)2

σ2 , para i = 1,2, ...,n,;

Passo 3: Faça k = k+1, e atualize µ(k) e σ2(k) em C.1 com os si obtidos no Passo 2;

Passo 4: Verifique se a convergência foi atingida. Se não foi, ir para o Passo 2, caso

contrário, fim do algoritmo.

APÊNDICE D – INTRODUÇÃO À TEORIA DE CÓPULAS

D.1 Introdução

As funções de acoplamento são importantes ferramentas para geração de variáveis

correlacionadas. Por ser importante em áreas como atuária e finanças (risco de mercado, portfólio

de seguros, derivativos), seu estudo é de grande interesse seja por estatísticos, matemáticos ou

até mesmo físicos.

Para entender sua metodologia, apresentaremos a seguir a base para funções de

acoplamento: a transformada integral de probabilidade. E seguida, abordaremos conceitos

sobre distribuições multivariadas e, finalmente, apresentaremos as definições sobre funções de

acoplamento.

D.2 Transformada integral de probabilidade

Considere X ∼ F , ou seja, uma variável aleatória com função de distribuição acumu-

lada F(x) = P(X ≤ x), x ∈ R. Supondo que F(x) é contínua, então, para u ∈ (0,1), existe um

valor mínimo único x(u) , tal que F(x(u)) = u. Ou seja:

x(u) = F−1(u) = infx;F(x)≥ u,

a qual define-se a função de distribuição inversa. Temos que F(x)≤ u↔ x≤ F−1(u).

Uma vez que F(x) é não-decrescente e contínua, então sua inversa F−1(x) também

é não-decrescente e contínua sobre u ∈ (0,1) . Portanto, F(X) tem distribuição uniforme em

[0,1], ou seja, F(X) ∼U(0,1) e transformação U = F(X) é chamada transformada integral

de probabilidade.

D.3 Distribuições multivariadas

A estrutura de dependência entre as variáveis aleatórias de valores reais X1, ...,Xn

pode ser completamente descritade por sua função de distribuição conjunta, ou seja:

H(x1, ...,xd) = P(X1 ≤ x1, ...,Xn ≤ xn) = P(F1(x1), ...,Fd(xd)).

D.4 Funções de acoplamento

A cópula é uma distribuição multivariada cujas marginais são U(0,1). Assim, seja o

vetor aleatório U = (U1, ...,Ud) ∈ Id com cópula d-dimensional C, temos:

C(u1, ...,ud) = P(U1 ≤ u1, ...,Ud ≤ ud), (u1, ...,ud) ∈ Id.

Sabendo que qualquer variável aleatória contínua pode ser transformada por sua

acumulada para uma variável aleatória com distribuição U(0,1), temos que as cópulas podem ser

usadas para fornecer uma estrutura de dependência multivariada separadamente das distribuições

marginais.

Assim, seja H uma f.d.a. de X = (X1, ...,Xd) com marginais F1, ...,Fd , Sklar (1959)

mostrou que existe uma cópula C d-dimensional tal que para ∀xi ∈ domFi,

H(x1, ...,xd) =C(F1(x1), ...,Fd(xd)).

Para mais detalhes sobre funções de acoplamento ou teoria de cópulas, consultar

Sklar (1959), Viola (2009) ou Santos (2008).

MODELO DE REGRESSÃO BETA RETANGULAR PARA ANÁLISE DE …

Documents

Transcript of MODELO DE REGRESSÃO BETA RETANGULAR PARA ANÁLISE DE …

II.2. Regressão Linear Múltipla - ISA · II.2. Regressão Linear Múltipla

data.portal.sistemas.ro.gov.br€¦ · Superintendência Estadual de Compras e Licitações - SUPEL Comissão Beta - SUPEL-BETA Informação nº 15/2020/SUPEL-BETA RELAÇÃO DE PROPOSTAS

Regressão Logística Multinível - bdm.unb.brbdm.unb.br/bitstream/10483/10032/1/2014_AlexLuizMartinsMatheusda... · Palavras-chave: Regressão Logística, Regressão Multinível,

REVISTA BRASILEIRA DE ESTATÍSTICA - IBGE · Resumo O modelo de regressão Beta possui grande aplicabilidade prática, em particular, na modelagem de taxas e proporções e, tal como

Regressão beta inﬂacionada: inferência e aplicações · Tarciana Liberal Pereira Tese de Doutorado Recife 17 de dezembro de 2010. ... ‹ Ao meu marido, Luiz, por seu amor incondicional,

Lançamento - Pote Retangular Preto

Promoções BETA

Ministério Público Resolutivo? Uma análise da eficiência ... · Utilizou-se um modelo de regressão beta ... ao Conselho Superior do Ministério Público ... Receita Federal,

Sistema puxado beta

Regressão, Interpolação e Extrapolação Numéricasarosas/FisicaComputacional/aula04-interpolacao.pdf · Introdução Interpolação Regressão Regressão, Interpolação e Extrapolação

regressão ordinal

IV – Regressão e correlaçãodocentes.fe.unl.pt/~acsilva/TratDados/IV_4_Sig_Reg_Mult.pdf · IV – Regressão e correlação IV.4. (cont.) Significância ... Regressão linear

Regressão beta aplicada à avaliação dos indicadores de ... · Figura 1: Homocedasticidade, normalidade e linearidade dos resíduos. 4. Considerações finais . Os resultados obtidos

Beta Fosfato Tricalcio

Regressão Beta e Aplicações

2.5 Guia de ondas retangular - ele.ita.brfpires/emo087semana2006.pdf · 2.5 Guia de ondas retangular O guia de ondas retangular é uma região do espaço delimitada por dois condutores

Aula 21 - Regressão Linear e Análise de Variância da Regressão

Mestrado Profissional em Administração de Regressão Simples. Análise de Regressão Múltipla: Estimação. Análise de Regressão Múltipla: Inferência. Heteroscedasticidade.

Guia de ondas retangular - ITA

Fidelidade beta