Post on 26-Jun-2022
UNIVERSIDADE FEDERAL DO CEARÁ
CENTRO DE CIÊNCIAS
DEPARTAMENTO DE ESTATÍSTICA E MATEMÁTICA APLICADA
PROGRAMA DE PÓS-GRADUAÇÃO EM MODELAGEM E MÉTODOS
QUANTITATIVOS
VINÍCIUS SILVA OSTERNE RIBEIRO
MODELO DE REGRESSÃO BETA RETANGULAR PARA ANÁLISE DE DADOS
COM MEDIDAS REPETIDAS
FORTALEZA
2019
VINÍCIUS SILVA OSTERNE RIBEIRO
MODELO DE REGRESSÃO BETA RETANGULAR PARA ANÁLISE DE DADOS COM
MEDIDAS REPETIDAS
Dissertação apresentada ao Curso de Pós-Graduação em Modelagem e MétodosQuantitativos, como requisito parcial à obtençãodo título de mestre em Modelagem e AnáliseQuantitativa. Área de Concentração: Modela-gem e Análise Quantitativa
Orientador: Prof. Dr. Juvêncio SantosNobre
Coorientador: Prof. Dr. José RobertoSilva dos Santos
FORTALEZA
2019
Dados Internacionais de Catalogação na Publicação Universidade Federal do Ceará
Biblioteca UniversitáriaGerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)
R372m Ribeiro, Vinícius Silva Osterne. Modelo de regressão beta retangular para análise de dados com medidas repetidas /Vinícius Silva Osterne Ribeiro. – 2019. 98 f. : il.
Dissertação (mestrado) – Universidade Federal do Ceará, Centro de Ciências, Programade Pós-Graduação em Modelagem e Métodos Quantitativos, Fortaleza, 2019. Orientação: Prof. Dr. Juvêncio Santos Nobre. Coorientação: Prof. Dr. José Roberto Silva dos Santos.
1. Dados Longitudinais. 2. Modelos de Regressão. 3. Equações de Estimação. I. Título.
CDD 510
VINÍCIUS SILVA OSTERNE RIBEIRO
MODELO DE REGRESSÃO BETA RETANGULAR PARA ANÁLISE DE DADOS COM
MEDIDAS REPETIDAS
Dissertação apresentada ao Curso de Pós-Graduação em Modelagem e MétodosQuantitativos, como requisito parcial à obtençãodo título de mestre em Modelagem e AnáliseQuantitativa. Área de Concentração: Modela-gem e Análise Quantitativa
Aprovada em: 12/08/2019
BANCA EXAMINADORA
Prof. Dr. Juvêncio Santos Nobre (Orientador)Universidade Federal do Ceará (UFC)
Prof. Dr. José Roberto Silva dosSantos (Coorientador)
Universidade Federal do Ceará (UFC)
Prof. Dr. Gualberto Segundo Agamez MontalvoUniversidade Federal do Ceará (DEMA - UFC)
Prof. Dr. Gilberto Alvarenga de PaulaUniversidade de São Paulo (IME - USP)
À minha família, pelo amor, carinho e compa-
nheirismo.
Mãe, Pai e Alice, amo vocês.
AGRADECIMENTOS
Agradeço a Deus por todos os momentos da minha vida. À minha família pelo apoio
em todas as circunstâncias. Mãe (Joselanda), Pai (Marcus) e Alice, vocês são exemplos de amor,
carinho, atenção e companheirismo. À Neila, Socorro, Jusmar, Gina e Raimundo, sou muito feliz
em tê-los na minha vida. À minha companheira de estudos, trabalho, tango e de vida, Jamile
você foi e é muito importante para mim. À sua mãe, Dona Terezinha, por me acolher sempre
com muito amor e paciência.
Agradeço também aos professores que foram meus companheiros durante esse pro-
cesso de pós-graduação. Em primeiro lugar ao professor Juvêncio, pelo exemplo de profissional
e de estudante que é. Sua ajuda e incentivo foram fundamentais para o meu amadurecimento no
campo científico. Ao professor José Roberto, pelos ensinamentos e paciência em cada encontro
que fizemos. Aos professores Gualberto Segundo e Gustavo Pinho, grandes responsáveis pelo
meu avanço computacional.
Aos amigos, pela construção de largos conhecimentos nos momentos de conversa e
estudo. Lívia, Rossana, Kennedy, Armando e Raul, todos os momentos com vocês foram sempre
cheios de alegria e bom humor, fazendo com que essa caminhada se tornasse menos cansativa e
mais prazerosa.
À Fundação Ceará de Apoio ao Desenvolvimento Científico e Tecnológico (FUN-
CAP) Brasil pelo apoio financeiro parcial.
O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de
Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001.
É dessa forma que agradeço a todos por terem participado da minha vida de forma
tão significativa e terem moldado o indivíduo que sou hoje.
“Todo el mundo está esperando
Mejorar su situación,
Todos viven suspirando
Con razón o sin razón.
Todo el mundo se lamenta
Si en la buena ya no están,
Nadie aguanta la tormenta
Si la contra se le da.
La vida es una milonga
Y hay que saberla bailar,
En la pista está sobrando
El que pierde su compás.
La vida es una milonga
Y hay que saberla bailar,
Porque es triste estar sentado
Mientras bailan los demás.”
(PEDRO LAURENZ, 1941)
RESUMO
A independência entre observações é uma hipótese usual para a aplicação de inúmeras técnicas
estatísticas e se adequa, em geral, quando somente um valor é observado para cada unidade
amostral. Todavia, é comum a existência de experimentos com medidas repetidas, isto é, quando
há mais de uma observação para cada uma dessas unidades. Considerando a estrutura de medidas
repetidas, a possível existência de correlação entre as observações de uma mesma unidade e
casos em que a variável resposta é restrita ao intervalo (0,1), propomos a modelagem da média
de um modelo de regressão beta retangular a partir das Equações de Estimação Generalizadas sob
a suposição de homogeneidade do parâmetro de precisão. Sob esse modelo construímos técnicas
de diagnóstico como pontos de alavanca, distância de Cook e influência local e apresentamos um
exemplo para ilustrar a metodologia desenvolvida.
Palavras-chave: Dados Longitudinais. Modelos de Regressão. Equações de Estimação. Méto-
dos de Diagnóstico.
ABSTRACT
The independence between observations is a usual hypothesis for the application of numerous
statistical techniques and is generally adequate when only one value is observed for each sample
unit. However, it is common to have experiments with repeated measures, that is, when there
is more than one observation for each of these units. Considering the structure of repeated
measures, the possible existence of a correlation between the observations of the same unit and
cases in which the response variable is restricted to the interval (0,1), we propose the modeling
of the mean of a rectangular beta regression model from the Generalized Estimation Equations
under the assumption of homogeneity of the precision parameter. Under this model we construct
diagnostic techniques such as leverage points, Cook’s distance and local influence, and present
an example to illustrate the methodology developed.
Keywords: Longitudinal Data. Regression Models. Estimation Equations and Methods of
Diagnosis.
LISTA DE FIGURAS
Figura 1 – Desconto versus vendas de 5 produtos. . . . . . . . . . . . . . . . . . . . . 16
Figura 2 – Densidade da distribuição beta, B(p,q), para diferentes valores de p e q,
respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 3 – Densidade da distribuição beta, B(µ,φ), para diferentes valores de µ e φ ,
respectivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 4 – Densidade da distribuição beta retangular, BR(µ,φ ,θ), para diferentes valo-
res de µ , φ e θ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Figura 5 – Densidade da distribuição beta retangular reparametrizada, BR(γ,φ ,α), para
diferentes valores de γ , φ e α . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Figura 6 – Gráfico de perfis dos pacientes para as concentrações de gás iguais a 15%
(A), 20% (B) e 25% (C). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Figura 7 – Envelope simulado meio-normal para o modelo de regressão beta para me-
didas repetidas (valor esperado da estatística de ordem meio-normal versus
valor absoluto ordenado do resíduo padronizado). . . . . . . . . . . . . . . 74
Figura 8 – Envelope simulado meio-normal para o modelo de regressão beta retangular
para medidas repetidas (valor esperado da estatística de ordem meio-normal
versus valor absoluto ordenado do resíduo padronizado). . . . . . . . . . . . 76
Figura 9 – Influência local para os esquemas de ponderação de casos (A), perturbação
na variável resposta (B) e pertubação na variável logarítmo do tempo (C) e
da variável quadrado do logarítmo do tempo (D). . . . . . . . . . . . . . . . 77
Figura 10 – Dispersão dos dados e curvas ajustadas dos modelos de regressão beta (A) e
beta retangular (B). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
LISTA DE TABELAS
Tabela 1 – Estimativas e erros padrão dos parâmetros, considerando o modelo de regres-
são beta para medidas repetidas, para o modelo (7.1) extraído de Venezuela
(2008). Estudo oftalmológico. . . . . . . . . . . . . . . . . . . . . . . . . . 74
Tabela 2 – Medida QIC considerando o modelo de regressão beta retangular para medi-
das repetidas. Estudo oftalmológico. . . . . . . . . . . . . . . . . . . . . . 75
Tabela 3 – Estimativas e erros padrão dos parâmetros, considerando o modelo de re-
gressão beta retangular para medidas repetidas, para o modelo (7.1). Estudo
oftalmológico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Tabela 4 – Variações percentuais referentes às estimativas dos parâmetros do modelo
de regressão beta retangular com todas as observações - estimativa antes - e
retirando as observações (21,1), (21,3) e (25,20) - estimativa depois. Estudo
oftalmológico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Tabela 5 – Bias and Mean Square Error of the beta regression model estimators for
repeated measures, for the case φ = 10. . . . . . . . . . . . . . . . . . . . . 86
Tabela 6 – Bias and Mean Square Error of the beta regression model estimators for
repeated measures, for the case φ = 50. . . . . . . . . . . . . . . . . . . . . 87
Tabela 7 – Bias and Mean Square Error of the beta regression model estimators for
repeated measures, for the case φ = 10. . . . . . . . . . . . . . . . . . . . . 88
Tabela 8 – Bias and Mean Square Error of the beta regression model estimators for
repeated measures, for the case φ = 50. . . . . . . . . . . . . . . . . . . . . 89
Tabela 9 – Variáveis dos pacientes observados (Parte I). Estudo oftalmológico. . . . . . 90
Tabela 10 – Variáveis dos pacientes observados (Parte II). Estudo oftalmológico. . . . . 91
SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Conceitos iniciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Motivação e contribuição do trabalho . . . . . . . . . . . . . . . . . . . 19
1.3 Organização da dissertação . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 MODELOS PARA OBSERVAÇÕES INDEPENDENTES . . . . . . . . 20
2.1 Modelos Lineares Generalizados . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Modelo de Regressão Beta . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Modelo de Regressão Beta Retangular . . . . . . . . . . . . . . . . . . . 27
3 EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS . . . . . . . . . . . 33
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Funções de estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Função de estimação regular e informação de Godambe . . . . . . . . . . 36
3.2.2 Função de estimação ótima e função de estimação linear . . . . . . . . . . 38
3.3 Quase verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 Equações de Estimação Generalizadas . . . . . . . . . . . . . . . . . . . 42
3.4.1 Equações de estimação para modelos lineares generalizados com medidas
repetidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.2 Equações de estimação para o modelo de regressão beta com medidas re-
petidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4 EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS PARA O MODELO
DE REGRESSÃO BETA RETANGULAR . . . . . . . . . . . . . . . . . 48
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 Modelagem do parâmetro de posição (φ e α conhecidos) . . . . . . . . . 48
4.2.1 Estimação de β e ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.2 Etapas do processo iterativo para estimação dos parâmetros . . . . . . . . 53
4.3 Modelagem do parâmetro de posição (φ e α desconhecidos) . . . . . . . 53
4.3.1 Estimação de β , φ , α e ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3.2 Etapas do processo iterativo para estimação dos parâmetros . . . . . . . . 54
5 MÉTODOS DE DIAGNÓSTICO . . . . . . . . . . . . . . . . . . . . . . 56
5.1 Resíduos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2 Pontos de alavanca, discrepantes e influentes . . . . . . . . . . . . . . . . 58
5.3 Medidas de influência local . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3.1 Influência local para equações de estimação . . . . . . . . . . . . . . . . . 61
5.3.2 Esquemas de perturbação . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3.2.1 Ponderação de casos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.3.2.2 Perturbação da variável resposta . . . . . . . . . . . . . . . . . . . . . . . 63
5.3.2.3 Perturbação em uma covariável contínua . . . . . . . . . . . . . . . . . . . 64
5.3.2.4 Perturbação na matriz de correlação de trabalho . . . . . . . . . . . . . . . 67
5.4 Seleção de modelos e matriz de correlação . . . . . . . . . . . . . . . . . 68
5.5 Envelope simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6 SIMULAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7 APLICAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.1 Análise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.2 Análise inferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2.1 Ajuste com o Modelo de Regressão beta para medidas repetidas . . . . . . 73
7.2.2 Ajuste com o Modelo de Regressão beta retangular para medidas repetidas 75
8 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . . 79
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
APÊNDICES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
APÊNDICE A – Resultados de simulação . . . . . . . . . . . . . . . . . 86
A.1 Caso gerado com estrutura AR-1 e estimado pela estrutura AR-1 para
φ = 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
A.2 Caso gerado com estrutura AR-1 e estimado pela estrutura AR-1 para
φ = 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.3 Caso gerado com estrutura AR-1 e estimado pela estrutura indepen-
dente para φ = 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.4 Caso gerado com estrutura AR-1 e estimado pela estrutura indepen-
dente para φ = 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
APÊNDICE B – Dados utilizados . . . . . . . . . . . . . . . . . . . . . . 90
B.1 Estudo oftalmológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
APÊNDICE C – Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . 92
C.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
C.2 Algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
C.2.1 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
C.2.2 Exemplo 1 - Densidade mista . . . . . . . . . . . . . . . . . . . . . . . . . 93
C.2.3 Exemplo 2 - Distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . 94
APÊNDICE D – Introdução à Teoria de cópulas . . . . . . . . . . . . . . 97
D.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
D.2 Transformada integral de probabilidade . . . . . . . . . . . . . . . . . . 97
D.3 Distribuições multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . 97
D.4 Funções de acoplamento . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
14
1 INTRODUÇÃO
1.1 Conceitos iniciais
A independência entre observações é uma hipótese usual para a aplicação de inúmeras
técnicas estatísticas e se mostra adequada, em geral, quando somente um valor é observado
para cada unidade amostral. Nessa estrutura, denominada de estudo transversal, a coleta da
amostra é realizada em um único momento. Todavia, é comum a existência de experimentos
que possuem mais de uma observação para cada uma das unidades (estrutura denominada de
medidas repetidas), sendo razoável considerar a existência de algum grau de dependência entre
essas observações (dependência intra-unidade amostral) e, consequentemente, se faz necessário
o uso de metodologias mais sofisticadas para garantir resultados mais confiáveis.
Um caso especial dos estudos com medidas repetidas são os denominados estudos
longitudinais (chamados de estudo de coorte ou painel em áreas da saúde), cuja característica
inerente é considerar a coleta da amostra obtida em sucessivos momentos ordenados sob alguma
dimensão, seja ela tempo, velocidade, dosagem, altura, dentre outras, na qual a medição é feita
considerando uma mesma quantidade física. Existem, portanto, outros casos que envolvem
medidas repetidas, mas que não são considerados do tipo longitudinal, ou seja, envolvem uma
outra abordagem. Como exemplo, temos Séries Temporais, Análise de Sobrevivência e Análise
Multivariada, que consideram, respectivamente, o acompanhamento em muitos instantes de
uma única variável (série histórica); o acompanhamento, ao longo do tempo, até o desfecho
da unidade observada (tempo de vida); e a observação de um vetor de medidas de uma mesma
unidade, cujos valores podem representar quantidades físicas diferentes.
A aplicação de estudos do tipo longitudinal tem uso frequente em diversos campos
científicos (Psicologia, Economia, Saúde e Educação, por exemplo) e, não diferente de outras
metodologias estatísticas, apresenta vantagens e desvantagens quanto à sua utilização. O acom-
panhamento de unidades amostrais durante a realização do estudo, por exemplo, pode não ser
uma tarefa simples, pois em alguns casos gera alto custo para a pesquisa. Entretanto, conforme
Venezuela (2008), essa abordagem requer menos unidades amostrais do que planejamentos com-
pletamente casualizados; proporcionam condições mais adequadas para o estudo de covariáveis
que possam ter influência na variável resposta; além de avaliar o comportamento da resposta ao
longo do tempo e permitir o estudo da mudança do comportamento da resposta média da unidade
amostral nos diferentes tratamentos (incorpora a informação sobre a variação intra-indivíduos na
15
análise).
A coleta dos dados para a análise de dados longitudinais pode receber diferentes
denominações dependendo da sua característica. Se todas as unidades amostrais são observadas
nos mesmos instantes (igualmente espaçados ou não), por exemplo, a caracterizamos como um
experimento balanceado com relação ao tempo. Por outro lado, caso a coleta seja feita de
forma que as observações sejam coletadas irregularmente no tempo, ou mesmo se houver dados
omissos, a caracterizamos como experimento desbalanceado com relação ao tempo. Além
disso, outra terminologia importante em estudos longitudinais refere-se às ti respostas da i-ésima
unidade amostral (i = 1,2, ...,n), conhecido como perfil individual de resposta, caracterizado
por yi = (yi1,yi2, ...,yiti)>.
Acresça-se, ainda, que o estudo de dados do tipo longitudinal apresenta também
peculiaridades em sua análise descritiva. A possível existência de correlação entre as observações
motiva a necessidade da construção de um gráfico de dispersão e correlação em relação ao
tempo (matriz de covariância amostral ou matriz de correlações amostrais), por exemplo. Outra
importante ferramenta é o denominado gráfico de perfis. Esse gráfico, com o auxílio do
perfil médio ou mediano (em alguns casos são mostradas também as barras de erros-padrão),
identifica possíveis correlações intra-unidades amostrais, bem como a possível existência de
heterocedasticidade e pontos remotos. Mais detalhes sobre esses termos, consultar (SINGER et
al., 2018), por exemplo.
O diferencial, portanto, da análise de dados do tipo longitudinal é considerar a
dependência existente dentro desses perfis individuais de respostas das unidades observadas. Não
considerar essa característica inerente pode nos levar a conclusões/interpretações equivocadas
dos resultados obtidos. Como ilustração, simulamos um exemplo hipotético, similar àquele
conhecido na literatura como paradoxo das vendas (DEMIDENKO, 2013), o qual temos interesse
em investigar se o desconto de um produto específico (aqui consideramos 5 categorias de produtos,
totalizando 10 produtos) afeta sua quantidade vendida. Observe na Figura 1 os valores coletados.
O gráfico do lado esquerdo apresenta a plotagem de todas as observações coletadas
considerando a independência entre as mesmas. Se ajustássemos um modelo de regressão
neste caso, poderíamos concluir que as vendas dos produtos caem com o aumento de seu
desconto. Entretanto, se considerarmos a existência de dependência entre as observações, isto é,
considerando que os produtos pertencem a categorias diferentes, como mostra o gráfico do lado
direito, a interpretação é totalmente diferente, ou seja, quanto maior o desconto oferecido, mais
16
Figura 1 – Desconto versus vendas de 5 produtos.
vendido é o produto, evidenciando-se, nesse caso, um paradoxo.
Desse modo, o trabalho adicional da metodologia de estudos envolvendo dados
longitudinais refere-se a forma sobre como será feita a modelagem da estrutura de dependência
dos dados. Em alguns casos, podemos fazer uma redução de um estudo multivariado para um
estudo univariado, não sendo necessária a utilização de técnicas sofisticadas para a análise. A
utilização do teste-t pareado ou ANOVA (paramétrica ou não-paramétrica), por exemplo, podem
ser suficientes. A primeira abordagem pode ser utilizada quando somente duas observações
são feitas sob a mesma unidade e, assim, um teste de comparação de médias será eficiente
para a situação. No caso da ANOVA (que pode ser utilizada quando tivermos mais que duas
observações de uma mesma unidade), entretanto, será necessária a utilização de medidas resumo,
como a área sob a curva e análise de desfecho. Detalhes a respeito podem ser vistos em Singer et
al. (2018), por exemplo.
Apesar de serem muito aplicadas em diversas situações, as análises utilizando
técnicas como as listadas acima podem ser limitadas em alguns casos. A partir disso, muitos
autores propuseram, ao longo do tempo, alternativas para as abordagens com o estudo do tipo
longitudinal. Grande parte das pesquisas iniciais destinaram-se aos casos em que a variável
resposta do modelo segue distribuição Normal. Dentre elas, podemos citar a análise de variância
com medidas repetidas (NETER et al., 1996), análise uni/multivariada de perfis e a análise de
curvas de crescimento Singer e Andrade (1986).
Mais propostas, portanto, foram desenvolvidas com a finalidade de dispor outras
alternativas para o estudo de dados longitudinais. Henderson (1953), por exemplo, propõe
modelar a estrutura de correlação por meio da inclusão de novas fontes de variação aleatória ao
modelo – chamados efeitos aleatórios –, para que seja possível a modelagem da dependência
17
intra-unidade amostral. Essa classe de modelos, denominada de Modelos Lineares Mistos, foi,
posteriormente, estendida à uma abordagem denominada de modelo em dois estágios por Laird e
Ware (1982) e Ware (1985). Essa proposta generaliza alguns modelos importantes, tais como o
modelo linear clássico, o modelo de componentes de variância e os modelos hierárquicos.
Todavia, nem sempre é razoável supor a hipótese de normalidade para alguns casos.
Seguindo a mesma ideia que Nelder e Wedderburn (1972) tiveram, ao propor a modelagem da
variável resposta por meio das distribuições da família exponencial linear (Modelos Lineares
Generalizados), Breslow e Clayton (1993) propuseram uma extensão dos modelos lineares
mistos, denominando de Modelos Lineares Generalizados Mistos. Outras abordagens que
podemos citar neste contexto são: Modelos Lineares Mistos Elípticos (SAVALLI et al., 2006)
e Modelos Lineares Mistos Assimétricos (LACHOS, 2004; ARELLANO-VALLE et al., 2005;
LACHOS et al., 2010).
Concomitantemente aos avanços dos estudos para dados longitudinais utilizando
modelos mistos, outras metodologias também foram apresentadas como extensões dos modelos
lineares generalizados para dados longitudinais. A proposta de Liang e Zeger (1986), a partir
das Equações de Estimação Generalizadas (EEG’s), teve importante contribuição na literatura.
Diferentemente dos modelos de efeitos aleatórios, que permitem modelar o comportamento
individual (na literatura denominados de modelos subject-specific), as EEG’s avaliam a diferença
na resposta média populacional entre grupos (na literatura, esses modelos são denominados
population-averaged).
A EEG’s surgem a partir da proposta de Wedderburn (1974), que desenvolveu os
modelos de quase verossimilhança, cuja teoria é considerada uma extensão da proposta de Nelder
e Wedderburn (1972), citada anteriormente. Wedderburn (1974) aborda a quase verossimilhança
no seu caso uni e multivariado, sendo este capaz de incluir a estrutura de correlação dos
dados (denominado de quase-verossimilhança multivariada). Porém, (ARTES; BOTTER, 2005)
afirmam que essa versão multivariada apresenta dificuldades no seu uso, tendo em vita que
a modelagem da matriz de correlação em função da média pode fornecer equações de difícil
solução analítica e, ao mesmo tempo, a proposta não garante que as correlações pertençam
ao intervalo [−1,1]. O que os autores das EEG’s propõem, portanto, é modelar a matriz de
correlação de trabalho independentemente da média, ou seja, os parâmetros de correlação são
estimados adicionalmente.
De uma forma geral, as Equações de Estimação Generalizadas são caracterizadas
18
por serem construídas sem a especificação de uma distribuição conjunta (por isso são baseadas
nos modelos de quase verossimilhança) e utilizam uma matriz de correlação de trabalho para
o vetor de medidas repetidas de cada unidade amostral (essa matriz não precisa ser correta
para se obter consistência dos estimadores de regressão). No intuito de aprimorar o trabalho de
Liang e Zeger (1986), Crowder (1987) propõs a teoria de função de estimação linear ótima para
obtenção de estimadores com boas propriedades a partir da EEG’s. Além disso, Prentice e Zhao
(1991) propõe a estimação dos parâmetros de correlação também via Equações de Estimação
Generalizadas, sendo conhecida como EEG do tipo 2, ou simplesmente EEG2.
Como na prática a suposição de homogeneidade da dispersão pode ser questionada,
as equações de estimação também passaram a ser utilizadas para modelar tal parâmetro – deno-
minada EEG do tipo 3, ou simplesmente EEG3, seguindo a proposta de Song et al. (2004). Além
disso, as equações de estimação têm sido estendidas para outras classes de modelos. Jorgensen
(1997) desenvolve para modelos de dispersão. Sob o contexto de que variáveis preditoras podem
influenciar a variável resposta através de uma função desconhecida, Lin e Carroll (2001) avaliam
o uso de funções Kernel para EEG’s semiparamétricas. Outras abordagens recentes utilizam os
Modelos Aditivos Generalizados (HASTIE; TIBSHIRANI, 1990) e as EEG’s sob a estrutura de
Modelos Parcialmente Lineares Aditivos Generalizados para dados correlacionados (WANG
et al., 2014; LIAN et al., 2014; MANGHI et al., 2019).
Venezuela et al. (2007) estenderam algumas técnicas de diagnóstico para EEG’s
considerando propostas similares às usadas nos Modelos Lineares Generalizados. Posteriormente,
Venezuela (2008) assume que a variável resposta de um modelo com observações correlacionadas
assumem valores somente no intervalo (0,1). Supõe, portanto, a distribuição marginal beta –
com a estrutura de regressão proposta por Ferrari e Cribari-Neto (2004) – e distribuição marginal
simplex. A partir disso, elabora uma extensão das propostas de EEG1 e EEG3 para os modelos,
desenvolvendo também medidas de diagnóstico, incluindo análise de influência local.
Além da distribuição beta e da distribuição simplex, outras extensões considerando
diferentes distribuições vem sendo desenvolvidas no campo das Equações de Estimação Gene-
ralizadas. Oesselmann (), por exemplo, desenvolve o modelo de regressão binomial negativo
para dados de contagem com sobredispersão, e Tsuyuguchi (2017) utiliza a metodologia com a
distribuição Birnbaum-Saunders.
19
1.2 Motivação e contribuição do trabalho
Delimitando o estudo para respostas com suporte em (0,1) (ou um suporte limitado
qualquer (a,b), com a < b), Hahn (2008) e García et al. (2011) observam que a distribuição
beta pode não modelar de forma satisfatória eventos próximos a cauda da distribuição, além
de não permitir uma flexibilidade maior na especificação da variância, limitando o uso de tal
distribuição para dados de taxas e proporções. A distribuição beta retangular, portanto, é proposta
por Hahn (2008) com intuito de acomodar essa limitação, considerando uma mistura entre a
distribuição beta e a distribuição uniforme. Bayes et al. (2012) propõem uma reparametrização
para a distribuição beta retangular e uma estrutura de regressão mais adequada para a média da
distribuição beta retangular.
Em vista disso, o presente trabalho utilizará a distribuição beta retangular, bem como
a estrutura de regressão da respectiva distribuição, para desenvolver equações de estimação
generalizadas para modelos de regressão beta retangular com medidas repetidas. Essas equações
de estimação serão desenvolvidas sob o enfoque da modelagem da média com homogeneidade
de dispersão e parâmetro de mistura fixo, tendo como base os trabalhos de Venezuela (2008),
que apresenta equações de estimação para os modelos de regressão beta e regressão simplex, e
no trabalho de Santos et al. (2017b), que apresentam a estimação dos parâmetros do modelo beta
retangular (sob uma nova parametrização) na visão frequentista.
1.3 Organização da dissertação
O trabalho está, portanto, dividido em duas partes, as quais visam, respectivamente,
realizar uma revisão bibliográfica sobre os modelos para observações independentes, tais como
modelos lineares generalizados – base para aplicação do estudo de Liang e Zeger (1986) –,
modelo de regressão beta – modelo utilizado por Venezuela (2008) para a construção de EEG’s –
e modelo de regressão beta retangular – modelo base para o desenvolvimento desta dissertação –,
além de mostrar conceitos básicos sobre as Equações de Estimação Generalizadas; e apresentar o
desenvolvimento da proposta com base na extensão das Equações de Estimação Generalizadas
para o modelo de regressão beta retangular, como as etapas de estimação, os métodos de
diagnóstico, simulações e aplicação.
20
2 MODELOS PARA OBSERVAÇÕES INDEPENDENTES
2.1 Modelos Lineares Generalizados
A suposição de normalidade para a variável resposta de um modelo de regressão
linear foi, por muito tempo, bastante utilizada para modelagem de diversos fenômenos aleatórios.
Mesmo nos casos em que os dados não tinham tal comportamento, algumas modificações eram
feitas para que se pudesse adotar a suposição, como é o caso da transformação de Box e Cox
(1964), por exemplo. Com o avanço computacional, alguns modelos foram ganhando espaço
na literatura e mostraram ser bem mais flexíveis do que os modelos antes utilizados. Dentre
eles, podemos citar os Modelos Lineares Generalizados, propostos por Nelder e Wedderburn
(1972), que constituem uma extensão dos modelos lineares usuais, de forma que a distribuição
da variável resposta é um caso regular da família exponencial linear.
(Família exponencial linear) A família exponencial linear é uma família de distribui-
ções cuja função densidade pode ser escrita na forma:
f (yi;θi,φ) = exp[
1ai(φ)
yiθi−b(θi)+ c(yi,φ)
], (2.1)
em que a(·), b(·), c(·) são funções conhecidas, θi é o parâmetro natural ou canônico e ai(φ) =
φ/wi, com wi o peso a priori e φ > 0, conhecido, o parâmetro de dispersão ou escala.
Muitas distribuições importantes podem ser escritas na forma (2.1), tais como:
binomial, Poisson, binomial negativa, Normal, gama e normal inversa, por exemplo.
Nesse contexto, o modelo se caracteriza pela especificação de três componentes,
sendo eles o componente aleatório, dado por (2.1), o componente sistemático (preditor linear),
ηi, e a função de ligação, g(·), que podem ser expressos da seguinte maneira:
ηi = g(µi).
O componente sistemático, dado por ηi = x>i β , é definido pelas variáveis regressoras
e o vetor η é denominado vetor de preditores lineares, em que β = (β1,β2, ...,βp)>, p < n,
é um vetor de parâmetros a serem estimados, xi = (xi1,xi2, ...,xip)> representam as variáveis
explicativas (cuja matriz de especificação formada deve ser de posto completo). Além disso,
considera-se que g(µ) é uma função (monótona e duplamente diferenciável) de ligação que
relaciona a média, µi, (ou componente aleatório, Y) com o componente sistemático η (PAULA,
2015).
21
É possível mostrar, sob as condições de regularidade, que
E(
∂ log f (yi;θi,φ)
∂θi
)= 0 e (2.2)
E(
∂ 2 log f (yi;θi,φ)
∂θ 2i
)=−E
[∂ log f (yi;θi,φ)
∂θi
2], (2.3)
em que E(yi) = µi = b′(θi) e Var(yi) = φ−1V (µi), em que V (µi) =∂ µi
∂θié denominada de função
de variância (caracteriza a distribuição) e φ−1 é o parâmetro de dispersão.
Jorgensen (1987) apresenta uma propriedade importante que relaciona a distribuição
de Y e a função de variância:
√φ(Y −µi)
d−→N (0,V(µ)) quando φ → ∞,
ou seja, não há necessidade de uma tamanho amostral grande, basta que φ seja grande para que
o comportamento da variável aleatória se aproxime de uma distribuição normal (mesmo essa
variável sendo discreta). A importância desse resultado reflete na facilidade da construção de
intervalos de confiança e testes de hipóteses.
O processo de estimação para esse modelo é baseado no método de máxima veros-
similhança. Nesse caso, após alguma álgebra, pode-se mostrar que o vetor escore é expresso
por:
Uβ j =l(θ)∂β j
=n
∑i=1
1ai(φ)
yi
∂θi
∂ µi
∂ µi
∂ηi
∂ηi
∂β j− ∂b(θ)
∂θi
∂θi
∂ µi
∂ µi
∂ηi
∂ηi
∂β j
=
n
∑i=1
1ai(φ)
yiV−1
i∂ µi
∂ηixi j−µiV−1
i∂ µi
∂ηixi j
=
n
∑i=1
1ai(φ)
(yi−µi)xi jV−1
i∂ µi
∂ηi
=
n
∑i=1
1ai(φ)
√ωi
Vi(yi−µi)xi j
,
com ai(φ) = φ/ωi e ωi =1
V(µi)
(∂ηi
∂ µi
)2
.
O estimador de β é obtido quando resolvemos a equação Uβ = 0. Entretanto, essas
equações, em geral, não são lineares, fazendo-se necessário o uso de aproximações numéricas
para calcular as soluções do sistema. A abordagem mais utilizada é o método de Newton-
Raphson, cuja forma pode ser reexpressa por:
β(m+1) = β
(m)+(−U′(m)β
)−1(U(m)β
), m = 0,1,2, ...,
22
em que U′β
denota a primeira derivada de Uβ com respeito a β>, sendo U′(m)β
e U(m)β
as respectivas
quantidades avaliadas em β (m) (estimativa de β na m-ésima iteração).
Como a matriz −U′β
pode não ser positiva definida 1, essa quantidade é substituida
pelo seu valor esperado, I, gerando assim o método denominado Escore de Fisher:
β(m+1) = β
(m)+(I−1)(m)U(m) m = 0, 1, 2, ...,
sendo a matriz de informação de Fisher, I, dada por:
Ii =1φ
X>i WiXi,
com Wi = diag
ωi
V(µi)
(∂ µi
∂ηi
)2
representado a matriz de pesos.
Utilizando os termos ai(φ) e Wi, expressos anteriormente, podemos reescrever a
função escore na forma:
Uβ j =1φ
n
∑i=1
(yi−µi)xi jWiDi
,
sendo Di =∂ηi
∂ µi= diagg′(µi). De forma que a função escore de β pode ser reescrita matrici-
almente como:
Ui =1φ
X>i WiDi(yi−µi). (2.4)
Os termos do processo iterativo também podem ser reescritos e expressos – como
um processo iterativo de mínimos quadrados reponderados – da seguinte forma
β(m+1) = (X>W(m)X)−1X>W(m)Z(m),
com
Z(m) = Xβ(m)+D(m)(y− µ
(m))
= η(m)+D(m)(y− µ
(m)),
desempenhando o papel de uma variável dependente modificada.
Para mais detalhes sobre os modelos lineares generalizados, incluindo métodos de
diagnóstico e aplicações, sugerimos ao leitor ver McCulloch e Searle (2004) ou Paula (2015),
por exemplo.1 Uma matriz M é dita ser positiva definida se z>Mz > 0 para z vetores não nulos com entradas reais, Rn.
23
2.2 Modelo de Regressão Beta
Em diversas situações, como por exemplo em casos de variáveis respostas expressas
como contagens ou aquelas que assumem apenas valores positivos, a classe dos MLGs fornecem
boas alternativas de modelagem. Entretanto, em algumas outras situações, o comportamento
da variável resposta pode não apresentar semelhança alguma com as distribuições pertencentes
à família exponencial linear e, portanto, se faz necessário expandir o leque de distribuições a
serem utilizadas.
Um caso particular, por exemplo, é quando a variável resposta de interesse se
distribui continuamente no intervalo (0,1) - ou mais geralmente em um intervalo (a,b), com a e b
conhecidos e a < b - frequentemente encontrada em dados de taxas, índices e proporções. Para
esse caso, é sabido que a abordagem de modelos lineares generalizados pode não ser satisfatória
e uma outra distribuição, que não pertença à família exponencial linear, pode ser mais adequada
para essa modelagem. Dentre as possíveis distribuições, podemos citar a distribuição beta (a
ser utilizada neste trabalho), cujas diferentes especificações para modelos de regressão são
discutidas, como em Paolino (2001), Kieschnick e McCullough (2003), Ferrari e Cribari-Neto
(2004) e Smithson e Verkuilen (2006), por exemplo.
Dessa forma, considere Y uma variável aleatória com distribuição beta de parâmetros
denotados por p e q, com p > 0 e q > 0 e p,q ∈ R, denotada por Y ∼ B(p,q), cuja respectiva
densidade é dada por:
f (y; p,q) =Γ(p+q)Γ(p)Γ(q)
yp−1(1− y)q−1 I(0,1)(y). (2.5)
Para diferentes valores dos parâmetros p e q, respectivamente, o comportamento
da densidade beta é bastante flexível, assumindo diferentes formas, conforme é apresentado na
Figura (2).
O trabalho de Ferrari e Cribari-Neto (2004) destaca-se dentre os demais pelo fato
de especificar a estrutura de regressão, baseada na distribuição beta, de forma similar à classe
dos MLG’s. Os autores utilizam a seguinte reparametrização para o parâmetro de posição, µ , e
precisão, φ , na especificação do modelo de regressão:
µ =p
p+qφ = p+q,
de forma que a densidade pode ser reescrita como:
g(y; µ,φ) =Γ(φ)
Γ(µφ)Γ((1−µ)φ)yµφ−1(1− y)(1−µ)φ−1, (2.6)
24
0
1
2
3
4
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(2,2)
(2,5)
(2,7)
(2,9)
0
1
2
3
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(2,7)
(5,7)
(7,7)
(9,7)
Figura 2 – Densidade da distribuição beta, B(p,q), para diferentes valores de p e q, respectiva-mente.
em que 0 < µ < 1 e φ > 0. A média e a variância são dados, respectivamente, por:
E(Y ) = µ e Var(Y ) =V(µ)
1+φ,
em que V(µ) = µ(1−µ), µ representa a média e φ , pode ser entendido como o parâmetro de
precisão (para um valor fixo de µ , quanto maior o valor de φ , menor a variância de Y ).
A seguir podemos observar os diferentes comportamentos que a distribuição beta
reparametrizada assume para diferentes valores de µ e φ , respectivamente:
0
1
2
3
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(0.2,10)
(0.5,10)
(0.6,10)
(0.8,10)
0
2
4
6
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(0.2,50)
(0.5,50)
(0.6,50)
(0.8,50)
Figura 3 – Densidade da distribuição beta, B(µ,φ), para diferentes valores de µ e φ , respectiva-mente
A estimação dos parâmetros da distribuição apresentada em (2.6) pode ser realizada
através do método de máxima verossimilhança, por exemplo. O logaritmo natural da função de
verossimilhança baseado numa única observação é dado por
l(µ,φ) = logB(y; µ,φ)
= logΓ(φ)− logΓ(µφ)− logΓ((1−µ)φ)+(µφ −1) logy
+ ((1−µ)φ −1) log(1− y).
25
A função escore de µ e φ são dadas, respectivamente, por
Uµ(µ,φ) =∂ l(µ,φ)
∂ µ= φ(y∗−µ
∗)
Uφ (µ,φ) = µ(y∗−µ∗)+ log(1− y)−Ψ((1−µ)φ)+Ψ(φ).
em que y∗i = log(y/1− y), µ∗ = Ψ(µφ)−Ψ[(1− µ)φ ] e Ψ(.) representa a função digama,
derivada da função gama (ABRAMOWITZ; STEGUN, 1965).
Note que as funções escores referentes aos parâmetros µ e φ podem ser reescritas
em função de uma nova resposta, y∗, e de um novo parâmetro, µ∗. Dessa forma, os resultados
inferenciais da distribuiçao beta de Ferrari e Cribari-Neto (2004) muito se assemelham aos dos
Modelos Lineares Generalizados.
Utilizando o fato de que o modelo assume as condições de regularidade definidas em
(2.2) e (2.3), temos que a média dessa nova variável é dada por:
E(φ(y∗−µ∗)) = 0⇔ E(y∗) = µ
∗,
e a variância, por:
Var(y∗) = Var(y∗−µ∗) = Var(y∗) = E[(y∗−µ
∗)2]
=1
φ 2E[φ2(y∗−µ
∗)2]
= Ψ′(µφ)+Ψ
′((1−µ)φ),
sendo Ψ′a função trigama.
Considerando agora a estrutura de um modelo de regressão, considere y um vetor, tal
que y = (y1,y2, ...,yn)>, representando n variáveis aleatórias independentes, na qual cada yi, com
i = 1,2, ...,n, tem densidade beta, com média µi e parâmetro de precisão φ . Então, o modelo de
regressão beta (FERRARI; CRIBARI-NETO, 2004) pode ser expresso funcionalmente como:
g(µi) =p
∑j=1
xi jβ j = ηi, i = 1,2, ...,n.
Sendo g(µi) a função de ligação com domínio em (0,1) e imagem em R (duplamente
diferenciável e monótona); xi1,xi2, ...,xip observações de p covariáveis conhecidas (p < n) e β o
vetor de parâmetros de posição desconhecidos.
26
A estimação dos parâmetros do modelo ocorre de forma semelhante ao dos MLG’s.
A função escore para cada um dos parâmetros é dada por:
Uβ (β ,φ) = φX>T(y∗−µ∗) (2.7)
Uφ (β ,φ) =n
∑i=1µi(y∗i −µ
∗i )+ log(1− yi)−Ψ((1−µi)φ)+Ψ(φ) , (2.8)
em que X é uma matriz de especificação n× p, de posto completo, com a i-ésima linha dada
por x>i , y∗i = log(yi/1−yi), µ∗ = Ψ(µφ)−Ψ[(1−µ)φ ], T = diag(1/g′(µ1), ...,1/g
′(µn)), com
g′(µi) denotando a derivada de g(µi).
Os estimadores de máxima verossimilhança são obtidos resolvendo o seguinte sis-
tema de equações: Uβ (β ,φ) = 0,
Uφ (β ,φ) = 0.
Sob certas condições de regularidade, para tamanhos amostrais grandes, a distribui-
ção conjunta de β e φ é aproximadamente normal bivariada, de forma que √n(β −β )√
n(φ −φ)
∼Np+1
(0, K−1
),
sendo K a matriz de informação de Fisher que, segundo Ferrari e Cribari-Neto (2004), é dada
por:
K =
Kββ Kβφ
Kφβ Kφφ
,
em que Kββ = φX>WX, Kβφ = K>φ .β = X>Tc e Kφφ = tr(D), sendo W = diag(w1, ...,wn),
com wi = φΨ′(µiφ)+Ψ
′((1−µi)φ)g′(µi)2; D= diag(d1, ...,dn), com di = φΨ′
(µiφ)µ2+
Ψ′((1−µi)φ)(1−µi)
2−Ψ′(φ); e c = (c1, ...,cn)
>, com ci = φΨ′(µiφ)−Ψ
′((1−µi)φ)(1−
µi).
Existem na literatura algumas extensões do modelo de regressão beta (Smithson e
Verkuilen (2006), Simas et al. (2010)), que incremetam a dispersão variável no modelo, que
passa a ser denotado por B(µi,φi). Esse último ainda aborda preditores não-lineares no modelo.
Além dos métodos iniciais de diagnóstico apresentados em Ferrari e Cribari-Neto
(2004), existem ainda propostas relacionadas à medidas de influência e análise de resíduos, veja,
por exemplo, em Espinheira et al. (2008a) e Espinheira et al. (2008b). Além disso, Huang e
Oosterlee (2008) propõem um modelo de regressão beta generalizado misto com efeito aleatório
27
no preditor linear. Uma discussão a respeito da modelagem da regressão beta no software R,
incluindo tanto o trabalho de Ferrari e Cribari-Neto (2004) quanto o de Simas et al. (2010), é
apresentada com detalhes em Cribari-Neto e Zeileis (2010), o qual também consta a apresentação
do pacote betareg. E Ospina e Ferrari (2012) estendem o modelo beta no sentido de considerar
regressão beta para dados inflacionados de zero ou um.
2.3 Modelo de Regressão Beta Retangular
Apesar da vantagem relacionada à sua flexibilidade, a distribuição beta pode apre-
sentar limitações, visto que em alguns contextos prescrevem a utilização de uma distribuição de
cauda mais leve para a modelagem dos dados. Conforme observou Hahn (2008), cujo estudo
apresentou a aplicação da distribuição beta-PERT 2na avaliação do tempo de atividade de geren-
ciamentos de projetos, as conclusões excessivamente otimistas em relação aos resultados desses
projetos podem ser injustificáveis se valores extremos forem mais prováveis.
Nesse contexto, a distribuição beta não é particularmente flexível. Tal cenário induz
ao autor sugerir uma distribuição, baseada em uma mistura de uma distribuição beta usual e
uma uniforme padrão, que permite a modelagem de eventos mais extremos, bem como maior
flexibilidade na especificação da sua função de variância, denominando-a de distribuição beta
retangular, cuja densidade é definida abaixo:
g(y; µ,φ ,θ) = θ I(y)(0,1) + (1−θ)B(y; µ,φ) I(y)(0,1), (2.9)
em que 0 ≤ θ ≤ 1 é um parâmetro de mistura e B(y; µ,φ) é a densidade da distribuição beta
proposta por (FERRARI; CRIBARI-NETO, 2004).
Observe que para θ = 0, obtemos a distribuição beta e para θ = 1, obtemos a
distribuição uniforme padrão, ou seja, pela definição dada em (2.9), percebe-se que a distribuição
beta retangular nada mais é do que uma mistura de distribuições beta, de parâmetros µ e φ , e
uniforme padrão.
Denotamos a distribuição beta retangular por Y ∼ BR(µ,φ ,θ), na qual sua média e
variância são dadas, respectivamente, por (HAHN, 2008):
E(Y ) =θ
2+(1−θ)µ e Var(Y ) =
V(µ)
1+φ(1−θ)[1−θ(1+φ)]+
θ
12(4−3θ). (2.10)
2 A distribuição PERT, amplamente utilizada em análise de risco, é uma família de distribuições de probabilidadecontínuas definidas pelos valores mínimo (a), mais provável (b) e máximo (c) que uma variável pode assumir. Éuma transformação da distribuição beta de quatro parâmetros com uma suposição adicional de que seu valor
esperado é µ =a+4b+ c
6(CLARK, 1962).
28
A seguir, podemos observar diferentes comportamentos que a distribuição beta
retangular assume para valores distintos de µ , φ e , θ , respectivamente:
0
1
2
3
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(0.2, 10, 0)
(0.2, 10, 0.5)
(0.2, 10, 0.6)
(0.2, 10, 0.8)
0.0
0.5
1.0
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(0.5, 10, 0)
(0.5, 10, 0.5)
(0.5, 10, 0.6)
(0.5, 10, 0.8)
Figura 4 – Densidade da distribuição beta retangular, BR(µ,φ ,θ), para diferentes valores de µ ,φ e θ .
Em sua representação gráfica é possível notar vantagens da distribuição beta retangu-
lar em relação à distribuiçao beta. A primeira delas consiste na possibilidade do controle das
caudas da distribuição por meio do incremento do parâmetro θ ao modelo, ou seja, dependendo
do seu valor, esse pode tornar a cauda mais leve ou pesada. A segunda é consequência da
primeira, ou seja, o fato de existir um parâmetro que controla as caudas, resulta em uma maior
abragência da distribuição, visto que permite a modelagem de eventos extremos.
Para a obtenção de uma estrutura de regressão mais adequada para a média da
distribuição beta retangular, Bayes et al. (2012) sugerem a seguinte reparametrização:
γ =θ
2+(1−θ)µ e α =
θ
2
(1− θ
2
)θ
2
(1− θ
2
)+(1−θ)2µ(1−µ)
,
de modo que o espaço paramétrico de γ e α é um quadrado dado por
0≤ γ ≤ 1,0≤ α ≤ 1,
sendo
θ = 1−√
1−4αγ(1− γ) e µ =γ− 1
2+
12
√1−4αγ(1− γ)√
1−4αγ(1− γ). (2.11)
Após a reparametrização, a média e variância da distribuição beta retangular são
obtidas substituindo (2.11) em (2.10). A respectiva densidade da distribuição, denotada por
29
Y ∼ BRr(γ,φ ,α), com parâmetro da média sendo representado por γ , pode ser expressa por:
h(y;γ,φ ,α) = 1−√
1−4αγ(1− γ)+√
1−4αγ(1− γ) I(0,1)(y)
× B
γ− 12+
12
√1−4αγ(1− γ)√
1−4αγ(1− γ),φ
I(0,1)(y), (2.12)
sendo B
γ− 12+
12
√1−4αγ(1− γ)√
1−4αγ(1− γ),φ
a função densidade de probabilidade da distribuição
beta, conforme (2.6), com o parâmetro µ definido conforme a reparametrização sugerida por
Bayes et al. (2012).
A seguir podemos observar os diferentes comportamentos que a distribuição beta
retangular assume para diferentes valores de γ , φ e α , respectivamente:
0
1
2
3
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(0.3, 10, 0)
(0.3, 10, 0.2)
(0.3, 10, 0.5)
(0.3, 10, 0.8)
0.0
0.5
1.0
1.5
2.0
2.5
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(0.5, 10, 0)
(0.5, 10, 0.2)
(0.5, 10, 0.5)
(0.5, 10, 0.8)
0
2
4
6
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(0.3, 50, 0)
(0.3, 50, 0.2)
(0.3, 50, 0.5)
(0.3, 50, 0.8)
0
2
4
0.00 0.25 0.50 0.75 1.00
y
Den
sida
de
(0.5, 50, 0)
(0.5, 50, 0.2)
(0.5, 50, 0.5)
(0.5, 50, 0.8)
Figura 5 – Densidade da distribuição beta retangular reparametrizada, BR(γ,φ ,α), para diferen-tes valores de γ , φ e α .
Considerando a estrutura de um modelo de regressão, tome y1,y2, ...,yn uma amostra
da distribuição BRr(γi,φi,α), i = 1,2, ...,n. A estrutura de regressão proposta por Bayes et al.
(2012) é dada por
g1(γi) = x>i β g2(φi) =−w>i δ , (2.13)
30
sendo β e δ os vetores de parâmetros associados a xi e wi, respectivamente; x>i = (xi1,xi2, ...,xik)
e w>i = (wi1,wi2, ...,wil) os vetores de k e l covariaveis, respectivamente; g1(·) uma função cuja
inversa é uma função de ligação que relaciona γi com as covariáveis xi; e g2(·) uma função de
ligação que relaciona φi com as covariáveis wi, com o sinal negativo presente para facilitar a
interpretação dos coeficientes estimados (SMITHSON; VERKUILEN, 2006).
Vale destacar que o modelo de regressão beta retangular apresenta a generalização de
dois casos particulares: se α = 0 e φi é constante, obtemos o modelo de regressão beta proposto
por Ferrari e Cribari-Neto (2004), por outro lado, se α = 0, obtemos o modelo de regressão beta
com dispersão variável proposta por Smithson e Verkuilen (2006).
A função de verossimilhança do modelo pode ser expressa, conforme (2.9) e (2.12),
respectivamente, por:
L(ϑ ,Y ) =n
∏i=1
fY (yi|µi,φi,θi) =n
∏i=1
gY (yi|γi,φi,α),
em que ϑ = (β>,γ>,α)>, são definidos em (2.13) sob a reparametrização definida em (2.11).
A estimação dos parâmetros do modelos de regressão pode ser feita tanto pela
abordagem frequentista (SANTOS et al., 2017b) como pela abordagem bayesiana (BAYES;
BAZÁN, 2014; SANTOS et al., 2017a). Para a primeira, é considerada a estimação por máxima
verossimilhança via algoritmo EM 3 (Expectation-Maximization), o que facilita o processo, dado
que a distribuição beta retangular é obtida através de uma mistura finita.
Nessa abordagem, portanto, considera-se ϑ = (β>,γ>,α)> e
L(ϑ ,Y ) =n
∏i=1
gY (yi|γi,φi,α).
O algoritmo EM, para os casos de distribuições de mistura, consiste em aumentar
os dados observados (ou incompletos) considerando um vetor U = (U1,U2, ...,Un)>, não obser-
vável, que informa de qual componente da mistura Yi se originou. Dessa forma, Santos et al.
(2017b) definem a seguinte variável latente
Ui =
0, se Yi ∼ B(µi,φi) com probabilidade 1−θi,
1, se Yi ∼U(0,1) com probabilidade θi.
3 Detalhes são apresentados no Apêndice A.
31
Então, a distribuição dos dados faltantes tem distribuição Bernoulli, Ui|(yi,µi) ∼
Ber(θi), com probabilidade de sucesso dada por:
ui = E(Ui|yi,ϑ) = P(Ui = 0|yi,ϑ)+P(Ui = 1|yi,ϑ)
= P(Ui = 1|yi,ϑ)
=θi
θi +(1−θi)B(yi; µi,φi), (2.14)
em que θi = 1−√
1−4αγi(1− γi) e µi =γi−
12+
12
√1−4αγi(1− γi)√
1−4αγi(1− γi).
A densidade conjunta dos dados completos (y>,U>) pode ser escrita da seguinte
forma:
g(yi,ui|ϑ) = θuii (1−θi)
1−uiB(yi; µi,φi)1−uiI(ui)0,1I(yi)(0,1),
com o logaritmo da função de verossimilhança na forma:
l(β ,γ,α,ui) =n
∑i=1ui logθi +(1−ui) log(1−θi)− (1−ui)
× [log(Γ(φi))− log(Γ(µiφi))− log(Γ(1−µi)φi)
+ (µiφi−1) logyi +((1−µi)φi−1) log(1− yi)].
Q(ϑ |ϑ (m)) = E(l(ϑ |y,µ)|y, ϑ))
=n
∑i=1u(m)
i logθi +(1− u(m)i ) log(1−θi)− (1− u(m)
i )
× [log(Γ(φi)) log(Γ(µiφi))− log(Γ(1−µi)φi)
+ (µiφi−1) logyi +((1−µi)φi−1) log(1− yi)]
=n
∑i=1
Qi(ϑ |ϑ (m)),
e o segundo passo, passo M, maximiza Qi(ϑ |ϑ (m)) com relação a ϑ , obtendo ϑ (m+1). Pelo fato
de Q(ϑ |ϑ (m)) não possuir solução analítica, (SANTOS et al., 2017b) faz o uso da estimação
por métodos numéricos, neste caso usando L-BFGS-B (BYRD et al., 1995). A implementação
do algoritmo, portanto, é realizada em dois passos:
Passo E: Dado ϑ = ϑ , calcule u(m)i , para i = 1,2, ...,n utilizando (2.14);
Passo M: Atualize ϑ (m+1) maximizando Q(ϑ |ϑ (m)).
Esse processo será utilizado como base na estimação dos parâmetros do modelo
proposto neste trabalho. Para mais detalhes sobre o estudo do modelo de regressão beta retangular,
32
sob as perspectivas frequentista e bayesiana, consultar Santos et al. (2017b), Santos et al. (2017a)
e Alencar (2016), por exemplo.
No próximo capítulo, apresentamos conceitos Funções de Estimação, inclunido as
funções de estimação regular, ótima e linear, além da informação de Godambe. Em seguida,
introduzimos conceitos sobre quase verossimilhança e Equações de Estimação Generalizadas.
Nesta última, abordaremos sua extensão para modelos lineares generalizados e para regressão
beta.
33
3 EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS
3.1 Introdução
As Equações de Estimação Generalizadas, desenvolvidas inicialmente por Liang e
Zeger (1986), formam uma importante classe de modelos para análise de dados longitudinais
(e análise de dados multivariados em geral) com distribuição marginal pertencente à família
exponencial linear. Alguns trabalhos que trazem uma boa revisão sobre esse tema, incluindo
aplicações, são Godambe (1997), Ziegler et al. (1998) e Hardin e Hilbe (2003), por exemplo.
Tais equações foram basedas na teoria envolvendo as funções de estimação, cujos
conceitos podem ser encontrados em Godambe (1960), Godambe (1997), Jorgensen e Laboriau
(1994), Artes et al. (2000), Jorgensen (2003) e Artes e Botter (2005), e os modelos de quase
verossimilhança, proposto por Wedderburn (1974).
Neste capítulo apresentamos de forma sucinta as definições envolvendo tanto funções
de estimação – incluindo função de estimação regular, linear e linear ótima, além de informação
de Godambe – quanto conceitos sobre os modelos de quase verossimilhança, cujas funções
de estimação levam a estimadores consistentes e assintoticamente normais dos parâmetros do
modelo de regressão.
Ademais, são apresentados pontos resumidos do trabalho de Liang e Zeger (1986),
que serviram como base para o trabalho de Venezuela (2008) (também apresentado na sequência),
que utiliza as equações de estimação para o desenvolvimento do modelo de regressão beta para
dados de medidas repetidas. Esses trabalhos servirão como base para o desenvolvimento da
metodologia proposta nesta dissertação.
Vale ressaltar que muitas outras extensões, considerando diferentes distribuições,
vem sendo desenvolvidas no campo das Equações de Estimação Generalizadas. A título de
ilustração, podemos citar o trabalho de Oesselmann (), que propõe uma abordagem alternativa
para analisar dados correlacionados com distribuição binomial negativa, considerando dados de
contagem com sobredispersão, bem como o trabalho de Tsuyuguchi (2017), que propõe uma
abordagem alternativa para analisar dados correlacionados com distribuição Birnbaum-Saunders.
34
3.2 Funções de estimação
As funções de estimação, de acordo com (ARTES et al., 2000), são funções mensurá-
veis dos dados e dos parâmetros de interesse, cujas raízes resultantes das equações de estimação
são as estimativas dos parâmetros.
(Função de estimação) Seja (X ,A ,P) um espaço de probabilidade, tal que X ∈R
e P ∈ Pθ : θ ∈ Θ ⊆ Rp, tal que p ∈ N (dimensão do espaço paramétrico). Uma função
ψ : X ×Θ −→ Rp é uma função de estimação se para cada θ ∈ Θ, ψ(·,θ) é uma variável
aleatória.
Assumindo a existência de uma amostra com n vetores aleatórios independentes,
estende-se o conceito de estimação para a amostra:
(Função de estimação da amostra) Seja ψi(yi,θ) a função de estimação da i-ésima
unidade amostral, então:
Ψn(y;θ) =n
∑i=1
ψi(yi;θ), (3.1)
com dimensão p×1, sendo y = (y>1 ,y>2 , ...,y
>n )> um vetor (N×1), N = ∑
ni=1 ti, i = 1,2, ...,n
(com ti denotando o número de observações do indivíduo i) é denominada função de estimação
da amostra.
Por apresentar uma definição muito ampla e que engloba os mais variados tipos
de funções, vamos restringir os estudos das funções de estimação àquelas cujas raízes são
estimadores dos parâmetros de interesse, ou seja,
Ψn(y; θ) = 0, (3.2)
então estaremos avaliando as chamadas equações de estimação (que será o foco do estudo neste
trabalho).
(ARTES; BOTTER, 2005) Considere uma amostra y1,y2, ...,yn, de variáveis aleató-
rias independentes, na qual p(yi;θ) é a função densidade de probabilidade regular associada a yi.
Portanto, a função escore
Ψn(y;θ) =n
∑i=1
∂
∂θlog p(yi;θ),
é uma função de estimação.
Para facilitar a escrita da notação, vamos utilizar Ψ(θ) quando a referência for feita
à função de estimação – conforme Artes e Botter (2005).
35
A função de estimação não viciada é outra definição importante para o desenvolvi-
mento da teoria de funções de estimação.
(Função de estimação não viciada) Uma função de estimação é dita ser não viciada,
se:
Eθ Ψn(y;θ)= 0, ∀θ ∈Θ. (3.3)
A seguir definimos a matriz de variabilidade e matriz de sensibilidade de uma função
de estimação Ψ(θ).
(Matriz de variabilidade) Seja Ψ(θ) uma função de estimação não viciada. A matriz
de variabilidade de Ψ(θ) é definida por
VΨ(θ) = Eθ (Ψ(y,θ)Ψ>(y,θ))
(Matriz de sensibilidade) Seja Ψ(θ) uma função de estimação não viciada. A matriz
de sensibilidade de Ψ(θ) é definida por
SΨ(θ) = Eθ
(∂
∂θ>Ψ(θ)
)= Eθ ∇θ Ψ(y,θ)
No caso da matriz de sensibilidade, relacionada à derivada parcial da mesma em
relação aos parâmetros, é desejável que uma pequena variação no vetor paramétrico leve a uma
grande variação no valor da função de estimação, pois quanto maior essa variação, mais eficiente
a função será na estimação do parâmetro. No caso da matriz de variabilidade, espera-se que
a função de estimação apresente pequena variabilidade, pois dessa forma garante-se que no
verdadeiro valor do parâmetro, seu valor aproxime-se de seu valor médio, que é nulo (ARTES;
BOTTER, 2005).
Ademais, é necessário estabelecer algumas condições sob as quais as raízes de
uma função de estimação possuam boas propriedades assintóticas. Os conceitos sobre função
de estimação regular e informação de Godambe são pontos importantes para o estudo dessas
propriedades, as quais abordaremos no próximo tópico. Mais detalhes podem ser encontrados
em Godambe (1960), Godambe (1997), Jorgensen e Laboriau (1994), Artes et al. (2000) e Artes
e Botter (2005), por exemplo.
36
3.2.1 Função de estimação regular e informação de Godambe
(Função de estimação regular) Uma função de estimação ψ(y;θ)= (ψ1,ψ2, ...,ψp)> :
X ×Θ−→ Rp é dita ser uma função de estimação regular se as condições a seguir forem satis-
feitas para todo θ ∈Θ:
i. ψi(y;θ) é não viciada;
ii. A derivada parcial de Ψi(y;θ) com respeito a θi existe e é contínua quase certamente;
iii. É possível permutar o sinal de integração e diferenciação da seguinte forma:
∂
∂θl
∫X
Ψ(y;θ)dPθ =∫X
∂
∂θlΨ(y;θ)dPθ ,
com l = 1,2, ..., p;
iv. Eθ (ψ j(θ)ψk(θ)) ∈ R, com j,k = 1,2, ..., p e
Vψ(θ) = Eθ (Ψ(y,θ)Ψ>(y,θ))
é positiva definida;
v. Eθ
(∂
∂θlψ j(θ)
∂
∂θmψk(θ)
), com j,k, l,m = 1,2, ..., p e
SΨ(θ) = Eθ ∇θ Ψ(y,θ)
é não singular.
Se o parâmetro de interesse é unidimensional, então os pontos (iv.) e (v.) se reduzem,
respectivamente, a
0 < EθΨ2(y;θ)< ∞ Eθ
∣∣∣∣∂Ψ(y;θ)
∂θ
∣∣∣∣< ∞.
A seguir, apresentaremos a definição de Informação de Godambe, que desempenha
um papel similar à Informação de Fisher, para funções de estimação regulares.
(Informação de Godambe) Seja Ψ(y;θ) uma função de estimação regular. Define-se
a matriz de informação de Godambe de θ associada a Ψ por
JΨ(θ) = S>Ψ(θ)V−1Ψ
(θ)SΨ(θ).
Vale ressaltar que a função escore, obtida a partir de uma função densidade de
probabilidade regular, satisfaz as propriedades da Definição 3.2.1 e, além disso, SΨ(θ) =
37
−VΨ(θ), o que faz com que sua matriz de informação de Godambe coincida com a matriz de
informação de Fisher (ARTES; BOTTER, 2005).
A seguir, é apresentado o teorema que estabelece condições para normalidade
assintótica de estimadores obtidos a partir de funções de estimação regulares no caso de θ
unidimensional.
(JORGENSEN; LABORIAU, 1994). Seja θ um parâmetro unidimensional e con-
sidere a amostra de variáveis aleatórias independentes y1,y2, ...,yn, com y = (y1,y2, ...,yn)>.
Uma sequência de raízes θnn≥1 associada a uma função de estimação regular Ψn(y,θ) =
∑ni=1 Ψi(yi;θ) é tal que
θnp−→ θ ,
assintoticamente normal√
n(θ −θ)d−→N (0,J−1
Ψ(θ)),
em que
JΨ = S2(θ)/V (θ)
e
S(θ) = limn→∞
n
∑i=1
SΨi
n(θ); SΨi(θ) = Eθ∇θ ψi(yi,θ), (3.4)
V (θ) = limn→∞
n
∑i=1
VΨi
n(θ); VΨi(θ) = Eθψ2
i (yi,θ). (3.5)
No caso do parâmetro ser unidimensional, basta provar a consistência das raízes de
uma função de estimação regular para que se tenha distribuição assintótica conhecida (ARTES;
BOTTER, 2005). No caso multidimensional – desenvolvido por (ARTES, 1997) –, sob condições
de regularidade, a matriz
JΨ(θ) = S>(θ)V−1(θ)S(θ),
em que
S(θ) = limn→∞
n
∑i=1
Sn(θ)
n= lim
n→∞
n
∑i=1
SΨi(θ)
n(3.6)
38
e
V (θ) = limn→∞
n
∑i=1
Vn(θ)
n= lim
n→∞
n
∑i=1
VΨi(θ)
n, (3.7)
com SΨi(θ) = Eθ∇θ ψi(yi;θ) e VΨi(θ) = Eθψi(yi;θ)ψ>i (yi;θ), desempenha o papel de
uma matriz de informação de Godambe assintótica associada a Ψn.
Dessa forma, o vetor de parâmetros θ também é consistente e tem distribuição
assintótica normal, ou seja,
θnp−→ θ
√n(θ −θ)
d−→N (0,J−1Ψ
(θ)). (3.8)
3.2.2 Função de estimação ótima e função de estimação linear
O conceito de otimalidade de uma função de estimação regular foi
desenvolvido por Godambe (1960). Para o caso de θ ser unidimensional, é possível definir uma
função de estimação ótima como aquela cujas raízes possuem variância assintótica mínima. No
caso multidimensional esse conceito pode ser estendido como por meio e uma ordenação das
matrizes de covariâncias assintóticas. Chandrasekar e Kale (1984) mostra a definição para essa
ordenação e Artes e Botter (2005) fazem comentários sobre esse resultado.
Partindo dessa questão, (CROWDER, 1987) avalia a geração de funções de estimação
que são ótimas em uma sub-classe de funções regulares. Nesse sentido, o autor estuda as
chamadas funções de estimação lineares.
(Função de estimação linear) Sejam Qi(θ), i = 1,2, ...,n, matrizes não estocásticas,
não singulares e de pesos que, eventualmente, podem depender de θ e bi, i = 1,2, ...,n, vetores
aleatórios de média zero e mutualmente independentes satisfazendo as condições de função de
estimação regular. Então, bi gera uma classe de funções de estimação lineares definida por:
L (b) =
Ψn(θ) ∈ R : Ψn(θ) =
n
∑i=1
Qi(θ)bi(yi;θ)
, (3.9)
sendo R o conjunto contendo todas as funções regulares de θ e b = (b>1 ,b>2 , ...,b
>n )>.
Segundo o autor, a função de estimação linear ótima dentre as da classe L (b) é
obtida quando a matriz de pesos é dada por:
Ψon(θ) =
n
∑i=1
Qoi (θ)bi(yi;θ), (3.10)
39
em que
Qoi (θ) = E
(∂bi
∂θ>
)Cov(bi)
−1 (3.11)
com
Cov(bi) = Var(bi)1/2R(bi)Var(bi)
1/2, (3.12)
sendo Var(bi) = diagVar(bi1), ...,Var(bis) e R(bi) a verdadeira matriz de correlação de bi com
dimensão s× s.
Acresça-se, ainda, que as equações normais obtidas a partir do método de mínimos
quadrados é ótima em uma classe de funções de estimação regulares e lineares. O mesmo ocorre
para o método dos mínimos quadrados generalizados (ARTES; BOTTER, 2005).
3.3 Quase verossimilhança
Nem sempre especificar um correspondente multivariado para distribuição de proba-
bilidade de uma variável é uma tarefa simples – o caso da normal multivariada é uma rara exceção
a qual conseguimos especificar. São necessárias, portanto, opções que não levem em considera-
ção a função de verossimilhança para a estimação de parâmetros do modelo. Como alternativas
a esse problema são propostos os chamados modelos marginais, os quais não necessitam que
a distribuição conjunta de yi seja especificada, isto é, apenas é conhecido o comportamento da
média da distribuição em função das variáveis explicativas e a relação entre a média e a variância
da mesma.
Artes e Botter (2005) utilizam um exemplo para ilustrar o desconhecimento da
distribuição conjunta e, consequentemente, o uso da estimação por quase verossimilhança,
considerando uma variável resposta de um modelo de regressão que representa contagem. Para
esse caso, seria natural admitir a modelagem utilizando a distribuição de Poisson. Entretanto,
ao realizar a análise descritiva e ao calcular a função desvio, nota-se evidências de que existe
superdispersão dos dados, ou seja, a variância dos dados é superior à sua média, evidenciando uma
possível limitação ao uso da distribuição Poisson. Neste caso, várias extensões são apresentadas
na literatura como alternativas de modelagem, em nosso caso, vamos considerar o uso do método
de quase verossimilhança.
40
Dessa forma, sendo Y uma variável aleatória de interesse, Wedderburn (1974) define
o logaritmo da função de quase verossimilhança por
Q(µ;y) =1
σ2
∫µ
y
y− tV (t)
dt,
em que V (t) é uma função positiva e conhecida,−∞< y<∞ e σ2 > 0 é o parâmetro de dispersão.
Pelo fato de termos uma integral definida, então
∂Q(µ;y)∂ µ
=y− t
σ2V (t)|µy =
y−µ
σ2V (µ). (3.13)
Wedderburn (1974) chama a função (3.13) de função quase escore, em analogia
a função escore da família exponencial linear, pelo fato de ambas apresentarem as mesmas
propriedades, ou seja,
i. E(
∂Q(µ;Y )∂ µ
)= 0 e
ii. E
[∂Q(µ;Y )
∂ µ
2]=−E
∂ 2Q(µ;Y )
∂ 2µ
,
com E(Y ) = µ e Var(Y ) = σ2V (µ). Dessa forma, o cenário se assemelha aos Modelos Lineares
Generalizados, visto que, µ é a média da variável Y e a variância de Y é proporcional à V (µ).
Outrossim, o autor mostra ainda que
iii. −E
∂ 2Q(µ;Y )∂ 2µ
≤−E
∂ 2L(µ;Y )
∂ 2µ
,
sendo L(µ;Y ) a função de verossimilhança de µ . Essa terceira propriedade mostra que quando
se conhece a verossimilhança dos dados, a informação à respeito de µ é maior.
Considerando agora a existência de um modelo de regressão, com yi, i = 1,2, ...,n,
uma amostra de variáveis aleatórias independentes com distribuição desconhecida, com média µi
e parâmetro de dispersão φ−1, associa-se à observação i, a existência de um vetor p-dimensional
de covariáveis fixas xi, de modo que
g(µi) = x>i β = η e Var(yi) = φ−1V(µi),
sendo g(·) a função de ligação, monótona e duplamente diferenciável, e β um vetor p-dimensional
de parâmetros de regressão. A função de quase verossimilhança para a observação i é dada por
Qi(µi;yi) = Qi = φ
∫µi
yi
yi−µi
V(µi)dµi, (3.14)
e para a amostra completa é dada por
Q =n
∑i=1
(yi−µi)2
Var(yi)=
n
∑i=1
(yi−µi)2
φ−1V(µi).
41
Note que a ideia desse método consiste na estimação dos parâmetros utilizando
mínimos quadrados ponderados pela variância de yi.
Utilizando os conceitos expostos anteriormente, a função de estimação ótima na
classe L (y−µ) para um único indivíduo é dada por
Qi(µi;yi) = Qi = φ
∫µi
yi
yi−µi
V(µi)dµi, (3.15)
cuja derivada em relação à β é expressa por:
Ψi(β ) =∂Qi
∂β= φ
∂Qi
∂ µi
∂ µi
∂ηi
∂ηi
∂β= φxi
∂ µi
∂ηi
yi−µi
V(µi).
Utilizando a representação dos termos pela forma matricial e considerando Ψn(β ) =
∑ni=1 ψi(β ), temos que a função de estimação é dada por
Ψn(β ) = φX>HW−1(y−µ) = φD>W−1(y−µ), (3.16)
com Hi = diag∂dµi/∂dηi e W = Cov(y) = diagV1,V2, ...,Vn, sendo D> = X>H.
Para relacionar a função quase escore e as funções de estimação lineares ótimas,
considere o Teorema a seguir.
Sob condições gerais de regularidade, a função de estimação (3.16) é a função de
estimação linear ótima da classe L (y−µ). Além disso, a informação de Godambe de β baseada
em Ψn(β ) é dada por
JΨn(β ) = φD>W−1D.
McCullagh (1983) provou, sob condições gerais de regularidade, que o estimador de
quase verossimilhança, obtido como raiz da função quase escore, é consistente e que√
n(βn−
β ) converge em distribuição para uma normal p-variada com vetor média zero e matriz de
covariância J−1, com J = limn−→∞
JΨn
n. As estimativas de β e φ podem ser obtidas através de
algoritmos semelhantes aos apresentados para os modelos lineares generalizados (ARTES;
BOTTER, 2005). (WEDDERBURN, 1974) apresenta ainda a função quase desvio e mostra uma
proposta para a estimação do parâmetro φ .
Considere agora que tenhamos um modelo multivariado, ou seja, uma amostra
(y>i ,x>i )>, com yi vetores aleatórios t dimensionais independentes e X>i = (xi1,xi2, ...,xit) veto-
res não aleatórios p-dimensionais. Define-se o modelo de quase verossimilhança multivariado
42
como:
E(yi j) = x>i jβ = µi j, Var(yi j) = φ−1V(µi j) e Corr(yi) = Γ(µi).
A função quase escore multivariada (ARTES; BOTTER, 2005), que sob condições
gerais de regularidade é regular e função de estimação ótima na classe das lineares geradas por
yi−µi, é dada então por
Ψ(β ) = φ
n
∑i=1
D>i W−1i (yi−µi),
com Wi = Cov(yi) = φ−1A1/2i Γ(µi)A
1/2i e Ai = diagV1, ...,Vn.
Alguns pontos, todavia, limitam e tornam o uso da teoria de quase verossimilhança
multivariada inviável. Artes e Botter (2005) apresentam-os da seguinte forma:
i. Em alguns casos não há uma função de quase verossimilhança;
ii. Apresenta problemas na modelagem com dados desbalanceados;
iii. A modelagem de Γ como função da média pode acarretar dificuldades técnicas.
O autor afirma ainda que para existir uma função de quase verossimilhança, no caso
multivariado, faz-se necessário que ∂Ψn/∂β seja simétrica, o que geralmente não ocorre. Outro
problema frisado, refere-se à modelagem de Γ, ou seja, deve-se garantir que Γ seja sempre uma
matriz de correlação, isto é, que os elementos de fora da diagonal principal estejam restritos
ao intervalo [−1;1] e, além disso, é necessário que a mesma seja uma matriz positiva definida.
Considere como exemplo que t = 3 e admita que ρi, jk = Corr(yi j,yik). Ao tomarmos ρi, jk =
arctang( f (µi)), como exemplo, sendo f uma função qualquer, garantimos que −1≤ ρi, jk ≤ 1,
mas não garantimos que a matriz resultante será positiva definida.
Uma solução para contornar esse problema e garantir que a matriz seja positiva
definida, seria modelar ρi,12 e ρi,13 e modelar a correlação parcial entre yi2 e yi3 eliminado o
efeito de yi1. Todavia, apesar de ser uma interessante solução teórica, essa abordagem torna a
modelagem bem complicada e que não tem grande aplicabilidade (ARTES; BOTTER, 2005).
3.4 Equações de Estimação Generalizadas
A solução para esses problemas, proposta por Liang e Zeger (1986), estende a
situação anterior elaborando as chamadas Equações de Estimação Generalizadas para análise
de dados longitudinais (EEGs). Os autores propõem uma matriz de correlação dada por Ri(ρ) –
substituindo a matriz Γ(µi) proposta na quase verossimilhança – em que ρ = (ρ1,ρ2, ...,ρp)> é
43
um vetor de parâmetros de perturbação que, funcionalmente, independem de β . Dessa forma, o
problema na modelagem presente no método de quase verossimilhança seria amenizado, pois os
parâmetros da matriz de correlação não dependem mais dos parâmetros de posição. A seguir
apresentamos os pontos principais abordados em (LIANG; ZEGER, 1986).
3.4.1 Equações de estimação para modelos lineares generalizados com medidas repetidas
Considere o perfil de respostas referentes à i-ésima unidade amostral denotado
por yi = (yi1,yi2, ...,yiti)>, i = 1,2, ...,n (por simplicidade, consideraremos o caso balanceado
ti = t, todavia os resultados continuam válidos para os casos desbalanceados), assumindo que a
distribuição marginal de yi j pertence à família exponencial linear. Assim como Liang e Zeger
(1986), apresentaremos, inicialmente, o caso mais simples, ou seja, o caso em que a existência
de dependência entre as observações é ignorada.
É possível definir um modelo linear generalizado para cada instante t acrescentando
a (2.1) a parte sistemática
g(µit) = ηit .
Para a construção da função de estimação ótima, precisamos da quantidade definida
em (3.10), logo:
Eβ
(∂bi
∂β>
)>=
(∂
∂β>(yi−µi)
)>=
(∂ µi
∂θi
∂θi
∂ηi
∂ηi
∂βi
)>=−Xi∆iAi =−D>i
e
Covβ (bi) = Cov(yi) = diagVar(yi j)= φ−1diagb′′(θi)= φ
−1Ai,
sendo Xi = ∂ηi/∂β , ∆i = diag∂θi j/∂ηi j e Ai = diag∂ µi j/∂θi j = diagb′′(θi j) (neste
caso, b(·) denota a função da família exponencial) na qual ∆i é uma matriz que define a função
de ligação e Ai é uma matriz definida a partir da função de variância.
Dessa forma, a função de estimação ótima (que nesse caso é denominada de equação
de estimação de indepedência) coincide com a expressão da função escore do MLG, e é denotada
por:
ΨIn(β ) = φ
n
∑i=1
D>i A−1i (yi−µi). (3.17)
Segundo (LIANG; ZEGER, 1986), o estimador obtido em (3.17) é consistente e tem
distribuição assintótica normal multivariada de média zero e matriz de covariância JI dada por:
44
J−1I = lim
n−→∞n
n
∑i=1
Si
−1 n
∑i=1
Vi
n
∑i=1
Si
−1
,
que, conforme (3.4) e (3.5), pode ser reescrita na forma:
J−1I = lim
n−→∞n
n
∑i=1
X>i ΛiAiΛiXi
−1 n
∑i=1
X>i ΛiCov(Yi)ΛiXi
n
∑i=1
X>i ΛiAiΛiXi
−1
.
A desvantagem do estimador obtido a partir da equação de estimação de indepen-
dência, entretanto, é que ele pode não ter alta eficiência nos casos em que a correlação entre as
observações é grande (LIANG; ZEGER, 1986).
Sob essa conjuntura, que muito se assemelha à estrutura do modelo de quase ve-
rossimilhança para dados independentes, os autores propõem uma modificação na equação de
estimação independente, para desenvoler a equação de estimação generalizada, ao considerar
Ri (que não depende de µi) como sendo a verdadeira matriz de correlação dos dados. Porém, a
função originada a partir dessa matriz de correlação é pouco utilizada, visto que, na prática, Ri é
desconhecida.
A partir disso, (LIANG; ZEGER, 1986) consideram, então, a matriz Ri(ρ), que não
necessariamente precisa ser a verdadeira matriz de correlação dos dados. Ou seja
Var(yi) = Ωi = φA1/2i Ri(ρ)A
1/2i , (3.18)
sendo Ri(ρ) uma matriz de dimensão ri× ri, em que ρ = (ρ1,ρ2, ...,ρp)> é um vetor de parâme-
tros de perturbação que, funcionalmente, independem de β . A essa matriz, os autores chamam
de matriz de correlação de trabalho.
Para a estimação do vetor β é necessário resolver o seguinte sistema de equações
que, como já dito, recebe o nome de Equações de Estimação Generalizadas.
Ψn(β ) =n
∑i=1
D>i Ω−1i (yi−µi) = 0. (3.19)
Entretanto, a função equação (3.17) se torna viciada e, consequentemente, deixa de
ser ótima. É necessário, portanto, que ρ satisfaça algumas condições, de modo que o estimador
obtido em (3.17) continue apresentando as propriedades de consistência e distribuição assintótica
normal.
(LIANG; ZEGER, 1986) – Seja βn a raiz de (3.19), sob condições gerais de regulari-
dade, com ||βn−β ||= Op(1) e assumindo que ρ é um estimador√
n-consistente de ρ , dados β
45
e φ−1, têm-se que β é um estimador consistente de β e
√n(β −β )
d−→Np(0,J−1),
quando n−→ ∞, no qual
J−1 = limn−→∞
n
n
∑i=1
Si
−1 n
∑i=1
Vi
n
∑i=1
Si
−1
,
que, conforme (3.4) e (3.5), são expressas por
n
∑i=1
Si = E[
∂
∂β>Ψ1(β )
]= −
n
∑i=1
X>i WiΛ−1i Eβ
(∂
∂β>(y∗i −µ
∗i )
)= −
n
∑i=1
X>i WiΛ−1i XiΛi
= −n
∑i=1
X>i WiXi, (3.20)
e
n
∑i=1
Vi = E[Ψ1(β )Ψ1(β )>] =
n
∑i=1
X>i ΛiΩ−1i E[(y∗i −µ
∗i )(y
∗i −µ
∗i )>]Ω−1
i ΛiXi
=n
∑i=1
X>i ΛiΩ−1i Cov(y∗i −µ
∗i )Ω
−1i ΛiXi. (3.21)
Para mais detalhes sobre inferência e diagnóstico, consultar (LIANG; ZEGER, 1986),
(ARTES; BOTTER, 2005) e Venezuela (2008), por exemplo.
3.4.2 Equações de estimação para o modelo de regressão beta com medidas repetidas
Venezuela (2008) propôs o uso de equações de estimação generalizadas para situa-
ções em que a variável dependente é medida de forma contínua no intervalo (0,1) e há mais do
que uma observação realizada em uma mesma unidade amostral.
As equações de estimação apresentadas aqui são baseadas na suposição de que a
variável resposta tem distribuição marginal Beta (a parametrização será a mesma de Ferrari
e Cribari-Neto (2004)), cuja explanação se limitará a apresentar somente a modelagem do
parâmetro de posição, supondo homogeneidade do parâmetro de precisão (a autora também
apresenta a modelagem supondo heterogeneidade para o parâmetro de precisão).
Seja, portanto, yi =(yi1,yi2, ...,yit)> o vetor de respostas da i-ésima unidade amostral,
com i = 1,2, ...,n, com ti = t, sem perda de generalidade. Assumindo que yi j ∼ B(µi j,φ), isto é,
46
que a densidade de yi j seja dada por:
b(yi j; µi j,φ) =Γ(φ)
Γ(µi jφ)Γ((1−µi j)φ)yµi jφ−1
i j (1− yi j)(1−µi j)φ−1. (3.22)
Para a construção das equações de estimação generalizadas para o modelo de re-
gressão beta, Venezuela (2008) utilizou a definição de função de estimação linear ótima. Nessa
definição, é necessário ter vetores bi = bi(yi,β ) com média zero e mutualmente independentes
que satisfazem as mesmas propriedades das funções de estimação regulares.
No contexto de modelos de regressão beta com medidas repetidas, inicialmente,
define-se bi = yi−µi, com yi = (yi1,yi2, ...,yit)> e µi = (µi1,µi2, ...,µit)
> os quais satisfazem
tais propriedades.
Entretanto, quando temos independência entre as mesmas unidades amostrais, caso
que seria reduzido ao modelo proposto por Ferrari e Cribari-Neto (2004), os vetores bi’s não
geram uma classe L (b). Para contornar tal problema, Venezuela (2008) propôs
bi = y∗i −µ∗i ,
com y∗i e µ∗i seguindo estrutura semelhante a encontrada no modelo de regressão beta.
Com essa transformação, os vetores agora geram uma classe L (b), no caso de
independência, e continuam sendo vetores com média zero e mutualmente independentes, e
ainda com propriedades das funções de estimação regulares.
Considerando a possível dependência entre as observações da mesma unidade amos-
tral, os termos da função de estimação são dados por:
Eβ
(∂bi
∂β>
)>=
(∂
∂β>(y∗i −µ
∗i )
)>=−
(∂ µ∗i∂ µi
∂ µi
∂ηi
∂ηi
∂βi
)>=−φX>i GiAi
e
Cov(bi) = V(y∗i )1/2R(y∗i )V(y∗i )
1/2 = A1/2i R(y∗i )A
1/2i ,
com Xi = (xi1, ...,xit)>, Gi = diag∂g−1(ηi1/∂ηi1), ...,∂g−1(ηit/∂ηit e Ai = diagai1, ...,ait,
com ai j = Ψ′(µi jφ)+Ψ′((1−µi j)φ), e R(y∗i ) a verdadeira matriz de correlação de y∗i .
A função de estimação linear ótima de β , quando consideramos a verdadeira matriz
de correlação de y∗i e φ conhecido é:
Ψo1(β ) = ∑XiΛiCov(bi)
−1(y∗i −µ∗i ).
47
Sob as condições do Teorema 1 (ARTES; BOTTER, 2005), temos que β , solução de
Ψo1(β ) = 0 é um estimador consistente de β e que
√n(β −β )
D−→Np(0,J−1).
Como, na prática, a verdadeira matriz de correlação é desconhecida, (VENEZUELA,
2008) considera a proposta de (LIANG; ZEGER, 1986) considerando R(ρ), satisfazendo as
condições para ser uma matriz de correlação de trabalho, em que ρ caracteriza completamente
R(ρ). A função de estimação generalizada de β é dada por:
Ψ1(β ) =n
∑i=1
X>i ΛiΩ−1(y∗i −µ
∗i ) =
n
∑i=1
X>i WiΛi(y∗i −µ∗i ), (3.23)
com Ωi = A1/2i R(ρ)A1/2
i e Wi = AiΩiAi.
A função de estimação definida anteriormente deixa de ser ótima. Nesse caso é
necessário que um estimador, ρ , de ρ seja determinado de modo que o estimador de β obtido
em (3.23) seja consistente e assintoticamente normal. A autora apresenta o Teorema 4.2 para
conseguir tais propriedades.
Além disso, como φ quase sempre é desconhecido, também é necessário propor um
estimador para esse parâmetro, de forma que o mesmo seja ao menos fracamente consistente (de
modo a garantir propriedades assintóticas).
Venezuela (2008) propõe, portanto, a utilização de processo iterativo que combina o
método Escore de Fisher para estimar β com o método dos momentos para estimar ρ e φ . Além
disso, apresenta a modelagem conjunta dos parâmetros de posição e precisão, incluindo técnicas
de diagnóstico, simulações e aplicações para ambas as abordagens. A autora ainda desenvolve
a abordagem considerando a distribuição simplex (abordagem alternativa para dados de taxas
e proporções). Os comentários e as extensões sobre as técnicas de diagnóstico utilizadas por
(VENEZUELA, 2008) serão abordados com mais detalhes no Capítulo 5.
Como dito no início do capítulo, muitas outras extensões, considerando distribuições
diferentes da beta, vem sendo desenvolvidas no campo das Equações de Estimação Generalizadas.
(VENEZUELA, 2008) ainda estende a proposta para o modelo de regressão simplex; Oesselmann
() propõe o modelo de regressão binomial negativo para dados de contagem com sobredispersão; e
Tsuyuguchi et al. (2019) propõem a análise de dados correlacionados com distribuição Birnbaum-
Saunders. Neste trabalho, será desenvolvida a proposta para a análise de dados correlacionados
com distribuição beta retangular.
48
4 EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS PARA O MODELO DE RE-
GRESSÃO BETA RETANGULAR
4.1 Introdução
Venezuela (2008) propôs equações de estimação generalizadas para dados de medidas
repetidas cujo comportamento da variável resposta é modelado pela distribuição beta. Entretanto,
adotar a distribuição beta para a modelagem de variáveis restritas ao intervalo (0,1) com a
presença de valores extremos pode gerar um modelo mal ajustado e/ou pouco robusto, conforme
observou Hahn (2008). O autor sugere então, a utilização da distribuição beta retangular, cujo
modelo de regressão com abordagem bayesiana foi desenvolvido por Bayes et al. (2012) e cuja
abordagem frequentista foi desenvolvida por Santos et al. (2017b).
Seguindo a linha de estudo de Venezuela (2008), que utilizou a proposta de Ferrari e
Cribari-Neto (2004) para construir equações de estimação generalizadas para a construção do
modelo de regressão beta para dados de medidas repetidas, bem como o estudo de Santos et al.
(2017b), apresentamos neste capítulo a construção de equações de estimação generalizadas para
o modelo de regressão beta retangular com medidas repetidas.
Inicialmente, considerar-se-á o caso mais simples: a modelagem da média sob a
suposição da homogeneidade do parâmetro de precisão (supondo que o parâmetro de precisão φ
e o parâmetro de mistura α são conhecidos e assumindo que ti = t, sem perda de generalidade).
Posteriormente, apresentamos a modelagem considerando a mesma estrutura, porém supondo
que o parâmetro de precisão φ e o parâmetro de mistura α são desconhecidos. Nesta última
abordagem, o processo de estimação se dará por meio da extensão do algoritmo EM.
4.2 Modelagem do parâmetro de posição (φ e α conhecidos)
Seja yi = (yi1,yi2, ...,yit)> o vetor de respostas da i-ésima unidade amostral, com
i = 1,2, ...,n. Considere que a densidade marginal de yi j seja distribuição beta retangular, com
respectiva densidade dada por:
h(yi j;γi j,φ ,α) = 1−√
1−4αγi j(1− γi j)+√
1−4αγi j(1− γi j) I(0,1)(y)
× b
γi j−12+
12
√1−4αγi j(1− γi j)√
1−4αγi j(1− γi j),φ
I(0,1)(y), (4.1)
49
sendo E(yi j) = γi j, φ−1 o parâmetro de dispersão e α o parâmetro associado a mistura, ambos
conhecidos.
Dessa forma, as médias γi j são modeladas como nos modelos lineares generalizados,
ou seja,
g(γi j) = ηi j, (4.2)
com ηi j = x>i jβ o preditor linear, β = (β1, ...,βp)>, p < n, o vetor de parâmetros a serem
estimados e g(·) uma função monótona e duplamente diferenciável (função de ligação).
Considerando a densidade de yi j dada por (4.1) e o componente sistemático dado
por (4.2), com bi = y∗i −µ∗i , i = 1,2, ...,n, vetores com média zero e mutuamente independentes
(mesma estrutura da distribuição beta), temos que os termos da função de estimação para modelos
de regressão beta retangular para dados de medidas repetidas são dados por:
Eβ
(∂bi
∂β>
)>=
(∂
∂β>(y∗i −µ
∗i )
)>=−
(∂ µ∗i∂ µi
∂ µi
∂γi
∂γi
∂ηi
∂ηi
∂βi
)>=−φX>i GiAiEi
e
Cov(bi) = A1/2i R(y∗i )A
1/2i ,
sendo Xi =(xi1, ...,xit)>, Gi = diag
∂g−1(ηi1)/∂ηi1, ...,∂g−1(ηit)/∂ηit
, Ai = diagai1, ...,ait,
com ai j = (Ψ′(µi jφ)−Ψ′((1−µi j)φ)), sendo Ψ′ a função trigama, e Ei = diagei1, ...,eit, com
ei j =
14− 1
4α[
αγi j(γi j−1)+14
]√4αγi j(γi j−1)+1
,
para i = 1,2, ...,n e j = 1,2, ..., t, com R(y∗i ) a verdadeira matriz de correlação de y∗i (para
facilitar a notação, utilizaremos Λi = φGiAiEi).
A função de estimação linear ótima de β , quando consideramos a verdadeira matriz
de correlação de y∗, com φ e α conhecidos, é equivalente a:
Ψo1(β ) =
n
∑i=1
XiΛiCov(bi)−1(y∗i −µ
∗i ). (4.3)
Sob as condições do Teorema 3.2.1, temos que β , solução de Ψo1(β ) = 0, é um
estimador consistente de β e que
√n(β −β )
d−→Np
0, limn−→∞
n
∑i=1
X>i ΛiCov(bi)−1
ΛiXi
−1 .
50
Como na prática a verdadeira matriz de correlação geralmente é desconhecida,
seguimos a proposta de (LIANG; ZEGER, 1986) e definimos R(ρ) para ser a matriz simétrica
(t× t) que satisfaz as condições para ser uma matriz de correlação em que o vetor ρ (s× 1),
caracteriza completamente R(ρ). Com isso, a função de estimação generalizada de β é dada por
Ψ1(β ) =n
∑i=1
X>i ΛiΩ−1i (y∗i −µ
∗i ) =
n
∑i=1
X>i WiΛ−1i bi, (4.4)
sendo Ωi = A1/2i R(ρ)A1/2
i e Wi = ΛiΩ−1i Λi.
Todavia, o incrementando da matriz R(ρ) em (4.4) a tornará, provavelmente, uma
função de estimação viciada, deixando assim de ser ótima. Tal situação pode prejudicar a
qualidade do estimador de β em termos de suas propriedades assintóticas (como já dito tanto
para o caso das EEG’s para MLG’s quanto para o caso das EEG’s para regressão beta).
Seguindo a abordagem de (LIANG; ZEGER, 1986), consideramos um estimador
ρ de ρ determinado de modo que o estimador de β , obtido a partir de (4.4), seja consistente e
assintoticamente normal, embora essa função de estimação continue sendo viciada. O teorema a
seguir, semelhante ao apresentado no Teorema 4.2, pois agora precisamos incluir a existência do
parâmetro α , garante tais propriedades.
Seja βn a raiz de (4.4), sob condições gerais de regularidade, com ||βn−β ||= Op(1)
e assumindo que ρ é um estimador√
n-consistente de ρ , dados β , φ e α , têm-se que β é um
estimador consistente de β e√
n(β −β )d−→Np(0,J−1),
quando n−→ ∞, no qual
J−1 = limn−→∞
n
n
∑i=1
Si
−1 n
∑i=1
Vi
n
∑i=1
Si
−1
,
que, conforme (3.4) e (3.5), são expressas por
n
∑i=1
Si = E[
∂
∂β>Ψ1(β )
]= −
n
∑i=1
X>i WiΛ−1i Eβ
(∂
∂β>(y∗i −µ
∗i )
)= −
n
∑i=1
X>i WiΛ−1i XiΛi
= −n
∑i=1
X>i WiXi, (4.5)
51
e
n
∑i=1
Vi = E[Ψ1(β )Ψ1(β )>] =
n
∑i=1
X>i ΛiΩ−1i E[(y∗i −µ
∗i )(y
∗i −µ
∗i )>]Ω−1
i ΛiXi
=n
∑i=1
X>i ΛiΩ−1i Cov(y∗i −µ
∗i )Ω
−1i ΛiXi. (4.6)
Logo, a partir do Teorema 4.2, a matriz de covariâncias de β pode ser consistente-
mente estimada pelo chamado estimador sanduíche:
J−1n =
n
∑i=1
Si
−1 n
∑i=1
X>i ΛiΩibib>i ΩiΛiXi
n
∑i=1
Si
−1
,
no qual todas as quantidades são avaliadas no ponto β .
Quando, de fato, a matriz de correlação de trabalho, R(ρ), coincidir com a verdadeira
matriz de correlação dos y∗i , os estimadores de β terão aumento de eficiência (LIANG et al.,
1992). Além disso, Ωi = Cov(ui) e o estimador robusto se reduz ao estimador naive:
J−1n = n
n
∑i=1
Si
−1
.
4.2.1 Estimação de β e ρ
Para obter β , combinaremos no processo iterativo, o método Escore de Fisher para
estimar β com o método dos momentos para estimar ρ , já que φ e α são fixos e conhecidos.
Precisamos então, resolver a equação:
Ψ1(β ) =n
∑i=1
XiΛiΩ−1i (y∗i −µ
∗i ) = 0. (4.7)
Utilizando um processo similar ao dos MLGs, tem-se que o processo iterativo obtido
através do método de Newton-Raphson pode ser expresso por:
β(m+1) = β
(m)−E[
∂
∂β>Ψ1(β
(m))
]−1
Ψ1(β(m)),
= β(m)+
[
n
∑i=1
X>i WiXi
]−1[ n
∑i=1
XiΛiΩ−1i (y∗i −µ
∗i )
](m)
,
sendo m = 0,1,2, ... as atualizações das estimativas no passo vigente.
De forma similar ao que é realizado nos MLGs, podemos reescrever a estimativa do
vetor de parâmetros β na (m+1)-iteração como a solução de mínimos quadrados reponderados,
52
com o auxílio da matriz de pesos Wi e de uma variável modificada zi:
β(m+1) =
[
n
∑i=1
X>i WiXi
]−1[ n
∑i=1
X>i Wizi
](m)
, (4.8)
sendo Xi = (xi1, ...,xit)>, Wi = ΛiΩ
−1i Λi e zi = η + Λbi, com Ωi = A1/2
i R(ρ)A1/2i . Além disso,
Λi = φGiAiEi, sendo Gi = diag
∂g−1(ηi1)/∂ηi1, ...,∂g−1(ηit)/∂ηit
, Ai = diagai1, ...,ait,
com ai j = Ψ′(µi jφ)−Ψ′((1−µi j)φ), e Ei = diagei1, ...,eit, com
ei j =14(1−α)[
αγi j(γi j−1)+14
]√4αγi j(γi j−1)+1
,
para i = 1,2, ...,n e j = 1,2, ..., t.
Para o parâmetro ρ , a estrutura de correlação entre as observações da unidade
amostral pode ser especificada de várias formas, conforme Artes (1997), dentre elas: identidade,
padrão uniforme, auto-regressiva de ordem 1 e não-estruturada. É importante frisar que a matriz
de correlação reflete as correlações de y∗i j e y∗il , ou de bi j e bil , com
bi j = y∗i j−µ∗i j,
para i = 1, ...,n, j = 1, ..., t e l = 1, ..., t, com j 6= l. Desse modo, apresentamos a seguir as
estruturas citadas:
i. (Matriz de correlação padrão uniforme). Assume que Cov(bi j,bil) = ρ , ∀ j 6= l e 1≤ j,
l ≤ t. Assim, no passo m, teremos a estimativa expressa por:
ρ(m) =
[∑
ni=1 ∑
tj>l b(m)
i j b(m)il
][
∑ni=1 ∑
tj=1
(b(m)
i j
)2] 2
t−1.
ii. (Matriz de correlação autoregressiva de primeira ordem). Assume que Cov(bi j,bil) =
ρ | j−l|, com 1≤ j, l ≤ t. Assim, no passo m, teremos a estimativa expressa por:
ρ(m) =
∑ni=1 ∑
t−1j=1 b(m)
i j b(m)i, j+1[
∑ni=1 ∑
t−1j=1
(b(m)
i j
)2][
∑ni=1 ∑
tj=2
(b(m)
i j
)2]1/2 .
iii. (Matriz de correlação não estruturada) Assume que ρ = (ρ12,ρ13, ...,ρt−1,t) é um vetor
com l(l−1)/2 componentes, com ρ jl denotando a correlação entre bi j e bil , i = 1,2, ...,n
e j, l = 1,2, ..., t, com j < l. Assim, no passo m, teremos a estimativa de ρ jl expressa por:
53
ρ(m)jl =
[∑
ni=1 b(m)
i j b(m)il
][
∑ni=1
(b(m)
i j
)2]1/2[
∑ni=1
(b(m)
i j
)2]1/2 .
4.2.2 Etapas do processo iterativo para estimação dos parâmetros
Apresentamos a seguir os passos para a estimação dos parâmetros apresentados, com
base na metodologia apresentada para estimação de β e ρ .
1. Supondo que as observações de uma mesma unidade amostral sejam independentes,
utilizamos a função betareg (CRIBARI-NETO; ZEILEIS, 2010) para obter as estimativas
iniciais de β .
2. Utilizando a equação de estimação independente (subtituindo R(ρ) pela matriz indentidade
em 4.4), consideramos as estimativas obtidas no passo (1) e utilizamos o método Escore de
Fisher para estimar β . As estimativas são calculadas até a convergência de β no processo
iterativo.
3. Por fim, utilizando a equação de estimação generalizada (dada por 4.4), consideramos as
estimativas obtidas no passo (2) e utilizamos o método Escore de Fisher para estimar β e o
métodos dos momentos para estimar ρ . As estimativas são calculadas até a convergência
de β no processo iterativo.
4.3 Modelagem do parâmetro de posição (φ e α desconhecidos)
Conforme foi apresentado, a função de estimação generalizada de β é dada por (4.4),
ou seja,
Ψ1(β ) =n
∑i=1
X>i ΛiΩ−1i (y∗i −µ
∗i ) =
n
∑i=1
X>i WiΛ−1i bi,
sendo Ωi = A1/2i R(ρ)A1/2
i e Wi = ΛiΩ−1i Λi.
Para a estimação dos parâmetros do modelo, considerando agora φ , α e ρ desco-
nhecidos, a proposta deste trabalho consiste em combinar o processo iterativo do algoritmo EM
(adaptado para nossa abordagem) para a estimação dos parâmetros β , φ e α , com o método dos
momentos para estimação de ρ .
Utilizando o Teorema 4.2, temos que dados β , φ e α , β é um estimador consistente
de β . Logo, a matriz de covariâncias de β pode ser consistentemente estimada pelo chamado
54
estimador sanduíche:
J−1n =
n
∑i=1
Si
−1 n
∑i=1
X>i ΛiΩibib>i ΩiΛiXi
n
∑i=1
Si
−1
,
no qual todas as quantidades são avaliadas no estimador β . Para o parâmetro ρ , as estruturas de
correlação seguem as mesmas propostas anteriormente, isto é, as estruturas padrão uniforme,
autoregressiva de primeira ordem e não estruturada.
4.3.1 Estimação de β , φ , α e ρ
Conforme apresentamos no tópico dedicado à regressão beta retangular, a estimação
dos parâmetros envolvidos pode ser obtida utilizando o algoritmo EM. Todavia, devido ao
fato de estarmos trabalhando com equações de estimação generalizadas, é necessário adaptar a
abordagem do algoritmo.
Primeiramente, o vetor β será estimado considerando independência entre as obser-
vações. Posteriormente, definimos os valores iniciais para os parâmetros φ e α , sendo φ , obtido
por meio da estimativa do parâmetro de precisão utilizando a função betareg do software R
(CRIBARI-NETO; ZEILEIS, 2010) e α sendo obtido utilizando a ideia de Santos et al. (2017b).
A proposta de Santos et al. (2017b) se baseia na ideia de que α controla as caudas da
distribuição beta retangular (conforme vimos na Figura 5). Os autores consideraram relacionar
esse parâmetro com os graus de liberdade (g) da distribuição t-Student (que também possui a
mesma característica) e considerar o chute inicial como a estimativa pelo método dos momentos
(gMM). Entretanto, esse parâmetro assume valores positivos, g > 0, e α é um parâmetro limitado
ao intervalo [0;1]. A proposta então limita-se em considerar a transformação grep = gMM/(1+
gMM). A estimativa de α , conforme Santos et al. (2017b), no processo iterativo de passo (m) é
então expressa por:
α(0) =
−2∑ni=1 ∑
tj=1 y2
i j
∑ni=1 ∑
tj=1 y2
i j + t. (4.9)
Definidos estes valores, estima-se β novamente, agora considerando a dependência
e estima φ e α utilizando o algoritmo EM.
4.3.2 Etapas do processo iterativo para estimação dos parâmetros
1. Supondo que as observações de uma mesma unidade amostral sejam independentes,
utilizamos a função betareg (CRIBARI-NETO; ZEILEIS, 2010) para obter as estimativas
55
iniciais φ e β . O valor inicial para α é calculado com base em (4.9).
2. Utilizando a equação de estimação independente (subtituindo R(ρ) pela matriz indentidade
em 4.4), consideramos as estimativas obtidas no passo (1) e combinamos o algoritmo EM
para estimar φ e α com o método Escore de Fisher para estimar β . As três estimativas são
calculadas até a convergência de β no processo iterativo.
3. Por fim, utilizando a equação de estimação generalizada (dada por 4.4), consideramos as
estimativas obtidas no passo (2) e combinamos o algoritmo EM para estimar φ e α , com
métodos dos momentos para estimar ρ , e o método Escore de Fisher para estimar β . As
quatro estimativas são calculadas até a convergência de β no processo iterativo.
Obtidas as estimativas dos parâmetros de interesse, abordaremos, no próximo capí-
tulo, métodos de avaliação do modelo de regressão beta retangular considerando a homogenei-
dade do parâmetro de dispersão, apresentando métodos para identificação de pontos remotos,
observações influentes e envelope simulado.
56
5 MÉTODOS DE DIAGNÓSTICO
O ajuste de um modelo de regressão na análise de dados nada mais é do que uma
tentativa de aproximação da real relação funcional existente entre as variáveis. É de interesse,
portanto, avaliar o quão próximo o modelo ajustado está do real, além de avaliar o quão robusto o
mesmo é após a realização do ajuste. Para isso, são necessárias técnicas, descritas neste capítulo,
que auxiliam na indicação de um bom ajuste.
O conjunto dessas técnicas forma uma vasta área de estudo chamada de análise
de diagnóstico. Sua abordagem é dividida em dois tópicos, o primeiro consiste na análise de
resíduos e a segundo refere-se à análise de sensibilidade. No primeiro, o interesse é avaliar as
suposições a respeito da fonte de variação do modelo e de sua forma funcional; já no segundo, o
interesse é avaliar sua robustez, isto é, se o mesmo é sensível ou não a observações extremas
(por meio da identificação de pontos influentes e/ou alavanca).
Para os modelos lineares e os modelos lineares generalizados essas técnicas estão
detalhadamente apresentadas e podem ser encontradas, por exemplo, em Paula (2015). Conside-
rando a estrutura de dependência, Tan et al. (1997) desenvolveram tais técnicas para modelos de
regressão logística. Com base no trabalho desses autores, Venezuela et al. (2007) propõem uma
generalização para os modelos lineares generalizados com medidas repetidas e, posteriormente,
Venezuela (2008) apresenta uma extensão de tais procedimentos para o modelo de regressão
beta.
Com base nesses autores, são apresentadas a seguir as técnicas existentes para
identificação de pontos remotos e observações influentes – por meio dos elementos da diagonal
principal da matriz de projeção, distância de Cook e resíduos – para equações de estimação em
modelos de regressão beta retangular considerando a homogeneidade do parâmetro de dispersão.
5.1 Resíduos
Resgatando o que apresentamos no capítulo anterior, o processo iterativo na forma
de mínimos quadrados reponderados, para estimar β , com o auxílio da matriz de pesos Wi e de
uma variável modificada zi, é dado por:
β(m+1) =
[
n
∑i=1
X>i WiXi
]−1[ n
∑i=1
X>i Wizi
](m)
, (5.1)
sendo zi = η + Λbi.
57
Na convergência do processo iterativo para estimar o vetor de parâmetros, temos a
seguinte simplificação da expressão 5.1:
β =(
X>WX)−1
X>Wz, (5.2)
Note que, se considerarmos uma analogia de (5.2) com a solução de mínimos
quadrados da regressão normal linear, os termos W1/2
z e W1/2
X podem ser interpretados,
respectivamente, como o vetor de respostas e a matriz de especificação (essa extensão é a mesma
utilizada por Pregibon (1981) para os Modelos Lineares Generalizados).
Dessa forma, vetor de resíduos ordinários é dado por
ro = yi− µi
= yi−Xβ
= W1/2z−W1/2Xβ
= W1/2z−W1/2X(X>WX)−1X>Wz
= (I−W1/2X(X>WX)−1X>W1/2)W1/2z
= (I−H)W1/2z,
que também pode ser reescrito como ro = W1/2(z−η), sendo In a matriz identidade (n×n) e
H uma matriz bloco diagonal (t× t), isto é, H = diag(H1, ...,Hn), com
H = W1/2X(X>WX)−1X>W1/2.
Como os elementos de ro podem possuir variâncias diferentes, utiliza-se o resíduo
padronizado associado à observação yi j. Para isso, é necessário calcular a Cov(ro), ou seja:
Cov(ro) = Cov((I−H)W1/2z)
= (I−H)W1/2Cov(z)W1/2(I−H),
utilizando o fato de que z = η +Λbi, então
Cov(z) = Λ−1Cov(y)Λ−1 = W−1,
logo, Cov(ro) = (I−H).
O resíduo padronizado, conforme Venezuela (2008), é então definido por
rpi j =e>W 1/2(z−η)√
1−hi j.
58
5.2 Pontos de alavanca, discrepantes e influentes
Os pontos de alavanca são aqueles que possuem um perfil diferente dos demais no
que tange aos valores das variáveis explicativas - têm uma influência desproporcional no próprio
valor ajustado (um valor alto de hi j indica a influência de xi j sobre o respectivo valor ajustado,
yi j). Os pontos aberrantes são aqueles que possuem um perfil diferente dos demais no que tange
aos valores da variáveis resposta (e também apresenta baixo valor na matriz de projeção H). Por
esse motivo, dificilmente um ponto é alavanca e aberrante. Os pontos influentes, por sua vez, são
aqueles que têm uma influência desproporcional nas estimativas dos coeficientes.
Conforme apresentado no tópico anterior, o resíduo ordinário pode ser escrito como
r0 = (I−H)W1/2z. Utilizando novamente o fato anteriormente exposto, de que W1/2
z faz o
papel do vetor resposta, podemos utilizar H como sendo a matriz de projeção ortogonal, de
forma semelhante ao que se faz no modelo normal linear. Ou seja, os elementos da diagonal
principal dessa matriz,
Hi = Wi1/2Xi(Xi
>WiXi)−1Xi
>Wi1/2,
serão utilizados para detecção de pontos de alavanca.
Portanto, a j-ésima observação da i-ésima unidade amostral será um ponto de
alavanca, se a j-ésima observação da diagonal principal de Hi apresentar um valor alto comparado
aos demais valores observados, para i = 1,2, ...,n e j = 1,2, ..., l. Venezuela (2008) lembra que
os valores altos de hi j nem sempre são pontos de alavanca, pois tais valores dependem da matriz
de pesos Wi.
Para identificar a existência de possíveis pontos discrepantes, Venezuela (2008)
sugere a utilização do gráfico que consiste na plotagem do resíduo padronizado, (rPD)i j, definido
em (5.3), versus o indíce i. Para detectar um ponto influente, é utilizada a distância de Cook
(COOK, 1977), que mede o afastamento entre a estimativa do vetor paramétrico utilizando todas
as observações, θ e a estimativa do vetor paramétrico sem a observação yi j, θi j, com i = 1,2, ...,n
e j = 1,2, ..., l′.
Dessa forma, quando se exclui a observação yi j, a distância de Cook é dada por
DCi j =1d(θ − θi j)
>X>WX(θ − θi j)
= r2pdi j
hi j
d(1−hi j).
59
Para a indentificação de pontos influentes, portanto, plota-se o gráfico de DCi j versus
o índice i e verifica-se qual observação possui valor destacado das demais. Essa maneira de
avaliar a existência de pontos influentes é baseada na exclusão de cada observação. Entretanto,
(COOK, 1986) desenvolveu outro procedimento baseado na avaliação desses pontos a partir do
efeito de pequenas perturbações em componentes do modelo. No tópico a seguir, detalhamos
mais sobre essa abordagem.
5.3 Medidas de influência local
Os trabalhos desenvolvidos nesta área de diagnóstico, iniciaram com Cook (1986),
que apresentou o que é conhecido na literatura como influência local. Sua proposta avalia a
influência de perturbações, nos dados ou no modelo, por meio do comportamento de medidas
específicas. Essas medidas auxiliam na escolha do melhor modelo para os dados coletados.
Para um melhor entendimento da importância desse método de diagnóstico, Paula
(2015) faz uma ilustração motivadora para o tema. O autor considera uma variável explicativa
que mede uma distância particular. É possível identificar, por meio de uma medida de influência,
que pontos com distâncias altas produzem grandes variações na respectiva medida adotada, ou
seja, a variável explicativa escolhida pode ser muito sensível para valores altos, podendo não ser
indicada sua utilização na modelagem.
Dessa forma, denotando L(θ) como o logaritmo da função de verossimilhança do
modelo ajustado e θ um vetor r-dimensional, o método proposto por Cook (1986) considera per-
turbações feitas no logaritmo da verossimilhança, de forma que a função de log-verossimilhança
associada ao modelo perturbado é denotada por L(θ |ω). Para denotar o vetor de não pertur-
bação, usaremos L(θ |ω0), assumindo-se que existe um vetor de não perturbação ω0, tal que
L(θ |ω0) = L(θ).
Para avaliar a influência das perturbações considera-se a medida
LD(ω) = 2L(θ)−L(θω),
denominada afastamento da verossimilhança (Likelihood Displacement), em que θω denota o
estimador de máxima verossimilhança obtido sob o modelo L(θ |ω), sendo ω ∈ O ⊆ R (em
geral, ω é um vetor de dimensão N×1).
Com essa proposta, podemos então avaliar a influência sobre a estimativa de θ
quando variamos ω . Porém, ω pode assumir uma infinidade de valores, o que torna essa
60
abordagem inviável. Cook (1986) propõe então, avaliar o comportamento local de LDω para
valores numa vizinhança de ω0 (vetor não perturbação).
Segundo o autor, ao avaliar LD(ω) em torno de ω0, procura-se uma direção de
norma unitária `, ||`||= 1, e então avaliamos o gráfico de LD(ω0+al) contra a, em que a∈R. O
gráfico é conhecido como linha projetada, e cada linha pode ser caracterizada por uma curvatura,
denotada por C`(θ), em torno de a = 0. A direção `max é sugerida, pois corresponde à maior
curvatura, denotada por C`max (PAULA, 2015).
Com base nisso, para identificar quais observações exercem influência desproporci-
onal em LD(ω), sob pequenas perturbações, utilizamos o gráfico de `max versus a ordem das
observações.
Cook (1986) mostra, após manipulações algébricas, que a curvatura normal na
direção ` assume a forma
C`(θ) = 2|`>∆>L−1
∆`|,
em que L−1 é a matriz de informação de Fisher, ∆ é uma matriz r× q com elementos ∆i j =
∂ 2L(θ |ω)
∂θi∂ω j, avaliados em θ = θ e ω = ω0, i = 1, ...,r e j = 1, ...,q.
Considerando um caso mais geral, Cadigan e Farrell (2002) avaliam a medida de
influência por meio do afastamento de qualquer função de ajuste F (θ) (como por exemplo,
a quase verossimilhança), duplamente diferenciável em θ e que tem como estimador de θ ,
denotado por θ , a solução de
Ψ(θ) =∂F (θ)
∂θ= 0.
Assim, a medida de afastamento é dada por:
FDω = 2F (θ)−F (θω),
sendo θω o estimador que maximiza a função de ajuste perturbada F (θ |ω). Observe que quando
a função de ajuste é definida pelo logaritmo da verossimilhança, temos LDω = FDω .
Neste caso geral então, a curvatura normal passa a ser expressa por:
Cl(θ) = 2|`>∆>F−1
∆`|,
em que
∆ =∂ 2F (θ |ω)
∂θ∂ω>=
∂(θ |ω)
∂ω>
61
e
F =∂ 2F (θ |ω)
∂θ∂θ>=
∂(θ |ω)
∂θ>,
com todas as quantidades avaliadas em θ = θ e ω = ω0, com Ψ(· |·) é o vetor gradiente da
função de ajuste F (· |·).
Com base nisso, para identificar os pontos influentes, sob alguma perturbação,
seguimos o mesmo raciocínio no caso anterior. Observamos o direção do autovetor `max cor-
respondente à linha projetada de maior curvatura Cmax que é obtida pelo maior autovalor da
matriz
∆>F−1
∆.
5.3.1 Influência local para equações de estimação
Sabemos que no contexto de equação de estimação generalizada a função de veros-
similhança é desconhecida, bem como a função de ajuste que gera essa equação. Venezuela
(2008), entretanto, assume que a função de ajuste existe e que qualquer equação de estimação ge-
neralizada que utiliza a verdadeira matriz de correlação, ou que utiliza uma matriz de correlação
de trabalho conhecida, satisfaz as propriedades de quase verossimilhança citadas por McCullagh
e Nelder (1989).
Vale ressaltar, que esses autores descrevem que a função quase escore com obser-
vações dependentes é um vetor gradiente associada a uma quase verossimilhança, desde que a
derivada dessa função quase escore com relação a β seja uma matriz simétrica ou, similarmente,
desde que as derivadas dos componentes de Cov(yi)−1 com respeito a µi sejam iguais sob a
permutação de três índices, ou seja
∂Cov(yi jyil)−1
∂ µik=
∂Cov(yi jyik)−1
∂ µil=
∂Cov(yilyik)−1
∂ µi j,
para i = 1, ...,n e j,k, l = 1, ..., t.
Em nosso caso, temos que quando utilizamos a verdadeira matriz de correlação
R(bi) ou a matriz de correlação de trabalho R(ρ) conhecida, ambas não dependem de µ . Logo,
as derivadas dessas componentes são iguais. Com isso, pode-se assumir que
∃F (θ) tal queF (θ)
∂θ= Ψ(θ) e Ψ(θ) = 0,
em que θ é o ponto de máximo da função de ajuste F (θ).
62
Dessa forma, Venezuela (2008) propõe uma medida de influência local para equa-
ções de estimação definida por `max correspondendo ao maior autovalor da matriz
B =−∆S−1∆,
sendo
∆ =∂Ψ(θ |ω)
∂ω>e S = E(F ) = E
(∂Ψ(θ)
∂θ>
),
avaliadas em θ = θ e ω = ω0. Assim, o gráfico de índices versus `max pode revelar quais
observações são sensíveis (influentes) ao esquema de perturbação considerado.
5.3.2 Esquemas de perturbação
Conforme apresentamos no capítulo 4, a função de estimação generalizada de β é
dada por (4.4), ou seja,
Ψ1(β ) =n
∑i=1
X>i ΛiΩ−1i (y∗i −µ
∗i ) =
n
∑i=1
X>i WiΛ−1i bi, (5.3)
cuja matriz de sensibilidade é
S =−X>WX, (5.4)
sendo X = (X>1 , ...,X>n )> e W = diag(W>1 , ...,W
>n )>, além de Λ = diag(Λ>1 , ...,Λ
>n )>, Ω =
diag(Ω>1 , ...,Ω>n )> e b = diag(b>1 , ...,b
>n )>.
Baseado em (5.3) e (5.4), apresentaremos a seguir medidas de influência local para
alguns esquemas de perturbação para o modelo de regressão beta retangular sob homogeneidade
do parâmetro de precisão, baseado na proposta de Venezuela (2008).
Vamos considerar os seguintes esquemas: ponderação de casos, perturbação da
variável resposta, perturbação individual das covariáveis e perturbação na matriz de correlação
de trabalho.
5.3.2.1 Ponderação de casos
Neste caso, o esquema de perturbaçãao consiste em verificar a sensibilidade do
modelo ao atribuir diferentes pesos para cada observação, visando verificar a contribuição
individual de cada unidade amostral no processo de estimação, avaliando quais observações
63
exercem contribuições desproporcionais ao modelo. O respectivo esquema tem a forma
Ψ1(β |ω) = X>WΛ−1diag(ω)b, (5.5)
em que ω = (ω>1 , ...,ω>n )>.
Com isso, temos que ∆1 = X>WΛ−1diag(b). Logo, a medida de influência local
para o esquema de ponderação de casos é definida pelo autovetor lmax correspondente ao maior
autovalor da matriz
B1 = diag(b)Λ−1W>X(X>WX)−1X>WΛ−1diag(b). (5.6)
O gráfico de índices do autovetor de B1 (`max) pode revelar quais observações são
influentes na estimação de β .
5.3.2.2 Perturbação da variável resposta
Neste caso, o esquema de perturbação consiste em verificar a sensibilidade do modelo
ao considerar perturbações de forma aditiva na variável resposta, yi j, tal que
yωi j = yi j−ωi j
√Var(yi j),
sendo ωi j = 0 a indicação de ausência de perturbação.
Como a perturbação é apenas em yi j, então a alteração ocorrerá somente no vetor b.
A forma da perturbação é dada por:
Ψ1(β |ω) = X>WΛ−1bω , (5.7)
em que bω = (b>ω1, ...,b
>ωn)>, com bωi = bωi1, ...,bωit , i = 1, ...,n.
Com isso, temos que ∆2 = X>WΛ−1B, sendo
B =∂bω
∂ω>.
Essa derivada é facilmente encontrada, pois bωi j = y∗ωi j−µi j, em que
y∗ωi j = log(
yωi j
1−yωi j
)= log
(yi j +ωi jsi j
1−yi j−ωi jsi j
),
64
logo, sabendo também que yωi j = yi j−ωi j√
Var(yi j), temos:
∂bωi j
ωi j=
∂y∗ωi j
ωi j=
∂
ωi j
[log(
yωi j
1−yωi j
)]=
∂
ωi jlog(yωi j)−
∂
ωi jlog(1−yωi j)
= − 1yωi j
√Var(yi j)−
11−yωi j
√Var(yi j)
= −√
Var(yi j)
yωi j(1−yωi j).
Considerando Si = diag(si1, ...,sit), sendo si j =√
Var(yi j), e Yi = diag(yωi1(1−
yωi1), ...,yωit(1− yωit)), para i = 1, ...,n e j = 1, ..., t, podemos escrever
B = S Y −1.
Portanto, medida de influência local para o esquema de ponderação de casos é
definida pelo autovetor `max correspondente ao maior autovalor da matriz
B2 = BΛ−1W>X(X>WX)−1X>WΛ
−1B. (5.8)
O gráfico de índices do autovetor de B2 (`max) pode revelar quais observações são
influentes na estimação de β .
5.3.2.3 Perturbação em uma covariável contínua
Neste caso, o esquema de perturbação consiste em verificar a sensibilidade do modelo
ao introduzir modificações nas covariáveis (esse esquema pode ser interpretado como um erro de
medição dessas variáveis). A estrutura é semelhante à perturbação da variável resposta, porém a
adição será na k-ésima coluna da matriz de covariáveis X (valendo apenas se essa for contínua).
O esquema tem a forma
xωi jk = xi jk +ωi jsxk ,
sendo sxk o desvio padrão de xk, com i = 1, ...,n e j = 1, ..., t.
Pelo fato do esquema interferir em X, então a forma da perturbação terá todos os
componentes perturbados, ou seja:
Ψ1(β |ω) = X>ω ΛωΩ−1ω bω . (5.9)
Com isso, temos que
∆3 = X>ω Λω
[Ω−1ω
∂bω
∂ω>+
∂Ω−1ω
∂ω>diag(bω)
]−[
X>ω∂Λω
∂ω>+
∂X>ω∂ω>
Λω
]Ω−1ω diag(bω),
65
sendo∂Ω−1
ω
∂ω>=−Ω
−1ω
∂Ωω
∂ω>Ω−1ω ,
com
∂bω
∂ω>= diag
(∂bω1
∂ω>1, ...,
∂bωn
∂ω>n
)∂Ω−1
ω
∂ω>= diag
(∂Ωω1
∂ω>1, ...,
∂Ωωn
∂ω>n
)∂Λω
∂ω>= diag
(∂Λω1
∂ω>1, ...,
∂Λωn
∂ω>n
).
Vamos desenvolver o cálculo de cada componente das derivadas, lembrando que
a perturbação é feita somente na k-ésima coluna de X e resgatando os cálculos feitos para a
equação de estimação do modelo de regressão beta retangular no Capítulo 3, isto é, resgatando
as seguintes quantidades:
bωi = y∗i −µ∗ωi, Ωωi = A1/2
ωi R(ρ)A1/2ωi e Λωi = φGωiAωiEωi (5.10)
Para a derivada da primeira quantidade de (5.10), temos:
∂bωi
∂ω>i= −
∂ µ∗ωi
∂ω>i=−diag
(∂ µ∗
ωi1
∂ω>i1, ...,
∂ µ∗ωit
∂ω>it
),
com
∂ µ∗ωi j
∂ωi j= φ
∂ µ∗ωi j
∂ µωi j
∂ µωi j
∂γωi j
∂γωi j
∂ηωi j
∂γη i j
∂βωi j
= φaωi jeωi j∂g−1(ηωi j)
∂ηωi jβksxk .
Na forma matricial, temos que:
∂bωi
∂ω>i=−φβksxkGωiAωiEωi.
Para a derivada da segunda quantidade de 5.10, temos:
∂Ωωi
∂ω>i=
∂
∂ω>i
(A1/2
ωi R(ρ)A1/2ωi
)= A1/2
ωi R(ρ)∂A1/2
ωi
∂ω>i+
∂A1/2ωi
∂ω>iR(ρ)A1/2
ωi ,
66
sendo
∂A1/2ωi
∂ω>i= diag
(∂a1/2
ωi1∂ωi1
, ...,∂a1/2
ωit∂ωit
),
com
∂a1/2ωi j
∂ωi j=
12
a−1/2ωi j
∂aωi j
∂ωi jφ(ψ
′′(µωiφ)+ψ
′′(1−µωi)φ)βksxk .
Voltando para a derivada principal e escrevendo os temos na forma matricial, temos:
∂Ωωi
∂ω>i= A1/2
ωi R(ρ)
[12
A−1/2ωi GωiPωi
]βksxk +
[12
A−1/2ωi Pωi
]βksxkR(ρ)A1/2
ωi
=12
βksxk
[A1/2
ωi R(ρ)A−1/2ωi GωiPωi +A−1/2
ωi GωiPωiR(ρ)A1/2ωi
],
sendo Pωi = φ(ψ′′(µωiφ)+ψ
′′(1−µωi)φ).
Para a derivada da terceira quantidade de 5.10, temos:
∂Λωi
∂ω>i= φ
[∂Gωi
∂ωiAωiEωi +Gωi
∂Aωi
∂ωiEωi +GωiAωi
∂Eωi
∂ωi
]= φ [GωiAωiEωi +GωiAωiEωi +GωiAωiEωi] ,
em que
Gωi =∂Gωi
∂ωi=
∂ 2g−1(ηwi)
∂ 2wiβksxk ,
Aωi =∂Aωi
∂ωi= P
∂g−1(ηwi)
∂wiβksxk ,
e
Eωi =∂Eωi
∂ωi.
A derivada∂X>ω∂ω>
é uma matriz de dimensão p×N de zeros exceto a k-ésima linha é
dada pela constante sxk . Logo, a medida de influência local para o esquema de perturbação em
uma covariável é definida pelo autovetor lmax correspondente ao maior autovalor da matriz
B3 =−∆3S∆3. (5.11)
67
5.3.2.4 Perturbação na matriz de correlação de trabalho
Neste caso, o esquema de perturbação possibilita identificar a necessidade de atribuir
matrizes de correlação de trabalho diferentes para cada grupo de unidades experimentais que, a
princípio, assumiu-se ser a mesma para todas essas unidades (VENEZUELA, 2008). O esquema
tem a forma
ρωi( j j′) =ρ j j′
ωi( j j′),
com ρ j j = 1, ρ j j′ = ρ j′ j, com j, j′ = 1, ..., t. Ou seja, a abordagem considera que ρ é diferente
para cada unidade amostral. Com base nisso, a equação de estimação perturbada tem a forma:
Ψ1(β |ω) = X>ΛΩ−1ω b, (5.12)
que sofre alterações somente em Ωω .
A matriz ∆ para esse caso fica expressa por
∆4 = X>Λ∂Ω−1
ω
∂ω>diag(b)
Para a derivada de Ω−1ω , com respeito a ω>, já vimos que
∂Ω−1ω
∂ω>=−Ω
−1ω
∂Ωω
∂ω>Ω−1ω ,
e, para o atual esquema de perturbação, temos que
∂Ωω
∂ω>= Var(b)1/2 ∂R(ρω)
∂ω>Var(b)1/2.
A derivada neste caso é facilmente resolvida, pois o cálculo é feito diretamente nos
valores componentes da matriz de correlação e assume a mesma estrutura qualquer que seja a
forma da matriz de correlação (AR-1, padrão uniforme), ou seja,
∂ρωi( j j′)
∂ωi( j j′)=−
−ρ j j′
∂ω2i( j j′)
.
A medida de influência local para o esquema de perturbação na matriz de correlação
de trabalho é definida pelo autovetor lmax correspondente ao maior autovalor da matriz
B4 = diag(b)Λ−1W>X(X>WX)−1X>WΛ−1diag(b). (5.13)
A estrutura de B4 coincide com a de B1. Essa medida, portanto, avalia tanto a
perturbação para o esquema de ponderação de casos quanto para a perturbação da matriz de
correlação de trabalho. Essa conclusão também aconteceu para o modelo de regressão beta
proposto por Venezuela (2008).
68
5.4 Seleção de modelos e matriz de correlação
Comentamos na subseção anterior, métodos para identificar pontos que podem ou
não afetar o ajuste do modelo, bem como aqueles que destoam do comportamento padrão dos
demais. Agora, vamos discutir formas para selecionar o modelo que melhor representa/explica
um fenômeno em estudo dados que temos outros modelos possíveis. Utilizaremos, para isso,
critérios de seleção baseados na teoria da informação.
O AIC (Critério de Informação de Akaike) é um dos métodos de seleção mais
utilizados e foi proposto por Akaike (1973). Esse critério é baseado na minimização da distância
de Kullback-Leibler, K-L, (KULLBACK; LEIBLER, 1951), que é uma medida de distância
entre o modelo verdadeiro e um modelo candidato. O AIC foi desenvolvido sobre a estimativa
da informação K-L baseada na função de log-verosssimilhança em seu ponto máximo acrescida
de uma penalidade associada ao número de parâmetros do modelo. A medida AIC é dada por
AIC =−2n
∑i=1
logL(µi,yi)+2p,
sendo L a função de verossimilhança atribuída aos dados, yi o i-ésimo valor da resposta, µi a
estimativa de yi e p o número de parâmetros.
Note que o critério citado anteriormente é baseado na função de verossimilhança,
logo não podemos usar essa medida pra a seleção de modelos na abordagem da EEG’s. Uma
alternativa é proposta por Pan (2001), que modifica a medida AIC e faz ser útil também para a
escolha de uma matriz de correlação de trabalho, nomeando-a de QIC (Quasi-likelihood under
the Independence model Criterion) é dada por
QIC =−2n
∑i=1
m
∑t=1
Q(β ,φ ;Yit ,xit)+2tr(SI J−1nR ),
sendo Q(·) a quase verossimilhança, SI a matriz de sensibilidade considerando uma estrutura de
independência e J−1nR a matriz de covariância estimada a partir da estrutura de correlação, R(ρ),
assumida.
De forma geral, a medida QIC é calculada comparando um modelo com uma
determinada estrutura de correlação de trabalho com um modelo gerado utilizando a estrutura
independente. Os valores obtidos também podem ser utilizados de forma semelhante ao AIC, ou
seja, quanto menor o valor do QIC, melhor o modelo.
69
5.5 Envelope simulado
Uma outra abordagem para avaliar o ajuste de um modelo de regressão é utilizando
o gráfico denominado envelope simulado (ATKINSON, 1985). Esse gráfico pode construido
considerando o gráfico de probabilidade normal ou o gráfico de probabilidade meio-normal, com
observações independentes ou dependentes.
No caso de observações dependentes, a construção do gráfico requer que para cada
unidade amostral i, simulemos um vetor de variáveis correlacionadas de tamanho t, levando em
conta o vetor de médias e a matriz de covariâncias encontrados após o ajuste do modelo. Para
gerar variáveis correlacionadas, muitos abordagens são descritas em (ARTES; BOTTER, 2005),
por exemplo. Neste trabalho, como já descrito, utilizamos o método por meio de cópulas.
O gráfico é construído, então, considerando os valores absolutos ordenados dos
resíduos padronizados de cada observação da amostra e seus respectivos valores esperados da
estatística de ordem da distribuição normal padrão, dados por
Φ−1(
l +N−1/82N +1/2
),
com Φ−1 indicando a função de distribuição acumulada da distribuição normal padrão e l
indicando a posição ocupada pelo valor absoluto ordenado dos resíduos padronizados obtidos.
O passo a passo para a construção desse gráfico pode ser visto em (VENEZUELA, 2003), por
exemplo.
70
6 SIMULAÇÃO
Considerando as equações de estimação obtidas no Capítulo 4, estudos de simulação
foram aplicados para avaliar o desempenho dos estimadores do modelo considerando diferentes
cenários para o modelo.
Em um primeiro cenário, consideramos uma simulação através do modelo
log(
γi j
1− γi j
)= 1−0,5x1i j +0,5x2i j, (6.1)
sendo x1i j e x2i j valores uniformemente distribuídos no intervalo [0,1], em que i = 1,2, ...,ni (a
quantidade de indivíduos será modificada em cada situação) e j = 1,2, ...,mi (a quantidade de
momentos distintos será modificada em cada situação).
A estimação dos estimadores de modelos foi realizada com base no viés absoluto
relativo (viés) e no erro médio quadrático (MSE), dados respectivamente, por|θ j− θ j|
θ je
∑Rr=1(θ j− θ
(r)j )2
R.
Foi considerado para cada simulação um valor de R, número de réplicas utilizadas,
igual a 1000. Consideramos cenários diferentes para os parâmetros a serem estimados: φ1 = 10
e φ2 = 50; α1 = 0,1, α2 = 0,5 e α3 = 0,9; ρ1 = 0,3 e ρ2 = 0,8. Os tamanhos das amostras em
cada situação foram 25, 50 e 100, e em cada umas delas os indivíduos foram observados em
cinco tempos distintos.
As estruturas de correlação consideradas foram a independente, autorregressiva de
primeira ordem e desestruturada, quando o objetivo foi a geração dos dados, e autorregressiva
de primeira ordem e desestruturada, quando o objetivo foi a estimação da matriz de correlação.
As tabelas 5, 6, 7 e 8, presentes no apêndice, apresentam as estimativas para alguns dos casos
citados.
A partir dos resultados obtidos, verificou-se que o erro médio quadrático diminui à
medida que o tamanho da amostra aumenta para todos os estimadores envolvidos, o que mostra
a propriedade de consistência dos estimadores β .
Observamos, ainda, que quando se considera a mesma estrutura para ajustar os dados
gerados e obter as estimativas, ou seja, quando escolhemos a estrutura de correlação correta, os
vieses relativos de β0, β1 e β2 são, em geral, menores que 0,2% e apresentam valores muito
aproximados de β0, β1 e β2, respectivamente.
71
Quando ocorre uma má especificação da estrutura de correlação, entretanto, temos um
distanciamento do valor verdadeiro de ρ estimado independente do tamanho da amostra. Quando
se considera a verdadeira estrutura, as estimativas de ρ tendem para os valores verdadeiros à
medida que n aumenta.
Com relação a φ , seu erro quadrático médio é menor quando o verdadeiro valor de
α é 0.1. Quando analisamos as estimativas de α percebemos que as estimativas obtidas tendem
para os valores verdadeiros quando seu valor verdadeiro é 0.1 ou 0.5.
72
7 APLICAÇÃO
Apresentaremos neste capítulo o ajuste do modelo de regressão beta retangular para
medidas repetidas em um conjunto de dados já estudados na literatura. Serão aplicadas as
técnicas de diagnósticos desenvolvidas no Capítulo 5, como ferramental para avaliar a qualidade
do ajuste do modelo.
O caso utilizado como aplicação foi apresentado por Meyers et al. (1992) e também
discutido por Venezuela (2008) e Manco (2013). Os dados estão descritos no livro Correlated
Data Analysis: Modeling, Analytics and Aplications, de Song e Song (2007), como material
suplementar.
Esta aplicação refere-se a um estudo oftalmológico que avalia o uso de gás intrao-
cular, C3F8, em reparação cirúrgica na retina. Esse gás foi injetado nos olhos de 31 pacientes em
três diferentes níveis de concentração (15%, 20% e 25%) no momento da cirurgia.
7.1 Análise descritiva
Os pacientes foram observados de 3 a 15 vezes, num período de 3 meses, e em cada
visita foi observado a porcentagem do volume de gás nos olhos dos indivíduos. Essas unidades
amostrais foram observadas de forma desbalanceada no tempo. Os dados são apresentados na
tabela presente no apêndice.
A seguir apresentamos três gráficos de perfis referentes aos pacientes com gás de
concentração 15% (7 pacientes), com gás de concentração 20% (14 pacientes) e com gás de
concentração 25% (10 pacientes). Vale ressaltar que o comportamento observado nos dados é a
diminuição da percentagem de gás com o passar do tempo.
(A) (B) (C)
0.0
0.2
0.4
0.6
0.8
1.0
0 20 40Tempo (dias)
Per
cent
agem
de
gás
0.0
0.2
0.4
0.6
0.8
1.0
0 20 40 60 80Tempo (dias)
Per
cent
agem
de
gás
0.2
0.4
0.6
0.8
1.0
0 20 40 60Tempo (dias)
Per
cent
agem
de
gás
Figura 6 – Gráfico de perfis dos pacientes para as concentrações de gás iguais a 15% (A), 20%(B) e 25% (C).
73
7.2 Análise inferencial
Admitindo-se, portanto, que yi j é a porcentagem de volume de gás para o i-ésimo
indivíduo no tempo ti j, com i = 1, ...,31 e j = 1, ...,mi, e considerando o fato de que a variável
resposta pertence ao intervalo (0,1), poderíamos ajustar o modelo de regressão beta proposto por
Ferrari e Cribari-Neto (2004). Porém, considerar esse modelo seria, na verdade, desconsiderar a
presença de correlação inerente aos dados, visto que estamos trabalhando com dados de medidas
repetidas.
Esse comportamento, portanto, sugere a procura por uma estrutura que não ignore
essa presença de correlação entre as variáveis e que, ao mesmo tempo, considere o modelo de
regressão para dados limitados ao intervalo (0,1). Baseado nessa situação, Venezuela (2008)
desenvolve o modelo de regressão beta para medidas repetidas, cujos resultados para esta
aplicação são apresentados no próximo tópico.
7.2.1 Ajuste com o Modelo de Regressão beta para medidas repetidas
A autora considera para esta aplicação o ajuste do modelo com base na estrutura
para a média proposta por Song e Tan (2000), que utilizada a função de ligação complemento
log-log, supondo a homogeneidade da dispersão. A estrutura é apresentada a seguir.
log(− log(1− γi j)) = β0 +β1 logx1i j +β2 log2 x1i j +β3x2i j, (7.1)
sendo x1i j o tempo após a cirurgia e
x2i j =gasi j−20
5=
−1, se a concentração do gás é 15,
0, se a concentração do gás é 20,
1, se a concentração do gás é 25.
.
Os resultados das estimativas dos parâmetros presentes são apresentados na Tabela 1.
Vale ressaltar que a estrutura de correlação definida pela autora foi a do tipo AR-1 (escolhida a
partir da medida QIC).
74
Tabela 1 – Estimativas e erros padrão dos parâmetros, considerando o modelo de regressão betapara medidas repetidas, para o modelo (7.1) extraído de Venezuela (2008). Estudooftalmológico.
Parâmetro Estimativa Erro padrão Nível descritivoβ0 0,7386 0,0782 < 0,001β1 0,1435 0,0834 0,0850β2 -0,1687 0,0228 < 0,001β3 0,1556 0,1150 0,1760φ 2,9195ρ 0,7096
Nesse cenário, somente o intercepto e quadrado do logarítmo neperiano do tempo
são significativos para explicar, em média, a percentagem do volume de gás presente nos olhos
dos pacientes. O valor de φ resultou em 2,9195. Com relação a ρ , temos uma alta correlação
entre os dados, com coeficiente igual a 0,7096.
Para avaliar se a estrutura baseada no modelo de regressão beta modela bem os dados,
construímos a probabilidade de envelope semi-normal simulado com 95% de confiança, como
mostra a Figura 7.
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.2
0.4
0.6
0.8
Valor esperado da estatística de ordem meio−normal
Val
or a
bs. o
rd. d
o re
sídu
o pa
dron
izad
o
Figura 7 – Envelope simulado meio-normal para o modelo de regressão beta para medidasrepetidas (valor esperado da estatística de ordem meio-normal versus valor absolutoordenado do resíduo padronizado).
Observe que muitos pontos estão fora dos intervalos de confiança. Esses resultados
indicam que o ajuste ao modelo de regressão longitudinal beta, baseado na proposta de Venezuela
(2008), não é adequado, e se faz necessária a busca por um modelo baseado em uma estrutura
mais flexível, que será apresentado no próximo tópico.
75
7.2.2 Ajuste com o Modelo de Regressão beta retangular para medidas repetidas
Considerando o fato de que esse conjunto de dados correlacionados apresenta pontos
muito próximos aos extremos do intervalo (0,1), com valores iguais a 0,001 e 0,999 para a
variável resposta, por exemplo, sabemos que a estrutura de regressão beta, mesmo considerando
medidas repetidas, pode não ser a ideal para esse caso, ou seja, é interessante que possamos
tornar ainda mais robusta essa modelagem com o incremento de algum componente que permita
abranger a presença de valores extremos no modelo de regressão.
Com base nisso, ajustamos o modelo proposto nesta dissertação - modelo de re-
gressão beta retangular para medidas repetidas - com intuito de avaliar uma possível melhora
no ajuste de um modelo de regressão aos dados. Para isso, continuaremos a utilizar a mesma
estrutura para a média apresentada na equação (7.1).
A estrutura de correlação escolhida para esse ajuste também foi a do tipo AR-1,
conclusão obtida a partir das medidas QIC para cada estrutura, conforme é apresentado na Tabela
2.
Tabela 2 – Medida QIC considerando o modelo de regressão beta retangular para medidasrepetidas. Estudo oftalmológico.
Estrutura QICUniforme -441.5678
AR-1 -453.1998Desestruturada -431.2587
Os resultados das estimativas dos parâmetros considerando o modelo beta retangular
são apresentados na Tabela 3.
Tabela 3 – Estimativas e erros padrão dos parâmetros, considerando o modelo de regressão betaretangular para medidas repetidas, para o modelo (7.1). Estudo oftalmológico.
Parâmetro Estimativa Erro padrão Nível descritivoβ0 1,7397 0,1407 < 0,001β1 0,1116 0,0141 < 0,001β2 -0,2481 0,0100 < 0,001β3 0,3004 0,0316 < 0,001φ 4,7937ρ 0,7958α 0,0868
Observe que nesse ajuste todos os parâmetros foram significativos para explicar, em
média, a percentagem do volume de gás presente nos olhos dos pacientes. O valor de φ estimado
76
resultou em 4,7937 e o valor de ρ resultou em 0,7958. Além disso, o modelo oferece mais um
parâmetro, α , que nesse caso resultou em 0.0868. O incremento desse parâmetro provavelmente
contribuiu para uma melhoria no ajuste de dados, como mostra o gráfico de envelope simulado
na Figura 8.
0.0 0.5 1.0 1.5 2.0 2.5 3.0
0.0
0.2
0.4
0.6
0.8
Valor esperado da estatística de ordem meio−normal
Val
or a
bs. o
rd. d
o re
sídu
o pa
dron
izad
o
Figura 8 – Envelope simulado meio-normal para o modelo de regressão beta retangular paramedidas repetidas (valor esperado da estatística de ordem meio-normal versus valorabsoluto ordenado do resíduo padronizado).
Executando análise de influência local, os gráficos da Figura 9 mostram, respectiva-
mente, os esquemas de perturbação das variáveis de ponderação (A), de resposta a caso (B) e
pertubação na variável logarítmo do tempo (C) e da variável quadrado do logarítmo do tempo
(D). O esquema de perturbação da covariável tipo de gás é inviável, pois trata-se de uma variável
categorizada.
Podemos observar que, em pelo menos um dos esquemas, as observações (21,1),
(21,3) e (25,20) apareceram destacadas. As duas primeiras observações referem-se ao paciente
21 com um dia e três dias, respectivamente, após a cirurgia, com gás de concentração 25 e
com percentagem de 0.999; a outra observação refere-se ao paciente 25, com vinte dias após a
cirurgia, com gás de concentração iguai a vinte, e percentagem de 0.001.
77
(A) (B)
0.2 0.4 0.6 0.8 1.0
0.00
0.05
0.10
0.15
0.20
Valor predito
Pon
dera
ção
de c
asos
( 21 , 1 )
( 21 , 3 )
0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
Valor predito
Var
iáve
l res
post
a
( 25 , 20 )
(C) (D)
0.2 0.4 0.6 0.8 1.0
0.0
0.1
0.2
0.3
Valor predito
Cov
ariá
vel l
og(t
)
( 8 , 1 )
( 21 , 1 )
0.2 0.4 0.6 0.8 1.0
0.0
0.1
0.2
0.3
Valor predito
Cov
ariá
vel l
og^2
(t)
( 19 , 1 )
( 21 , 1 )
Figura 9 – Influência local para os esquemas de ponderação de casos (A), perturbação na variávelresposta (B) e pertubação na variável logarítmo do tempo (C) e da variável quadradodo logarítmo do tempo (D).
Com base nisso, ajustamos novamente o modelo sem as observações (21,1), (21,3) e
(25,20). Conforme mostra a Tabela 4, as maiores variações percentuais ocorreram nas estimativas
de β1 e β3.
Tabela 4 – Variações percentuais referentes às estimativas dos parâmetros do modelo de re-gressão beta retangular com todas as observações - estimativa antes - e retirando asobservações (21,1), (21,3) e (25,20) - estimativa depois. Estudo oftalmológico.
Parâmetro Estimativa antes Estimativa depois Variação percentualβ0 1,7397 1,7745 2,0%β1 0,1645 0,1116 47,4%β2 -0,2613 -0,2481 5,3%β3 0,2579 0,3004 -14,1%
Com base nos dois ajustes, é possível afirmar que a proposta baseada no modelo
78
de regressão beta retangular apresentou melhores resultados que o modelo beta, proposto por
Venezuela (2008). Isso pode ser visto nas figuras 7 e 8, cujo ajuste com base no modelo de
regressão beta não apresenta bom desempenho para a fonte de variação e o ajuste com base
no modelo de regressão beta retangular, porque todas as pontos estão no intervalo do envelope.
Além disso, na análise da influência local, poucos pontos foram discrepantes em relação aos
demais.
A Figura 10, a seguir, apresenta as curvas ajustadas para os dois modelos apresenta-
dos neste artigo.
(A) (B)
0.0
0.2
0.4
0.6
0.8
1.0
0 20 40 60 80Tempo (dias)
Con
cent
raçã
o de
gás
(%
)
Gas
−1
0
1
0.0
0.2
0.4
0.6
0.8
1.0
0 20 40 60 80Tempo (dias)
Con
cent
raçã
o de
gás
(%
)
Gas
−1
0
1
Figura 10 – Dispersão dos dados e curvas ajustadas dos modelos de regressão beta (A) e betaretangular (B).
Observe que as curvas ajustadas a partir do modelo de regressão beta retangular para
medidas repetidas apresentaram melhor comportamento do que àquelas ajustadas com o modelo
de regressão beta para medidas repetidas. Isso é notado, principalmente, nas observações mais
próximas de um, as quais foram melhor ajustadas com o modelo de regressão beta retangular.
Dessa forma, indicamos utilizar o modelo de regressão beta retangular para medidas
repetidas tanto se o interesse for saber se a variável tempo após a cirurgia e a concentração de
gás são importantes ou não para explicar a porcentagem do volume de gás ainda presente nos
olhos dos pacientes - com relação ao volume injetado no dia da cirurgia - quanto se o interesse
for utilizar o modelo para realizar previsões, por exemplo.
79
8 CONSIDERAÇÕES FINAIS
Neste trabalho, propomos um novo modelo de regressão para análise de dados com
medidas repetidas e dados agrupados restritos à faixa de (0,1), com base na abordagem das
Equação de Estimação Generalizada (LIANG; ZEGER, 1986; ZEGER et al., 1988). Uma
estrutura de regressão beta retangular foi considerada para adicionar robustez à modelagem
de valores extremos como uma extensão ao modelo de regressão beta proposto por Venezuela
(2008).
Um algoritmo de estimação que combina o escore de Fisher para estimar β ’s;
métodos dos momentos, para estimar ρ ; e o algoritmo EM, para estimar φ e α , foi desenvolvido.
Além disso, foram propostas técnicas de influência local, como ponderação de casos, variável
de resposta e perturbação na covariável, com base na proposta de Venezuela et al. (2011). A
construção de envelopes simulados também foi abordada como uma técnica para avaliar o modelo
proposto.
Os resultados do estudo de simulação mostraram que os estimadores propostos para
os parâmetros envolvidos são imparciais e consistentes em diferentes cenários considerados na
simulação. Observamos que, para φ igual a dez, suas estimativas eram menos tendenciosas; e
para α com valor verdadeiro próximo a um, sua estimativa afetou as estimativas dos parâmetros
de posição.
Na análise de dados reais, ajustamos o modelo de regressão beta proposto por
Venezuela (2008) e o modelo de regressão beta retangular proposto neste trabalho. A escolha da
estrutura de covariância do tipo AR-1 foi feita com base no critério QIC, modificação para o
contexto de equações de estimação do critério AIC.
Observamos melhores resultados com o modelo baseado na proposta desta disserta-
ção em comparação com o modelo que considera a distribuição beta, fato que atende às nossas
expectativas.
Como trabalho futuro, sugerimos a modelagem a partir do modelo de regressão beta
retangular, considerando o parâmetro de dispersão variável. Também sugerimos que a matriz de
correlação de trabalho, R(α), não deva ser a mesma para todas as unidades de amostra.
80
REFERÊNCIAS
ABRAMOWITZ, M.; STEGUN, I. A. Handbook of mathematical functions dover publications.New York, p. 361, 1965.
AKAIKE, H. Maximum likelihood identification of gaussian autoregressive moving averagemodels. Biometrika, Oxford University Press, p. 255–265, 1973.
ALENCAR, F. H. C. d. Diagnóstico de influência para uma família de modelos de regressãopara dados de taxas e proporções. Universidade Federal de Pernambuco, 2016.
ARELLANO-VALLE, R.; BOLFARINE, H.; LACHOS, V. Skew-normal linear mixed models.Journal of Data Science, p. 415–438, 2005.
ARTES, R. Extensões da teoria das equações de estimação generalizadas a dadoscirculares e modelos de dispersão. 1997, 130 f. Tese (Doutorado) — Instituto de Matemáticae Estatística da Universidade de São Paulo, 1997.
ARTES, R.; BOTTER, D. A. Funçoes de estimaçao em modelos de regressao. São Paulo:ABE, 2005.
ARTES, R.; PAULA, G. A.; RANVAUD, R. Analysis of circular longitudinal data based ongeneralized estimating equations. Australian & New Zealand Journal of Statistics, WileyOnline Library, p. 347–358, 2000.
ATKINSON, A. C. Plots, transformations and regression; an introduction to graphicalmethods of diagnostic regression analysis. [S. l.]: Oxford University Press, 1985.
BAYES, C.; BAZÁN, J. An em algorithm for beta-rectangular regression models. ComunicaçãoPessoal, 2014.
BAYES, C. L.; BAZÁN, J. L.; GARCÍA, C. et al. A new robust regression model for proportions.Bayesian Analysis, International Society for Bayesian Analysis, p. 841–866, 2012.
BOX, G. E.; COX, D. R. An analysis of transformations. Journal of the Royal StatisticalSociety. Series B (Methodological), JSTOR, p. 211–252, 1964.
BRESLOW, N. E.; CLAYTON, D. G. Approximate inference in generalized linear mixedmodels. Journal of the American statistical Association, Taylor & Francis Group, p. 9–25,1993.
BYRD, R. H.; LU, P.; NOCEDAL, J.; ZHU, C. A limited memory algorithm for boundconstrained optimization. SIAM Journal on Scientific Computing, SIAM, p. 1190–1208,1995.
CADIGAN, N.; FARRELL, P. Generalized local influence with applications to fish stock cohortanalysis. Journal of the Royal Statistical Society: Series C (Applied Statistics), WileyOnline Library, p. 469–483, 2002.
CASELLA, G.; BERGER, R. L. Statistical inference. [S. l.]: Duxbury Pacific Grove, CA,2002.
81
CHANDRASEKAR, B.; KALE, B. Unbiased statistical estimation functions for parameters inpresence of nuisance parameters. Journal of statistical planning and inference, Elsevier, p.45–54, 1984.
CLARK, C. E. Letter to the editor—the pert model for the distribution of an activity time.Operations Research, INFORMS, p. 405–406, 1962.
COOK, R. D. Detection of influential observation in linear regression. Technometrics, Taylor &Francis Group, p. 15–18, 1977.
COOK, R. D. Assessment of local influence. Journal of the Royal Statistical Society. SeriesB (Methodological), JSTOR, p. 133–169, 1986.
CRIBARI-NETO, F.; ZEILEIS, A. Beta regression in r. Department of Statistics andMathematics x, WU Vienna University of . . . , 2010.
CROWDER, M. On linear and quadratic estimating functions. Biometrika, Oxford UniversityPress, p. 591–597, 1987.
DEMIDENKO, E. Mixed models: theory and applications with R. [S. l.]: John Wiley &Sons, 2013.
DEMPSTER, A. P.; LAIRD, N. M.; RUBIN, D. B. Maximum likelihood from incomplete datavia the em algorithm. Journal of the Royal Statistical Society: Series B (Methodological),Wiley Online Library, p. 1–22, 1977.
ESPINHEIRA, P. L.; FERRARI, S. L.; CRIBARI-NETO, F. Influence diagnostics in betaregression. Computational Statistics & Data Analysis, Elsevier, p. 4417–4431, 2008.
ESPINHEIRA, P. L.; FERRARI, S. L.; CRIBARI-NETO, F. On beta regression residuals.Journal of Applied Statistics, Taylor & Francis, p. 407–419, 2008.
FERRARI, S.; CRIBARI-NETO, F. Beta regression for modelling rates and proportions.Journal of Applied Statistics, Taylor & Francis, p. 799–815, 2004.
GARCÍA, C.; PÉREZ, J. G.; DORP, J. R. van. Modeling heavy-tailed, skewed and peakeduncertainty phenomena with bounded support. Statistical Methods & Applications, Springer,p. 463–486, 2011.
GODAMBE, V. Estimating functions: A synthesis of least squares and maximum likelihoodmethods. Lecture Notes-Monograph Series, JSTOR, p. 5–15, 1997.
GODAMBE, V. P. An optimum property of regular maximum likelihood estimation. TheAnnals of Mathematical Statistics, JSTOR, p. 1208–1211, 1960.
HAHN, E. D. Mixture densities for project management activity times: A robust approach topert. European Journal of Operational Research, Elsevier, p. 450–459, 2008.
HARDIN, J. W.; HILBE, J. M. Generalized estimating equations. [S. l.]: Chapman andHall/CRC, 2003.
HASTIE, T. J.; TIBSHIRANI, R. J. Generalized additive models. [S. l.]: Chapman & Hall,London, 1990.
82
HENDERSON, C. R. Estimation of variance and covariance components. Biometrics, JSTOR,p. 226–252, 1953.
HUANG, X.; OOSTERLEE, C. W. Generalized beta regression models for randomloss-given-default. [S. l.]: Delft University of Technology, 2008.
JORGENSEN, B. Exponential dispersion models. Journal of the Royal Statistical Society.Series B (Methodological), JSTOR, p. 127–162, 1987.
JORGENSEN, B. The theory of dispersion models. [S. l.]: CRC Press, 1997.
JORGENSEN, B. Estimating functions and longitudinal data analysis. [S. l.]: São Paulo,2003.
JORGENSEN, B.; LABORIAU, R. Exponential families and theoretical inference. Lecturenotes, 1994.
KIESCHNICK, R.; MCCULLOUGH, B. D. Regression analysis of variates observed on (0,1): percentages, proportions and fractions. Statistical modelling, Sage Publications Sage CA:Thousand Oaks, CA, p. 193–213, 2003.
KULLBACK, S.; LEIBLER, R. A. On information and sufficiency. The annals ofmathematical statistics, JSTOR, p. 79–86, 1951.
LACHOS, V. H. Modelos lineares mistos assimétricos. 2004, 100 f. Tese (Doutorado) —Instituto de Matemática e Estatística da Universidade de São Paulo, 2004.
LACHOS, V. H.; GHOSH, P.; ARELLANO-VALLE, R. B. Likelihood based inference forskew-normal independent linear mixed models. Statistica Sinica, JSTOR, p. 303–322, 2010.
LAIRD, N. M.; WARE, J. H. Random-effects models for longitudinal data. Biometrics, JSTOR,p. 963–974, 1982.
LIAN, H.; LIANG, H.; WANG, L. Generalized additive partial linear models for clustered datawith diverging number of covariates using gee. Statistica Sinica, JSTOR, p. 173–196, 2014.
LIANG, K.-Y.; ZEGER, S. L. Longitudinal data analysis using generalized linear models.Biometrika, Oxford University Press, p. 13–22, 1986.
LIANG, K.-Y.; ZEGER, S. L.; QAQISH, B. Multivariate regression analyses for categorical data.Journal of the Royal Statistical Society: Series B (Methodological), Wiley Online Library, p.3–24, 1992.
LIN, X.; CARROLL, R. J. Semiparametric regression for clustered data using generalizedestimating equations. Journal of the American statistical Association, Taylor & Francis, p.1045–1056, 2001.
MANCO, O. C. U. Modelos de regressão beta com efeitos aleatórios normais e nãonormais para dados longitudinais. 2013, 168 f. Tese (Doutorado) — Instituto de Matemáticae Estatística da Universidade de São Paulo, 2013.
MANGHI, R. F.; CYSNEIROS, F. J. A.; PAULA, G. A. Generalized additive partial linearmodels for analyzing correlated data. Computational Statistics & Data Analysis, Elsevier, p.47–60, 2019.
83
MCCULLAGH, P. Quasi-likelihood functions. The Annals of Statistics, JSTOR, p. 59–67,1983.
MCCULLAGH, P.; NELDER, J. A. Generalized linear models. [S. l.]: CRC press, 1989.
MCCULLOCH, C. E.; SEARLE, S. R. Generalized, linear, and mixed models. [S. l.]: JohnWiley & Sons, 2004.
MEYERS, S. M.; AMBLER, J. S.; TAN, M.; WERNER, J. C.; HUANG, S. S. Variation ofperfluoropropane disappearance after vitrectomy. Retina (Philadelphia, Pa.), p. 359–363,1992.
NELDER, J. A.; WEDDERBURN, R. W. Generalized linear models. Journal of the RoyalStatistical Society: Series A (General), Wiley Online Library, p. 370–384, 1972.
NETER, J.; KUTNER, M. H.; NACHTSHEIM, C. J.; WASSERMAN, W. Applied linearstatistical models. [S. l.]: Irwin Chicago, 1996.
OESSELMANN, C. C. Tese (Doutorado).
OSPINA, R.; FERRARI, S. L. A general class of zero-or-one inflated beta regression models.Computational Statistics & Data Analysis, Elsevier, p. 1609–1623, 2012.
PAN, W. Akaike’s information criterion in generalized estimating equations. Biometrics, WileyOnline Library, p. 120–125, 2001.
PAOLINO, P. Maximum likelihood estimation of models with beta-distributed dependentvariables. Political Analysis, Cambridge University Press, p. 325–346, 2001.
PAULA, G. A. Modelos de Regressão com Apoio Computacional. São Paulo: IME-USP,2015.
PREGIBON, D. Logistic regression diagnostics. The Annals of Statistics, Institute ofMathematical Statistics, p. 705–724, 1981.
PRENTICE, R. L.; ZHAO, L. P. Estimating equations for parameters in means and covariancesof multivariate discrete and continuous responses. Biometrics, JSTOR, p. 825–839, 1991.
SANTOS, A. R.; AZEVEDO, C. L.; BAZAN, J. L.; NOBRE, J. S. Bayesian inference forzero-and/or-one augmented rectangular beta regression models. 2017. Disponível em:<https://www.ime.unicamp.br/sites/default/files/pesquisa/relatorios/rp-2017-07.pdf>. Acessoem: 28 jun. 2018.
SANTOS, A. R. S.; AZEVEDO, C. L. N.; BAZAN, J. L.; NOBRE, J. S. Likelihoodbasedinference for zero-and/or-one augmented rectangular beta regression models. 2017.Disponível em: <https://www.ime.unicamp.br/sites/default/files/pesquisa/relatorios/rp-2017-07.pdf>. Acesso em: 28 jun. 2018.
SANTOS, J. S. d. Simulação de variáveis aleatórias dependentes: aplicação ao riscode subscrição. 2008, 60 f. Tese (Mestrado) — Instituto de Matemática e Estatística daUniversidade de São Paulo, 2008.
SAVALLI, C.; PAULA, G. A.; CYSNEIROS, F. J. Assessment of variance components inelliptical linear mixed models. Statistical Modelling, Sage Publications Sage CA: ThousandOaks, CA, p. 59–76, 2006.
84
SIMAS, A. B.; BARRETO-SOUZA, W.; ROCHA, A. V. Improved estimators for a general classof beta regression models. Computational Statistics & Data Analysis, Elsevier, p. 348–366,2010.
SINGER, J. M.; ANDRADE, D. F. Análise de dados longitudinais. VII Simpósio Nacional deProbabilidade e Estatística, São Paulo, 1986.
SINGER, J. M.; NOBRE, J. S.; ROCHA, F. M. M. Análise de dados longitudinais. São Paulo:IME-USP, 2018.
SKLAR, M. Fonctions de repartition an dimensions et leurs marges. Publ. inst. statist. univ.Paris, p. 229–231, 1959.
SMITHSON, M.; VERKUILEN, J. A better lemon squeezer? maximum-likelihood regressionwith beta-distributed dependent variables. Psychological methods, American PsychologicalAssociation, p. 54, 2006.
SONG, P. X.-K.; QIU, Z.; TAN, M. Modelling heterogeneous dispersion in marginal models forlongitudinal proportional data. Biometrical Journal: Journal of Mathematical Methods inBiosciences, Wiley Online Library, p. 540–553, 2004.
SONG, P. X.-K.; TAN, M. Marginal models for longitudinal continuous proportional data.Biometrics, Wiley Online Library, p. 496–502, 2000.
SONG, X.-K.; SONG, P. X.-K. Correlated data analysis: modeling, analytics, andapplications. [S. l.]: Springer Science & Business Media, 2007.
TAN, M.; QU, Y.; KUTNER, M. H. Model diagnostics for marginal regression analysis ofcorrelated binary data. Communications in Statistics-Simulation and Computation, Taylor& Francis, p. 539–558, 1997.
TSUYUGUCHI, A. B. Modelos Birnbaum-Saunders usando equações de estimação.2017, 100 f. Tese (Doutorado) — Instituto de Matemática e Estatística da Universidade de São
Paulo, 2017.
TSUYUGUCHI, A. B.; PAULA, G. A.; BARROS, M. Analysis of correlated birnbaum–saundersdata based on estimating equations. TEST, Springer, p. 1–21, 2019.
VENEZUELA, M. K. Modelos lineares generalizados para análise de dados commedidas repetidas. 2003, 107 f. Tese (Mestrado) — Instituto de Matemática e Estatística daUniversidade de São Paulo, 2003.
VENEZUELA, M. K. Equação de estimação generalizada e influência local para modelosde regressão beta com medidas repetidas. 2008, 168 f. Tese (Doutorado) — Instituto deMatemática e Estatística da Universidade de São Paulo, 2008.
VENEZUELA, M. K.; BOTTER, D. A.; SANDOVAL, M. C. Diagnostic techniques ingeneralized estimating equations. Journal of Statistical Computation and Simulation, Taylor& Francis, p. 879–888, 2007.
VENEZUELA, M. K.; SANDOVAL, M. C.; BOTTER, D. A. Local influence in estimatingequations. Computational Statistics & Data Analysis, Elsevier, p. 1867–1883, 2011.
85
VIOLA, M. L. L. Tipos de dependência entre variáveis aleatórias e teoria de cópulas. Institutode Matemática, Estatıstica e Computaçao Cientıfica, 2009.
WANG, L.; XUE, L.; QU, A.; LIANG, H. et al. Estimation and model selection in generalizedadditive partial linear models for correlated data with diverging number of covariates. TheAnnals of Statistics, Institute of Mathematical Statistics, p. 592–624, 2014.
WARE, J. H. Linear models for the analysis of longitudinal studies. The American Statistician,Taylor & Francis Group, p. 95–101, 1985.
WEDDERBURN, R. W. Quasi-likelihood functions, generalized linear models, and thegauss—newton method. Biometrika, Oxford University Press, p. 439–447, 1974.
ZEGER, S. L.; LIANG, K.-Y.; ALBERT, P. S. Models for longitudinal data: a generalizedestimating equation approach. Biometrics, JSTOR, p. 1049–1060, 1988.
ZIEGLER, A.; KASTNER, C.; BLETTNER, M. The generalised estimating equations:an annotated bibliography. Biometrical Journal: Journal of Mathematical Methods inBiosciences, Wiley Online Library, p. 115–139, 1998.
86
APÊNDICE A – RESULTADOS DE SIMULAÇÃO
A.1 Caso gerado com estrutura AR-1 e estimado pela estrutura AR-1 para φ = 10
Tabela 5 – Bias and Mean Square Error of the beta regression model estimators for repeatedmeasures, for the case φ = 10.
n = 25 n = 50 n = 100Bias MSE Bias MSE Bias MSE
α1
ρ1
β0 0.1862 0.0718 0.1908 0.0548 0.2061 0.0511β1 0.1307 0.0759 0.1592 0.0451 0.1790 0.0247β2 0.1394 0.0756 0.1770 0.0435 0.1521 0.0226φ1 0.0283 1.2916 0.0122 0.6206 0.0011 0.2957α1 0.2723 0.0061 0.0581 0.0035 0.0035 0.0019ρ1 0.1620 0.0030 0.1727 0.0031 0.1773 0.0030
ρ2
β0 0.1711 0.1445 0.1872 0.0903 0.1994 0.0682β1 0.1464 0.2208 0.1441 0.1110 0.1614 0.0589β2 0.1683 0.2203 0.1552 0.1204 0.1583 0.0573φ1 0.0697 2.7920 0.0308 1.2859 0.0133 0.5722α1 0.3067 0.0087 0.0804 0.0062 0.0325 0.0034ρ2 0.0038 0.0004 0.0080 0.0002 0.0095 0.0002
α2
ρ1
β0 0.2473 0.1187 0.2657 0.0964 0.2678 0.0850β1 0.1531 0.1270 0.1816 0.0594 0.1866 0.0324β2 0.1902 0.1176 0.1919 0.0600 0.2071 0.0373φ1 0.0474 6.4719 0.0245 2.6456 0.0283 1.4537α2 0.0751 0.0141 0.1308 0.0089 0.1614 0.0089ρ1 0.0515 0.0019 0.0820 0.0013 0.0860 0.0010
ρ2
β0 0.2601 0.2562 0.2548 0.1515 0.2631 0.1121β1 0.1429 0.3550 0.1417 0.1702 0.1863 0.0885β2 0.0860 0.3531 0.1832 0.1727 0.2072 0.0858φ1 0.0575 11.3776 0.0410 5.3402 0.0297 2.3892α2 0.0102 0.0230 0.1035 0.0125 0.1480 0.0097ρ2 0.0121 0.0009 0.0063 0.0004 0.0051 0.0002
α3
ρ1
β0 0.2462 0.1435 0.2518 0.1035 0.2586 0.0843β1 0.0483 0.1568 0.0277 0.0732 0.0066 0.0343β2 0.0241 0.1653 0.0040 0.0707 0.0158 0.0336φ1 0.4227 49.6784 0.3578 38.9791 0.3327 35.8930α3 0.4148 0.2378 0.3226 0.1732 0.2900 0.1472ρ1 0.0846 0.0017 0.1113 0.0016 0.1169 0.0014
ρ2
β0 0.2206 0.2970 0.2524 0.1804 0.2683 0.1238β1 0.0671 0.4553 0.0068 0.2244 0.0099 0.0927β2 0.0161 0.4645 0.0124 0.2102 0.0138 0.1045φ1 0.4264 58.6103 0.4215 46.2085 0.3503 38.4133α3 0.4939 0.3162 0.4134 0.2471 0.3278 0.1818ρ2 0.0010 0.0003 0.0026 0.0001 0.0057 0.0001
87
A.2 Caso gerado com estrutura AR-1 e estimado pela estrutura AR-1 para φ = 50
Tabela 6 – Bias and Mean Square Error of the beta regression model estimators for repeatedmeasures, for the case φ = 50.
n = 25 n = 50 n = 100Bias MSE Bias MSE Bias MSE
α1
ρ1
β0 0.1874 0.0484 0.2009 0.0479 0.2021 0.0445β1 0.1543 0.0324 0.1884 0.0236 0.1826 0.0152β2 0.1715 0.0331 0.1796 0.0214 0.1856 0.0155φ1 0.0087 29.2879 0.0003 14.1591 0.0005 7.5208α1 0.0518 0.0041 0.1211 0.0025 0.2263 0.0017ρ1 0.3599 0.0177 0.2704 0.0108 0.2249 0.0068
ρ2
β0 0.1828 0.0773 0.1917 0.0588 0.2077 0.0545β1 0.1743 0.0867 0.1709 0.0473 0.2053 0.0317β2 0.1873 0.0867 0.1961 0.0538 0.1908 0.0289φ1 0.0271 41.2447 0.0095 20.9417 0.0046 11.5247α1 0.0654 0.0057 0.1580 0.0044 0.2390 0.0031ρ2 0.0184 0.0043 0.0350 0.0040 0.0370 0.0028
α2
ρ1
β0 0.2904 0.1247 0.2920 0.1061 0.2927 0.0959β1 0.2504 0.0903 0.2348 0.0507 0.2451 0.0345β2 0.2141 0.0920 0.2281 0.0525 0.2541 0.0347φ1 0.0627 118.1344 0.0147 57.8458 0.0226 29.5971α2 0.1820 0.0117 0.2143 0.0132 0.2369 0.0149ρ1 0.0618 0.0060 0.0417 0.0030 0.0402 0.0017
ρ2
β0 0.2520 0.2057 0.2855 0.1434 0.2903 0.1146β1 0.1879 0.2617 0.2347 0.1295 0.2377 0.0726β2 0.2585 0.2699 0.2251 0.1300 0.2603 0.0731φ1 0.1769 250.6145 0.0786 104.7161 0.0161 48.5194α2 0.1151 0.0105 0.1937 0.0127 0.2291 0.0147ρ2 0.0780 0.0085 0.0631 0.0046 0.0565 0.0032
α3
ρ1
β0 0.3130 0.1659 0.3287 0.1382 0.3332 0.1246β1 0.1703 0.1332 0.1533 0.0647 0.1799 0.0352β2 0.1968 0.1454 0.1508 0.0634 0.1709 0.0338φ1 0.0430 268.0856 0.0223 118.8253 0.0474 47.8439α3 0.0085 0.0126 0.0329 0.0019 0.0372 0.0011ρ1 0.0118 0.0022 0.0471 0.0012 0.0609 0.0008
ρ2
β0 0.3066 0.3094 0.3169 0.1916 0.3315 0.1503β1 0.1537 0.4034 0.1362 0.1777 0.1818 0.0866β2 0.1473 0.4180 0.1505 0.1746 0.1720 0.0845φ1 0.1853 641.2221 0.0663 223.5373 0.0026 81.9273α3 0.0980 0.0756 0.0087 0.0138 0.0342 0.0017ρ2 0.0228 0.0015 0.0166 0.0006 0.0126 0.0003
88
A.3 Caso gerado com estrutura AR-1 e estimado pela estrutura independente para φ =
10
Tabela 7 – Bias and Mean Square Error of the beta regression model estimators for repeatedmeasures, for the case φ = 10.
n = 25 n = 50 n = 100Bias MSE Bias MSE Bias MSE
α1
ρ1
β0 0.1920 0.0659 0.1875 0.0500 0.2019 0.0482β1 0.1776 0.0680 0.1417 0.0368 0.1734 0.0220β2 0.1580 0.0668 0.1709 0.0374 0.1641 0.0222φ1 0.0278 1.1905 0.0081 0.5502 0.0025 0.3105α1 0.2513 0.0058 0.0878 0.0034 0.0339 0.0020ρ1 - - - - - -
ρ2
β0 0.1752 0.1096 0.1913 0.0724 0.1971 0.0551β1 0.1451 0.1760 0.1508 0.0746 0.1679 0.0386β2 0.1705 0.1526 0.1634 0.0760 0.1715 0.0390φ1 0.0848 3.4002 0.0318 1.2890 0.0106 0.5629α1 0.2440 0.0090 0.0726 0.0061 0.0149 0.0033ρ2 - - - - - -
α2
ρ1
β0 0.2841 0.1350 0.2621 0.0946 0.2711 0.0851β1 0.2393 0.1107 0.1700 0.0545 0.1781 0.0311β2 0.1336 0.1172 0.1926 0.0568 0.1859 0.0310φ1 0.0419 6.2322 0.0359 3.0143 0.0305 1.4941α2 0.0747 0.0124 0.1363 0.0099 0.1635 0.0089ρ1 - - - - - -
ρ2
β0 0.2575 0.2001 0.2685 0.1253 0.2639 0.0958β1 0.1865 0.2727 0.2026 0.1169 0.1747 0.0582β2 0.1488 0.2547 0.1836 0.1117 0.2035 0.0604φ1 0.0446 11.3502 0.0346 4.8689 0.0318 2.3866α2 0.0043 0.0237 0.1014 0.0119 0.1460 0.0093ρ2 - - - - - -
α3
ρ1
β0 0.2423 0.1278 0.2579 0.1008 0.2598 0.0839β1 0.0431 0.1347 0.0059 0.0646 0.0027 0.0316β2 0.0100 0.1352 0.0014 0.0598 0.0179 0.0309φ1 0.4034 51.5010 0.3720 41.2139 0.3255 33.3356α3 0.4055 0.2308 0.3386 0.1815 0.2745 0.1413ρ1 - - - - - -
ρ2
β0 0.2496 0.2442 0.2683 0.1458 0.2609 0.0995β1 0.0311 0.3425 0.0030 0.1560 0.0144 0.0622β2 0.0188 0.3440 0.0448 0.1484 0.0242 0.0623φ1 0.4641 60.2318 0.4178 46.6813 0.3596 38.7691α3 0.5207 0.3340 0.4141 0.2456 0.3246 0.1740ρ2 - - - - - -
89
A.4 Caso gerado com estrutura AR-1 e estimado pela estrutura independente para φ =
50
Tabela 8 – Bias and Mean Square Error of the beta regression model estimators for repeatedmeasures, for the case φ = 50.
n = 25 n = 50 n = 100Bias MSE Bias MSE Bias MSE
α1
ρ1
β0 0.1921 0.0493 19.4789 0.0440 20.5822 0.0455β1 0.1832 0.0317 16.6476 0.0179 18.8895 0.0147β2 0.1795 0.0315 18.1665 0.0190 17.7453 0.0137φ1 0.0097 29.0094 0.0010 14.0010 0.1935 7.9296α1 0.0311 0.0044 12.9875 0.0025 23.0581 0.0018ρ1 - - - - - -
ρ2
β0 0.1839 0.0602 19.4882 0.0521 20.4506 0.0484β1 0.1530 0.0562 17.9326 0.0346 18.7857 0.0217β2 0.1791 0.0583 19.7660 0.0354 18.0395 0.0212φ1 0.0242 45.3449 0.9943 21.1336 0.2727 11.2603α1 0.0884 0.0062 16.0293 0.0045 22.4474 0.0028ρ2 - - - - - -
α2
ρ1
β0 0.2772 0.1138 29.2834 0.1029 29.7295 0.0972β1 0.2155 0.0816 24.4079 0.0500 25.1812 0.0335β2 0.2112 0.0816 22.3012 0.0470 24.1142 0.0305φ1 0.0718 111.6624 1.8213 59.8326 2.7428 28.6777α2 0.1700 0.0108 21.3051 0.0131 23.7958 0.0149ρ1 - - - - - -
ρ2
β0 0.2633 0.1717 28.6987 0.1260 29.7240 0.1101β1 0.2187 0.1964 21.1786 0.0937 25.1750 0.0542β2 0.2561 0.2039 20.3496 0.0925 23.5465 0.0563φ1 0.1870 239.5442 9.2682 109.1949 2.8844 48.9572α2 0.1242 0.0110 18.7932 0.0123 22.2235 0.0142ρ2 - - - - - -
α3
ρ1
β0 0.3174 0.1632 32.3979 0.1328 32.2188 0.1167β1 0.1288 0.1158 16.5143 0.0598 16.0316 0.0309β2 0.1373 0.1290 17.6684 0.0609 19.5770 0.0344φ1 0.0234 263.2457 2.4673 108.7081 4.7979 51.3658α3 0.0096 0.0124 3.3301 0.0020 3.7152 0.0011ρ1 - - - - - -
ρ2
β0 0.2945 0.2390 31.3799 0.1634 0.3226 0.1322β1 0.1277 0.2948 13.0453 0.1231 0.1589 0.0630β2 0.2070 0.2962 17.4871 0.1345 0.1905 0.0670φ1 0.1959 657.2999 5.8595 225.0563 0.0005 80.5104α3 0.1077 0.0851 1.0778 0.0127 0.0349 0.0014ρ2 - - - - - -
90
APÊNDICE B – DADOS UTILIZADOS
B.1 Estudo oftalmológico
Tabela 9 – Variáveis dos pacientes observados (Parte I). Estudo oftalmológico.Observação Paciente Tempo Gás Resposta
1 2 1 15 1,002 2 2 15 0,953 2 3 15 0,904 2 4 15 0,905 2 12 15 0,556 2 21 15 0,477 2 29 15 0,258 2 44 15 0,059 5 2 15 0,60
10 5 15 15 0,3511 5 22 15 0,3012 12 1 15 0,4013 12 2 15 0,4014 12 3 15 0,3015 12 4 15 0,3016 12 18 15 0,3017 14 1 15 0,7218 14 11 15 0,6519 14 32 15 0,2820 16 1 15 1,0021 16 10 15 1,0022 16 24 15 0,8523 16 29 15 0,8024 16 36 15 0,7525 22 1 15 0,8226 22 6 15 0,7527 22 12 15 0,4528 22 26 15 0,1529 27 1 15 0,7530 27 4 15 0,7531 27 9 15 0,7532 27 23 15 0,5033 27 36 15 0,2034 27 54 15 0,0035 1 1 20 0,9936 1 2 20 0,9537 1 3 20 0,9538 1 8 20 0,5039 1 16 20 0,3840 1 33 20 0,2241 1 61 20 0,0542 4 1 20 1,0043 4 10 20 0,8544 4 24 20 0,4745 4 30 20 0,5046 4 44 20 0,1047 6 1 20 0,9548 6 4 20 0,8549 6 8 20 0,7550 6 22 20 0,45
Observação Indivíduo Tempo Gás Resposta
51 7 1 20 1,0052 7 3 20 1,0053 7 5 20 1,0054 7 8 20 1,0055 7 13 20 0,9856 7 21 20 0,7557 7 35 20 0,7558 7 54 20 0,7059 10 1 20 1,0060 10 2 20 1,0061 10 4 20 0,9762 10 13 20 0,9563 10 22 20 0,9064 10 34 20 0,8265 11 1 20 0,8266 11 2 20 0,7567 11 3 20 0,7568 11 9 20 0,7869 11 20 20 0,6070 11 30 20 0,3071 11 37 20 0,3072 13 1 20 0,9073 13 3 20 0,9074 13 10 20 0,9075 13 24 20 0,6076 17 1 20 0,6577 17 2 20 0,5578 17 4 20 0,6079 17 13 20 0,2580 17 19 20 0,2581 17 31 20 0,2282 24 1 20 1,0083 24 8 20 0,9984 24 15 20 0,7085 24 22 20 0,4586 24 29 20 0,1587 24 38 20 0,0588 25 1 20 0,5089 25 4 20 0,4090 25 7 20 0,3091 25 13 20 0,2092 25 20 20 0,0093 26 1 20 0,9094 26 4 20 1,0095 26 14 20 0,9096 26 29 20 0,7597 26 78 20 0,0098 28 1 20 0,9099 28 2 20 0,90100 28 25 20 0,25
91
Tabela 10 – Variáveis dos pacientes observados (Parte II). Estudo oftalmológico.
Observação Paciente Tempo Gás Resposta
101 29 1 20 0,95102 29 5 20 0,60103 29 13 20 0,35104 29 27 20 0,22105 29 33 20 0,20106 30 1 20 1,00107 30 3 20 0,90108 30 9 20 0,60109 3 1 25 0,99110 3 2 25 0,99111 3 3 25 0,95112 3 4 25 0,90113 3 7 25 0,88114 3 12 25 0,72115 3 15 25 0,72116 3 19 25 0,55117 3 25 25 0,50118 3 28 25 0,50119 3 31 25 0,50120 8 1 25 1,00121 8 9 25 0,97122 8 20 25 0,60123 8 49 25 0,10124 9 1 25 1,00125 9 2 25 1,00126 9 6 25 1,00127 9 12 25 1,00128 9 19 25 0,90129 9 25 25 0,85130 15 3 25 0,40131 15 4 25 0,40132 15 8 25 0,40133 15 21 25 0,20134 18 1 25 0,98135 18 2 25 0,98136 18 3 25 0,98137 18 4 25 0,90138 18 7 25 0,88139 18 10 25 0,78140 18 25 25 0,42
Observação Indivíduo Tempo Gás Resposta
141 18 31 25 0,38142 18 40 25 0,20143 18 47 25 0,17144 18 61 25 0,07145 19 1 25 0,82146 19 64 25 0,10147 19 67 25 0,10148 20 1 25 0,85149 20 2 25 0,85150 20 3 25 0,80151 20 4 25 0,88152 20 11 25 0,80153 20 40 25 0,42154 21 1 25 1,00155 21 3 25 1,00156 21 8 25 0,85157 21 15 25 0,80158 21 21 25 0,60159 21 31 25 0,20160 23 1 25 1,00161 23 9 25 0,95162 23 26 25 0,70163 23 33 25 0,40164 23 40 25 0,12165 23 44 25 0,15166 23 54 25 0,10167 31 1 25 0,90168 31 2 25 0,90169 31 3 25 0,90170 31 4 25 0,90171 31 5 25 0,90172 31 7 25 0,95173 31 9 25 0,95174 31 11 25 0,80175 31 15 25 0,80176 31 18 25 0,75177 31 24 25 0,50178 31 28 25 0,45179 31 36 25 0,33180 31 42 25 0,12181 31 49 25 0,12
92
APÊNDICE C – ALGORITMO EM
C.1 Introdução
O algoritmo EM (Expectation–Maximization), apresentado em (DEMPSTER et al.,
1977), tem como ideia base substituir uma difícil maximização da verossimilhança por uma
sequência de maximizações mais simples, ou seja, é projetado para encontrar estimadores de
máxima verossimilhança (CASELLA; BERGER, 2002).
Sua metodologia pode ser utiliza em duas situações: a primeira quando temos o
problema de com dados faltantes (missing data) e a segunda, quando o cálculo da maximização
da função de verossimilhança é problemático.
No contexto dessa dissertação, o algoritmo EM foi utilizado para calcular o estima-
dores do modelo de regressão beta retangular, conforme Santos et al. (2017a), e depois, uma
extensão foi considerada para encontrar os estimadores baseados nas equações de estimação. A
seguir apresentaremos os dois métodos de forma breve.
C.2 Algoritmo EM
C.2.1 Definição
Sendo yo o conjunto de dados observados, ou dados incompletos, e u o conjunto de
dados não observados, então os dados completos, yc, podem ser denotados por yc = (yo,u)>,
com função de densidade p(yc|θ).
Dessa forma, l(θ ,yc) e l(θ ,y) representam, respectivamente, a função log-verossimilhança
dos dados completos e observados. O algoritmo sugere então que em um primeiro passo encon-
tremos o valor esperado do logaritmo da verossimilhança (passo E) e em seguida encontremos o
seu máximo (passo M), ou seja:
• Passo E: Calcular Q(θ |θ (k)) = E(lc(θ ,yc)|y,θ (k));
• Passo M: Encontrar θ (k+1) que maximiza Q(θ |θ (k)).
O processo é repetido até atingir convergência, podendo ser adotado um critério de
parada, dentre os muitos existentes, dado por ||θ (k+1)−θ (k)||< ε .
93
C.2.2 Exemplo 1 - Densidade mista
Neste caso, o algoritmo surge quando temos variáveis não observáveis (exemplo
típicos de distribuições de mistura) e cada observação vem de uma distribuição com alguma
probabilidade, porém só observamos o valor da variável, não sabemos de qual distribuição ela
veio.
Para o nosso exemplo, vamos simular valores para formar o conjunto de dados
observados. Para isso, suponha um moeda cuja probabilidade de cara é 0,25. Dependendo da
face sorteada, vamos gerar um número aleatório de uma distribuição normal, ou seja, se a face
for cara, geramos uma variável seguindo N (1,1), e se a face for coroa, geramos uma variável
seguindo N (7,1).
A variável não observável (latente) neste caso é a moeda e temos um parâmetro
associado a ela que define se a variável pertence à distribuição N (1,1), denotada por f1 ou à
distribuição N (7,1), denotada por f2. Portanto, a moeda segue uma distribuição Bernoulli de
parâmetro 0,25.
O "banco de dados", ou valores observados do experimento, está montado. Agora,
imaginando que não conhecemos as características das distribuições envolvidas (seus parâmetros
de média e mistura), vamos estimar os valores da média de f1 e da média de f2, bem como o
parâmetro de mistura associado. O algoritmo EM apresenta então, os seguintes passos:
Passo E (esperança): dados os parâmetros atuais e os dados observados, estimamos as
variáveis latentes;
Passo M (maximização): dados os dados observados e as variáveis latentes, estimamos os
parâmetros.
O chute inicial será considerar que X ∼N (0,1) e Y ∼N (1,1). Então, se tivermos
observado em nossa amostra o valor 7,8, é razoável pensar que esta observação vem de uma
distribuição N (7,1). Para identificar, substituímos cada valor da amostra na densidade das
distribuições consideradas como chute. Considerando o exemplo em particular, temos:
f1(7,8|0;1) =1√
2πσ2exp(7,8−0)2
1
= 2,442 ·10−14
f2(7,8|1;1) =1√
2πσ2exp(7,8−1)2
1
= 3,617 ·10−11.
Após isso, como não sabemos com qual probabilidade cada observação pertence a
94
uma distribuição, façamos α = 1−α = 0,5 o parâmetro de mistura associado, ou seja:
d1 = 0,5 · f1(7,8|0,1)
d2 = 0,5 · f2(7,8|1,1).
Se fizermos p1 =d1
d1 +d2, encontramos a chance da observação pertencer à distri-
buição 1 e p2 =d2
d1 +d2, encontramos a chance da observação pertencer à distribuição 2. Para o
nosso valor 7,8, temos p1 = 0,0006747 e p2 = 0,9993253. Logo, é provável que ela venha da
distribuição 2.
Agora, partimos para o segundo passo do algoritmo, pois já estimamos as variáveis
latentes, precisamos agora estimar os parâmetros µ1, µ2 e α . Considerando a observação 7,8
como exemplo, encontramos a chance dela vir da distribuição 1 e de vir da distribuição 2. Esses
dois valores vão contribuir para a estimativa da média, ou seja, 0,0006747 deve contribuir para
estimar a média da distribuição 1 e 0,9993253 deve contribuir para a estimação da média da
distribuição 2, bem como do parâmetro de mistura, da seguinte forma:
µ1 =∑
ni=1 p1i · xi
∑ni=1 p1i
µ2 =∑
ni=1 p2i · xi
∑ni=1 p2i
α =∑
ni=1 p1i
n
sendo µ1 e µ2 as respectivas médias de f1 e f2 e α o parâmetro de mistura. As novas médias
são, portanto, consideradas e o processo é repetido até que algum critério de convergência seja
obtido.
C.2.3 Exemplo 2 - Distribuição t-Student
Considere Y1,Y2, ...,Yn variáveis aleatórias independentes com distribuição t-Student
com v graus de liberdade e parâmetros de localização e escala dados, respectivamente, por µ e
σ2. A função de densidade de Yi é dada por
fYi(yi) =
Γ
(v+1
2
)√
vπσ2Γ
(v2
) (1+(yi−µ)2
vσ2
)−v+12 I(−∞,∞)(yi)
95
Para encontrar os estimadores de máxima verossimilhança desse modelo é necessário
aplicar o logaritmo na função de verossimilhança e, em seguida, derivar em relação a cada um
dos parâmetros. Entretanto, tal álgebra não é trivial e o algoritmo EM é uma técnica que facilita
a obtenção de tais estimadores.
Para isso, usa-se a relação
Yi|Si ∼ N
(µ,
σ2
Si
)Si ∼ Gama(v/2,v/2).
Dessa forma, o logarítmo da função de verossimilhança é dada por:
l(µ,σ2,v|Y,S) =n
∑i=1
log fYi|Si(yi|si)+n
∑i=1
log fYi(yi).
Considerando o caso em que os graus de liberdade (v) são fixos e conhecidos, temos
que a expressão l(µ,σ2,v|Y,S) é dada por:
l(µ,σ2,v|Y,S) = K−n
∑i=1
logσ2/2+
n
∑i=1
si(yi−µ)2
2σ2 ,
sendo k os termos que não dependem dos parâmetros de interesse.
Assim, seguindo os passos do algoritmo EM, temos a seguinte expressão para a
esperança:
E[l(µ,σ2,v|Y,S)] = E(K|Y )−n
∑i=1
logσ2/2+
n
∑i=1
(yi−µ)2
2σ2 E(Si|Yi),
Utilizando o fato de que Si|Yi ∼ Gama(
v2+
(y−µ)2
2σ2 ,v+1
2
), temos que si =
E(Si|Yi) =v+1v+di
, sendo di =(yi−µ)2
σ2 , para i = 1,2, ...,n,
Derivando a função em relação a cada um dos parâmetros envolvidos e igualando a
zero, temos:
µ =∑
ni=1 siyi
∑ni=1 si
σ2 =
∑ni=1 si(yi− µ)
n. (C.1)
Com os passos E e M finalizados, o algoritmo EM é implementado da seguinte forma
Passo 1: Defina valores iniciais para µ(1) e σ2(1), considerando si = 1;
Passo 2: Calcular si =v+1v+di
, sendo di =(yi−µ)2
σ2 , para i = 1,2, ...,n,;
Passo 3: Faça k = k+1, e atualize µ(k) e σ2(k) em C.1 com os si obtidos no Passo 2;
96
Passo 4: Verifique se a convergência foi atingida. Se não foi, ir para o Passo 2, caso
contrário, fim do algoritmo.
97
APÊNDICE D – INTRODUÇÃO À TEORIA DE CÓPULAS
D.1 Introdução
As funções de acoplamento são importantes ferramentas para geração de variáveis
correlacionadas. Por ser importante em áreas como atuária e finanças (risco de mercado, portfólio
de seguros, derivativos), seu estudo é de grande interesse seja por estatísticos, matemáticos ou
até mesmo físicos.
Para entender sua metodologia, apresentaremos a seguir a base para funções de
acoplamento: a transformada integral de probabilidade. E seguida, abordaremos conceitos
sobre distribuições multivariadas e, finalmente, apresentaremos as definições sobre funções de
acoplamento.
D.2 Transformada integral de probabilidade
Considere X ∼ F , ou seja, uma variável aleatória com função de distribuição acumu-
lada F(x) = P(X ≤ x), x ∈ R. Supondo que F(x) é contínua, então, para u ∈ (0,1), existe um
valor mínimo único x(u) , tal que F(x(u)) = u. Ou seja:
x(u) = F−1(u) = infx;F(x)≥ u,
a qual define-se a função de distribuição inversa. Temos que F(x)≤ u↔ x≤ F−1(u).
Uma vez que F(x) é não-decrescente e contínua, então sua inversa F−1(x) também
é não-decrescente e contínua sobre u ∈ (0,1) . Portanto, F(X) tem distribuição uniforme em
[0,1], ou seja, F(X) ∼U(0,1) e transformação U = F(X) é chamada transformada integral
de probabilidade.
D.3 Distribuições multivariadas
A estrutura de dependência entre as variáveis aleatórias de valores reais X1, ...,Xn
pode ser completamente descritade por sua função de distribuição conjunta, ou seja:
H(x1, ...,xd) = P(X1 ≤ x1, ...,Xn ≤ xn) = P(F1(x1), ...,Fd(xd)).
98
D.4 Funções de acoplamento
A cópula é uma distribuição multivariada cujas marginais são U(0,1). Assim, seja o
vetor aleatório U = (U1, ...,Ud) ∈ Id com cópula d-dimensional C, temos:
C(u1, ...,ud) = P(U1 ≤ u1, ...,Ud ≤ ud), (u1, ...,ud) ∈ Id.
Sabendo que qualquer variável aleatória contínua pode ser transformada por sua
acumulada para uma variável aleatória com distribuição U(0,1), temos que as cópulas podem ser
usadas para fornecer uma estrutura de dependência multivariada separadamente das distribuições
marginais.
Assim, seja H uma f.d.a. de X = (X1, ...,Xd) com marginais F1, ...,Fd , Sklar (1959)
mostrou que existe uma cópula C d-dimensional tal que para ∀xi ∈ domFi,
H(x1, ...,xd) =C(F1(x1), ...,Fd(xd)).
Para mais detalhes sobre funções de acoplamento ou teoria de cópulas, consultar
Sklar (1959), Viola (2009) ou Santos (2008).