Post on 12-Mar-2021
1
DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS
2
• A análise de diagnóstico (ou diagnóstico do ajuste) configura uma etapa fundamental no ajuste de
modelos de regressão.
• O objetivo principal dessa etapa da análise é a avaliação do modelo ajustado. No caso de MLGs,
baseia-se, dentre outros, na verificação (validação) dos seguintes itens:
o Adequação da distribuição proposta (avaliação da função de variância, assimetria nos dados
compatível com a distribuição proposta);
o Adequação da parte sistemática (preditor linear) do modelo, quanto às covariáveis incluídas,
às suas respectivas escalas (necessidade de alguma transformação), ausência de covariáveis
relevantes...
o Adequação da função de ligação;
3
o Identificação e avaliação de observações mal ajustadas;
o Identificação de observações influentes e pontos de alavanca, avaliação do impacto de tais
observações no ajuste do modelo, dentre outros.
• Boa parte dos métodos de diagnóstico em MLGs configuram extensões dos procedimentos
utilizados em regressão linear. No entanto, deve-se ter cautela quanto ao uso desses métodos em
MLGs pois alguns resultados dependem fortemente das propriedades do modelo proposto.
Nota – Veremos adiante que o uso de simulação no diagnóstico de MLGs pode ser bastante
recomendável em algumas situações.
• Também para MLGs, a análise de resíduos é fundamental no diagnóstico do modelo.
4
Tipos de resíduos em Modelos Lineares Generalizados
• Um resíduo (denotado, genericamente, por ir ) é alguma medida de afastamento de uma observação
( iy ) para seu valor ajustado pelo modelo ( iµ ):
( )iiii yqr µ,= ,
sendo iq alguma medida de diferença, usualmente escolhida para estabilizar a variância ou induzir
simetria na distribuição amostral de ir , a fim de garantir comparabilidade dos resíduos e possibilitar a
detecção de resíduos discrepantes.
5
• Resíduo ordinário – O resíduo ordinário é simplesmente a diferença do valor observado para o
valor ajustado para uma particular observação:
iii yr µ−= .
Os resíduos ordinários não tem variância constante, sendo de pouca serventia no diagnóstico de
modelos lineares generalizados.
• Resíduo de Pearson – Os resíduos de Pearson são os componentes da estatística 2Χ de Pearson:
( )( )i
iiPi V
yr
µµˆ
ˆ−= ,
em que ( )iV µ representa a função de variância do modelo.
Nota – O resíduo de Pearson tem como desvantagem o fato de ter distribuição fortemente assimétrica
para modelos não-normais.
No R: Obtido por resid(modelo,type=’pearson’).
6
• Resíduo de Pearson padronizado– O resíduo de Pearson padronizado é definido por:
( )( )( )iii
iiPi
hV
yr
−−=
1ˆˆˆ*
µφµ
,
sendo iih o ésimoi − elemento da diagonal da matriz H :
( ) 21121 WXXWXXWH ˆˆˆ ′′=−
,
que é a matriz de projeção da solução de mínimos quadrados de z contra X com pesos W (rever o
algoritmo de estimação).
No R: Obtido por rstandard(modelo,type=’pearson’).
7
• Resíduo componente da deviance – O resíduo componente da deviance para a i-ésima
observação corresponde à contribuição dessa observação para a deviance do modelo. É uma medida
de distância de iy em relação a iµ na escala do logaritmo da verossimilhança. Apenas relembrando,
a deviance de um MLG é definida como:
( ) ( ) ( ){ } ( ) ( ){ }
( ) ( ) ( )( ){ }
( ) ( )( ) ( )( ) ( )( )( ){ } ,ˆˆ2
~ˆˆ~2
;ˆ;2;ˆ;2ˆ;
11
1
1
∑∑
∑
∑
==
=
=
=−+−=
=−+−=
=−=−=
n
ii
n
iiiiii
n
iiiiii
n
iiiii
dyqbqbqyqy
bby
ylyylllD
µµ
θθθθ
µyµyyµy
Nota - Repare que iθ foi substituído por ( )iq µ , configurando uma forma alternativa (mas equivalente)
de expressar a deviance.
8
O resíduo componente da deviance fica definido por:
,)ˆ(sinal iiiD
i dyr ⋅−= µ
em que ( ) 1xsinal −= , se 0x < , e ( ) 1xsinal += , se 0x > .
No R: Obtido por resid(modelo,type=’deviance’).
• Resíduo componente da deviance padronizado – O resíduo componente da deviance
padronizado é definido como:
( )ii
DiD
ih
rr
−=
∗
1φ.
No R: Obtido por rstandard(modelo,type=’deviance’).
9
• Resíduo quantílico aleatorizado
o Diferentemente do que acontece para os modelos lineares com erros normais, nas situações em
que se tem uma variável resposta sem distribuição Normal os resíduos, muitas vezes, não tem boa
aproximação à distribuição normal, ainda que o modelo se ajuste bem aos dados;
o A falta de normalidade dos resíduos é particularmente notável na modelagem de dados discretos,
sobretudo quando os dados assumem valores pequenos (Ex: Poisson, com taxa próxima de zero;
Binomial, com probabilidade de sucesso próxima de zero ou um...).
o Propostos por Dunn e Smith (1996), os resíduos quantílicos aleatorizados apresentam
distribuição Normal, independente da distribuição da variável resposta.
o Os resíduos quantílicos aleatorizados baseiam-se no teorema da inversa da função distribuição
acumulada (para maiores detalhes, consultar a bibliografia de Probabilidade e Simulação).
10
o No contexto de modelos lineares generalizados, seja ( )φµ,;yF a função distribuição acumulada de
uma variável aleatória Y .
o Se Y é contínua, o teorema da inversa da função distribuição acumulada garante que
( )φµ ,; iii yFU = tem distribuição uniforme no intervalo (0,1).
o Ajustado um MLG, o resíduo quantílico fica definido por:
( ){ }φµ ,ˆ;1ii
qi yFr −Φ= ,
sendo ( )⋅Φ a função de distribuição acumulada da Normal padrão.
o Se os parâmetros do modelo são consistentemente estimados, então qir converge para uma
distribuição Normal padrão.
11
o Se Y é discreta, então um recurso de aleatorização é aplicado de tal forma que, também nesse caso,
se os parâmetros do modelo são consistentemente estimados, então qir converge para uma
distribuição Normal padrão.
No R: Obtido por qresiduals ( modelo), do pacote statmod.
12
3.2 - Técnicas gráficas
Dentre os principais gráficos de resíduos, usados para se diagnosticar o ajuste do modelo,
destacam-se:
i. Gráficos de resíduos versus valores ajustados (η )– Para um modelo bem ajustado, o padrão
desse gráfico é a distribuição aleatória dos resíduos, centrada em zero e com variância constante;
• As figuras 1-4 apresentam alguns dos padrões mais comuns em gráficos desse tipo:
13
-3
-2
-1
0
1
2
3
Valores ajustados
Res
íduo
s
Figura 1 – Distribuição dos resíduos fornece indicativo de bom ajuste.
14
-6
-4
-2
0
2
4
6
8
Valores ajustados
Res
íduo
s
Figura 2 – Presença de alguns resíduos extremos (observações mal ajustadas).
15
-1
0
1
2
3
4
5
Valores ajustados
Res
íduo
s
Figura 3 – Resíduos com distribuição fortemente assimétrica.
16
-4
-2
0
2
Valores ajustados
Res
íduo
s
Figura 4 – Resíduos com variância não constante.
17
ii. Gráfico normal de probabilidades – O gráfico normal de probabilidades consiste num gráfico
de pontos em que são representados os quantis amostrais dos resíduos em um dos eixos e os quantis
teóricos da distribuição Normal noutro. Para um modelo bem ajustado, o padrão desse gráfico
corresponde ao alinhamento dos pontos na reta que representa a identidade dos quantis amostrais e
teóricos.
Atenção – Em alguns casos, dependendo da distribuição e dispersão dos dados, ainda que o modelo
se ajuste bem a distribuição dos resíduos de Pearson ou componentes da deviance não será normal.
Nesses casos, recomenda-se o uso de simulação e construção de envelopes simulados, verificando-se a
disposição dos pontos dentro do envelope, e/ou o uso dos resíduos quantílicos aleatorizados.
• As figuras 5-8 apresentam alguns dos padrões mais comuns em gráficos desse tipo.
18
-3 -2 -1 0 1 2 3
-4
-2
0
2
4
Percentil da N(0,1)
Res
iduo
s
Figura 5 – Indicação de bom ajuste.
19
-3 -2 -1 0 1 2 3
-6
-4
-2
0
2
4
6
8
Percentil da N(0,1)
Res
iduo
s
Figura 6 – Presença de resíduos discrepantes.
20
-3 -2 -1 0 1 2 3
-4
-2
0
2
4
6
Percentil da N(0,1)
Res
iduo
s
Figura 7 – Resíduos com distribuição fortemente assimétrica.
21
-2 -1 0 1 2
-4
-2
0
2
4
Percentil da N(0,1)
Com
pone
nte
do D
esvio
Figura 8 – Resíduos com “caldas pesadas”.
22
iii. Gráficos de resíduos versus variáveis incluídas no modelo – Neste gráfico, deve-se
observar se os resíduos estão aleatoriamente dispersos em torno de zero. A presença de algum
padrão sistemático indica que a variável em questão não foi adequadamente incluída no modelo;
iv. Gráficos de resíduos versus variável não incluída no modelo – Qualquer padrão
sistemático indica a necessidade de se incorporar tal variável ao modelo;
Nota – Uma alternativa a esse tipo de gráfico é o gráfico da variável adicionada (“added variable plot”).
A função avPlots do pacote car produz esse tipo de gráfico.
O padrão observado nesses gráficos serve como indicador da forma como a variável deve ser
incluída ao modelo.
23
0.0 0.2 0.4 0.6 0.8 1.0
-4
-2
0
2
4
(a)
x
Res
íduo
s
0.0 0.2 0.4 0.6 0.8 1.0
-4
-2
0
2
4
(b)
xR
esíd
uos
Figura 9 – Representação de gráficos de resíduos vs variável. (a) indica que a variável deve ser
incluída (ou inserida de outra forma) ao modelo. Em (b), não se tem indicativo da necessidade de
inclusão (ou mudança de escala) de x .
24
v. Gráfico de resíduos versus ordem de coleta dos dados, posição no tempo ou espaço
das observações – A presença de algum padrão sistemático pode indicar dependência com relação
à ordem de coleta, posição no tempo ou espaço. O padrão para um modelo bem ajustado é a
distribuição aleatória dos resíduos.
vi. Gráfico da variável ajustada ( iz ) versus o preditor linear iη - Serve para avaliar se a função
de ligação é adequada. Neste gráfico, uma tendência linear indica escolha adequada da função de
ligação.
Nota – Uma forma de testar a adequação da função ligação é a seguinte:
o Ajusta-se um MLG e extrai-se η ;
o Insere-se 2η ao rol de covariáveis e ajusta-se um novo MLG;
o Avalia-se o decréscimo na deviance resultante da inclusão de 2η . Se a redução for significativa,
o indicativo é de que a função de ligação não é adequada.