DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4...

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

• A análise de diagnóstico (ou diagnóstico do ajuste) configura uma etapa fundamental no ajuste de

modelos de regressão.

• O objetivo principal dessa etapa da análise é a avaliação do modelo ajustado. No caso de MLGs,

baseia-se, dentre outros, na verificação (validação) dos seguintes itens:

o Adequação da distribuição proposta (avaliação da função de variância, assimetria nos dados

compatível com a distribuição proposta);

o Adequação da parte sistemática (preditor linear) do modelo, quanto às covariáveis incluídas,

às suas respectivas escalas (necessidade de alguma transformação), ausência de covariáveis

relevantes...

o Adequação da função de ligação;

o Identificação e avaliação de observações mal ajustadas;

o Identificação de observações influentes e pontos de alavanca, avaliação do impacto de tais

observações no ajuste do modelo, dentre outros.

• Boa parte dos métodos de diagnóstico em MLGs configuram extensões dos procedimentos

utilizados em regressão linear. No entanto, deve-se ter cautela quanto ao uso desses métodos em

MLGs pois alguns resultados dependem fortemente das propriedades do modelo proposto.

Nota – Veremos adiante que o uso de simulação no diagnóstico de MLGs pode ser bastante

recomendável em algumas situações.

• Também para MLGs, a análise de resíduos é fundamental no diagnóstico do modelo.

Tipos de resíduos em Modelos Lineares Generalizados

• Um resíduo (denotado, genericamente, por ir ) é alguma medida de afastamento de uma observação

( iy ) para seu valor ajustado pelo modelo ( iµ ):

( )iiii yqr µ,= ,

sendo iq alguma medida de diferença, usualmente escolhida para estabilizar a variância ou induzir

simetria na distribuição amostral de ir , a fim de garantir comparabilidade dos resíduos e possibilitar a

detecção de resíduos discrepantes.

• Resíduo ordinário – O resíduo ordinário é simplesmente a diferença do valor observado para o

valor ajustado para uma particular observação:

iii yr µ−= .

Os resíduos ordinários não tem variância constante, sendo de pouca serventia no diagnóstico de

modelos lineares generalizados.

• Resíduo de Pearson – Os resíduos de Pearson são os componentes da estatística 2Χ de Pearson:

( )( )i

iiPi V

µµˆ

ˆ−= ,

em que ( )iV µ representa a função de variância do modelo.

Nota – O resíduo de Pearson tem como desvantagem o fato de ter distribuição fortemente assimétrica

para modelos não-normais.

No R: Obtido por resid(modelo,type=’pearson’).

• Resíduo de Pearson padronizado– O resíduo de Pearson padronizado é definido por:

( )( )( )iii

−−=

1ˆˆˆ*

µφµ

sendo iih o ésimoi − elemento da diagonal da matriz H :

( ) 21121 WXXWXXWH ˆˆˆ ′′=−

que é a matriz de projeção da solução de mínimos quadrados de z contra X com pesos W (rever o

algoritmo de estimação).

No R: Obtido por rstandard(modelo,type=’pearson’).

• Resíduo componente da deviance – O resíduo componente da deviance para a i-ésima

observação corresponde à contribuição dessa observação para a deviance do modelo. É uma medida

de distância de iy em relação a iµ na escala do logaritmo da verossimilhança. Apenas relembrando,

a deviance de um MLG é definida como:

( ) ( ) ( ){ } ( ) ( ){ }

( ) ( ) ( )( ){ }

( ) ( )( ) ( )( ) ( )( )( ){ } ,ˆˆ2

~ˆˆ~2

;ˆ;2;ˆ;2ˆ;

∑∑

=−+−=

=−=−=

iiiiii

dyqbqbqyqy

ylyylllD

θθθθ

µyµyyµy

Nota - Repare que iθ foi substituído por ( )iq µ , configurando uma forma alternativa (mas equivalente)

de expressar a deviance.

O resíduo componente da deviance fica definido por:

,)ˆ(sinal iiiD

i dyr ⋅−= µ

em que ( ) 1xsinal −= , se 0x < , e ( ) 1xsinal += , se 0x > .

No R: Obtido por resid(modelo,type=’deviance’).

• Resíduo componente da deviance padronizado – O resíduo componente da deviance

padronizado é definido como:

No R: Obtido por rstandard(modelo,type=’deviance’).

• Resíduo quantílico aleatorizado

o Diferentemente do que acontece para os modelos lineares com erros normais, nas situações em

que se tem uma variável resposta sem distribuição Normal os resíduos, muitas vezes, não tem boa

aproximação à distribuição normal, ainda que o modelo se ajuste bem aos dados;

o A falta de normalidade dos resíduos é particularmente notável na modelagem de dados discretos,

sobretudo quando os dados assumem valores pequenos (Ex: Poisson, com taxa próxima de zero;

Binomial, com probabilidade de sucesso próxima de zero ou um...).

o Propostos por Dunn e Smith (1996), os resíduos quantílicos aleatorizados apresentam

distribuição Normal, independente da distribuição da variável resposta.

o Os resíduos quantílicos aleatorizados baseiam-se no teorema da inversa da função distribuição

acumulada (para maiores detalhes, consultar a bibliografia de Probabilidade e Simulação).

o No contexto de modelos lineares generalizados, seja ( )φµ,;yF a função distribuição acumulada de

uma variável aleatória Y .

o Se Y é contínua, o teorema da inversa da função distribuição acumulada garante que

( )φµ ,; iii yFU = tem distribuição uniforme no intervalo (0,1).

o Ajustado um MLG, o resíduo quantílico fica definido por:

( ){ }φµ ,ˆ;1ii

qi yFr −Φ= ,

sendo ( )⋅Φ a função de distribuição acumulada da Normal padrão.

o Se os parâmetros do modelo são consistentemente estimados, então qir converge para uma

distribuição Normal padrão.

o Se Y é discreta, então um recurso de aleatorização é aplicado de tal forma que, também nesse caso,

se os parâmetros do modelo são consistentemente estimados, então qir converge para uma

distribuição Normal padrão.

No R: Obtido por qresiduals ( modelo), do pacote statmod.

3.2 - Técnicas gráficas

Dentre os principais gráficos de resíduos, usados para se diagnosticar o ajuste do modelo,

destacam-se:

i. Gráficos de resíduos versus valores ajustados (η )– Para um modelo bem ajustado, o padrão

desse gráfico é a distribuição aleatória dos resíduos, centrada em zero e com variância constante;

• As figuras 1-4 apresentam alguns dos padrões mais comuns em gráficos desse tipo:

Valores ajustados

Figura 1 – Distribuição dos resíduos fornece indicativo de bom ajuste.

Valores ajustados

Figura 2 – Presença de alguns resíduos extremos (observações mal ajustadas).

Valores ajustados

Figura 3 – Resíduos com distribuição fortemente assimétrica.

Valores ajustados

Figura 4 – Resíduos com variância não constante.

ii. Gráfico normal de probabilidades – O gráfico normal de probabilidades consiste num gráfico

de pontos em que são representados os quantis amostrais dos resíduos em um dos eixos e os quantis

teóricos da distribuição Normal noutro. Para um modelo bem ajustado, o padrão desse gráfico

corresponde ao alinhamento dos pontos na reta que representa a identidade dos quantis amostrais e

teóricos.

Atenção – Em alguns casos, dependendo da distribuição e dispersão dos dados, ainda que o modelo

se ajuste bem a distribuição dos resíduos de Pearson ou componentes da deviance não será normal.

Nesses casos, recomenda-se o uso de simulação e construção de envelopes simulados, verificando-se a

disposição dos pontos dentro do envelope, e/ou o uso dos resíduos quantílicos aleatorizados.

• As figuras 5-8 apresentam alguns dos padrões mais comuns em gráficos desse tipo.

-3 -2 -1 0 1 2 3

Percentil da N(0,1)

Figura 5 – Indicação de bom ajuste.

-3 -2 -1 0 1 2 3

Percentil da N(0,1)

Figura 6 – Presença de resíduos discrepantes.

-3 -2 -1 0 1 2 3

Percentil da N(0,1)

Figura 7 – Resíduos com distribuição fortemente assimétrica.

-2 -1 0 1 2

Percentil da N(0,1)

Figura 8 – Resíduos com “caldas pesadas”.

iii. Gráficos de resíduos versus variáveis incluídas no modelo – Neste gráfico, deve-se

observar se os resíduos estão aleatoriamente dispersos em torno de zero. A presença de algum

padrão sistemático indica que a variável em questão não foi adequadamente incluída no modelo;

iv. Gráficos de resíduos versus variável não incluída no modelo – Qualquer padrão

sistemático indica a necessidade de se incorporar tal variável ao modelo;

Nota – Uma alternativa a esse tipo de gráfico é o gráfico da variável adicionada (“added variable plot”).

A função avPlots do pacote car produz esse tipo de gráfico.

O padrão observado nesses gráficos serve como indicador da forma como a variável deve ser

incluída ao modelo.

0.0 0.2 0.4 0.6 0.8 1.0

Figura 9 – Representação de gráficos de resíduos vs variável. (a) indica que a variável deve ser

incluída (ou inserida de outra forma) ao modelo. Em (b), não se tem indicativo da necessidade de

inclusão (ou mudança de escala) de x .

v. Gráfico de resíduos versus ordem de coleta dos dados, posição no tempo ou espaço

das observações – A presença de algum padrão sistemático pode indicar dependência com relação

à ordem de coleta, posição no tempo ou espaço. O padrão para um modelo bem ajustado é a

distribuição aleatória dos resíduos.

vi. Gráfico da variável ajustada ( iz ) versus o preditor linear iη - Serve para avaliar se a função

de ligação é adequada. Neste gráfico, uma tendência linear indica escolha adequada da função de

ligação.

Nota – Uma forma de testar a adequação da função ligação é a seguinte:

o Ajusta-se um MLG e extrai-se η ;

o Insere-se 2η ao rol de covariáveis e ajusta-se um novo MLG;

o Avalia-se o decréscimo na deviance resultante da inclusão de 2η . Se a redução for significativa,

o indicativo é de que a função de ligação não é adequada.

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4...

Documents

Transcript of DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOStaconeli/CE22516/Aula11.pdf · 2016. 9. 27. · 4...

Modelos lineares e não lineares inteiros para … · Modelos lineares e não lineares ... bidimensional restrita a 2 estágios. Produção, v. xx, n. x, p. xx-xx, xxxxxx, xxxx X

CE225 – Modelos Lineares Generalizadostaconeli/CE225/Aula1.pdf · 2015. 8. 5. · 2 Objetivo da disciplina • Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados,

MODELOS LINEARES GENERALIZADOS · MODELOS LINEARES GENERALIZADOS: UMA FERRAMENTA PARA A CARACTERIZAÇÃO DA FECUNDIDADE E INFECUNDIDADE EM PORTUGAL Rui Dias1, Maria Filomena Mendes2,

MODELOS NÃO-LINEARES DA FAMÍLIA EXPONENCIAL

Aula - Modelos Lineares Generalizados

Modelos Lineares Generalizados e Extens˜oes - USP · 2013. 10. 16. · Modelos Lineares Generalizados e Extens˜oes Gauss Moutinho Cordeiro Departamento de Estat´ıstica e Informatica,

Modelos Lineares e Não Lineares da Curva de Phillips para ...

209374415 Modelos Lineares Generalizados UFRPE e ESALQ

Modelos Lineares Generalizados: binomial

MODELOS LINEARES GENERALIZADOS MISTOS PARA … · MODELOS LINEARES GENERALIZADOS MISTOS PARA DADOS LONGITUDINAIS SILVANO CESAR DA COSTA Licenciado em Matem atica Orientadora: Profa

AJUSTE DE MODELOS ESTOCÁSTICOS LINEARES … · gráfico de perfil longitudinal da árvore média. 3. RESULTADOS E DISCUSSÃO Os modelos lineares e não-lineares foram ajustados,

Modelos Lineares Generalizados - Introdução

MODELOS LINEARES COM ERROS SLASH-EL´IPTICOS: UMA …livros01.livrosgratis.com.br/cp110603.pdf · MODELOS LINEARES COM ERROS SLASH-EL´IPTICOS: UMA ABORDAGEM EM INFLUENCIA LOCALˆ

ANÁLISE COMPARATIVA DE MODELOS NÃO-LINEARES NAS ...

ESTIMAÇÃO E PREDIÇÃO EM MODELOS LINEARES GENERALIZADOS ...

MODELOS MISTOS LINEARES EM ANÁLISE DE DADOS …

Introdução aos modelos de regressão normais lineares cnaber/aula_Intro_MRNL_REG_2S_2016.pdf · Introdu˘c~ao aos modelos de regress~ao normais lineares Prof. Caio Azevedo Prof.

modelos não-lineares no crescimento de frutos de coqueiro

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

MODELAGEM DA VARIABILIDADE EM MODELOS LINEARES … · MODELAGEM DA VARIABILIDADE EM MODELOS LINEARES GENERALIZADOS Edilberto Cepeda Cuervo Orientador: Dani Gamerman Rio de Janeiro