artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados...

20
DIAGN ´ O ST IC O EM R E GR E SS ˜ AO NO R M AL L INE AR : P R INC ´ IP IO S E AP L IC AC¸ ˜ AO Artur Jos´ e LEMONTE 1 RESUMO: Modelos estat´ ısticos s˜ao extremamente usados para extrair e conhecer as caracter´ ısticas de um conjunto de dados. Modelos, entretanto, s˜ao sempre descri¸c˜ oes aproximadas de um processo mais complicado. P ortanto,considera¸c˜ oes da adeq uacidade de um modelo s˜ao extremamente importantes. A presentamos neste artig o alg umas ecnicas de diagn´ostico em modelos de regress˜ao normais lineares que, de modo geral, podem ser v istas como m´ etodos para estudar a v aria¸ ao na an´alise dos resultados q uando o modelo em estudo ´ e submetido a algum tipo de perturba¸c˜ao. A dicionalmente, apresentamos em detalhes o m´ etodo de infl uˆencia local desenv olv ido por C ook (1 9 8 6 ). PA L A V RA S-C H A V E: Influˆencia local; medidas de diagn´ostico; modelo normal linear. 1 Introdu¸c˜ ao An ´ a lise d e reg ress˜a o ´ e um a t´ ec n ic a esta t´ ıstica p a ra in v estig a r e m od ela r a rela ¸c˜ a o en tre v a ri´ a v eis. A a n ´ a lise d e d a d os a tra v ´ es d esta cla sse d e m od elos ´ e um a d a s t´ ecn ica s m a is usa d a s, ex istin d o um a a m p la b ib liog ra fi a sob re o a ssun to, p or ex em p lo: Searle (1971), W eisberg (1985), D raper & S m ith (1 9 9 8 ), Mon tg om ery et a l. (2 0 0 1 ), en tre outros. Em g era l, n a m a ioria d os p rob lem a s esta t´ ısticos q ue surg em nas´ a rea s d e a g ricultura , ciˆen cia p ol´ ıtic a , d em og ra fi a , ec olog ia , ec on om ia , en g en h a ria , g eog ra fi a , g eolog ia , h ist´oria , m ed ic in a , p sic olog ia , soc iolog ia , z ootec n ia , etc , p od em ser form ulad os com o m od elos d e regress˜ao. D este m od o, d ev id o a sua a m p la a p lica b ilid a d e, a a n ´ a lise d e reg ress˜a o ´ e um a t´ ec n ic a esta t´ ıstica d e ex trem a im p ortˆa n cia . Q uan d o as h ip ´oteses usuais estab elecid as p ara o m od elo d e regress˜ao lin ear s˜ao v erifi ca d a s, a estim a ¸c˜ ao d os seus p arˆam etros ´ e g era lm en te feita a tra v ´ es d o m ´ etod o dem´ ın im os q ua d ra d os ord in ´ a rios. Este m ´ etod o p ossui a lg um a s p rop ried a d es 1 Departamento de Estat´ ıstica, Universidade de S˜ao Paulo – USP, Rua do Mat˜ao, 1010, CEP: 05508-090, S˜ao Paulo, SP, B rasil. E-mail: [email protected] R ev . B ras . B iom., S˜ao Paulo, v.2 6 , n.2 , p.07 -2 6 , 2 008 7

Transcript of artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados...

Page 1: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

DIAGNO S T IC O E M R E GR E S S AO NO R M AL L INE AR :

P R INC IP IO S E AP L IC AC AO

Artur Jose LEMONTE1

RESUMO: Modelos estatısticos sao extremamente usados para extrair e conhecer as

caracterısticas de um conjunto de dados. Modelos, entretanto, sao sempre descricoes

aproximadas de um processo mais complicado. P ortanto, consideracoes da adeq uacidade

de um modelo sao extremamente importantes. A presentamos neste artig o alg umas

tecnicas de diag nostico em modelos de reg ressao normais lineares q ue, de modo g eral,

podem ser v istas como metodos para estudar a v ariacao na analise dos resultados

q uando o modelo em estudo e sub metido a alg um tipo de perturb acao. A dicionalmente,

apresentamos em detalhes o metodo de infl uencia local desenv olv ido por C ook (1 9 8 6 ).

P A L A V RA S-C H A V E: Infl uencia local; medidas de diag nostico; modelo normal linear.

1 Introducao

An a lise d e reg ressa o e um a tec n ic a esta tıstic a p a ra in v estig a r e m od ela r arela c a o en tre v a ria v eis. A a n a lise d e d a d os a tra v es d esta c la sse d e m od elos e um ad a s tec n ic a s m a is usa d a s, ex istin d o um a a m p la b ib liog ra fi a sob re o a ssun to, p orex em p lo: S ea rle (1 9 7 1 ), W eisb erg (1 9 8 5 ), D ra p er & S m ith (1 9 9 8 ), Mon tg om eryet a l. (2 0 0 1 ), en tre outros. Em g era l, n a m a ioria d os p rob lem a s esta tısticos q uesurg em n a s a rea s d e a g ricultura , c ien c ia p olıtic a , d em og ra fi a , ecolog ia , econ om ia ,en g en h a ria , g eog ra fi a , g eolog ia , h istoria , m ed ic in a , p sicolog ia , soc iolog ia , zootec n ia ,etc , p od em ser form ula d os com o m od elos d e reg ressa o. D este m od o, d ev id o a suaa m p la a p lic a b ilid a d e, a a n a lise d e reg ressa o e um a tec n ic a esta tıstic a d e ex trem aim p orta n c ia .

Q ua n d o a s h ip oteses usua is esta b elec id a s p a ra o m od elo d e reg ressa o lin ea r sa ov erifi c a d a s, a estim a c a o d os seus p a ra m etros e g era lm en te feita a tra v es d o m etod od e m ın im os q ua d ra d os ord in a rios. Este m etod o p ossui a lg um a s p rop ried a d es

1Departamento de Estatıstica, Universidade de Sao Paulo – USP, Rua do Matao, 1010, CEP:

05 5 08 -09 0, Sao Paulo, SP, B rasil. E-mail: [email protected]

R ev . B ras. B iom., Sao Paulo, v.2 6 , n.2 , p.07 -2 6 , 2 008 7

Page 2: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

estatısticas muito atraentes que fizeram dele um dos mais poderosos e popularesmetodos de analise de regressao (G ujarati, 2000). Este metodo e atribuıdo a C arlF riedrich G auss, matematico alemao.

Segundo P aula (2004 ), uma etapa extremamente importante na analise de umajuste de regressao e a verificacao de possıveis afastamentos das suposicoes feitaspara o modelo, especialmente para a parte aleatoria e para a parte sistematica,bem como a existencia de observacoes extremas com alguma interferenciadesproporcional nos resultados do ajuste. Tal etapa, conhecida como analise de

diagno stico , tem longa data e iniciou-se com a analise de resıduos para detectar apresenca de pontos extremos e avaliar a adequacao da distribuicao proposta para avariavel resposta.

De modo geral, os principais objetivos dos metodos de diagnosticos sao: (1)V erificar se ha afastamentos significativos das suposicoes feitas para o modelo.P or exemplo: se os erros nao sao normalmente distribuidos; se a variancia naoe constante (heteroscedasticidade); etc. (2) Identificar observacoes que destoamdo conjunto de dados. Tais observacoes podem ser classificadas em tres grupos:(i) alavanca: posicionadas em regioes remotas com alta infl uencia no propriovalor ajustado; (ii) infl uentes: com infl uencia desproporcional nas estimativas doscoeficientes; (iii) aberrantes: mal ajustadas com resıduo alto. V ale ressaltar queuma observacao pode ser classificada em mais de um grupo (P aula, 2004 ).

O objetivo principal deste artigo e apresentar algumas tecnicas de diagnosticoem modelos de regressao normais lineares. Serao apresentadas algumas medidas deinfl uencia que sao bastante utilizadas na pratica, em particular, a distancia de C ook .Adicionalmente, sera discutido em detalhes o metodo de infl uencia local propostoem C ook (1986 ).

C onsidere o modelo de regressao da forma

y = Xβ + ε, (1)

em que y = (y1, y2, . . . , yn)> e um vetor n-dimensional representando a variavelresposta; X = (x1 x2 · · · xn)> e a matriz modelo de dimensao n × p (p < n),sendo de posto completo, x>

i = (xi1, xi2, . . . , xip) representa sua i-esima linha, comi = 1, 2, . . . , n (n e o tamanho da amostra); β = (β1, β2, . . . , βp)

> e um vetorp-dimensional de parametros desconhecidos e ε = (ε1, ε2, . . . , εn)> e um vetor n-dimensional de variaveis aleatorias, em que E(ε) = 0 e C ov(ε) = σ2In. Aqui,estamos assumindo que ε ∼ N n(0, σ2In). O estimador de mınimos quadrados de β

e dado pela equacao classica β = (X>X)−1X>y.

2 Medidas de diagnostico

Na pratica, pode acontecer que apos uma escolha cuidadosa de um modelo esubsequente ajuste a um conjunto de dados, o resultado obtido seja insatisfatorio.Isso pode ocorrer em funcao de algum desvio sistematico entre valores observados evalores ajustados ou, entao, porque um ou mais valores sao discrepantes em relacao

8 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008

Page 3: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

aos demais. Discrepancias isoladas podem ocorrer ou porque os pontos estao nosextremos da amplitude de validade da variavel regressora, ou porque eles estaorealmente errados como resultado de uma leitura errada ou uma transcricao malfeita.

A seguir, algumas medidas de diagnostico serao apresentadas. B asicamente,o conteudo apresentado nas Secoes 2.1, 2.2 e 2.3 .1 segue de Paula (2004).Adicionalmente, grande parte do que esta descrito na Secao 2.3 .2 foi retirado deSouza (1999).

2.1 Pontos de alavanca

O resıduo ordinario para a i-esima observacao e dado por ei = yi − yi, em queei mede a discrepancia entre o i-esimo valor observado e o i-esimo valor ajustado.O sinal de ei indica a direcao dessa discrepancia. Seja o vetor de resıduos ordinariosdefinido por e = (e1, e2, . . . , en)>. Note que,

e = y − y = y − Xβ = y − X(X>X)−1X>y = y − Hy = (In − H)y,

em que H = X(X>X)−1X> e a matriz de projecao ortogonal de vetores do IR n nosubespaco gerado pelas colunas da matriz X. H e conhecida como “ matriz chapel” ,uma vez que y = Hy, isto e, ela coloca um “ chapel” em y (H oaglin & Welsch,1978). Os elementos de H vao ser denotados por hij .

Observe que H e simetrica, isto e, H> = H, assim, hij = hji. H e tambemidempotente, ou seja, HH = H. Se k e qualquer potencia inteira, Hk = H (Draper& Smith, 1998). Como H e simetrica e idempotente, tem-se que

posto(H) = tr(H) = tr[X(X>X)−1X>] = tr[X>X(X>X)−1] = tr(Ip) = p,

em que tr(·) representa o operador traco de uma matriz. O elemento hii =x>

i (X>X)−1xi desempenha um papel importante na construcao de tecnicas dediagnostico. Mostra-se que 1/ n ≤ hii ≤ 1/ c (Cook & Weisberg, 1982), em quec e o numero de linhas de X identicas a x>

i . Como y = Hy, o i-esimo valorajustado pode ser escrito na forma

yi =

n∑

j=1

hijyj = hiiyi +∑

j 6=i

hijyj , (2)

e pelo fato de H ser idempotente,∑

j 6=i hij = hii(1−hii). Se hii = 1, temos que yi =yi, entretanto, a recıproca nao e necessariamente verdadeira. Logo, para valoresaltos de hii, predomina na expressao (2) a influencia de yi sobre o correspondentevalor ajustado. Assim, e muito razoavel utilizar hii como uma medida de influenciada i-esima observacao sobre o proprio valor ajustado. Note tambem que hii =∂yi/ ∂yi, ou seja, hii corresponde a variacao em yi quando yi e acrescido de uminfinitesimo.

Supondo que todos os pontos exercam a mesma influencia sobre os valoresajustados, espera-se que hii esteja proximo de tr(H)/ n = p/ n. Convem entao

Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008 9

Page 4: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

examinar aqueles pontos tais que, segundo Belsley et al. (1980), hii ≥ 2p/n, sendoconhecidos como pontos de alavanca ou de alto leverage (isto e, pontos que temuma influencia desproporcional no proprio valor ajustado) e, geralmente, estaolocalizados em regioes remotas no subespaco gerado pelas colunas da matriz X.

2.2 Pontos ab errantes

Vimos na secao anterior que e = (In −H)y. Assim, segue que E[(In −H)y] =(In − H)E(y) = (In − H)Xβ = 0 e Var(e) = σ2(In − H). Consequentemente,ei ∼ N

(0, σ2(1 − hii)

). Adicionalmente, Cov(ei, ej) = −σ2hij , com i 6= j. Observe

que os ei’s possuem variancias distintas, dessa forma, e conveniente expressa-los deuma forma padronizada a fim de permitir uma comparabilidade entre os mesmos.U ma definicao natural seria dividir ei pelo seu respectivo desvio padrao, obtendo-seo resıduo studentizado

ti =ei

s(1 − hii)1/2=

yi − yi

s(1 − hii)1/2,

em que s2 =∑n

i=1 e2i /(n − p), i = 1, 2, . . . , n.

Observe que ei nao e independente de s2. Portanto, ti nao segue distribuicao tde Student como se poderia esperar. Tal problema pode ser contornado substituindos2 por s2

(i), em que s2(i)

1 e a variancia correspondente ao modelo sem a i-esimaobservacao. U tilizando o resultado bastante conhecido da regressao normal linear,

β(i) = β −ei(X

>X)−1xi

(1 − hii),

e possıvel mostrar que

s2(i) = s2

(n − p − t2in − p − 1

). (3)

Assim, o novo resıduo studentizado e dado por

t∗i =ei

s(i)(1 − hii)1/2, (4)

em que t∗i segue distribuicao t-Student com n−p−1 graus de liberdade. A expressao(4) pode ainda ser simplificada substituindo-se (3) em (4), ou seja,

t∗i = ti

(n − p − 1

n − p − t2i

)1/2

.

Observe que t∗i e uma transformacao monotona de ti. Assim, podemos usar t∗i paradetectar pontos aberrantes no conjunto de dados, isto e, pontos que apresentamum resıduo muito elevado, indicando que o modelo nao descreve satisfatoriamentetal observacao. Em geral, considera-se uma observacao marginalmente aberrante se|t∗i | > 2.

1O ındice (i) indica q ue a i-esima ob servacao foi ex cluıda.

10 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008

Page 5: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

2.3 Medidas de influencia

Segundo Paula (2004), um topico de grande importancia na analise dediagnostico e a deteccao de observacoes influentes, isto e, pontos que exercem umpeso desproporcional nas estimativas do modelo ou ate mesmo na significancia dosparametros. A delecao de pontos talvez seja a tecnica mais conhecida para avaliaro impacto da retirada de uma observacao particular nas estimativas da regressao.Durante a decada de 70 surgiram varias propostas relacionadas com a influencia dasobservacoes nas estimativas dos coeficientes do modelo normal linear. A distanciade Cook (1977) e a mais tradicional medida para detectar pontos influentes e foioriginalmente desenvolvida para modelos normais lineares e rapidamente assimiladae estendida para diversas classes de modelos.

Ainda, segundo Paula (2004), um problema que pode ocorrer com a delecaoindividual de pontos e o que se denomina masking effect, ou seja, deixar de detectarpontos conjuntamente discrepantes. Contudo, uma das propostas mais inovadorasna area de diagnostico em regressao foi apresentada por Cook (1986), que propoeavaliar a influencia conjunta das observacoes sob pequenas mudancas (perturbacoes)no modelo, ao inves da avaliacao pela retirada individual ou conjunta de pontos.Essa metodologia, denominada influencia local, teve uma grande receptividade entreos usuarios e pesquisadores de regressao, havendo inumeras publicacoes no assuntoem que se aplica a metodologia em classes particulares de modelos ou em que sepropoe extensoes da tecnica.

2.3.1 Influencia

A medida de influencia mais conhecida, denominada de distancia de Cook(Cook, 1977), e da forma

Di =

ei

s(1 − hii)1/2

2hii

(1 − hii)

1

p= t2i

hii

(1 − hii)

1

p, i = 1, 2, . . . , n. (5)

Note que Di sera grande quando o i-esimo ponto for aberrante (ti grande) e/ ouquando hii for proximo de um. Adicionalmente, Di podera ser nao adequado quandoei for grande e hii for pequeno, nesse caso, s2 pode ficar inflacionado e nao ocorrendonenhuma compensacao por parte de hii, Di pode ficar pequeno.

Uma medida de influencia proposta em Belsley et al. (1980) e dada por

DFBETAi = β − β(i) =ei(X

>X)−1xi

(1 − hii), i = 1, 2, . . . , n. (6)

Esta medida reflete quanto a retirada do ponto (i) afasta β(i) de β. Os autoressugerem prestar atencao naqueles pontos que apresentam |DFBETAi| grande.Outra medida supostamente mais apropriada que Di foi tambem proposta emBelsley et al. (1980), definida da forma

DFFITSi = t∗i

hii

(1 − hii)

1/2

, i = 1, 2, . . . , n. (7)

Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008 11

Page 6: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

Um ponto pode ser considerado influente se |DFFITSi| ≥ 2p/(n−p)

1/2. Atkinson

(1985) propos uma medida de influencia que e um aperfeicoamento de DFFITSi.Esta medida e dada por

Ci = t∗i

(n − p)

p

hii

(1 − hii)

1/2

, i = 1, 2, . . . , n. (8)

As medidas (5), (6), (7) e (8) apresentadas anteriormente sao utilizadas,

basicamente, para verificar o quanto a retirada do ponto (i) afasta β(i) de β, ou seja,o quanto o ponto (i) influencia nas estimativas dos parametros. Entretanto, Belsleyet al. (1980) propuseram uma medida para verificar o quanto muda a estatıstica-t(usada para testar se o j-esimo parametro e significativo) apos a retirada do i-esimoponto.

Se a suposicao de normalidade e satisfeita, pode-se usar a medida DFTSTATij

para verificar se o i-esimo ponto muda a estatıstica-t. Esta medida e dada por

DFTSTATij =βj

s√

(X>X)−1jj

−β(i)j

s(i)

√(X>

(i)X(i))−1jj

,

em que βj e β(i)j correspondem, respectivamente, ao j-esimo parametro estimado

com base em todas as observacoes e sem a i-esima observacao; (X>X)−1jj e

(X>(i)X(i))

−1jj denotam, respectivamente, o elemento (j, j) da diagonal principal de

(X>X)−1 e (X>(i)X(i))

−1. Pontos que apresentam |DFTSTATij | grande podemser considerados influentes em relacao a estatıstica-t, isto e, pontos que mudam ovalor da estatıstica de tal forma a alterar a significancia (ou nao significancia) doparametro no modelo.

Existe tambem uma medida para verificar o quanto a matriz de variancias ecovariancias de β, Cov(β), e afetada pela exclusao do i-esimo ponto. Esta medidae dada por

COVRATIOi =s2p(i)

s2p

det(X>(i)X(i))

−1

det(X>X)−1,

em que det(·) representa o determinante de uma matriz. A expressao acima podeser simplificada na forma (Belsley et al., 1980)

COVRATIOi =

[n − p − 1

n − p+

t∗i2

n − p

]p

(1 − hii)

−1

, i = 1, 2, . . . , n.

Deve-se dar atencao aqueles pontos tais que COVRATIOi nao apresenta um valorproximo da unidade, ou seja, pontos que alteram significativamente a variancia dosestimadores.

12 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008

Page 7: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

Comportamento de Di, DF F ITSi e Ci

Nas Figuras 1 e 2, tem-se o comportamento das medidas de diagnostico Di,DFFITSi e Ci. Observe que a medida que o valor de t2i aumenta, as tres medidastendem a indicar que o ponto e influente. Note tambem que quando hii esta proximode zero, estas medidas nao indicam que o ponto e influente, mesmo para valoresaltos de t2i . Adicionalmente, quando hii esta proximo de um, estas medidas indicamque o ponto e fortemente influente, mesmo para valores pequenos de t2i . Note queestas medidas apresentam resultados confiaveis no sentido de indicar que um pontoe influente quando realmente ele e influente (ou caso contrario) para valores de hii

nao muito pequenos ou muito grandes.

Pode ser observado que Di e a menos adequada dentre a tres medidas dediagnostico para valores de hii pequenos, uma vez que mesmo para valores altosde t2i (isto e, ponto aberrante), esta medida foi relativamente baixa. Portanto,quando o valor de hii esta proximo de zero ou proximo de um, estas medidas dediagnostico merecem uma atencao especial, pois como mostrado nas Figuras 1 e 2,sao fortemente influenciadas pelos valores de hii.

2.3.2 Influencia local

O metodo de influencia local foi proposto por Cook (1986) e consiste emavaliar mudancas nos resultados da analise quando pequenas perturbacoes saoincorporadas ao modelo e/ou aos dados. Se essas perturbacoes causarem efeitosdesproporcionais, pode ser indıcio de que o modelo esta mal ajustado ou que possamexistir afastamentos serios feitas para o mesmo.

A proposta de Cook (1986) tem sido vastamente utilizada na modelagem deregressao. Por exemplo, Beckman et al. (1987) apresentaram estudos de influencialocal em modelos de analise de variancia com efeito misto. Law rence (1988)investigou a aplicacao de influencia local em modelos lineares com parametros natransformacao da resposta. Pettitt & Bin Daud (1989) aplicaram esta metodologiaem modelos de regressao de Cox sob riscos proporcionais. Tsai & Wu (1992)investigaram influencia local em modelos auto-regressivos de primeira ordem emodelos heteroscedasticos. Escobar & Meeker (1992) adaptaram o metodo deinfluencia local para modelos de regressao com censura. Paula (1993) aplicouinfluencia local em modelos lineares com restricoes nos parametros na forma dedesigualdades lineares. K im (1995) e Pan et al. (1997) aplicaram metodos deinfluencia local em regressao multivariada. Galea et al. (1997), Liu (2000), Galeaet al. (2003) e Osorio et al. (2007) apresentaram estudos de influencia local emmodelos de contornos elıpticos. Outros trabalhos sao O’Hara Hines et al. (1992),Paula (1996), K w an & Fung (1998), Gu & Fung (1998), Ortega et al. (2003), Rancel& Sierra (2001) e Svetliza & Paula (2001, 2003).

Para um conjunto de dados observados, seja `(θ) a funcao de log-verossimilhanca do modelo postulado, em que θ e um vetor p-dimensional deparametros desconhecidos. Seja ω um vetor q-dimensional de perturbacoesassumindo valores em um subconjunto aberto Ω ⊆ IRq; em geral, tem-se que q = n.

Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008 13

Page 8: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

h

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

h

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

h

D de CookMedida DFFITSMedida C

n = 30p = 5

ti2 = 0.5

0.0 0.2 0.4 0.6 0.8 1.00

510

15h

0.0 0.2 0.4 0.6 0.8 1.00

510

15h

0.0 0.2 0.4 0.6 0.8 1.00

510

15h

D de CookMedida DFFITSMedida C

n = 30p = 5

ti2 = 1

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

h

D de CookMedida DFFITSMedida C

n = 30p = 5

ti2 = 1.5

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

h

D de CookMedida DFFITSMedida C

n = 30p = 5

ti2 = 2

Figura 1 - Comportamento de Di, DFFITSi e Ci.

14 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008

Page 9: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

20

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

20

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

20

h

D de CookMedida DFFITSMedida C

n = 30p = 5

ti2 = 3

0.0 0.2 0.4 0.6 0.8 1.00

510

1520

25h

0.0 0.2 0.4 0.6 0.8 1.00

510

1520

25h

0.0 0.2 0.4 0.6 0.8 1.00

510

1520

25h

D de CookMedida DFFITSMedida C

n = 30p = 5

ti2 = 5

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

3035

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

3035

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

3035

h

D de CookMedida DFFITSMedida C

n = 30p = 5

ti2 = 9

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

3035

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

3035

h

0.0 0.2 0.4 0.6 0.8 1.0

05

1015

2025

3035

h

D de CookMedida DFFITSMedida C

n = 30p = 5

ti2 = 12

Figura 2 - Comportamento de Di, DFFITSi e Ci.

Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008 15

Page 10: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

Denote por `(θ|ω) a funcao de log-verossimilhanca do modelo perturbado. Assumaque a funcao de log-verossimilhanca do modelo perturbado `(θ|ω) e duas vezesdiferenciavel em (θ>, ω>)>, e que o modelo postulado esta encaixado no modeloperturbado, isto e, existe ω0 ∈ Ω tal que `(θ|ω0) = `(θ). Se p e q sao pequenos, esuficiente comparar `(θ|ω) e `(θ) graficamente para varios valores de ω em Ω. Emsituacoes mais gerais o problema e mais complexo.

Seja θ o estimador de maxima verossimilhanca (EMV) de θ sob o modelo

postulado e θω o EMV sob o modelo perturbado. O objetivo e comparar θ

e θω quando ω varia em Ω. Se a distancia entre eles permanece “pequena”quando ω varia em Ω, isto indica que existe estabilidade do modelo ajustado noque diz respeito ao esquema particular de perturbacao utilizado, e, portanto, aocorrespondente aspecto da analise que esta sendo monitorado. A diferenca entreθ e θω pode depender da forma de `(θ). Se `(θ) e suficientemente horizontal,

pode-se dizer que θ e θω sao bem “proximos”. Entretanto, se `(θ) e suficientemente

concentrada em torno de θ, entao θ e θω podem parecer muito distantes. Portanto,a comparacao direta de θ e θω pode nao ser simples devido a diversos fatores taiscomo diferenca de escala, unidade de medida, erros de medicao, etc. Uma propostapara comparar θ e θω foi sugerida por Cook (1986) e consiste no uso da funcao

L D(ω) = 2[`(θ) − `(θω)],

que e denominada afastamento pela verossimilhanca (“likelihood displacement”).

Como θ e o EMV de θ no modelo postulado, segue-se que L D(ω) ≥ 0 paraω ∈ Ω. Adicionalmente, como L D(ω0) = 0, pode-se concluir que ω0 e um ponto demınimo local da funcao L D(ω). Uma analise sobre o comportamento geometrico dafuncao L D(ω) quando ω varia em Ω, pode fornecer informacoes de caracterısticasrelevantes ao modelo sob investigacao; por exemplo, se os valores de L D(ω), paradiferentes valores de ω em Ω, sao “bem” proximos, isto indica que existe estabilidadeno modelo ajustado sob a perturbacao considerada. O grafico da funcao L D(ω)pode ser representado pela superfıcie geometrica (q + 1)-dimensional formado pelosvalores do vetor

α(ω) = (ω, L D(ω))>.

No contexto estatıstico essa superfıcie e chamada de grafico de influencia, uma vezque o grafico da funcao L D(ω) mostra a influencia do esquema de perturbacao; vejaCook (1986).

O estudo de influencia local consiste em analisar como a superfıcie α(ω) =(ω, L D(ω))> desvia-se de seu plano tangente em ω0. Essa analise pode ser feitaestudando-se as curvaturas das secoes normais da superfıcie α(ω) em ω0, que saointersecoes de α(ω) com o plano contendo o vetor normal a seu plano tangenteem ω0. Se a classe de todas as secoes normais da superfıcie α(ω) em ω0 tiveremcurvatura normal “proxima” de zero, isto e, as secoes normais sao “proximas” a umalinha reta em torno de ω0, entao L D(ω) e “proximo” de zero em torno de ω0, o queindica que existe uma estabilidade do modelo ajustado sob o particular esquema deperturbacao que esta sendo considerado. Por outro lado, se existir uma secao normal

16 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008

Page 11: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

com curvatura, em modulo, nao “proximo” de zero, entao, nessa direcao, tem-semaior oscilacao da funcao LD(ω), e, portanto, sob essa secao normal, tem-se maiorinfluencia do particular esquema de perturbacao. Projetando perpendicularmenteesta secao normal sobre o plano IRq, obtem-se um vetor d ∈ IRq tal que, a retaω0 + td, t ∈ IR, e a secao normal, pertencem ao mesmo plano e, portanto, seraequivalente considerar uma secao normal a α(ω) em ω0 com um vetor d ∈ IRq paraindicar a direcao onde existe maior ou menor influencia em torno de ω0.

Para caracterizar o comportamento de LD(ω) em torno de ω0, considereprimeiramente uma direcao arbitraria d em IRq (sem perda de generalidade, seja d

um vetor unitario, ||d|| = 1). Posteriormente, considere o grafico de LD(ω0 + td)contra t ∈ IR. Por causa de LD(ω0) = 0, o grafico de LD(ω0 + td) tem um mınimolocal em t = 0. A curvatura normal, C(θ), e uma caracterizacao de LD(ω0+td) emtorno de t = 0. Uma sugestao inicial e tomar a direcao dm a x que corresponde a maiorcurvatura, Cm a x (θ). Os valores de dm a x contem a influencia local das observacoesnessa direcao particular. Logo, o grafico de |dm a x | contra a ordem das observacoespode revelar aqueles pontos com maior influencia na vizinhanca de ω0. Tais pontospodem ser responsaveis por mudancas substanciais nas estimativas dos parametrossob pequenas perturbacoes no modelo. Portanto, deve-se olhar com mais cuidadoesses pontos a fim de entender melhor a influencia dos mesmos e consequentementetentar propor uma forma segura de usar o modelo ajustado.

Cook (1986) mostra que a curvatura normal na direcao d e dada por

C(θ) = 2|d>∆

>L−1

θθ ∆d|,

em q u e Lθθ = ∂2`(θ)/ ∂θ∂θ> e ∆ = ∂2`(θ)/ ∂θ∂ω>, a v a lia d o s em θ = θ e ω =

ω0. E in teressa n te n o ta r q u e o m a x im o d e d>Md, em q u e M = −∆

>L−1

θθ ∆,c o rresp o n d e a o m a io r a u to v a lo r (em v a lo r a b so lu to ) d a m a triz M. D esta fo rm a ,Cm a x e o m a io r a u to v a lo r d a m a triz M e dm a x e u m c o rresp o n d en te a u to v eto r d en o rm a ig u a l a u m .

E p o ssıv el ta m b em a v a lia r a in fl u en c ia lo c a l a p en a s p a ra u m a p a rte d o v eto rd e p a ra m etro s θ. S u p o n h a q u e seja p o ssıv el p a rtic io n a r θ d a fo rm a θ = (θ>

1, θ>

2)>.

S eg u n d o C o o k (1 9 8 6 ), se o in teresse e c a lc u la r a in fl u en c ia lo c a l a p en a s p a ra θ1, ac u rv a tu ra n o rm a l n a d irec a o d e d a fo rm a

C(θ1) = 2 |d>∆

>(L−1

θθ − M1)∆d|,

em q u e

M1 =

(0 0

0 L−1

θ2θ2

),

c o m Lθ2θ2= ∂2`(θ)/ ∂θ2∂θ>

2e, n este c a so , Cm a x e o a u to v eto r d e n o rm a ig u a l

a u m c o rresp o n d en te a o m a io r a u to v a lo r d a m a triz ∆>(L

−1

θθ − M1)∆. O m esm op ro ced im en to p o d e ser feito p a ra a v a lia r a in fl u en c ia lo c a l a p en a s p a ra θ2. E mp a rtic u la r, n o m o d elo d e reg ressa o n o rm a l lin ea r tem -se q u e θ = (β>, σ 2)>. D essafo rm a , se o in teresse esta so m en te em o b ter a in fl u en c ia lo c a l d a s o b serv a c o es so b re

Rev. B ra s. B io m ., S a o P a u lo , v .2 6 , n .2 , p .0 7 -2 6 , 2 0 0 8 1 7

Page 12: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

β, a curvatura normal na direcao d e dada por C(β) = 2|d>∆>(L−1

θθ − M1)∆d|,sendo

M1 =

(0 0

0 L−1

σ2σ2

),

em que Lσ2σ2 = ∂2`(θ)/∂(σ2)2. O grafi co do maior autovetor de ∆>(L−1

θθ −M1)∆contra a ordem das observacoes pode mostrar aquelas observacoes com maiorinfluencia local sobre β.

E sq u e m a s de p e rtu rb a c a o

Em estatıstica, nao existe uma defi nicao clara de perturbacao. Segundo B illor& L oy nes (1993 ), perturbacao e qualquer arranjo da mudanca da suposicao domodelo e/ ou dados perturbados para constatar alguma mudanca substancial queocorre nos resultados da analise. A seguir, alguns esquemas de perturbacao maiscomuns sao apresentados.

Ponderacao de Casos: A funcao de log-verossimilhanca perturbada tem a forma

`(θ|ω) =

n∑

i= 1

ωi`i(θ),

em que ω = (ω1, . . . , ωn)>, com 0 ≤ ωi ≤ 1, i = 1, . . . , n . Com este tipo deperturbacao, deseja-se avaliar se a contribuicao das observacoes com ponderacoesdiferentes afeta na estimacao do parametro θ. A ponderacao de casos tem sidoo esquema de perturbacao mais utilizado para analise de influencia (Cook, 1987 ).Este esquema pode ser interpretado como uma ponderacao na variancia do i-esimocaso, em especial nos modelos normais lineares (T homas & Cook, 1989). Q uandoω = ω0 = (1, 1, . . . , 1)>, o modelo perturbado se reduz ao modelo postulado.

Pertu rbacao na R esposta: Este tipo de perturbacao considera, em geral, um esquemaaditivo de perturbacao da resposta em que y = (y1, . . . , yn)> e alterado atraves daadicao de um vetor ω de pequenas perturbacoes. E comum utilizar um fator deescala para padronizar os componentes de ω, por exemplo, a estimativa do desviopadrao de yi, σ, de forma que

yi(ωi) = yi + σωi, i = 1, 2, . . . , n .

Q uando ω = ω0 = (0, 0, . . . , 0)>, a variavel perturbada se reduz a variavel original.

Pertu rbacao nas Covariaveis: N este caso, considera-se uma perturbacao aditivade uma variavel explicativa particular, digamos xt, adicionando um vetor ω depequenas perturbacoes ponderado por um fator de escala St, em que St e o desviopadrao da t-esima covariavel modifi cada, de forma que

xit(ωi) = xit + Stωi, i = 1, 2, . . . , n .

18 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008

Page 13: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

Atraves deste esquema de perturbacao e possıvel acessar a influencia individualde cada covariavel no processo de estimacao do modelo. No entanto, este tipode perturbacao faz sentido somente se a covariavel e medida de forma contınua.Quando ω = ω0 = (0, 0, . . . , 0)>, a variavel perturbada se reduz a variavel original.

3 Ilustracao pratica

Os dados utilizados correspondem a uma amostra de 27 imoveis e estaoapresentados na Tabela 1 (P aula, 2004 ). O objetivo do estudo e tentar explicar opreco de venda do imovel – y (em 1000 dolares) segundo as covariaveis: x1 – impostodo imovel (em 100 dolares); x2 – area do terreno (em 1000 pes quadrados); x3 – areaconstruıda (em 1000 pes quadrados); x4 – idade da residencia (em anos). Todasa analises apresentadas nesta secao foram feitas utilizando o softw are estatıstico R

em sua versao 2.7.1.P rimeiramente foi ajustado um modelo de regressao normal linear incluindo

todos as covariaveis, ou seja, o modelo a ser ajustado e da forma

yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + εi, i = 1, 2, . . . , 27.

Os coeficientes estimados, erros padrao, estatıstica-t, p-valores, uma medida dequalidade de ajuste, R2, e o erro padrao residual, s, estao apresentados na Tabela 2.

Observe que apenas as covariaveis x1 e x3 foram significativas. J a as covariaveisx2 e x4 nao foram significativas, isto e, nao estao associadas ao preco de venda doimovel. Note que o intercepto (Constante) tambem nao foi significativo.

A fim de escolher um modelo mais apropriado aos dados, utilizou-se o criteriode selecao AIC. (Esta funcao esta implementada no softw are R atraves do comandostepAIC da library MASS.) Apos aplicar o metodo, apenas as covariaveis x1 e x3

permaneceram no modelo, alem do intercepto. O intercepto nao foi significativo,porem, por interpretacoes praticas sera mantido no modelo. E interessante notarque o metodo selecionou justamente as covariaveis que foram significativas nomodelo com todas as covariaveis. As estimativas do modelo selecionado estao naTabela 3.

Como um modelo aparentemente apropriado aos dados foi selecionado(Tabela 3), o proximo passo e aplicar as medidas de diagnostico apresentadas nasecoes anteriores e verificar as suposicoes iniciais do modelo, bem com se ha algumaobservacao que exerca algum tipo de influencia sobre as estimativas dos parametros,ou seja, verificar se alguma observacao muda a inferencia com relacao a significancia(ou nao significancia) dos parametros.

Na F igura 3, tem-se as medidas de diagnostico. H a oito graficos nesta figura:P o n to s d e A la v a n c a , D ista n c ia d e C o o k - D i, M e d id a D F F IT S i, M e d id a C i, In fl u e n c ia

L o c a l, P o n to s A b e rra n te s, H o m o c e d a stic id a d e e E n v e lo p e . Este ultimo refere-se aum grafico de probabilidades normal com bandas de confianca, sendo utilizado paraverificar se a distribuicao que foi postulada para a variavel resposta se verifica, nestecaso, a distribuicao normal.

Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008 19

Page 14: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

Tabela 1 - Dados da ilustracao

x1 x2 x3 x4 y x1 x2 x3 x4 y4.9176 3.4720 0.9980 42 25 .9 5 .05 00 5 .0000 1.0200 46 30.05 .0208 3.5 310 1.5 000 62 29.5 8.2464 5 .15 00 1.6640 5 0 36.94.5 429 2.275 0 1.175 0 40 27.9 6.6969 6.9020 1.4880 22 41.94.5 5 73 4.05 00 1.2320 5 4 25 .9 7.7841 7.1020 1.3760 17 40.55 .05 97 4.45 5 0 1.1210 42 29.9 9.0384 7.8000 1.5 000 23 43.93.8910 4.45 5 0 0.9880 5 6 29.9 5 .9894 5 .5 200 1.25 60 40 37.55 .8980 5 .85 00 1.2400 5 1 30.9 7.5 422 4.0000 1.6900 22 37.95 .6039 9.5 200 1.5 010 32 28.9 8.795 1 9.8900 1.8200 5 0 44.515 .4202 9.8000 3.4200 42 84.9 6.0931 6.7265 1.65 20 44 37.914.45 98 12.8000 3.0000 14 82.9 8.3607 9.15 00 1.7770 48 38.95 .8282 6.435 0 1.225 0 32 35 .9 8.1400 8.0000 1.5 040 3 36.95 .3003 4.9883 1.5 5 20 30 31.5 9.1416 7.3262 1.8310 31 45 .86.2712 5 .5 200 0.975 0 30 31.0 12.0000 5 .0000 1.2000 30 41.05 .95 92 6.6660 1.1210 32 30.9

Tabela 2 - Ajuste do modelo com todos as covariaveis

Covariaveis Estimativa Erro padrao Estatıstica-t p-valorConstante 2.436 4.092 0.5 95 0.5 5 8x1 2.078 0.5 5 3 3.75 8 0.001x2 0.232 0.5 07 0.45 9 0.65 1x3 13.974 2.907 4.808 0.000x4 −0.044 0.066 −0.660 0.5 16R2 0.931s 4.077

Tabela 3 - Estimativas do modelo selecionado

Covariaveis Estimativa Erro padrao Estatıstica-t p-valorConstante 0.790 2.279 0.347 0.732x1 2.297 0.489 4.698 0.000x3 13.933 2.5 24 5 .5 19 0.000R2 0.928s 3.982

20 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008

Page 15: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

0 5 10 15 20 25

0.0

0.2

0.4

0.6

0.8

1.0

Pontos de Alavanca

Índice

hi

9

10

27

0 5 10 15 20 25

0.0

0.5

1.0

1.5

2.0

Distância de Cook − Di

Índice

Di 10

27

0 5 10 15 20 25

0.0

0.5

1.0

1.5

2.0

Medida DFFITSi

Índice

DFF

ITS

i

10

27

0 5 10 15 20 250

24

6

Medida Ci

Índice

Ci

10

27

0 5 10 15 20 25

0.00

0.05

0.10

0.15

0.20

Influência Local

Índice

|dm

ax|

10

0 5 10 15 20 25

−2−1

01

23

Pontos Aberrantes

Índice

Res

íduo

Stu

dent

izad

o 10

30 40 50 60 70 80

−2−1

01

23

Homocedasticidade

Valores Ajustados

Res

íduo

Stu

dent

izad

o

−2 −1 0 1 2

−3−1

01

23

Percentis da N(0,1)

Res

iduo

Stu

dent

izad

o

Envelope

Figura 3 - Medidas de Diagnostico.

Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008 21

Page 16: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

Observe no grafico Pontos de Alavanca que tres pontos (9, 10 e 27) se destacamentre os demais. Eles apresentaram uma “ alta” influencia (medida atraves de∂yi/∂yi = hii) do preco de venda do imovel observado sobre o preco de vendado imovel predito. Adicionalmente, note nos graficos Distancia de Cook - Di, Medida

DFFITSi, Medida Ci e Influencia Local (os quais destacam pontos que possivelmenteterao um peso desproporcional nas estimativas dos parametros, influentes), duasobservacoes se destacam (10 e 27). Deve-se “ olhar” com bastante cuidado estasobservacoes, uma vez que elas podem estar causando o que se denomina masking

eff ect, ou seja, mascarando a presenca de alguma covariavel no modelo. Dessaforma, como as medidas indicaram esses pontos como possıveis influentes, sera feitouma analise confirmatoria para verificar se tais observacoes alteram a inferenciacom respeito a significancia dos parametros.

Na Tabela 4, tem-se a variacao percentual (V P) das estimativas dos parametrosjuntamente com os p-valores quando se retira marginalmente e conjuntamenteos pontos 10 e 27. Note nesta tabela que a maior variacao percentual foi emrelacao ao intercepto, porem, a nao significancia do mesmo continuou inalterada.Adicionalmente, o p-valor para a covariavel x1 (isto e, β1) ficou inalterado, jao p-valor de x3 (isto e, β3) foi levemente alterado, no entanto, nao mudandoa significancia da mesma no modelo. Portanto, chega-se a conclusao que asobservacoes 10 e 27 nao alteram a inferencia do modelo selecionado e, de fato,as covariaveis x1 e x3 devem ser mantidas no modelo.

Tabela 4 - V ariacao da estimativas e p-valores

Todas Sem a obs. 10V P(% ) p-valor V P(% ) p-valor

Constante 0 0.732 330.06 0.164x1 0 0.000 5.62 0.000x3 0 0.000 9.77 0.000

Sem a obs. 27 Sem as obs. 10 e 27V P(% ) p-valor V P(% ) p-valor

Constante 35.14 0.632 337.33 0.145x1 41.73 0.000 31.01 0.000x3 32.44 0.015 37.26 0.015

No grafico Pontos Aberrantes, observe que a observacao 10 se destaca, ficandofora dos limites (−2, 2). Este ponto pode ser considerado marginalmente aberrante,uma vez que o resıduo para esta observacao e significativamente diferente de zero,indicando que o modelo selecionado nao descreve, completamente, esta observacao.Observando o grafico Homocedasticidade, note que, aparentemente, nao ha indıciosde heteroscedasticidade (variancia nao constante). (E claro que um estudo maisrefinado como a aplicacao de algum teste de heteroscedasticidade pode ser maisconclusivo em relacao a nao constancia da variancia.) Pelo grafico Envelope, note

22 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008

Page 17: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

que a suposicao de normalidade para a variavel resposta esta satisfeita, uma vezque todos os pontos estao dentro das bandas de confianca. Mais detalhes sobre aconstrucao deste grafico podem ser encontrados em Atkinson (1985).

Conclusoes

Este artigo apresenta uma revisao de tecnicas de diagnostico em modelos deregressao normais lineares. Algumas medidas de diagnostico foram apresentadase discutidas, em particular, o metodo de influencia local desenvolvido por Cook(1986) que propoe avaliar a influencia conjunta das observacoes sob pequenasmudancas (perturbacoes) no modelo ou dados. Este metodo vem sendo amplamenteutilizado por usuarios na modelagem de regressao e teve uma grande receptividadeentre os pesquisadores, havendo inumeras publicacoes no assunto em que seaplica a metodologia em classes particulares de modelos ou extensoes da tecnica.Adicionalmente, apresentamos e discutimos uma ilustracao pratica aplicando asmedidas apresentadas no artigo a um conjunto de dados reais.

A aplicacao das tecnicas de diagnostico sao de fundamental importancia paraverificar (validar) a adequacidade de um ajuste de um modelo de regressao, bemcomo identificar observacoes que podem influenciar consideravelmente tal ajuste.Portanto, ao aplicar a tecnica de analise de regressao a um conjunto de dadosreais, deve-se estar ciente de que um ajuste razoavel (satisfatorio) de um modelo deregressao vem acompanhado de uma boa analise de diagnostico.

A g rad ecim entos

O autor agradece ao apoio financeiro da Fundacao de Amparo a Pesquisa doEstado de Sao Paulo – FAPESP, e um parecerista pelos comentarios.

LEMONTE, A. J. Diagnostic in normal linear regression: principles andapplications. Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.7-26, 2008.

ABSTRACT: Statistical models are very used to extract and knowing the characteristics

of a data set. M odels, however, are always ap p roximate descrip tions of a p rocess more

comp licated. So considerations of q uality of a model are extremely imp ortant. W e

p resent in this article some techniq ues of diagnostic in normal linear regression model,

which can b e seen as methods to study the variation in the analysis of the results when

the model in the study is sub ject to some kind of disturb ance. Additionally, we p resent

in detail the method of local infl uence develop ed b y Cook (1 9 8 6 , 1 9 8 7 ).

K E Y W O RD S: L ocal infl uence; measures of diagnostic; normal linear model.

Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008 23

Page 18: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

Referencias

ATKINSON, A. C. Plots, transformations and regressions. Oxford: OxfordStatistical Science Series, 1985. 282p.

BECKMAN, R . J.; NACHTSHEIM, C. J.; COOK, R . D. Diagnostics for mixed-model analysis of variance. T ech nometrics, Alexandria, v.29, p.413–426, 1987.

BELSLEY , D. A.; KU H, E.; W ELSCH, R . E. Residuals and infl uence in regression.London: Chapman & Hall, 1980. 292p.

BILLOR , N.; LOY NES, R . M. Local influence: a new approach. Commun. S tat. -

T h eory M eth ods, New Y ork, v.22, p.1595–1611, 1993.

COOK, R . D. Detection of influencial observations in linear regressions.T ech nometrics, Alexandria, v.19, p.15–18, 1977.

COOK, R . D. Assessment of local influence (with discution). J . R. S tat. S oc. S er.

B, London, v.48, p.133–169, 1986.

COOK, R . D. Influence assessment. J . A ppl. S tat., Abingdon, v.14, p.117–131, 1987.

COOK, R . D.; W EISBER G , S. Residuals and infl uence in regression. London:Chapman & Hall, 1982. 230p.

DR APER , N. R .; SMITH, H. A pplied regression analysis. New Y ork: John W iley& Sons, 1998. 470p.

ESCOBAR , L. A.; MEEKER , W . Q. Assessing influence in regression analysis withcensored data. Biometrics, W ashington, v.48, p.507–528, 1992.

G ALEA, M.; PAU LA, G . A.; BOLFAR INE, H. Local influence in elliptical linearregression models. S tatistician, London, v.46, p.71–79, 1997.

G ALEA, M.; PAU LA, G . A.; U R IBE-OPAZ O, M. On influence diagnostic inunivariate elliptical linear regression models. S tat. Pap., New Y ork, v.44, p.23–45,2003.

G U , H.; FU NG , W . K. Assessing local influence in canonical correlation analysis.A nn. Inst. S tat. M ath ., Tokio, v.50, p.755–772, 1998.

G U JAR ATI, D. E conometria basica. Sao Paulo: Makron Books, 2000. 812p.

HOAG LIN, D. C.; W ELSCH, R . E. The hat matrix in regression and ANOVA. A m.

S tat., W ashington, v.32, p.17–22, 1978.

KIM, M. G . Local influence in multivariate regression. Comm. S tat. - T h eory

M eth ods, New Y ork, v.20, p.1271–1278, 1995.

KW AN, C. W .; FU NG , W . K. Assessing local influence for specific restrictedlikelihood: Applications to factor analysis. Psych ometrika, New Y ork, v.63, p.35–46,1998.

LAW R ENCE, A. F. R egression transformation diagnostics using local influence. J .

A m. S tat. A ssoc., New Y ork, v.84, p.125–141, 1988.

24 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008

Page 19: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

LIU, S. Z. On local influence for elliptical linear models. Stat. Pap., New York, v.41,p.211–224, 2000.

MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear

regression analysis. 3.ed. New York: John Wiley & Sons, 2001. 527p.

O’HARA HINES, R. J.; LAWLESS, J. F.; CARTER, E. M. Diagnostics fora cumulative multinomial generalized linear model with application to groupedtoxicological mortality data. J. Am. Stat. Assoc., New York, v.87, p.1059–1069,1992.

ORTEGA, E. M. M.; BOLFARINE, H.; PAULA, G. A. Influence diagnostic ingeneralized log-gamma regression models. Comput. Stat. D ata Anal., Amsterdam,v.42, p.165–186, 2003.

OSORIO, F.; PAULA, G. A.; GALEA, M. Assessment of local influence in ellipticallinear models with longitudinal strucuture. Comput. Stat. D ata Anal., Amsterdam,v.51, p.4354–4368, 2007.

PAN, J. X .; FANG, K. T.; ROSEN, V. Local influence assessment in the growthcurve model with unstructured covariance. J. Stat. Plann. Infer., Amsterdam, v.62,p.263–278, 1997.

PAULA, G. A. Assessing local influence in restricted regression models. Comput.

Stat. D ata Anal., Amsterdam, v.16, p.63–79, 1993.

PAULA, G. A. Influence diagnostic in proper dispersion models. Aust. J. Stat.,Sydney, v.38, p.307–316, 1996.

PAULA, G. A. Modelos de regressao com apoio computacional. Sao Paulo: IME–USP, 2004. 245p.

PETTITT, A. N.; BIN DAUD, I. Case-weight measures of influence for proportionalhazards regression. Appl. Stat., Washington, v.38, p.51–67, 1989.

RANCEL, M. M. S.; SIERRA, M. A. G. Regression diagnostics using local influence:a review. Commun. Stat. - Theory Methods, New York, v.30, p.799–813, 2001.

SEARLE, S. R. L inear models. New York: John Wiley & Sons, 1971. 532p.

SOUZA, F. A. M. Influencia local e analise de resıduos em modelos de regressao

von Mises, 1999. 116f. Tese (Doutorado em estatıstica), Instituto de Matematica eEstatıstica - Universidade de Sao Paulo, Sao Paulo, 1999.

SVETLIZA, C. F.; PAULA, G. A. On diagnostics in log-linear negative binomialmodels. J. Stat. Comput. Simul., New York, v.71, p.231–244, 2001.

SVETLIZA, C. F.; PAULA, G. A. Diagnostics in nonlinear negative binomialmodels. Commun. Stat. - Theory Methods, New York, v.32, p.1227–1250, 2003.

THOMAS, W.; COOK, R. D. Assessing influence on regression coeffi cients ingeneralized linear models. Biometrika, London, v.79, p.741–749, 1989.

TSAI, C. H.; Wu, X . Assessing local influence in linear regression models withfirst-order autoregressive or heteroscedastic error structure. Stat. Probab. L ett.,Amsterdam, v.14, p.247–252, 1992.

Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008 25

Page 20: artigo 08 05 - Unespjaguar.fcav.unesp.br/RME/fasciculos/v26/v26_n2/A1_Artur.pdfrealmente errados como resultado de uma leitura errada ou uma transcri»c~ao mal feita. A seguir, algumas

WEISBERG, S. Applied linear regression. New York: John Wiley & Sons, 1985.324p.

Recebido em 01.02.2008.

Aprovado apos revisao em 12.06.2008.

26 Rev. Bras. Biom., Sao Paulo, v.26, n.2, p.07-26, 2008