Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de...

44
Introducci´ on Diagn´ ostico de la variable predictora Residuos Diagn´ ostico de los residuos Contrastes sobre los residuos Transformaciones R y residuos Modelos lineales Tema 4. Diagn´ ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn´ ostico del modelo Modelos lineales

Transcript of Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de...

Page 1: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Modelos lineales

Tema 4. Diagnostico del modelo

Carmen Armero

9 de febrero de 2011

Tema 4. Diagnostico del modelo Modelos lineales

Page 2: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Introduccion

Diagnostico de la variable predictora

Residuos

Diagnostico de los residuos

Contrastes sobre los residuos

Transformaciones

R y residuos

Tema 4. Diagnostico del modelo Modelos lineales

Page 3: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Introduccion

I En general, cuando utilizamos un modelo de regresion para analizar un conjuntode datos no estamos totalmente seguros de si el modelo es apropiado o no paralos datos considerados.

I Es importante analizar la validez del modelo utilizado porque alguna de lashipotesis del modelo (linealidad de la funcion de regresion, normalidad,homocedasticidad, etc) pueden no resultar apropiadas.

I En este tema estudiaremos metodos graficos sencillos y procedimientos un pocomas formales para detectar y, en su caso, remediar dichos problemas.

I Aunque en este tema solo discutiremos la validez del modelo de regresion linealsimple, los procedimientos que estudiaremos son bastante generales, y por lotanto, seran, en su mayorıa, validos para los modelos de regresion mascomplejos que estudiaremos en temas posteriores.

I Este es una tema poliedrico que ha generado muchisima literatura cientıfica.Nosotros veremos poquito.

Tema 4. Diagnostico del modelo Modelos lineales

Page 4: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Diagnostico de la variable predictora

I Empezamos considerando algunos tipos de graficas adecuadas para realizar undiagnostico de la variable predictora que nos permitira comprobar si existenvalores extremos de X que puedan influenciar la validez del modelo de regresionajustado. La informacion sobre el rango y concentracion de los valores de X enel estudio es importante para conocer el rango de validez del analisis deregresion realizado.

I Diagramas de puntos (conveniente cuando no hay muchos datos)

I Diagramas de cajas (conveniente cuando hay muchos datos)

I Diagramas de tallo y hojas (conveniente cuando no hay muchos datos)

I Diagramas secuenciales (utiles cuando los datos se han obtenido ensecuencias temporales, corresponden a areas geograficas contiguas, etc)

Tema 4. Diagnostico del modelo Modelos lineales

Page 5: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Ejemplo: Masa muscular y edad 4.I

La edad es uno de los factores determinantes en la perdida de la masa muscular. Conobjeto de explorar dicha relacion en mujeres, un nutricionista selecciona aleatoriamente15 mujeres en cada uno de los grupos de edad: [40, 49], [50, 59], [60, 69] y [70, 79], ycalcula, a traves de diferentes medidas, un indicador de su masa muscular.

40 50 60 70 80

5060

7080

9010

011

012

0

edad

mm

uscu

lar

Tema 4. Diagnostico del modelo Modelos lineales

Page 6: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Diagrama de puntos: Masa muscular y edad 4.II

edad

40 50 60 70

El diagrama de puntos de la Edad muestra la distribucion de los datos de dichavariable. Se trata de una distribucion marcadamente uniforme debido, basicamente, aldiseno semi-experimental considerado.

Tema 4. Diagnostico del modelo Modelos lineales

Page 7: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Diagrama de cajas: Masa muscular y edad 4.III

edad

40 50 60 70

El diagrama de cajas de la Edad muestra los valores maximo y mınimo, el primer ytercer cuantil y la mediana (marcada con un punto rojo en la grafica). La distribucionde las edades es muy simetrica alrededor de la mediana y, aproximadamente, la partecentral de la distribucion se concentra en el intervalo (50, 70).

Tema 4. Diagnostico del modelo Modelos lineales

Page 8: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Diagrama de tallo y hojas: Masa muscular y edad 4.IV

4 | 111223344 | 56777885 | 1233445 | 567779996 | 000133346 | 55568897 | 0012237 | 5666788888

El diagrama de tallo y hojas de la Edad muestra el valor mınimo, 41 anos, y elmaximo, 78 y es una evidencia clara de la uniformidad de los datos de dicha variable.Este diagrama proporciona una informacion similar, aunque mucho mas precisa, a ladel diagrama de puntos anterior.

Tema 4. Diagnostico del modelo Modelos lineales

Page 9: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Residuos

I Para diagnosticar la validez del modelo de regresion los graficos de la variablerespuesta Y no son utiles porque las observaciones de Y en el modelo son unafuncion de los niveles de la variable predictora, que no se considera comovariable aleatoria.

I Los procedimientos de diagnostico para la variable respuesta se realizanindirectamente a traves del analisis de los residuos.

I Recordamos que el residuo ei es la diferencia entre el valor observado Yi y elajustado Yi , ei = Yi − Yi .

I En el modelo de regresion sabemos que lor errores pueden expresarse comoεi = Y − E(Y | X ), por lo que los residuos pueden ser interpretados comoerrores observados.

I En el modelo de regresion los terminos de error, εi , son variables aleatoriasindependientes con distribucion normal de media cero y varianza σ2.

I El analisis de los residuos se basa en la idea de que si el modelo es apropiadopara los datos, los residuos observados ei deberıan reflejar las propiedades de loserrores εi .

Tema 4. Diagnostico del modelo Modelos lineales

Page 10: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Propiedades de los residuos

I Media muestral. La media muestral de los n residuos ei del modelo de regresionlineal simple es cero. Esta propiedad es directa porque:

n∑i=1

ei =n∑

i=1

(Yi − Yi ) =n∑

i=1

Yi −n∑

i=1

Yi = 0

I Varianza muestral. La varianza muestral de los n residuos ei del modelo deregresion se define como:

s2e =

∑ni=1 (ei − e)2

n − 1=

∑ni=1 e2

i

n − 1=

SSE

n − 1

I No independencia. Los residuos ei , como variables aleatorias que generan losresiduos observados, no son independientes entre sı porque dependen de Yi , queestan basados en la misma recta de regresion ajustada. Cuando el tamano de lamuestra es grande la dependencia entre los residuos es relativamente pequena ypuede ignorarse en la mayorıa de los casos.

Tema 4. Diagnostico del modelo Modelos lineales

Page 11: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Residuos semiestudentizados

I En algunos casos (que veremos mas adelante) resulta de utilidad estandarizarlos residuos. La desviacion tıpica de los residuos, como variables aleatorias quegeneraran los residuos observados, tiene una expresion complicada y es diferentepara cada residuo, por lo que para la estandarizacion utilizaremos s2 (estimacionde la varianza del modelo), que es una estimacion aproximada de la varianza decada residuo.

I Los residuos semiestudentizados e∗i se definen como:

e∗i =ei − e

s=

ei

s

Tema 4. Diagnostico del modelo Modelos lineales

Page 12: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Desviaciones de las hipotesis del modelo que pueden valorarse a traves delos residuos

Vamos a utilizar los residuos para analizar diferentes tipos de desviaciones de lashipotesis del modelo de regresion lineal simple.

I La funcion de regresion no es lineal

I El termino de error, ε, no tiene varianza constante.

I Los terminos de error no son independientes.

I El modelo ajusta bien casi todas las observaciones pero nos encontramos conalgunas observaciones extremas (outliers).

I Los terminos de error no son normales.

Tema 4. Diagnostico del modelo Modelos lineales

Page 13: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Diagnostico de los residuos, I

Algunos graficos habituales para valorar la validez del modelo de regresion ajustadoson:

I Grafica de los residuos con respecto a los valores de la variable predictora

I Grafica de los valores absolutos o cuadrados de los residuos con respecto a lavariable predictora.

I Grafica de los residuos con respecto a los valores ajustados.

I Grafica de los residuos con respecto al tiempo u otro tipo de secuencia.

I Diagrama de cajas de los residuos

I Graficos probabilısticos normales para los residuos.

Tema 4. Diagnostico del modelo Modelos lineales

Page 14: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Diagnostico de los residuos, II

Los cuatro graficos avalan la validez del modelo de regresion ajustado:

0 50 100 150

020

040

060

0

x

y

62.366+3.57X

0 50 100 150

−15

0−

5050

150

x

resi

duos

−15

0−

5050

150

resi

duos

−2 −1 0 1 2

−15

0−

5050

150

Gráfico normal Q−Q

cuantiles teóricos

cuan

tiles

obs

erva

dos

Tema 4. Diagnostico del modelo Modelos lineales

Page 15: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

La funcion de regresion no es lineal

I La no linealidad de la funcion de regresion puede estudiarse a traves de la nubede puntos de los datos pero no resulta habitual porque no es muy eficaz.

I El analisis grafico de la validez de una funcion lineal de regresion para analizarun banco de datos puede realizarse a traves de un diagrama de puntos de losresiduos frente a los valores de la variable predictora, o de forma equivalente, delos residuos frente a los valores ajustados.

50 100 150 200

02

46

8

x

y

−1.82+0.0435X

50 100 150 200

−2

−1

01

2

x

resi

duos

Tema 4. Diagnostico del modelo Modelos lineales

Page 16: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Los terminos de error no tienen varianza constante

I Las graficas de los residuos en relacion a los niveles de la variable predictora sontambien apropiados para valorar si la varianza de los errores es constante.

I Hay diferentes patrones de este tipo de problemas: la varianza aumenta con losniveles de la variable predictora (como en el siguiente ejemplo), decrece, eincluso presenta diferentes pautas de crecimiento y decrecimiento, etc.

0 2 4 6 8 10

02

46

810

12

x

y

0 2 4 6 8 10

−4

−2

02

4

x

resi

dual

s

Tema 4. Diagnostico del modelo Modelos lineales

Page 17: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Presencia de outliers, I

I Los outliers son observaciones extremas que no estan en sintonıa con la mayorıade los datos. Pueden detectarsese a traves de diagramas de puntos de losresiduos frente a los niveles de la variable predictora o a los valores ajustados, otambien con diagramas de cajas, diagramas de tallo y hojas y diagramas depuntos de los residuos.

I Los graficos con residuos semiestudentizados son especialmente utiles paradistinguir los outliers porque resulta sencillo identificar los residuos que seencuentran a bastantes desviaciones tıpicas de cero. Cuando la muestra esgrande puede considerarse que una observacion es un outlier cuando su valorabsoluto es mayor o igual a 4.

I Los outliers son problematicos. Cuando los encontramos siempre pensamos queson conscuencia de una confusion y que deberıamos descartarlos. La recta deregresion es muy sensible a dicho valor porque tiende a acercarse muchısimo a ely ası minimizar todo maximo posible la suma de cuadrados residuales.

I Pero tambien pueden contener informacion muy valiosa, como por ejemplocuando se produce un outlier debido a una interaccion con otra variablepredictora omitida en el modelo (lo veremos mas adelante).

I Una regla bastante sensata sugiere descartar un outlier solo si existe muchaevidencia de que su presencia en la muestra se debe a un error (de registro, decalculo, mal funcionamiento del aparato de medida, etc).

Tema 4. Diagnostico del modelo Modelos lineales

Page 18: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Presencia de outliers y ejemplo de las serpientes ampliado, 4.I

50 55 60 65 70 75

100

150

200

250

longitud

peso

50 55 60 65 70 75

100

150

200

250

longitud

peso

50 55 60 65 70 75

100

150

200

250

longitud

peso

50 55 60 65 70 75

100

150

200

250

longitud

peso

Tema 4. Diagnostico del modelo Modelos lineales

Page 19: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Presencia de outliers y ejemplo de las serpientes ampliado, 4.II

50 55 60 65 70 75

100

150

200

250

longitud

peso

−301.087+7.192 Longitud

50 55 60 65 70 75

100

150

200

250

longitud

peso

7.588+2.471 Longitud

50 55 60 65 70 75

100

150

200

250

longitud

peso

−258.26+6.67 Longitud

50 55 60 65 70 75

100

150

200

250

longitud

peso

−379.86+8.509 Longitud

Tema 4. Diagnostico del modelo Modelos lineales

Page 20: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Presencia de outliers y ejemplo de las serpientes ampliado, 4.III

50 55 60 65 70 75

−20

020

40

longitud

resi

dual

s

50 55 60 65 70 75

−50

050

100

longitud

resi

dual

s

50 55 60 65 70 75

−50

050

100

longitud

resi

dual

s

50 55 60 65 70 75

−50

050

100

longitud

resi

dual

s

Tema 4. Diagnostico del modelo Modelos lineales

Page 21: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Presencia de outliers y ejemplo de las serpientes ampliado, 4.VI

50 55 60 65 70 75

−1

01

2

longitud

resi

duos

est

uden

tizad

os

50 55 60 65 70 75

−1

01

2

longitud

resi

duos

est

uden

tizad

os

50 55 60 65 70 75

−1

01

2

longitud

resi

duos

est

uden

tizad

os

50 55 60 65 70 75

−1

01

2

longitud

resi

duos

est

uden

tizad

os

Tema 4. Diagnostico del modelo Modelos lineales

Page 22: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Los terminos de error no son independientes

I Cuando los datos se han obtenido en una secuencia temporal u otro tipo desecuencia, como por ejemplo regiones geograficas contiguas, es aconsejablerealizar un diagrama secuencial de los residuos para valorar una posiblecorrelacion entre los terminos de error cercanos.

I En las siguientes graficas se presentan dos situaciones diferentes (efecto lineal,patron cıclico) de dicha situacion.

0 2 4 6 8 10 12 14

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

tiempo

resi

duo

0 5 10 15

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

tiempo

resi

duo

Tema 4. Diagnostico del modelo Modelos lineales

Page 23: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Los terminos de error no son normales

I Ya sabemos que aunque los datos presenten pequenas desviaciones de lanormalidad esta situacion no nos crea problemas importantes. Pero deberıamoscomprobar que no se produce.

I La normalidad de los errores puede analizarse, informalmente, a traves dediferentes procedimientos graficos de los residuos.

I Los diagramas de cajas son utiles para obtener informacion sobre su simetrıa yla posible presencia de outliers. Los histogramas, diagramas de puntos odiagramas de tallo y hojas son tambien adecuados para detectar severasdesviaciones de la normalidad.

I Estas herramientas graficas son utiles para valorar la forma de la distribucion delos residuos unicamente cuando el tamano de la muestra es grande.

I Diagramas probabilısticos normales QQ.

Tema 4. Diagnostico del modelo Modelos lineales

Page 24: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Diagramas probabilısticos normales QQ, I

I Los diagramas probabilısticos normales QQ estan disenados para valorargraficamente la normalidad de los terminos de error del modelo.

I Para ello:

I Ordenamos los residuos en orden ascendente, e(1) ≤ e(2) ≤ . . . e(n)

I Calculamos ui = Φ−1(i/(n + 1)), siendo Φ la funcion de distribucion deuna distribucion normal estandard.

I Representamos graficamente {(e(i), ui ), i = 1, . . . , n}I Si los residuos son aproximadamente normales la relacion entre los dos

elementos del apartado anterior es lineal.

Tema 4. Diagnostico del modelo Modelos lineales

Page 25: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Diagramas probabilısticos normales QQ, II

I Densidad de una normal estandard y grafico QQ correspondiente a una muestrasimulada de 500 observaciones de dicha distribucion

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

dnor

m(x

)

Normal estándard

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

I Densidad de una variable Cauchy y grafico QQ correspondiente a una muestrasimulada de 500 observaciones de dicha distribucion

−4 −2 0 2 4

0.00

0.05

0.10

0.15

0.20

0.25

0.30

x

dens

idad

Cauchy

−3 −2 −1 0 1 2 3

050

010

0015

0020

0025

0030

00

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Tema 4. Diagnostico del modelo Modelos lineales

Page 26: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Diagramas probabilısticos normales QQ, III

I Densidad de una variable Uniforme(-3,3) y grafico QQ correspondiente a unamuestra simulada de 500 observaciones de dicha distribucion

−3 −2 −1 0 1 2 3

0.10

0.12

0.14

0.16

0.18

0.20

0.22

x

dens

idad

Uniforme(−3,3)

−3 −2 −1 0 1 2 3

−3

−2

−1

01

23

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

I Densidad de una variable Gamma(2,2) y grafico QQ correspondiente a unamuestra simulada de 500 observaciones de dicha distribucion

0 5 10 15

0.0

0.2

0.4

0.6

x

dens

idad

Gamma(2,2)

−3 −2 −1 0 1 2 3

01

23

4

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Tema 4. Diagnostico del modelo Modelos lineales

Page 27: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Contrastes para valorar los residuos

I Aunque el analisis grafico de los residuos es claramente subjetivo resulta unaherramienta muy util para detectar incompatibilidades de los datos con elmodelo de regresion utilizado.

I Pero tambien resulta conveniente utilizar otro tipo de herramientas, como loscontraste de hipotesis, para complementar el analisis realizado.

I Empezaremos primero con una pequena panoramica de los tests mas popularesy posteriormente entraremos a discutir algunos de ellos.

I La mayorıa de los tests estadısticos requieren que las observaciones seanindependientes. Sabemos que los residuos no son independientes pero ladependencia entre ellos es practicamente irrelevante cuando el tamano de lamuestra es grande y por lo tanto, la ignoraremos en la mayorıa de los casos.

Tema 4. Diagnostico del modelo Modelos lineales

Page 28: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Contrastes sobre los residuos, II

I Aleatoriedad. Para valorar la ausencia de aleatoriedad de la secuencia temporalde los residuos se suele utilizar un test de rachas. Un contraste disenadoespecıficamente para los modelos de regresion es el test de Durbin-Watson (loestudiaremos en temas posteriores).

I Homogeneidad de la varianza. Cuando, como consecuencia del analisis graficode los residuos, se sospecha que la varianza del modelo no es constante, puedeutilizarse el test de Brown-Forsythe o el de Breusch-Pagan.

I Outliers. Un procedimiento muy sencillo para identificar un outlier es ajustaruna nueva recta de regresion con las restantes observaciones y valorar dichaobservacion en relacion a la distribucion predictiva de la variable respuesta parael nivel de la variable predictora correspondiente al outlier.

I Normalidad. Existe una gran variedad de tests de bondad de ajuste para valorarla normalidad de los errores. Entre ellos, el test Chi-cuadrado, el test deKolmogorov-Smirnov y su modificacion, el test de Lillefors y el test deShapiro-Wilk. Este ultimo es el unico que trabajaremos a nivel practico.

Tema 4. Diagnostico del modelo Modelos lineales

Page 29: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Test de Brown-Forsythe para la varianza del modelo, I

I Este test no depende de la normalidad de los errores y necesita un tamanomuestral que no sea pequeno.

I Procedimiento general:I Dividimos la muestra en dos partes segun los niveles, ordenados de menor

a mayor, de la variable predictora. De esa forma tendremos un primergrupo de observaciones con los valores pequenos de X y un segundogrupo con las grandes.

I Si la varianza de los errores no fuera constante la varianza de los residuosde ambos grupos serıa diferente. O, equivalentemente, las desviacionesabsolutas de los residuos con respecto a su mediana (la de su grupo) seramas grande en un grupo que en el otro.

I Este test no es mas que un test t basado en un estadistico de contraste,cuya expresion introduciremos mas adelante, que valora si las medias delas desviaciones absolutas de los dos grupos son diferentes.

I La distribucion del estadıstico de contraste, bajo la hipotesis nula de quela varianza de los errores es constante, no es normal aunque esaproximadamente t-Student cuando el tamano de ambos grupos no espequeno.

Tema 4. Diagnostico del modelo Modelos lineales

Page 30: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Test de Brown-Forsythe para la varianza del modelo, II

Descripcion detallada:

I Contraste de hipotesis,

H0 : σ2 es constante,

H1 : σ2 no es constante

I Representamos por:

I ei1 (ei2) al residuo i-esimo del grupo 1 (2)

I n1 (n2) al tamano muestral del grupo 1 (2), con n1 + n2 = n

I e1 (e2) a la mediana muestral de los residuos del grupo 1 (2)

I Definimos:

I di1 =| ei1 − e1 |, di2 =| ei2 − e2 | a la desviacion absoluta del residuoi-esimo del grupo 1 (2) con respecto a su mediana e1 (e2).

Tema 4. Diagnostico del modelo Modelos lineales

Page 31: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Test de Brown-Forsythe para la varianza del modelo, III

I Estadıstico de contraste:

t∗BF =d1 − d2

sBF√

1n1

+ 1n2

,

siendo d1 (d2) la media muestral de los di1 (di2) y s2BF la varianza conjunta

definida como:

sBF =

∑(di1 − d1)2 +

∑(di2 − d2)2

n − 2,

I Si la hipotesis nula, H0 : σ2 es constante, es cierta, el estadıstico de contrastet∗BF sigue, aproximadamente, una distribucion t con n − 2 grados de libertad.

I Valores grandes de t∗BF favorecen la hipotesis alternativa, H1 : σ2 no esconstante.

I El test de Levene es analogo al test de Brown-Forsythe excepto que en vez detrabajar con la mediana de los residuos de cada grupo considera su media(menos robusta).

Tema 4. Diagnostico del modelo Modelos lineales

Page 32: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Ejemplo de juguete: Serpientes, 4.VII

Vamos a aplicar el test de Brown-Forsythe para los datos de las serpientes de nuestroejemplo de juguete.

I Mediana(Longitud) = 64 cm

I Grupo 1 :

Serp. Longitud Peso Residuo, ei1 di11 60 136 5.576 12.5764 64 140 -19.192 12.1925 54 93 5.727 12.7277 59 116 -7.233 0.2339 63 145 -7.000 0.000

I Grupo 2 :

Serp. Longitud Peso Residuo, ei2 di12

2 69 198 2.849 2.3843 66 194 20.424 15.1926 67 172 -8.767 14.0008 65 174 7.616 2.384

Tema 4. Diagnostico del modelo Modelos lineales

Page 33: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Ejemplo de juguete: Serpientes, 4.VIII

I Estadısticos de cada grupo:

Grupo 1 Grupo 2n1 = 5 n2 = 4e1=-7.000 e2= 5.233d1=7.545 d2=8.490∑

(di1 − d1)2=184.150∑

(di1 − d1)2=149.849

I s2 =47.714; s=6.908;

tBF =0.204;

P-valor= 1− 2P(t(7) > 0.204) =0.844

I No tenemos suficiente evidencia experimental para rechazar la hipotesis de quela varianza del modelo es constante (P-valor=0.844).

Tema 4. Diagnostico del modelo Modelos lineales

Page 34: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Transformaciones: solo un panorama general

I Cuando el modelo de regresion lineal simple no es adecuado para analizar unbanco de datos podemos:

I Abandonar el modelo de regresion lineal simple y utilizar otro modelode regresion que parezca mas apropiado

I Utilizar alguna transformacion de los datos de forma que el modelo deregresion sea adecuado para los datos transformados

I Cada opcion tiene ventajas y desventajas.

I Utilizar un modelo mas complejo implica trabajar con modelos mascomplejos que pueden, aunque no siempre, mejorar el analisis estadısticode los datos.

I La utilizacion de las transformaciones adecuadas permite continuartrabajando con modelos sencillos pero puede oscurecer las relacionesentre las distintas variables.

Tema 4. Diagnostico del modelo Modelos lineales

Page 35: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Transformaciones para conseguir linealidad, I

I Cuando la relacion entre ambas variables no parece lineal pero la distribucion delos errores es razonablemente normal y los terminos de error tiene varianzaaproximadamente constante pueden probarse diferentes transformaciones de X .

I No son adecuadas las tranformaciones de Y porque pueden cambiar la forma dela distribucion de los terminos de error y producir varianzas que no seanconstantes.

I Pueden probarse diferentes transformaciones y decidir cual es la mas razonableobservando los diagramas de puntos entre las variables transformadas y losdiferentes graficos de resıduos.

Tema 4. Diagnostico del modelo Modelos lineales

Page 36: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Transformaciones para conseguir linealidad, II

I A continuacion presentamos las relaciones no lineales entre X e Y mashabituales con las posibles transformaciones de X que permiten linealizar larelacion sin modificar las distribuciones condicionadas de Y .

Forma general Transformacion de X

X′

= log X , X′

=√X

X′

= X 2, X′

= eX

X′

= 1/X , X′

= e−X

Tema 4. Diagnostico del modelo Modelos lineales

Page 37: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Ejemplo: Aprenentatge, 4.I

I Los siguientes datos muestran el resultado de un experimento sobre el efecto delnumero de dıas de entrenamiento (X ) en el nivel de aprendizaje (medido enterminos de puntuacion, Y ) de 10 personas que han participado en un estudiode tipo comercial. Los datos tambien los puedes encontrar en el ficheroaprenentatge.txt

Persona Dias, X Puntuacion, Y1 0.5 42.52 0.5 50.63 1.0 68.54 1.0 80.75 1.5 89.06 1.5 99.67 2.0 105.38 2.0 111.89 2.5 112.3

10 2.5 125.7

Tema 4. Diagnostico del modelo Modelos lineales

Page 38: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Ejemplo: Aprenentatge, 4.II

I La nube de puntos de los datos es:

0.0 0.5 1.0 1.5 2.0 2.5 3.0

40

60

80

100

120

140

dia

punt

uaci

ón

I Como la relacion entre ambas variables es un poco curvilınea y la varianza delmodelo para los diferentes niveles de X parece constante transformaremos lavariable predictora, X .

Tema 4. Diagnostico del modelo Modelos lineales

Page 39: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Ejemplo: Aprenentatge, 4.III

I Segun la forma de la relacion entre ambas variables, , consideraremos

como posibles las transformaciones X′

= log X y X′

=√X .

−2 −1 0 1 2 3

40

60

80

100

120

140

logaritmo de dia

punt

uaci

ón

0.0 0.5 1.0 1.5 2.0 2.5 3.0

40

60

80

100

120

140

raiz cuadrada de dia

punt

uaci

ón

I Ambas parecen adecuadas, asi que elegiremos X′

=√X simplemente porque

ası no trabajaremos con numeros negativos para X′

Tema 4. Diagnostico del modelo Modelos lineales

Page 40: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Ejemplo: Aprenentatge, 4.IV

La recta de regresion ajustada, el diagrama de los residuos frente a los valores de X′

yel diagrama QQ para los residuos es:

0.0 0.5 1.0 1.5 2.0 2.5 3.0

40

60

80

100

120

140

raiz cuadrada de dia, X’

punt

uaci

ón

−10.33+83.45X’

0.6 0.8 1.0 1.2 1.4 1.6

−10

−5

0

5

10

raiz cuadrada de dia,X’

resi

dual

s

−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

−10

−5

0

5

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Tema 4. Diagnostico del modelo Modelos lineales

Page 41: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Transformaciones para conseguir normalidad e igualdad de varianzas, I

I La falta de normalidad y homogeneidad de la varianza suelen presentarse deforma simultanea.

I Para remediar este problema suele transformarse la variable respuesta Y yası modificar la forma y dispersion de las distribuciones condicionadas de Y . Enocasiones, tambien es conveniente transformar la variable predictora, X .

I Las relaciones no lineales mas habituales son las que ya hemos discutido en elapartado anterior, con la varianza creciente en la primera y tercera y decrecienteen el caso de la segunda.

I Las transformaciones mas utilizadas de la variable respuesta son Y′

=√Y ,

Y′

= logY e Y′

= 1/Y .

Tema 4. Diagnostico del modelo Modelos lineales

Page 42: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Ejemplo: Xiquets 4.I

En la siguiente grafica se presentan los datos de la edad, X y el nivel Y de unapoliamina de un grupo de 25 ninos sanos. Los datos se encuentran en el ficheroxiquets.txt.

0 1 2 3 4 5

5

10

15

20

25

edad

nive

l pla

sma

Puede observarse la no linealidad de la relacion entre ambas variables y tambien que lavariabilidad de Y decrece conforme aumenta la edad de los ninos.

Tema 4. Diagnostico del modelo Modelos lineales

Page 43: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

Ejemplo: Xiquets 4.II

Consideramos la transformacion Y′

= logY , aunque tambien pueden probarse las dosrestantes. Un resumen del modelo de regresion transformado puede verse en lassiguientes graficas:

0 1 2 3 4 5

0.6

0.8

1.0

1.2

1.4

edad

loga

ritm

o ni

vel p

lasm

a

0 1 2 3 4 5

0.6

0.8

1.0

1.2

1.4

edad

loga

ritm

o ni

vel p

lasm

a

1.135−0.1023 Edad

0 1 2 3 4 5

−0.

15−

0.05

0.05

0.10

0.15

0.20

edad

resi

dual

s

−2 −1 0 1 2

−0.

10−

0.05

0.00

0.05

0.10

0.15

Normal Q−Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Tema 4. Diagnostico del modelo Modelos lineales

Page 44: Modelos lineales - uv.es · Modelos lineales Tema 4. Diagn ostico del modelo Carmen Armero 9 de febrero de 2011 Tema 4. Diagn ostico del modelo Modelos lineales. Introducci on

IntroduccionDiagnostico de la variable predictora

ResiduosDiagnostico de los residuos

Contrastes sobre los residuosTransformaciones

R y residuos

R y residuos

En el script Rr esiduos

Tema 4. Diagnostico del modelo Modelos lineales