EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

23
EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE TEMA III

Transcript of EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Page 1: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

EL ANÁLISIS DE REGRESIÓN

LINEAL MÚLTIPLE

TEMA III

Page 2: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 2

Regresión Lineal Múltiple. En Rial, A. y Varela, J. (2008). Estadística

Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo.

Páginas 199-223.

LECTURA OBLIGATORIA

Page 3: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 3

LA CORRELACIÓN LINEAL

COEFICIENTE DE CORRELACIÓN de PEARSON

Es una medida del grado de asociación entre dos variables de intervalo o razón

Una manera útil de examinar la relación entre dos variables de intervalo es mediante un DIAGRAMA DE DISPERSIÓN

Y

X

Tendencia lineal

A valores altos de Y le corresponden valores altos de X

rxy > 0, directa

rxy = 0, ausencia de relación

rxy < o, inversa

Page 4: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 4

COVARIANZA Y CORRELACIÓN

La correlación es una medida estandarizada de la Covarianza

-1 < rxy < + 1: es una medida tanto de la dirección como de la

fuerza de la relación

Permite que se compare la relación entre pares de variables independientemente de las unidades en que se midan

yx

ii

xySSn

YYXXr

)(

))((

n

YYXXYXCov

ii ))((),(

Page 5: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 5

REGRESIÓN LINEAL SIMPLE

¿QUÉ ES? Un tipo de análisis que permite conocer en qué

medida una VD o criterio puede ser explicada o predicha a partir de una VI o

predictora, siendo ambas de intervalo o razón

EJEMPLO :

V.D. Aciertos en un Test (Y)

V.I. Horas de estudio (X)

X

Y

50 60 70 80 90 100

100

50

60

70

80

90

Horas de estudio

Aciertos test

Page 6: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 6

Para ello tenemos que calcular la Ecuación de la recta (Y=a+bX), donde:

a= valor de la intersección con el eje Y

b= la pendiente de la recta

Debe minimizar el error o la desviación no explicada

Mínimos cuadrados =ei ; mínimo 2)ˆ( ii YY2

i

e

Método de MÍNIMOS CUADRADOS

Podríamos intentar ajustar una línea a ojo, por la mitad del diagrama de dispersión, para obtener una relación lineal entre X e Y

Pero vamos a hacerlo siguiendo un procedimiento matemático, definiendo una recta en el plano X,Y, con unos parámetros concretos.

Tenemos que buscar la ecuación que minimice los errores de predicción.

Page 7: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 7

Los valores de a y b que minimizan la suma del cuadrado de los

errores son:

XbYa

2)ˆ( ii YY

x

yxy

S

Srb

Método de MÍNIMOS CUADRADOS

En el caso de que…

b= 0.93

Predeciríamos un incremento de 0.93 en los aciertos del test por cada hora de estudio. Un signo negativo de b indicaría que a más horas de estudio menos aciertos.

Page 8: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 8

Interpretación de los coeficientes

a indica el valor pronosticado de Y cuando X es cero (“intercepto”)

b representa la cantidad de cambio que pronosticaríamos en Y para un cambio de una unidad en X (pendiente de la recta)

La ecuación de regresión (Y’=6.16+0.93X) puede utilizarse para generar pronósticos de Y a partir de X

Además se cumple que la diferencia entre los valores observados y pronosticados elevados al cuadrado es mínima

mínimoeYYSC iiierror

22ˆ

Ningún otro valor de a y b daría este

SCerror tan pequeño

Page 9: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 9

Desviación total= Desviación debido a X + Desviación debido al error

SCtotal = Scexplicada por la regresión + Scno explicada por la regresión

Variación Total

Variación. explicada por la regresión

Variación.no explicada por la

regresión = +

FUENTES DE VARIACIÓN

22

i

2 )ˆ()Y ()( iii YYYYY

Page 10: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 10

La predicción más sencilla sería asignarle la media global. La parte explicada por el modelo es justamente la cantidad en que se reduce la desviación total debido a nuestro conocimiento de otras variables y su relación con la VD (ecuación de regresión)

Y

X

Y

total

)( YYi

explicada

)ˆ( YYi

y=a+bX explicada no

)ˆ( ii YY

GRÁFICAMENTE

Page 11: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 11

Varianza explicada

Se le llama también coeficiente de determinación (R2)

Es una proporción entre la variación explicada por la ecuación

de regresión, con respecto a la variación total

2

2

2

)(

)ˆ(

totalSC

explicada SC

alvariac.tot

licadavariac.exp

i

iixy

YY

YYR

2

2

2

)(

)ˆ(

totalSC

error SC

alvariac.tot

orvariac.err1

i

ixy

YY

YYR

Page 12: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 12

EJEMPLO

El objetivo del responsable de MKT de una estación de esquí es determinar cuáles son las variables que mejor explican que un sujeto esquíe mucho o poco en su estación

Trató de explicar el nº de días que los esquiadores iban a su estación durante una temporada (V1). Para ello registró

Edad de los esquiadores (V2)

Años de práctica (V3)

Ingresos económicos (V4)

Satisfacción general (V5)

Nº de personas con las que esquía (V6)

Page 13: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 13

Prestar especial atención a varios elementos: Fijar bien los objetivos Todas las variables deben ser métricas (de ESCALA) Especificar correctamente el modelo: Especificar la VD y las VI No omitir variables relevantes ni incluir irrelevantes Utilizar herramientas adecuadas para recoger (medir) los datos

Garantizar que se cumplen una serie de Supuestos: NORMALIDAD DE LAS Vs

LINEALIDAD (relación lineal entre predictores y criterio)

Ausencia de MULTICOLINEALIDAD

INDEPENDENCIA de los errores

NORMALIDAD de los errores

¡OJO AL DISEÑO!

Page 14: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 14

EL ANÁLISIS EN SPSS

VARIOS MÉTODOS

A la hora de realizar el análisis de regresión mediante SPSS existen diferentes métodos para seleccionar los predictores a incluir en el modelo de regresión. Las opciones son fundamentalmente dos:

MÉTODO INTRODUCIR (ENTER). Construye la ecuación utilizando todos los predictores. Se utiliza por defecto. No aconsejable: R2 está inflado.

MÉTODOS POR PASOS (STEPWISE). Se van incorporando o eliminando variables paso a paso, si cumplen unos criterios de selección. El objetivo es siempre maximizar el ajuste del modelo utilizando el menor nº de predictores posible. Hacia delante vs. hacia atrás.

Page 15: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

15

INTERPRETACIÓN DE RESULTADOS

ANOVAd

101,995 1 101,995 46,689 ,000a

50,245 23 2,185

152,240 24

117,619 2 58,809 37,370 ,000b

34,621 22 1,574

152,240 24

127,987 3 42,662 36,940 ,000c

24,253 21 1,155

152,240 24

Regresión

Residual

Total

Regresión

Residual

Total

Regresión

Residual

Total

Modelo

1

2

3

Suma de

cuadrados gl

Media

cuadrática F Sig.

Variables predictoras: (Constante), INGRESOS ECONÓMICOSa.

Variables predictoras: (Constante), INGRESOS ECONÓMICOS, AÑOS PRACT ICANDO

ESQUÍ

b.

Variables predictoras: (Constante), INGRESOS ECONÓMICOS, AÑOS PRACT ICANDO

ESQUÍ, SATISFACCIÓN GENERAL

c.

Variable dependiente: Nº DÍAS QUE ESQUÍA POR T EMPORADAd.

SIGNIFICACIÓN DEL MODELO (contraste global: F)

Se comprueba hasta qué punto la Variación Explicada por la Regresión es

significativa. Se trata de un cociente o proporción con relación a la varianza de error.

Cuanto más grande sea con los datos muestrales, menor probabilidad habrá de que

en la población ese cociente sea 0.

Page 16: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 16

Resumen del modelo

,819a ,670 ,656 1,478

,879b ,773 ,752 1,254

,917c ,841 ,818 1,075

Modelo

1

2

3

R R cuadrado

R cuadrado

corregida

Error típ. de la

estimación

Variables predictoras: (Constante), INGRESOS ECONÓMICOSa.

Variables predictoras: (Constante), INGRESOS ECONÓMICOS,

AÑOS PRACTICANDO ESQUÍ

b.

Variables predictoras: (Constante), INGRESOS ECONÓMICOS,

AÑOS PRACTICANDO ESQUÍ, SATISFACCIÓN GENERAL

c.

INTERPRETACIÓN DE RESULTADOS

INDICADORES DE BONDAD DE AJUSTE:

a) El cuadrado del Coeficiente de Correlación Múltiple (R2 )

b) El % de varianza explicada (R2x100). 84%

c) El R2 hay que corregirlo, porque R2 aumenta en función del

número de V.I. y con un “n” pequeño

81.01

)1( 22

.2

Pn

RPRR aj

Page 17: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

17

LOS PARÁMETROS

“a” es la constante, el intercepto, valor de Y cuando X=0

P, indica la dirección de la relación y la intensidad de la relación

Si P > 0: un incremento en una unidad, de la variable asociada XP

implica un incremento en Y en unidades (Si se incrementa en un

punto la satisfacción se incrementará la estancia en 0.338 días)

Si P < 0: incremento en una unidad, de la variable asociada XP implica

una disminución en Y en unidades

INTERPRETACIÓN DE RESULTADOS

Page 18: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 18

Coeficientes a

,343 ,813 ,422 ,677

2,922E-03 ,000 ,819 6,833 ,000

9,728E-02 ,695 ,140 ,890

2,153E-03 ,000 ,603 4,924 ,000

,227 ,072 ,386 3,151 ,005

-2,244 ,982 -2,285 ,033

2,075E-03 ,000 ,581 5,526 ,000

,201 ,062 ,341 3,215 ,004

,388 ,129 ,268 2,996 ,007

(Constante)

INGRESOS ECONÓMICOS

(Constante)

INGRESOS ECONÓMICOS

AÑOS PRACTICANDO ESQUÍ

(Constante)

INGRESOS ECONÓMICOS

AÑOS PRACTICANDO ESQUÍ

SAT ISFACCIÓN GENERAL

Modelo

1

2

3

B Error típ.

Coeficientes no

estandarizados

Beta

Coeficientes

estandarizados

t Sig.

Variable dependiente: Nº DÍAS QUE ESQUÍA POR TEMPORADAa.

SIGNIFICACIÓN DE LOS PARÁMETROS (contraste particular: t)

Para comprobar si cada V.I. por influye significativamente sobre la V.D.,

comprobando si se trata de un predictor estadísticamente significativo

(“significativamente distinto de 0”) H0: BP = 0 H1: BP 0

pB

p

Se

Bt

INTERPRETACIÓN DE RESULTADOS

Page 19: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 19

b vs. Como las XP fueron medidas en escalas diferentes (años, euros, número

personas, etc.) los coeficientes “b” NO SON COMPARABLES ENTRE SÍ

Para saber qué predictor es más importante hay que normalizar los

coeficientes b.

Y

X

ppS

Sb

p

INTERPRETACIÓN DE RESULTADOS

Page 20: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 20

Razones por las que Bp puede no ser

significativo

Tamaño de la muestra inadecuado. Solución: ampliar el “n” (arma de doble filo)

Especificación incorrecta del modelo (la relación entre x e Y no es lineal). Solución: transformar las variables.

Poco recorrido de los valores de X e Y. Solución: Recurrir al Análisis Discriminante o a la Regresión Logística (“Grupos Polares”)

Existencia de multicolinealidad. VI en principio importantes no entran en la ecuación porque ya lo hicieron antes otras con las que guarda mucha relación. Puede derivar también en resultados contradictorios (B negativos cuando las correlaciones son positivas). Soluciones: prescindir de alguna variable, análisis de correlaciones previo, …

Page 21: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 21

¿QUÉ ES? Y - Y’ = e

¿A qué puede deberse? Variables relevantes omitidas en el modelo e inclusión de irrelevantes

Mala especificación del modelo (relaciones no lineales entre Xi e Y)

Errores en la medición (recogida de datos)

Comportamiento cambiante de los sujetos

EL ERROR EN LA REGRESIÓN

Page 22: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 22

X

Y

50 60 70 80 90 100

100

50

60

70

80

90

¿Cómo mejorar el ajuste del modelo?

Tratamiento de los Outliers Sujetos que estropean el ajuste del modelo

Se detectan en base a los residuos Brutos (no tipificados)

Tipificados (divididos por Se - nunca superior a 3, incluso 2)

Otros indicadores Distancia de Cook (valores >1 gran importancia de un sujeto en los parámetros del

modelo)

Distancia de Mahalanobis (valores altos, sujetos distintos al resto)

Page 23: EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Modelos Multivariantes 23

Comprobación de supuestos

Normalidad de cada VI (Lilliefors)

Linealidad

Diagramas de dispersión particulares (de cada VI con la VD)

Ausencia de Multicolinealidad

TOLERANCIA. Una tolerancia alta indica que la VI es independiente del resto de variables del modelo.

Independencia de los errores (residuos)

Estadístico Durbin-Watson

Normalidad de los residuos

Histograma, Gráfico de probabilidad normal, K-S