Regressão Linear Múltipla Arquivo: seleção2_tarefa.sav.
-
Upload
valentina-prado-avila -
Category
Documents
-
view
227 -
download
7
Transcript of Regressão Linear Múltipla Arquivo: seleção2_tarefa.sav.
Regressão Linear Múltipla
Arquivo: seleção2_tarefa.sav
Base de dados
Variáveis independentes: X1, X2, X3, ..., X14
Variável dependente ou Resposta: Y1428 observações
1º. Análise da Correlação entre as variáveis a partir da Matriz de correlações
AnalyzeCorrelateBivariate
Matriz de correlações
• As correlações acima de 0,8 estão destacadas na Tabela 1.
• O ideal é que as correlações entre as variáveis independentes sejam baixas e entrea variável dependente com as independentes sejam altas.
2º. Estudo das variáveis - Estatísticas descritivas
• Presença de outliers em praticamente todas as variáveis(exceção: X4, X8 e Y)• A presença de outliers pode ser um indicativo de violação das suposições da regressão
Estatísticas descritivas
A assimetria em algumas variáveis através dos coeficientes destacadas na Tabela 2
Variável X1
Análise das distribuição de cada variável através do Histograma e Box Plot
Presença de outliers
Variável X2
Presença de outliers
Variável X3
Presença de outliers
Variável X4
Não há outliers
Variável X5
Presença de outliers
Variável X6
Presença de outliers
Variável X7
Presença de outliers
Variável X8
Não há outliers
Variável X9
Presença de outliers
Variável X10
Presença de outliers
Variável X11
Presença de outliers
Variável X12
Presença de outliers
Variável X13
Presença de outliers
Variável X14
Presença de outliers
Variável Y
Não há outliers
Modelo de Regressão (completo)
14143322110 ....... XXXXY
Qualidade do ajuste
76% da variabilidade de Y pode ser explicada pelas variáveis X1, X2, X3, ... X14 (todas juntas) – para saber qual explica “mais” ver p-valor (Sig.) na tabela Coefficientsa
ANOVA da Regressão (Teste F)
14,...2,1,;:0....:
1
143210
jijiHH
ji
Trata-se de um teste de hipótese, testando se:
Rejeita H0. Pelo menos um β é ≠ 0
Coeficientes estimados
14321 .993,0...000,0.258,0.00,0099,29 XXXXy
Sig < 0,05 são significativas
Análise dos resíduos
Observa-se valores discrepantes fora do intervalo -3 a 3e uma tendência nos resíduos
3
-3
Modelo de Regressão - seleção de variáveis
Método backward ANOVA da Regressão (Teste F)
O método foi executado em 6 etapas (Model)
Coeficientes estimados
1413111098652 .676,0.526,0.225,0.974,0.491,0.270,17.081,0.001,0.253,0676,28 XXXXXXXXXY
Análise dos resíduos
Modelo de Regressão - seleção de variáveis
Método forward ANOVA da Regressão (Teste F)
Coeficientes estimados
1412111098652 153,0.522,0.225,0.975,0.492,0.337,17.080,0.001,0.252,0754,28 XXXXXXXXXY
Análise dos resíduos
Comparativo entre os métodos
Suposições do Modelo
Verificação das Suposições do Modelo(considerando as variáveis selecionadas pelo método backward)
1º) salvar os valores preditos padronizados (ZPR_1) e os resíduos padronizados (ZRE_1)
Variáveis: X2, X5, X6, X8, X9, X10, X11, X13 e X14
Arquivo: selecao2_backward.sav
Valores preditos não padronizados
2º) Criar duas variáveis:
• uma variável com os valores previstos elevados ao quadrado (ZPR_1)2 chamando de ZPRE_2
TransformCompute variableTarget variable ...... ZPR_2Numeric expression .... Standardized predicted x Standardized predictedOK
2º) Criar duas variáveis:
• OUTRA variável com os resíduos padronizados elevados ao quadrado (ZRE_1)2 chamando de ZRE_2
TransformCompute variableTarget variable ...... ZRE_2Numeric expression .... Standardized predicted x Standardized predictedOK
Verificação das Suposições do Modelo no SPSS
Statistic .... Collinearity diagnostics
• Multicolinearidade
SaídasDiagnóstico de multicolinearidade – VIF e Tolerance
Regra para o VIF (GUJARATI, 2000; HAIR, 2005)
• Até 1 – sem multicolinearidade• De 1 até 10 – com multicolinearidade aceitável• Acima de 10 – com multicolinearidade problemática
Multicolineariade aceitável
Multicolineariade problemática
A medida condition index compara a magnitude das razões entre as variações do eigenvalue; altos índices (maiores que 15) importam em alto relacionamento entre variáveis, indicando a presença de multicolineariade.
Verificação das Suposições do Modelo no SPSS
• Ausência de autocorrelação serial (independência dos erros)
Statistic .... Durbin-Watson
O teste de Durbin-Watson baseia-se em cálculo de medida conhecida como estatística DW, tabelada para valores críticos segundo o nível de confiança escolhido.
Regra para a estatística DW – valores próximos de 2 atendem ao pressuposto(CORRAR, 2011, p.191)
Verificação das Suposições do Modelo no SPSS
• NormalidadeTeste de Kolmogorov-Smirnov
H0: a distribuição da série testada é normal.H1: a distribuição não tem comportamento normal
Através de uma estatística K-S que usa a distribuição D (distância euclidiana máxima)
AnalyzeNonparametric tests1 – Sample K-SSelecionar variável ... Standardized residual – ZRE_1OK
p-valor < 0,05, Rejeita H0. Conclusão: A distribuição não é normal
• Transformações nas variáveis;• Aumentar tamanho da amostra;• Retirada de outliers.Em amostras com número de observações menores do que
30 deve ser utilizado o teste de normalidade de Shapiro-Wilk
Verificação das Suposições do Modelo no SPSS
• HomocedasticidadeTeste de Pesarán-Pesarán – verifica se a variância dos resíduos se mantém constante em todo o espectro das variáveis independentes.
H0: os resíduos são homocedásticos.H1: os resíduos são heteroedásticos
AnalyzeRegression ... linearSelecionar variável dependente ... ZRE_2Selecionar variável independente ... ZPR_2OK
p-valor < 0,05, Rejeita H0. Conclusão: O pressuposto da homocedasticidade foi violado.
• Transformações nas variáveis;• Aumentar tamanho da amostra;• Retirada de outliers.
Verificação das Suposições do Modelo no SPSS
Análise através de gráficos
GraphsScatterplotDefineSeleciona variáveisOK
Independentes : X2, X5, X6, X8, X9, X10, X11, X13 e X14
Dependente: Y
A seleção deve ser feita entre uma variável independente de cada vez com a variável dependente Y
• Linearidade
baixa correlação linear com a variável dependente
Moderada (X9) e Forte (X10, X11, X13 e X14) correlação linear com a variável dependente
Transformação (?)
Transformação (?)
Transformação (?)
• Multicolinearidade
Resultados
X14 e X13 → alta correlação (0,955)X2 e X8 → fraca correlação (-0,022)
A Tabela 4 apresenta o coeficiente de correlação para as variáveis:
Confirmação de alta correlação entre X13 e X14
r = 0,955
Confirmação de fraca correlação entre X2 e X8
r = -0,022
Graficamente é observada através de diagrama de dispersão bidimensional com as variáveis Independentes.
Resumo da Validação
Ajustamento aos pressupostos
Estatísticas descritivas
• A presença de outliers pode ser um indicativo de violação das suposições da regressão (normalidade, homodedasticidade)
Análise da influência de valores extremos através dos resíduos
RegressionLinearStatisticCasewise DiagnosticsContinue .... OK
Ajustamento aos pressupostos
• Transformações nas variáveis;• Aumentar tamanho da amostra;• Remoção de outliers (?)
Solução 1: Método de seleção forward
O método foi executado em 9 etapas (Model) com R2 = 0,760
Independência dos erros
ANOVA da Regressão (Teste F)
Coeficientes estimados (β)
1412111098652 153,0.522,0.225,0.975,0.492,0.337,17.080,0.001,0.252,0754,28 XXXXXXXXXY
Selecionando SOMENTE as variáveis X12, X14, X6, X11, X9, X10, X8, X2 e X5 com método ENTER salvando os valores preditos (não padronizados) x Resíduos (padronizados)
Análise dos resíduos
PLOTAR OS RESÍDUOSValores preditos em X Resíduos Padronizados (Y)
ZRE_1
PRE_1
Explorando a relação das variáveis independentes X12, X14, X6, X11, X9, X10, X8, X2 e X5 com Y
Aparente relação quadrática entre X12 e X14 com Y.
Y = β0 + β1.X12 + β2.X14 + β3.X6 + β4.X11 + β5.X9 + β6.X10 + β7.X8 + β8.X2 + β9.X5 + β10.X122 + β11.X14
2 + Ɛ
Incluir no modelo a tendência quadrática
Conforme já visto anteriormente nos gráfico de correlação, as variáveis X12 e X14 apresentam uma relação quadrática com a variável independente Y. Assim, vamos incluir no modelo X12
2 e X142
e analisar novamente os resíduos.
Transforme / Compute variable
O mesmo para X14
Observa-se distribuição aleatória dos resíduos.
R2 = 0,982
SAÍDAS após a Inclusão de X122 e X14
2
Coeficientes estimados (β)
1,619 + 0,129X12 + 1,373X14 - 0,044X6 + 0,002X11 - 0,026X9 - 0,054X10 -2,919X8 + 0,086X2 –- 3,17.105 X5 -0,003X12
2 + -0,012X142 + Ɛ
Y = β0 + β1.X12 + β2.X14 + β3.X6 + β4.X11 + β5.X9 + β6.X10 + β7.X8 + β8.X2 + β9.X5 + β10.X122 + β11.X14
2 + Ɛ
Y
Resposta:
Equação de regressão:
1,619 + 0,129X12 + 1,373X14 - 0,044X6 + 0,002X11 - 0,026X9 - 0,054X10 -2,919X8 + 0,086X2 –- 3,17.105 X5 -0,003X12
2 + -0,012X142
Y