Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão...
Transcript of Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão...
![Page 1: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/1.jpg)
• Rejane Sobrino Pinheiro
• Tania Guillén de Torres
![Page 2: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/2.jpg)
Seleção do melhor modelo de regressãoSeleção do melhor modelo de regressão
IntroduçãoIntrodução
Temos 1 variável resposta Y e um conjunto de k variáveis preditoras X1, X2, .., Xk.
O problema - Queremos determinar:
O melhor (mais importante ou mais válido) subconjunto dos k preditores
O modelo de regressão melhor ajustado
![Page 3: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/3.jpg)
Passos na seleção da melhor equação do modeloPassos na seleção da melhor equação do modelo
Abaixo, são apresentados passos que tornam a tarefa
menos nebulosa, em ações concretas.
Especificar o modelo máximo a ser considerado
Especificar o critério de seleção do modelo
Especificar a estratégia de seleção das variáveis
Estabelecer o modelo máximo, força o pesquisador a
estabelecer os objetivos da análise claramente, reconhecer
as limitações e o intervalo dos dados que possui.
O pesquisador pode usar todo o conhecimento científico
disponível para definir o modelo máximo.
![Page 4: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/4.jpg)
Passo 1: Especificação do modelo máximoPasso 1: Especificação do modelo máximo
É definido como o maior modelo, o que contém a maioria das variáveis preditoras
Qualquer outro modelo pode ser criado a partir da eliminação de variáveis preditoras.
Assume-se que o modelo máximo com k variáveis, ou alguma restrição destas com p k, é o modelo correto para a população.
![Page 5: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/5.jpg)
Passo 1: Especificação do modelo máximo Passo 1: Especificação do modelo máximo (cont...)(cont...)
Incluir todos os preditores básicos concebíveis
Incluir termos de maior ordem (IDADE2)
Incluir outras transformações dos preditores (log IDADE, 1/ HGT)
Incluir interações entre preditores (de 2a. ordem e maiores)
Incluir todas as variáveis de controle possíveis.
![Page 6: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/6.jpg)
Passo 1: Especificação do modelo máximoPasso 1: Especificação do modelo máximo (cont...) (cont...)
O super-ajuste de um modelo (incluindo variáveis no modelo que tenham coeficientes da regressão verdadeiros nulos (população) não introduzirá viés na estimativa dos coeficientes da população.
Tem-se que se preocupar, entretanto, se o super-ajuste não irá incluir colinearidade.
Sub-ajustar, desconsiderando importantes preditores, introduzirá viés nos coeficientes de regressão.
Parcimônia inclusão de coeficientes não importantes e não estatisticamente significantes pode prejudicar a interpretação e complicá-la
![Page 7: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/7.jpg)
Passo 1: Especificação do modelo máximo (cont...)Passo 1: Especificação do modelo máximo (cont...)
O tamanho da amostra traz restrições ao modelo máximo. Quanto menor o tamanho da amostra, menor o tamanho (número de variáveis) que o modelo máximo pode ter.
A maior limitação está em que o número de graus de liberdade do erro deve ser positivo
graus de liberdade = n - k -1 > 0
O que é equivalente à limitação: n > k + 1
n nº de observaçõesk nº de preditores. (k + 1 inclui intercepto)
![Page 8: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/8.jpg)
Passo 1: Especificação do modelo máximo Passo 1: Especificação do modelo máximo (cont...)(cont...)
Existem algumas regras básicas para o no. de preditores:
n - k - 1 10
n 5k
n 10k
Outra limitação é introduzir variáveis com variância zero.
Ex: supondo a inclusão da variável GÊNERO = 1 para todos os valores da amostra.
A variância da variável na amostra é nula.
Há perfeita colinearidade com o intercepto.
![Page 9: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/9.jpg)
Passo 2: Especificar um critério para a seleção do modeloPasso 2: Especificar um critério para a seleção do modelo
Diferenças numéricas podem ou não estar relacionadas com diferenças significantes ou importantes:
Estatisticamente significantes em amostras grandes, as diferenças podem ser significantes, porém podem ser ou não importantes
Cientificamente importantes diferenças importantes podem não ser estatísticamente significantes em amostras pequenas, por exemplo.
![Page 10: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/10.jpg)
Passo 2: Especificar um critério para a seleção do modelo cont.
R2 desvantagem: adicionando preditores, R2 não decresce.
F bastante usada.
Diversos critérios têm sido propostos. Alguns são:
R2p, Fp,
MSE(p) = SSE(p) / (n-p-1) variância do erro
Cp Mallow's Cp)]1(2[
)(
)( pnkMSE
pSSECp
![Page 11: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/11.jpg)
Passo 2: Especificar um critério para a seleção do modeloPasso 2: Especificar um critério para a seleção do modelo cont.cont.
Supondo o modelo máximo com k preditores:
Y = 0 + 1 X1 + 2 X2 + ... + p Xp + p+1 Xp+1 + ... + k Xk +
E o modelo reduzido com p preditores:
Y = 0 + 1 X1 + 2 X2 + ... + p Xp +
A estatística Fp pode ser comparada a uma distribuição F com
k - p (numerador) e n - k -1 (denominador) graus de liberdade
)()(
)]()([
)1()(
)()]()([
kMSEpk
kSSEpSSE
knkSSE
pkkSSEpSSE
Fp
)1(
)1()(
)(
2
22
knR
pkRR
Fk
pk
p
![Page 12: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/12.jpg)
Fp testa se a diferença (SSE(p) - SSE(k)) entre a soma dos quadrados dos resíduos do modelo máximo (com k variáveis) e a soma dos quadrados dos resíduos do modelo reduzido (com p variáveis) difere significativamente de zero?
Se Fp não é significante, podemos escolher o modelo menor - com p variáveis
Caso especial p = k-1 Fp testa Ho: k = 0 no modelo completo (máximo)
![Page 13: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/13.jpg)
Passo 3: Especificar uma estratégia de seleção de Passo 3: Especificar uma estratégia de seleção de variáveisvariáveis
A.A. Todas as regressões possíveisTodas as regressões possíveis
Embora não prática, esta estratégia deve ser preferida às outras. É o único método que garante encontrar-se o modelo com maior R2.
Torna-se quase impraticável quando o nº k de variáveis é grande
Ajuste de todos os modelos que contenha a combinação das k variáveis
![Page 14: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/14.jpg)
A estatística F parcial entre o modelo 4 (F(X2|X1) = 4.785 contribuição de X2
Modelo 7: F(X2|X1,X3) = 0.140
![Page 15: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/15.jpg)
Usando o teste F parcial múltiplo, compara-se um modelo reduzido com o modelo completo (máximo).
O valor pequeno de Fp aponta que o modelo 4 não difere significativamente do modelo máximo (modelo 7).
O algoritmo de usar todas as regressões possíveis demanda que sejam analisados 2k - 1 modelos(se k = 10 => 210-1 = 1023).
Outros métodos podem mostrar-se factíveis
007.0
)1312()7802.1(
)23()7800.7802(.
)1()1(
)()(
2
22
knR
pkRR
Fk
pk
p
![Page 16: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/16.jpg)
B. Procedimento de eliminação BackwardB. Procedimento de eliminação Backward
1. Ajusta-se o modelo contendo todas as variáveis (estimativa do modelo máximo)
2. Calcula-se o teste F parcial para cada variável do modelo como se fosse a última variável introduzida no modelo.
3. Observar o menor valor da estatística parcial F.
4. Comparar o valor p com um nível de significância pre-selecionado (exemplo 10%). Caso seja maior, decidir sobre a exclusão da variável do modelo.
5. Caso a variável saia do modelo, ajuste novamente para as variáveis remanescentes. Caso não saia, o processo termina.
![Page 17: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/17.jpg)
B. Procedimento de eliminação BackwardB. Procedimento de eliminação Backward
![Page 18: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/18.jpg)
C. Procedimento de seleção FowardC. Procedimento de seleção Foward
1. Selecionar a primeira variável a entrar no modelo como a variável mais correlacionada com a variável dependente. Ajustar o modelo.
2. Se o teste F global for não significante, parar e concluir que nenhuma variável independente é importante preditora.
3. Se o teste F global for significante, incluir a variável no modelo e seguir para o passo 4
4. Determinar o teste F parcial e os valores p associados a cada variável remanescente, baseado no modelo contendo a variável inicial e a variável em questão.
5. Observar qual modelo (de qual variável incluída) possui o maior teste F parcial.
![Page 19: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/19.jpg)
C. Procedimento de seleção FowardC. Procedimento de seleção Foward
6. Testar a significância do teste F parcial. Caso seja significante,
incluir esta variável no modelo. Caso não seja, usar no modelo
somente a variável incluída no item 1 (usar p < 0,10, por
exemplo).
7. Para cada passo seguinte, determinar o teste F parcial para as
variáveis não incluídas no modelo. Incluir a variável que tiver
o maior teste F parcial. Caso os testes F parciais não sejam
significantes, nenhuma variável mais deve ser incluída no
modelo.
![Page 20: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/20.jpg)
inserir a saída da pg. 397 kleinbaum
•A variável com maior correlação é HGT (0,6630)
•Ajustar regressão para esta variável
![Page 21: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/21.jpg)
•Calcular o teste F parcial pela inclusão separadamente de cada uma das variáveis remanescentes (um p/ AGE e outro p/ AGE2)
•Qual o maior F parcial (menor p valor)? Como p < 0,10, incluir idade
![Page 22: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis.](https://reader035.fdocumentos.com/reader035/viewer/2022070311/552fc10b497959413d8c2a88/html5/thumbnails/22.jpg)
D. Procedimento de regressão StepwiseD. Procedimento de regressão Stepwise
É uma versão modificada do procedimento Foward.
Permite o re-exame das variáveis já incluídas no modelo
Uma variável já incluída no modelo pode tornar-se supérflua.
A cada passo, um teste F parcial para cada variável é executado, como se fosse a última variável incluída no modelo.
A variável com o menor teste F parcial não significante é removida (caso haja).
O modelo é reajustado com as variável remanescentes.
O procedimento é repetido até que nenhuma variável saia ou entre mais no modelo.
Desvantagens: Não é controlada pelo usuário A ordem da inclusão pode afetar os resultados