ANÁLISE DE REGRESSÃO
UM GUIA PRÁTICO
O QUE É “REGRESSÃO”?• Na análise bidimensional de variáveis, foi introduzida a
noção de condicionalidade: a proporção da população que fazia parte de um determinado grupo, condicional ao fato de ter uma característica. No exemplo, calculou-se a freqüência de mulheres que são chefes de família dada a informação que trabalham.
• “Regressão” é o cálculo do valor esperado de uma variável Y, dado o conjunto de informações fornecido por um conjunto de características X. Ou seja, é a média de Y, condicional às informações de X (E[Y|X]).
O MODELO LINEAR DE REGRESSÃO
• O modelo linear de regressão é a forma utilizada para calcular médias condicionais de uma variável a partir de dados disponíveis sobre variáveis supostamente relacionadas.
• O modelo assume o seguinte formato:
Y = + 1X1 + 2X2 + ... +
– A variável Y é chamada de variável dependente ou explicada.
– As variáveis X1, X2, X3, ... são chamadas de explicativas.
– O termo é chamado de erro ou distúrbio.
HIPÓTESES BÁSICAS:
• Relacionamento linear entre as variáveis• E() = 0• E(2) = 2 (constante)• Os resíduos são independentes entre si:
E(i j) = 0, i,j = 1, 2, 3...
• Os resíduos e as variáveis são independentes: E(X) = 0
• As variáveis Xn não podem ser combinações lineares entre si
O AJUSTE DA REGRESSÃO
• Graficamente, a análise de regressão implica no ajuste de uma reta que represente de uma “boa forma” a estrutura dos dados.
10
20
30
40
50
60
70
5 6 7
• Mas o que é “boa forma” de ajuste da reta?
• Note que a diferença entre a reta ajustada (que é produto do valor esperado condicional) e a observação realizada corresponde ao resíduo.
• Logo, o ajuste ideal da reta deve respeitar a condição de “menor distância possível” em relação aos valores observados.
15
20
25
30
35
40
45
50
55
60
5 6 7
i
E[Y|X]
• Logo, a idéia de ajuste dos parâmetros do valor esperado condicional passa por “Minimizar a Soma dos Quadrados dos Resíduos”.
• O estimador de Mínimos Quadrados Ordinários possui propriedades interessantes, quando as hipóteses básicas não são violadas: ele é não-viesado e é o mais eficiente entre os estimadores lineares.
• O estimador de mínimos quadrados, escrito na forma matricial, é:
= (X’X)-1(X’Y)
ESTATÍSTICAS DE AVALIAÇÃO
• R2 busca decompor a variação total de Y entre variação prevista e variação não explicada pelo modelo (variação dos resíduos). Fazendo a separação, temos:
SQT = SQE + SQR
onde SQT = Soma dos quadrados total (Y-Y)2), SQE = Soma dos quadrados explicada (Y*-Y)2) e SQR = Soma dos quadrados dos resíduos (e), Y é a média de Y e Y* o valor previsto de Y
Logo, temos:
1 = (SQE/SQT) + (SQR/SQT)
O R2 busca verificar o quanto de Y foi explicado pelo modelo. Logo:
R2 = SQE/SQT = 1 - (SQR/SQT)
Note que, por definição, 0 < R2 < 1.• R2 ajustado: o problema da estatística de R2 é o seu
comportamento diante do acréscimo de variáveis no modelo. Qualquer variável adicionada, por menor que seja o seu poder de explicação, gera um crescimento no R2 normal. Logo, o R2 ajustado busca penalizar a estatística pelo acréscimo de variáveis irrelevantes.
ESTATÍSTICAS DOS PARÂMETROS
• Toda estimativa de mínimos quadrados ordinários gerada de possui média igual ao valor esperado para a população e uma variância constante. Logo, qualquer inferência pode ser feita através da estatística “t” sobre os seus valores.
• Para a estimativa conjunta dos parâmetros estimados, é necessário fazer a decomposição da variância, de tal forma que se separe a porção da variação de Y que é explicada pelo conjunto de parâmetros em questão. Tendo como hipótese nula a ausência de influência (por conseqüência, hipótese alternativa é a presença de influência das variáveis), temos:
F = [(SQE)/SQR][(n-k-1)/k]
onde SQE e SQR foram definidos acima, e n = tamanho da amostra, k = número de coeficientes angulares.
ESTIMAÇÃO DE MODELOS: POR QUE USAR O LOGARITMO
NATURAL?• O logaritmo natural enquanto expressão de taxa
média de crescimento: uma variável qualquer no tempo pode ser expressa como uma progressão do seu valor no instante “zero”
Yt = A.et.g.Y0.t
Aplicando o logaritmo natural em ambos os lados da equação:
Ln(Yt) = (Ln(A) + Ln(Y0)) + t.g + t
• O logaritmo natural como expressão da elasticidade:
Ln(Yt) = A + B Ln(Xt)
Ln(Yt) = B Ln(Xt)
Ln(Yt)/Ln(Xt) = B
Mas: Ln(Yt) = Ln(Yt) - Ln(Yt-1) = Ln(Yt / Yt-1)
(Yt - Yt-1)/Yt-1
Então:
Ln(Yt)/Ln(Xt) = [(Yt - Yt-1)/Yt-1]/[(Xt - Xt-1)/Xt-1]
= elasticidade = B
Exercício Prático:
CAPM - calculando o Beta de uma ação
VIOLAÇÕES DAS HIPÓTESES - HETEROCEDASTICIDADE
• Se E(2) 2 (constante) E(2) = 2i
Este problema é conhecido como:
heteroscedasticidade
Esta violação normalmente é verificada em questões como:– Lucro X Tamanho da empresa: empresas maiores
tendem a ter maior dispersão nos seus lucros.– Consumo de um Bem X Renda: pessoas ricas podem
escolher melhor a proporção da renda consumida em determinado bem.
Exemplo: Relação entre Renda e Gastos com Cartão de Crédito
0
2
4
6
8
10
12
0 5 10 15 20
Gastos com Cartão de Crédito (dividido por 100)
Ren
da (
divi
dida
por
100
0)
Teste para Detectar Heteroscedasticidade
• A hipótese nula para qualquer teste é variância constante. Hipótese alternativa é variância inconstante na amostra.
• Teste de White:
É o mais popular dos testes e consiste em efetuar uma regressão dos resíduos elevados ao quadrado contra o as variáveis explicativas usadas na regressão, seus quadrados e os produtos cruzados. A estatística “F” de significância de todos os parâmetros é o valor do teste.
Testes semelhantes, como o de Breush-Pagan, são variações sobre os termos acrescentados na regressão de teste.
VIOLAÇÕES DAS HIPÓTESES - AUTOCORRELAÇÃO SERIAL
• Se E(i j) 0, para i,j = 1, 2, 3... temos que o valor de um resíduo passa a influenciar os resultados futuros da média condicional estimada para Y.
Problema: Autocorrelação Serial• Fontes de autocorrelação serial:
– Omissão de variável relevante;– Má especificação da forma funcional;– Má especificação dinâmica do modelo.
• A idéia da autocorrelação serial é que os resíduos contém mais informação sobre a variável dependente do que aquilo que foi “filtrado” pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser sistematizado.
• Exemplos de autocorrelação são normalmente encontrados em trabalhos que utilizam séries de tempo como dados de análise.
Teste para Detectar Autocorrelação Serial
• A hipótese nula do teste de autocorrelação é a ausência do problema. Hipótese alternativa, sua presença.
• Teste de Durbin-Watson:
Talvez o mais popular dos testes para detectar o problema, consiste em computar uma soma ponderada dos resíduos, de tal forma que seja possível detectar algum padrão no seu comportamento. Possui o problema de captar apenas a autocorrelação de primeira ordem.
• Teste de Breush-Godfrey:
Teste de certa forma semelhante ao teste de White, consiste em efetuar uma regressão do resíduo como variável explicada tendo como explicativas o próprio resíduo defasado no tempo e as variáveis explicativas do modelo original. Usa-se a estatística “F” de significância conjunta dos parâmetros da equação de teste.
Este teste talvez seja o mais indicado para verificar autocorrelação, pois considera a possibilidade de resíduos correlacionados com valores defasados acima de um período e pode ser usada com variáveis explicativas defasadas.
CONSEQÜÊNCIA DAS VIOLAÇÕES DAS HIPÓTESES
• No caso da heteroscedasticidade, a presença do problema tende a não viesar as estimativas dos parâmetros. Todavia, as suas variâncias estimadas não serão as corretas. Logo, inferências sobre os parâmetros estarão má especificadas.
• No caso da autocorrelação serial, além do problema da variância, temos a possibilidade de viés nas estimativas se o problema for decorrente de ausência de variáveis relevantes no modelo.
QUEBRAS ESTRUTURAIS E VARIÁVEIS “DUMMIES”
• Algumas vezes queremos incluir no modelo de regressão variáveis qualitativas ou categóricas, como planos econômicos, região, etc...
• Inclusive porque fenômenos pouco usuais podem determinar viés nas estimativas se não forem controlados. Este tipo de fenômeno é conhecido na literatura como “quebra estrutural”.
• Para controlar este tipo de fenômeno e modelar as variáveis qualitativas, são utilizadas variáveis binárias, ou “dummies”
• As variáveis recebem este nome por assumirem apenas dois valores ao longo de toda a amostra: zero ou um. O funcionamento da variável é o seguinte:– Período sem a quebra: D = 0
Yt = D Xt + t
Portanto: Yt = Xt + t
– Período da quebra: D = 1
Yt = ( Xt + t
• Outro formato possível que a variável “dummy” pode assumir refere-se a mudanças na inclinação. A variável, assim, assume o valor zero para o período sem a mudança e o valor igual ao da variável cuja inclinação mudou para o período com mudança.
• O modelo passa a funcionar da seguinte forma:
– Período sem a quebra: D = 0
Yt = Xt Xt + t
Portanto: Yt = Xt + t
– Período da quebra: D = Xt
Yt = Xt + t
Exemplo de Quebra Estrutural: Demanda por Importações - Brasil
1980 - 2001
0
1.000
2.000
3.000
4.000
5.000
6.000
Jan/80
Jan/81
Jan/82
Jan/83
Jan/84
Jan/85
Jan/86
Jan/87
Jan/88
Jan/89
Jan/90
Jan/91
Jan/92
Jan/93
Jan/94
Jan/95
Jan/96
Jan/97
Jan/98
Jan/99
Jan/00
Jan/01
Período
Imp
ort
açõ
es (
em
US
$ m
ilh
ões)
• Uma função de demanda por importações assume o seguinte formato:
lnMt = + 1t + 2lnYt + 3lnRERt + t
onde: Mt = importações; t = tendência linear; Yt = PIB real; RERt = taxa de câmbio real. O uso de uma tendência justifica-se por não existir com freqüência mensal uma medida de utilização da capacidade instalada da economia. Todas as variáveis, pelos motivos já conhecidos, encontram-se transformadas para o seu logaritmo natural.
• Estimando-se a regressão por OLS, temos o seguinte gráfico dos resíduos:
Resíduos: Modelo para demanda por importações - Brasil
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
Jan/80
Jan/81
Jan/82
Jan/83
Jan/84
Jan/85
Jan/86
Jan/87
Jan/88
Jan/89
Jan/90
Jan/91
Jan/92
Jan/93
Jan/94
Jan/95
Jan/96
Jan/97
Jan/98
Jan/99
Jan/00
Jan/01
Período
Resíd
uo
s
• Note como o resíduo exibe, aparentemente, um padrão sazonal, além de uma quebra estrutural localizada no início dos anos 90. Como o resíduo corresponde a tudo aquilo que não foi explicado pelo modelo, temos aqui o problema de especificação por não termos considerado a quebra estrutural indicado pela mudança de tendência dos resíduos.
• Lembre-se: devem existir motivos relevantes para a quebra!!! A presença de “outliers” por si só não quer dizer que existam quebras. No nosso caso, devemos lembrar a mudança ocorrida na economia com a sua abertura comercial no início dos anos 90. Logo, justifica-se uma correção no modelo.
Top Related