Analise de regressão

31
ANÁLISE DE REGRESSÃO 1 - Introdução................................................... 2 2 - Exemplos de previsão:........................................3 3 - Natureza dos dados econômicos................................3 4 - Causalidade.................................................. 3 5 - Regressão Simples............................................ 4 6. Inferência no modelo de regressão.............................7 7. Regressão Múltipla........................................... 11 8 - Multicolinearidade.......................................... 16 9 - Heterocedasticidade.........................................21 10 - Autocorrelação dos Resíduos................................23 Análise de Regressão - Prof. Fernanda Queiroz 1

Transcript of Analise de regressão

Page 1: Analise de regressão

ANÁLISE DE REGRESSÃO

1 - Introdução........................................................................................................................2

2 - Exemplos de previsão:.....................................................................................................3

3 - Natureza dos dados econômicos....................................................................................3

4 - Causalidade.....................................................................................................................3

5 - Regressão Simples..........................................................................................................4

6. Inferência no modelo de regressão..................................................................................7

7. Regressão Múltipla.........................................................................................................11

8 - Multicolinearidade..........................................................................................................16

9 - Heterocedasticidade......................................................................................................21

10 - Autocorrelação dos Resíduos......................................................................................23

Análise de Regressão - Prof. Fernanda Queiroz 1

Page 2: Analise de regressão

Análise de Regressão

Prof. Dra. Fernanda C.B. Pereira Queiroz

www.ipeadata.gov.brwww.fgvdados.com.br

1 - Introdução

A análise de regressão tem três funções relacionadas:

testar teorias. Por exemplo, o consumo é diretamente relacionado com a renda? A quantidade demandada de um bem é inversamente relacionada com o seu preço?

estimar relações entre variáveis. Por exemplo, o responsável pela política econômica necessita ter uma estimativa precisa da relação entre taxa de juros e inflação a fim de determinar o novo valor dos juros na reunião do COPOM.

Projetar eventos. Qual será o consumo de carne nos próximos anos? Qual será a demanda de carros no próximo ano?

O produto final deste estudo é um Modelo cuja construção é efetuada com a utilização:

da teoria da matemática de métodos estatísticos e com análise crítica

Nós expressamos nossas idéias sobre relações entre variáveis econômicas, utilizando o conceito matemático de função.Por exemplo, para expressarmos uma relação entre renda i e consumo c, podemos escrever

C = f(i)

A demanda para um bem individual, digamos um carro Renault Clio pode ser expressa como

A quantidade demandada de Clios, qd, é uma função do preço do Clio p, do preço de carros que são substitutos ps e do preço de itens que são complementares pc, como gasolina e o nível de renda i.

2 - Exemplos de previsão:

Os plantadores de arroz de Mato Grosso decidem estimar a quantidade produzida com base na área plantada e na quantidade de fertilizante utilizada.

Análise de Regressão - Prof. Fernanda Queiroz 2

( , , , )d s cq f p p p i

Page 3: Analise de regressão

Uma universidade precisa estimar quanto as matrículas cairão se a taxa for elevada 10% por semestre e, portanto, se a receita proveniente desta taxa subirá ou cairá.

Uma empresa precisa estimar, no momento em que ela avalia quanto investir em uma nova fábrica e em equipamentos, a demanda de copos descartáveis que haverá daqui há 3 anos.

Um empresário deve prever em quanto a população e a renda aumentarão nos próximos anos em Natal e se será lucrativo implantar um empreendimento comercial (Rener / Lojas Americanas / Pernambucanas).

3 - Natureza dos dados

Dados seccionais ou de corte (Dados de “indivíduos” observados em um determinado instante de tempo)

Altura de indivíduos selecionados aleatoriamente (amostra aleatória) em um determinado instante de tempo.

PIB dos países latino-americanos no primeiro trimestre de 2010 Arrecadação dos municípios do RN em 2010

Séries temporais (conjunto de dados seqüenciais observados em intervalos de tempo)

Retornos diários do IBOVESPA. Taxa de desemprego mensal.

4 - Causalidade

Um dos objetivos de todo tipo de explicação é estabelecer as causas dos fenômenos observados no tempo e espaço:

Quais as causas do desemprego? Quais as causas das desigualdades sociais?

A noção de causalidade está intimamente associada à possibilidade de uma variável gerar mudanças em outra variável.

A análise de regressão estuda a relação causal entre uma variável econômica a ser explicada (variável dependente y) e uma ou mais variáveis independentes ou explicativas (X).

Análise de Regressão - Prof. Fernanda Queiroz 3

Page 4: Analise de regressão

5 - Regressão Simples

Sejam y e x duas variáveis representando alguma população.O objetivo é explicar y em função de x, ou seja, como y varia de acordo com mudanças em x.

3 pontos importantes:

Dado que não há uma relação precisa entre y e x, como levar em conta outros fatores que afetam y?

Qual a relação funcional entre y e x? Como capturar uma relação entre y e x (se for o caso)?

Solução: Considere a seguinte equação relacionando y e x

Y = b0 + b1X + e

Esta equação linear é conhecida como modelo de regressão simples.Terminologia:

y: variável dependente, variável explicada, variável de resposta, variável prevista, regressando, saída, efeito.x: variável independente, variável explicativa, variável de controle, preditor, regressor, entrada, causa. u: erro, distúrbio ou ruído.

O erro deve ser incluído na relação exata postulada pela teoria econômica, a fim de torná-la probabilistica (i.e, a fim de refletir o fato que, no mundo real, as relações econômicas entre as variáveis econômicas são inexatas e, algumas vezes, erráticas).

Regressão: modelo que estabelece a relação entre as variáveis:

Imagine duas variáveis, que chamaremos genericamente de Y e X - mas que poderiam ser consumo e renda; salários e anos de estudo; enfim, quaisquer duas variáveis que, supostamente, tenham relação entre si. Suponhamos , ainda, que x é a variável independente e y a variável dependente, isto pe, y é afetado por x, e não o contrário.

y = b1 + b2x + e

b1: coeficiente linearb2: coeficiente angulare = erro (eventos aleatórios)y = variável dependentex = variável independente

Análise de Regressão - Prof. Fernanda Queiroz 4

Page 5: Analise de regressão

(Gastos com alimentação e renda.xls)

Objetivos da análise de regressão:

Descrever e compreender a relação entre duas variáveis aleatórias; Projetar ou estimar uma das variáveis em função de outra

5.1 Método dos mínimos quadrados

Encontrar a reta de regressão significa encontrar os estimadores b1 e b2. Para tanto, utilizamos as seguintes fórmulas:

Análise da variância

A análise da variância envolve dividir a variável y em duas partes: a parte explicada pela regressão e a não explicada (resíduos).

SQT = soma dos quadrados totaisSQE = soma dos quadrados explicadosSQR = soma dos quadrados dos resíduos

R2 =

A soma dos quadrados dos resíduos é uma parcela pequena do total e a soma dos quadrados explicados é uma parcela importante. Essa proporção é conhecida como coeficiente de determinação ou simplesmente R2.

R2 = coeficiente de determinação = SQE / SQT

Análise de Regressão - Prof. Fernanda Queiroz 5

Page 6: Analise de regressão

É impossível que SQE seja maior do que SQT e, como se trata de uma soma de quadrados, ela não pode ser negativa. Então, em qualquer regressão 0 <= R2 <=1, sendo válido expressá-lo como um percentual.

O R2 mede a proporção ou a percentagem da variação total em y explicada pelo modelo de regressão.Um R2 próximo a um significa um perfeito ajuste, isto é, , para todo i.

Por outro lado, um R2 igual a zero significa que não há nenhuma relação entre o previsto e o realizado.

5.3 – Escolha da forma funcional

A regressão busca construir modelos que simplifiquem a realidade. As informações para a construção do modelo vêm da teoria econômica, de estudos anteriores e do conhecimento sobre as condições específicas.

A expressão linear nos parâmetros significa que os parâmetros não são multiplicados entre si, nem divididos, nem elevados ao quadrado.

Critérios de escolha da forma funcional

Simplicidade: entre uma forma funcional simples e uma complexa, tendem-se a escolher a primeira, se ambas explicam o fenômeno de modo igualmente bem. Por este motivo, muitos pesquisadores escolhem a forma linear.

Indicação da teoria econômica: O uso de várias formas funcionais e a escolha da que apresenta resultados mais satisfatórios deve ser realizado tendo como base a teoria econômica.

Poder preditivo: A forma funcional deve ajustar-se aos dados afim de auxiliar nas previsões.

Formas funcionais comumente utilizadas

Linear: descreve o ajustamento de uma reta aos

dados originais

Y = b1 + b2x +e

Inverso: Na medida em que x aumenta y tende para

o intercepto

Y = b1 + b2 +e

Log-Log (logarítmico): o logaritmo aparece em

ambos os membros da equação. É muito utilizado

em modelos de demanda e modelos de oferta.

Ln (y) = b1 + b2 LN(x )+

e

Log-linear (exponencial): muito utilizado para medir

a taxa de crescimento

Ln (y) = b1 + b2X +e

Linear-log: Y = b1 + b2 ln(x) + e

Análise de Regressão - Prof. Fernanda Queiroz 6

Page 7: Analise de regressão

Log-inverso: Ln (y) = b1 - b2 (1/x )+e

6. Inferência no modelo de regressão

Estimação de intervalos: Uma variável normal padronizada baseia-se na distribuição normal do estimador de mínimos quadrados ordinários. Na estatística, a confiabilidade de uma estimador é medida pelo seu erro padrão. Por isso, em vez de confiar apenas na estimativa do ponto, trabalhamos com a estimativa de intervalo. Este intervalo é conhecido como intervalo de confiança.

1 - = intervalo de confiança = nível de significância

O intervalo de confiança serve para indicar o valor verdadeiro do parâmetro populacional com determinado grau de probabilidade. Isto é, se eu fizer o procedimento amostral 100 vezes, ao menos em 95 delas, o valor do parâmetro estará dentro do intervalo informado.

Para determinar o intervalo de confiança utiliza-se a variável aleatória t com (n-2) graus de liberdade.

t = b1 - 1 ~ t(n-2)

dp(b1)

Recorrendo-se às tabelas, pode-se achar os valores críticos tc de uma distribuição t(m), sendo que:

P(t tc) = P (t tc) = 2

Intervalo de confiança para b2 e b1

b2 +- tc ep (b2) 2

b1 +- tc ep (b1) 2

O valor tc é encontrado na tabela t com n-2 graus de liberdade.

Teste de hipóteses: Testa a hipótese de um parâmetro ter ou não um valor especificado. Os valores encontrados fazem sentido?

A hipótese nula (que chamaremos de H0) geralmente é uma igualdade. Isto é, supõe-se que determinado parâmetro é igual a um número.

A hipótese alternativa (chamada de H1) contradiz a hipótese nula.

Análise de Regressão - Prof. Fernanda Queiroz 7

Page 8: Analise de regressão

EXERCÍCIOS

1) O gerente de vendas está sempre insistindo com os vendedores que a venda dos seus produtos tem forte relação com as visitas realizadas pelos vendedores aos clientes. Obter a regressão das vendas em função das visitas e explicar os resultados.

Vendedor Vendas VisitasAndré 40 70Fernando 42 95Nilane 50 110Márcia 51 140Samira 55 135Fernando 60 235Maria 66 190Josiel 78 220Emanuela 87 280Vanessa 87 320AlexIA 105 330

2) Construa o intervalo de confiança e faça o teste de hipóteses3) Qual o valor do coeficiente de determinação. Explique o que significa.4) O funcionário Pedro realizou 250 visitas neste mês. Quantas vendas espera-se que ele

realize?

5) Construa a regressão que explique o preço dos imóveis em função do número de dormitórios. Faça também a regressão log-linear. Qual das duas é melhor?

Preço (R$) dormitórios20.386 130.062 140.950 141.926 148.141 264.195 265.000 274.624 280.614 382.479 385.663 389.151 3

105.000 4107.750 4108.573 4

Análise de Regressão - Prof. Fernanda Queiroz 8

Page 9: Analise de regressão

6.1 - Exemplo das despesas com alimentação:

Etapa1: Determine as hipóteses nula e alternativa

A hipótese nula é H0:b2 =0.A hipótese alternativa é H1:b2 0

Etapa 2 = Escolha o nível de significância. = 0,05. O valor crítico tc = 2,024

Etapa 3 = Calcular o t

T = 0,119423 - 0 = 4,01950,0297

Como o valor calculado t = 4,0195 > tc = 2,024, rejeitamos a hipótese nula e aceitamos a hipótese alternativa de que há relação entre a renda semanal e os gastos com alimentação.

Valor p: é o menor valor de para o qual rejeitamos a hipótese nula. Se o pesquisador fixar =0,05, então, para um valor p > 0,05 não rejeita-se H0. Caso contrário, se o valor p for 0,05, rejeita-se H0, ou seja os valores dos parâmetros são diferentes de zero.

6.2 – Variáveis binárias

Variável dummy ou binária é aquela que indica a ocorrência ou não de um evento,

ou a presença ou a ausência de uma condição. Assume apenas dois valores: 1, que

indica uma situação , e 0 , a outra.

Na tabela abaixo constam os dados de salário médio, anos de estudo e sexo. Faça a regressão. Analise estatisticamente os resultados. Do ponto de vista econômico, um ano a mais de estudo provoca um aumento de quanto no salário? Há discriminação no mercado de trabalho. Por quê?

D = 0, se o trabalhador for do sexo femininoD = 1, se o trabalhador for do sexo masculino

salário anos de sexo salário anos de sexo

Análise de Regressão - Prof. Fernanda Queiroz 9

Page 10: Analise de regressão

estudo estudo410,0 1 fem 2.874,7 9 mas508,9 2 fem 1.890,0 11 fem551,3 2 mas 2.169,5 11 fem789,2 3 fem 2.596,8 11 mas857,7 3 mas 2.844,6 13 fem935,5 4 mas 3.391,0 13 mas

1.254,0 5 mas 2.671,2 14 fem1.352,4 7 fem 2.653,8 16 fem1.529,3 7 mas 2.939,1 16 mas1.497,5 8 mas 3.437,0 17 fem1.897,5 8 mas 4.583,3 18 mas2.317,7 9 mas 3.559,3 19 fem

(continuação) 4.896,7 19 mas

2) Na tabela abaixo são dados, para vários imóveis, a área, o padrão de construção, o número de vagas na garagem e o número de dormitórios, se há ou não piscina. Faça uma regressão do preço em função destas características. A seguir, teste a significância dos parâmetros e, se for o caso, elimine um e refaça a estimação.

padrão área vagas piscina banheiros preço baixo 100 1 sim 1 88,90 alto 150 1 sim 2 149,10 alto 200 2 sim 3 194,40 alto 180 1 não 2 153,50

baixo 130 1 não 1 121,70 baixo 89 1 não 1 85,90 baixo 95 0 não 1 73,50 baixo 50 0 não 1 39,90 alto 200 3 sim 2 189,70 alto 210 2 sim 3 186,30 alto 250 3 sim 3 229,70 alto 280 2 sim 4 272,00 alto 365 3 sim 4 339,50 alto 150 1 não 2 155,20 alto 240 2 não 3 232,70

baixo 70 0 não 1 68,70 alto 135 1 sim 2 157,00 alto 140 2 sim 2 151,00

Análise de Regressão - Prof. Fernanda Queiroz 10

Page 11: Analise de regressão

7. Regressão Múltipla

7.1.O modelo com três variáveis

No modelo de regressão múltipla geral, uma variável dependente yt é relacionada com um número de variáveis explicativas através de uma equação linear que pode ser escrita como:

Os coeficientes 1, 2,…, K são parâmetros desconhecidos.

O parâmetro mede o efeito de uma mudança na variável sobre o valor esperado de yt, E(yt), todas as outras variáveis mantidas constantes.

O parâmetro 1 é o termo de intercepto.

Quando tornamos um modelo econômico com mais de uma variável explicativa em um modelo estatístico correspondente, nós dizemos que ele é um modelo de regressão múltipla.

Grande parte dos resultados desenvolvida para o modelo de regressão simples pode ser estendida naturalmente para esse caso geral. Existem pequenas mudanças na interpretação dos parâmetros , os graus de liberdade para a distribuição t mudarão e nós necessitaremos modificar as hipóteses concernentes as características das variáveis explicativas (x).

7.2. Exemplo (receita preço e gastos com propaganda.xls)

Cada semana, o gerente de uma rede de lanchonetes deve decidir quanto gastar com propaganda e que promoções (como preços mais baixos) deveria oferecer.

Como se altera a receita total à medida que o nível de gastos com propaganda muda? Um aumento nos gastos com propaganda elevaria a receita total? Se afirmativo, o aumento na receita total é suficiente para justificar uma elevação nos gastos com propaganda?

O gerente também está interessado na estratégia de preços. Reduzir os preços aumentará ou diminuirá a receita total? Se uma redução de preço levar a uma diminuição da receita total, então a demanda é inelástica; se uma redução de preço levar a um aumento da receita total, então a demanda é elástica.

Nós, inicialmente, assumimos que a receita total, RT, é linearmente relacionada com o preço, p, e com os gastos em propaganda, a. Assim, o modelo econômico é:

Análise de Regressão - Prof. Fernanda Queiroz 11

1 2 3RT p a

Page 12: Analise de regressão

onde RT representa a receita total para determinada semana, p representa o preço naquela semana e a é o nível de gastos com propaganda durante aquela semana. Tanto RT como a são mensurados em termos de milhares de unidades monetárias. No modelo de regressão múltipla, o parâmetro intercepto, 1, é o valor da variável dependente quando cada variável explicativa assume o valor zero. Em muitos casos, esse parâmetro não tem uma interpretação econômica clara, mas ele é quase sempre incluído no modelo de regressão. Ele ajuda a estimação global do modelo e na previsão.

O sinal de 2 pode ser positivo ou negativo. Se um aumento nos preços levar a um aumento da receita, então 2 > 0, e a demanda para a rede de lanchonetes é inelástica. Inversamente, uma demanda elástica em relação ao preço ocorre se um aumento nos preços conduzir a uma queda na receita, que é o caso de 2 < 0.

O parâmetro 3 descreve a resposta da receita a mudanças no nível de gastos com propaganda

7.3. Resultados

O coeficiente negativo de pt sugere que a demanda é elástica em relação ao preço e nós estimamos que um aumento em $1.000,00 no preço levará a uma queda na receita semanal de $6.642. Ou, colocando positivamente, uma redução no preço de $1.000,00 levará a um aumento na receita de $6.642.

O coeficiente da propaganda é positivo e nós estimamos que um aumento no gasto com propaganda de $1.000 resultará em uma elevação da receita total de $2.984.

O intercepto estimado implica que se tanto o preço como o gasto com propaganda forem zero, a ganho de receita total seria de $104.790. Isso é obviamente incorreto. Nesse modelo, assim como em outros, o intercepto é incluído no modelo para melhorar a capacidade de previsão dele e dar uma especificação matemática mais completa

Análise de Regressão - Prof. Fernanda Queiroz 12

Page 13: Analise de regressão

Observação: Uma palavra de atenção para a interpretação dos resultados da regressão. O sinal negativo do preço implica que a redução desse aumentará a receita total. Se tomarmos isso literalmente, porque nós não deveríamos ir reduzindo o preço até zero? Obviamente que não conseguiríamos manter a elevação da receita total. Isso aponta para um importante ponto: modelos de regressão estimados descrevem a relação entre as variáveis econômicas para valores semelhantes dos encontrados na amostra de dados. A extrapolação dos resultados para valores extremos não é geralmente uma boa idéia. Em geral, predizer valores da variável dependente para valores das variáveis explicativas distantes dos valores amostrais é um convite para o desastre .

7.4. O coeficiente de determinação múltipla

O coeficiente de determinação múltipla. R2, é definido como a proporção da variação total em y que é explicada pela regressão múltipla de Y em relação a X1 e X2. A inclusão adicional de variáveis independentes ou explicativas provavelmente aumentará o valor de R2. O valor de R2 depende do número de variáveis explicativas (k) e do tamanho da amostra (n). Portanto, os coeficientes de determinação não são adequadamente comparáveis, se k e n diferem entre equações.

A interpretação é que 86.7% da variação na receita total é explicada pela variação no preço e pela variação no nível de gastos com propaganda. Uma dificuldade com o R2 é que ele pode ser aumentado pela inclusão de novas variáveis, mesmo se as variáveis acrescentadas não apresentarem qualquer justificativa econômica.

Uma medida alternativa para mensurar a qualidade do ajustamento é chamada de R2

ajustado, e tem, geralmente, como símbolo; ele é usualmente apresentado pelos programas de regressão. Ele é calculado como

7.5. Teste de significância global da regressão

A significância global da regressão pode ser testada pela razão da variância explicada com a variância não explicada. Esta apresenta uma distribuição F com k-1 e n-k graus de liberdade, onde n é o número de observações e k é o número de parâmetros estimados:

Análise de Regressão - Prof. Fernanda Queiroz 13

ˆ 104,79 6,642 2,984t t tRT p a

2 /( )1

/( 1)

SQE T KR

SQT T

R U

U

SQE SQE JF

SQE T K

Page 14: Analise de regressão

Se a hipótese nula for verdadeira, então a estatística F tem uma distribuição F com J graus de liberdade no numerador e T-k graus de liberdade no denominador.Nós rejeitamos a hipótese nula se o valor da estatística do teste F se tornar muito grande. Nós comparamos o valor de F com um valor crítico Fc o qual deixa uma probabilidade na cauda superior da distribuição F com J e T-k graus de liberdade

Uma importante aplicação do teste F é para o que chamamos de “teste da significância global do modelo”. Considere novamente o modelo geral de regressão múltipla com (K 1) variáveis explicativas e K coeficientes desconhecidos.

Para examinar se temos um modelo viável, nós elaboramos as seguintes hipóteses nula e alternativa

Se essa hipótese nula for verdadeira, nenhuma das variáveis explicativas influenciam o y e assim nosso modelo é de pouco ou nenhum valor.Se a hipótese alternativa H1 for verdadeira, então pelo menos um dos parâmetros não é zero. A hipótese alternativa não indica, contudo, qual dessas variáveis pode ser.

7.6. Hipóteses básicas :

Relação é Linear

Regressores tem variabilidade

Erros tem média zero

Erros tem variância constante

Erros são independentes (não correlacionados)

Distribuição dos erros é normal

7.8 - Exemplos:

Produção de soja Faturamento do comércio em relação às vendas e taxa de juros Fatores que influenciaram na produção de máquinas agrícolas Fatores que influenciaram a produção e venda de veículos nacionais Determinantes da produção mundial de arroz Determinantes da demanda por energia elétrica Determinantes do rendimento médio das pessoas ocupadas Determinantes dos preços dos imóveis em Natal

Análise de Regressão - Prof. Fernanda Queiroz 14

0 2 3

1

: 0, 0, , 0

: um dos não é zeroK

k

H

H pelo menos

Page 15: Analise de regressão

EXERCÍCIOS

1) O quadro abaixo informa a quantidade demandada de frango, o preço médio por quilo do frango e a renda média da população. Com base nestes dados, construa uma regressão do consumo em função do preço e da renda.

Período Consumo frango (tonelada)

preço frango R$ Renda média (R$)

jan/05 757,6 1,13 650fev/05 745,2 1,16 625

mar/05 673,2 1,3 580abr/05 676,2 1,29 585mai/05 709,1 1,2 610jun/05 704,7 1,21 610jul/05 691,8 1,24 595

ago/05 696,6 1,22 600set/05 667,6 1,35 575out/05 667,2 1,35 575nov/05 671 1,34 570dez/05 716,9 1,2 605jan/06 698,4 1,23 605fev/06 676,7 1,28 590

mar/06 661,4 1,35 560abr/06 686,8 1,25 590mai/06 685,2 1,26 590jun/06 684,9 1,27 600jul/06 675,1 1,3 585

ago/06 663,1 1,35 565set/06 672,8 1,32 580out/06 722 1,22 608nov/06 715 1,23 605dez/06 721,6 1,15 615jan/07 747,5 1,17 645fev/07 742,4 1,14 625

mar/07 750 1,18 640abr/07 741,5 1,19 620mai/07 722,6 1,19 615

2) Analise os resultados encontrados (estatisticamente e economicamente). 3) Um aumento de R$ 1,00 no preço provoca qual impacto no consumo de frango.4) Um aumento de R$ 100,00 na renda provoca qual impacto no consumo de frango.5) Para que serve o teste F.6) Por que na regressão múltipla devemos analisar o R2 ajustado ao invés do R2. Problemas na análise de regressão: multicolinearidade, heterocedasticidade, autocorrelação

Análise de Regressão - Prof. Fernanda Queiroz 15

Page 16: Analise de regressão

8 - multicolinearidade

Hipótese básica: Cada variável independente Xi não pode ser combinação linear das demais.

A violação desta hipótese ocorre quando a variação de uma variável é decorrente da variação da outra. Exemplo:

X3 = 2X2X3 = X2 + 3Ou ainda, envolvendo mais de duas variáveis.

X4 = 2X2 + 3X3 + 4

O termo multicolinearidade designa a alta correlação entre as variáveis.

Análise de Regressão - Prof. Fernanda Queiroz 16

Page 17: Analise de regressão

Os resultados da estimação do modelo são dados na tabela seguinte:

Repare que o valor tabelado da estatística t, considerando-se 5% de significância e 13 graus de liberdade, é 2,160. Observando o valor p-value todos os coeficientes não são signifcantes.

Esse resultado é, no mínimo estranho. Imaginar que o nível de consumo não depende da renda disponível é surpreendente.

Mais estranho ainda é analisar o teste F (2,13). O valor tabela é 3,81. Como o valor encontrado foi em torno de 17,6, pelo teste F concluímos que o modelo de regressão é válido.

Com nível de significância de 10%

Se a regressão foi aceita pelo teste F, a pergunta que fica é: Por que os dois parâmetros não são significantes (pelo menos a 5%)? O que deu errado com o teste t?

A resposta esta na natureza da variável. Há uma forte influência da taxa de juros real sobre a renda.A correlação amostral entre a taxa de juros e a renda é: -0,86

Análise de Regressão - Prof. Fernanda Queiroz 17

Page 18: Analise de regressão

Como identificar a multicolinearidade?

Uma maneira de identificar a multicolinearidade, ou, pelo menos, suspeitar

fortemente que ela existe, é obter um teste F bastante significante (ou um R2 alto),

acompanhado de estatististicas t para os coeficientes pouco significantes, ou até mesmo

não siginificantes.

Sinais dos coeficientes diferentes do esperado, especialmente quando ele é

muito esperado.

Identificar a correlação entre as variáveis também é uma forma de identificar a

presença da multicolinearidade.

Observar o comportamento dos coeficientes quando adicionamos ou retiramos

variáveis ou quando há mudanças na amostra. Se ocorrerem mudanças muito drásticas,

inclusive nos sinais de tais coeficientes, temos aí uma evidência de que há

multicolinearidade no modelo.

O que fazer quando há multicolinearidade?

Retirar a variável correlacionada: Como as variáveis são altamente correlacionadas ela já capta o efeito das alterações na variável retirada, tornando-se desnecessária. Contudo, este procedimento pode ferir a teoria econômica;

Aumentar a amostra: Em muitos casos, a correlação alta pe decorrente da própria amostra; isto é, esta correlação pode não existir na população e um aumento das observações poder refletir melhor o fato.

Análise de Regressão - Prof. Fernanda Queiroz 18

Page 19: Analise de regressão

Retirando uma variável da amostra: o resultado é:

Exercício:Em uma cidade, foram obtidos os valores da tabela abaixo. Faça uma regressão que tome como variável dependente o preço do imóvel e como variáveis explicativas as variáveis: distância ao centro, número de dormitórios, área do imóvel e renda mensal do chefe da família.

Realizada essa estimação, calcule as correlações amostrais entre as variáveis explicativas; com estes últimos resultados, faça as alterações no modelo que você julgar relevante e discuta os resultados obtidos.

Análise de Regressão - Prof. Fernanda Queiroz 19

Page 20: Analise de regressão

Correlação amostral entre as variáveis explicativas:

Existe uma elevada correlação entre as variáveis renda e distância; preço e distância; renda e preço.

Imagine um modelo que relaciona o preço de apartamentos a diversas características,

entre elas o número de dormitórios e a área útil. Se esse estudo fosse realizado em um bairro ou uma pequena cidade onde o padrão dos imóveis não varia muito, é possível que o tamanho dos aposentos também não varie, fazendo com que a área útil dos apartamentos esteja altamente correlacionada ao número de dormitórios.

Nesse casos, talvez fosse melhor substituir o preço total dos apartamentos pelo preço por metro quadrado.

Correlações Parciais

Análise de Regressão - Prof. Fernanda Queiroz 20

Page 21: Analise de regressão

9 - Heterocedasticidade

É desejável que a variância dos resíduos et, gerados pela estimação de um modelo, seja

constante. Nesse caso, var (et) = 2 , onde é uma constante. A violação desse

pressuposto é a heterocedasticidade.

A principal conseqüência da heterocedasticidade é que o método dos mínimos quadrados

não gera estimativas de parâmetros eficientes ou de variância mínima, o que implica

erros-padrões viesados e incorreção dos testes t e F.

Tal problema é mais freqüente em séries não temporais, ou seja, cross section.

Imagine uma regressão onde estamos fazendo uma pesquisa de salários em função

dos anos de estudo. A relação certamente existe, pois pessoas com vários anos de

escolaridade ganham, em média, mais do que pessoas pouco escolarizadas.

Mas a situação muda muito no que se refere ao erro: para aqueles com pouco ou

nenhum estudo, os salários não deverão variar muito, fazendo com que a variância

seja muito pequena.

No caso das pessoas com muitos anos de estudo, embora se espere que ganhem

mais, é possível que uma pessoa desse grupo tenha problemas em avançar na

carreira ou se torne proprietário de uma grande empresa, o que torna a variância dos

salários nesse caso muito alta.

Como identificar a heterocedasticidade?

Teste de Quandt-Goldfeld

a) Ordenar as observações de modo crescente (variável independente que

provavelmente provoca a heterocedasticidade)

b) Dividir a amostra em duas partes

c) Estimar as regressões separadas e obter a soma dos quadrados dos resíduos para

cada subamostra (n - c) observações.

Análise de Regressão - Prof. Fernanda Queiroz 21

Page 22: Analise de regressão

F = SQR 2 / SQR 1

SQR2 = Soma dos quadrados dos resíduos dos valores mais elevados de X

SQR1 = Soma dos quadrados dos resíduos dos valores mais baixos de X

d) Estatística F com (n-c)/2; k-1 graus de liberdade

Onde n= nº total de observações

C = nº de observações omitidas

K = nº de variáveis explicativas incluídas no modelo.

e) Se F observado > F crítico para (n-c)/2; k-1 graus de liberdade, a hipótese nula de

homocedasticidade será rejeitada.

Como corrigir a heterocedastividade (Exemplo: Trigo na Austrália – livro texto)

Utilizar o método dos mínimos quadrados generalizados por meio de uma transformação

no modelo.

qt = b1 + b2pt + b3t + e , var (et) = ²1 para t = 1,2,...13

qt = b1 + b2pt + b3t + e , var (et) = ²2 para t = 14,15,...26

Dividindo cada variável por 1 para as 13 primeiras observações e por 2 para as 13

últimas observações temos:

qt = b1 1 + b2pt + b3t + e 1 1 1 1 1 =1

qt = b1 1 + b2pt + b3t + e =12 2 2 2 2

Deste modo, as variâncias se tornaram constantes e iguais a 1, logo não existe mais o

problema da heterocedasticidade.

Análise de Regressão - Prof. Fernanda Queiroz 22

Page 23: Analise de regressão

As novas variáveis são:

qt = 1 + pt + t 2 2 2 2

10 - Autocorrelação Dos Resíduos

Os erros para diferentes observações (domicílios ou firmas) não devem ser

autocorrelacionados.

Autocorrelação significa dependência temporal dos valores sucessivos dos

resíduos (erro), isto é, os resíduos são correlacionados entre si. Desta forma, a

autocorrelação significa a correlação de uma variável com valores defasados (com

diferenças no tempo) dela mesma.

Em termos formais, considere o seguinte modelo linear simples:

Yt = b1 + b2Xt + et, a autocorrelação dos resíduos implica que E(eiej) 0 para i

j. A ausência de autocorrelação significa, portanto, E (ei, ej) = 0 para i j.

Conseqüências

Quando os resíduos são autocorrelacionados, as estimativas de MQO dos

parâmetros não são eficientes, isto é, não apresentam variância mínima, além de seu

erro-padrão ser viesado; o que conduz a teste de hipóteses e intervalos de confiança

incorretos.

Autocorrelação positiva: os resíduos são diretamente relacionados entre si, isto é:

et = et-1 + vt >0; (1)

se < 0 a autocorrelação será negativa.

Fontes de autocorrelação

Omissão de variável

Erro de especificação:

Má especificação do verdadeiro termo aleatório:

Testes para detectar a presença de autocorrelação

O teste de Durbin-Watson é o mais utilizado para diagnosticar a autocorrelação serial

Se = 0, Durbin-Watson d 2 -> os erros do modelo não são autocorrelacionados.

Análise de Regressão - Prof. Fernanda Queiroz 23

Page 24: Analise de regressão

Se = 1 Durbin-Watson d 0 -> autocorrelação positiva.

Se = -1 Durbin-Watson d 4 -> autocorrelação negativa.

O que fazer quando há autocorrelação:

É necessário corrigir o problema, refazendo a estimação e transformando as variáveis.

Y* = Yt - yt-1

X* = Yt - Xt-1

Análise de Regressão - Prof. Fernanda Queiroz 24