EconomEtria i - UNIASSELVI

2018

EconomEtria i

Prof. Vanderlei Kleinschmidt

Copyright © UNIASSELVI 2018

Elaboração:


Revisão, Diagramação e Produção:

Centro Universitário Leonardo da Vinci – UNIASSELVI

Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri

UNIASSELVI – Indaial.

Impresso por:

K64e

Kleinschmidt, Vanderlei

Econometria I. / Vanderlei Kleinschmidt. – Indaial: UNIASSELVI, 2018.

249 p.; il.

ISBN 978-85-515-0223-5

1.Econometria. – Brasil. II. Centro Universitário Leonardo Da Vinci.

CDD 330.015195

III

aprEsEntação

Prezado acadêmico! A Ciência Econômica existe há muitos séculos, porém nos últimos 100 anos, ela ganhou um impulso enorme com a formalização da Econometria como braço direito dos economistas. Esse é o elo que nos auxilia na tarefa de testar as teorias econômicas e que torna a economia uma verdadeira ciência. Estudar Econometria é um desafio, por isso tomamos muito cuidado ao elaborar o seu material.

As unidades foram estruturadas e preparadas de forma a lhe oferecer um conteúdo moderno, atualizado, em linha com o que as principais universidades do país utilizam. Ao longo dos seus estudos, você perceberá que a Econometria é um conhecimento cumulativo, no sentido de que tudo o que você aprender, desde as primeiras páginas, continuará usando até a última página desse livro. E não só do livro de Econometria I, durante os seus estudos de Econometria II você utilizará recorrentemente os conceitos e as habilidades que irá desenvolver a partir de agora.

Na Unidade 1, você terá uma visão geral da Econometria. Verá como ela surgiu, entenderá um pouco da sua importância e aprenderá os primeiros conceitos. Nessa fase, talvez, você sinta um pouco a necessidade de revisar aquilo que você sabe de estatística e matemática. Se isso acontecer, recomendamos que o faça, mas não de forma aprofundada, reveja apenas os conceitos que tiver maior dificuldade, porque ao longo dessa unidade esses conceitos são explicados à luz do processo econométrico. Ao final dessa unidade, você já estará estimando os seus primeiros modelos de regressão simples, com apenas duas variáveis, e fazendo as primeiras análises de resultados.

A ideia de conhecimento cumulativo ficará bem clara ao iniciar os estudos da Unidade 2. Nela você retomará os modelos desenvolvidos na Unidade 1, porém ampliando-os com a adição de múltiplas variáveis, e com isso terá que recorrer a novas técnicas para estimar os seus modelos. Estamos falando da álgebra matricial, que alguns autores relutam em apresentar em seus materiais, porém, como poderá constatar, o uso de matrizes torna o estudo e a aplicação da Econometria mais intuitiva. Essa unidade é finalizada com uma das ferramentas mais importantes que os econometristas usam, trata-se das variáveis binárias. Com elas é possível dessazonalizar séries de dados, calcular médias, medir quebras estruturais, estimar diferenças entre categorias, enfim, adicionar o elemento qualitativo aos modelos quantitativos.

Finalizamos o livro com a Unidade 3, que aborda os três grandes problemas que enfrentamos ao estimar os modelos econométricos. Nesse caso, o objetivo é apresentar a você, acadêmico, os conceitos relacionados a cada um desses problemas, explicando a sua fonte, as consequências, como

IV

diagnosticar e como superar cada um deles. Você compreenderá que, apesar de usarmos um software para fazer a parte pesada e tornar mais simples o nosso trabalho, estimar um modelo de regressão requer mais do que alguns simples cliques com o mouse. Nós precisamos estar atentos a certos problemas, como a heteroscedasticidade e a autocorrelação, que podem jogar por terra todo o tempo que empregamos na nossa pesquisa.

O segredo do sucesso de estudar e aprender Econometria reside na prática. Não adianta de nada você apenas ler o material desenvolvido e assistir aos vídeos. Se não praticar, todo esse tempo dedicado aos estudos terá sido em vão. Recomendamos que você utilize os dados disponibilizados no material e tente reproduzir os resultados que obtivemos. Isso é extremamente importante, porque é impossível aprender Econometria sem praticar!

Guarde bem esse material para consultas futuras, utilize a técnica e as habilidades que você irá desenvolver ao longo dos seus estudos, e tente aplicá-las no seu trabalho e nos estudos das outras disciplinas do curso de Ciências Econômicas. Dedique-se aos estudos dessa fantástica área do conhecimento econômico e colherá os melhores resultados na sua carreira.

Bons estudos!


V

Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novidades em nosso material.

Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um formato mais prático, que cabe na bolsa e facilita a leitura.

O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagramação no texto, aproveitando ao máximo o espaço da página, o que também contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo.

Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade de estudá-lo com versatilidade nas telas do celular, tablet ou computador. Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para apresentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto em questão.

Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institucionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar seus estudos com um material de qualidade.

Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de Desempenho de Estudantes – ENADE. Bons estudos!

NOTA

Olá acadêmico! Para melhorar a qualidade dos materiais ofertados a você e dinamizar ainda mais os seus estudos, a Uniasselvi disponibiliza materiais que possuem o código QR Code, que é um código que permite que você acesse um conteúdo interativo relacionado ao tema que você está estudando. Para utilizar essa ferramenta, acesse as lojas de aplicativos e baixe um leitor de QR Code. Depois, é só aproveitar mais essa facilidade para aprimorar seus estudos!

UNI

VII

UNIDADE 1 – OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO ....................................... 1

TÓPICO 1 – INTRODUÇÃO AO ESTUDO ECONOMÉTRICO .................................................. 31 INTRODUÇÃO .................................................................................................................................... 32 O QUE É ECONOMETRIA? .............................................................................................................. 33 O MÉTODO ECONOMÉTRICO ...................................................................................................... 7LEITURA COMPLEMENTAR .............................................................................................................. 11RESUMO DO TÓPICO 1 ....................................................................................................................... 13AUTOATIVIDADE ................................................................................................................................. 14

TÓPICO 2 – MODELO DE REGRESSÃO LINEAR GERAL .......................................................... 151 INTRODUÇÃO .................................................................................................................................... 152 A MODELAGEM ECONÔMICA E A ORIGEM DOS DADOS ECONOMÉTRICOS .......... 153 ANÁLISE DE REGRESSÃO .............................................................................................................. 194 O MODELO DE REGRESSÃO LINEAR SIMPLES ...................................................................... 235 AS HIPÓTESES DO MODELO DE REGRESSÃO LINEAR ....................................................... 24RESUMO DO TÓPICO 2........................................................................................................................ 29AUTOATIVIDADE ................................................................................................................................. 30

TÓPICO 3 – MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS ................................. 311 INTRODUÇÃO .................................................................................................................................... 312 A FUNÇÃO DE REGRESSÃO AMOSTRAL E SUAS CARACTERÍSTICAS .......................... 323 ESTIMATIVA DOS PARÂMETROS POR MÍNIMOS QUADRADOS ORDINÁRIOS ....... 334 PROPRIEDADES NUMÉRICAS DOS ESTIMADORES ............................................................. 375 TESTES ESTATÍSTICOS .................................................................................................................... 386 O USO DO GRETL PARA ESTIMAÇÃO E ANÁLISE ECONOMÉTRICA: A ANÁLISE DOS RESULTADOS E SUA INTERPRETAÇÃO ................................................... 597 OUTROS TÓPICOS RELACIONADOS AO MÉTODO DE MQO ........................................... 73RESUMO DO TÓPICO 3 ....................................................................................................................... 79AUTOATIVIDADE ................................................................................................................................ 80

UNIDADE 2 – REGRESSÃO MÚLTIPLA .......................................................................................... 83

TÓPICO 1 – O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL .................... 851 INTRODUÇÃO .................................................................................................................................... 852 O MODELO DE REGRESSÃO LINEAR GERAL EM FORMA MATRICIAL ......................... 873 HIPÓTESES DO MODELO ............................................................................................................... 89RESUMO DO TÓPICO 1 ....................................................................................................................... 94AUTOATIVIDADE ................................................................................................................................ 95

TÓPICO 2 – ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS .........................................................................................................1011 INTRODUÇÃO ..................................................................................................................................1012 ESTIMADORES DE MQO ...............................................................................................................102

sumário

VIII

3 ESTIMANDO O MODELO DE REGRESSÃO MÚLTIPLO .....................................................1094 TESTES ADICIONAIS APLICADOS AOS RESULTADOS DOS MODELOS DE REGRESSÃO .........................................................................................................117RESUMO DO TÓPICO 2 .....................................................................................................................129AUTOATIVIDADE ..............................................................................................................................130

TÓPICO 3 – USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS ..................................1331 INTRODUÇÃO ..................................................................................................................................1332 ESTIMANDO UM MODELO DE REGRESSÃO COM VARIÁVEIS QUALITATIVAS .....1343 OUTRAS APLICAÇÕES COM VARIÁVEIS QUALITATIVAS ...............................................138LEITURA COMPLEMENTAR ............................................................................................................154RESUMO DO TÓPICO 3 .....................................................................................................................157AUTOATIVIDADE ..............................................................................................................................158

UNIDADE 3 – MODELOS DE REGRESSÃO GENERALIZADOS ............................................163

TÓPICO 1 – MULTICOLINEARIDADE ..........................................................................................1651 INTRODUÇÃO ..................................................................................................................................1652 CONCEITO DE MULTICOLINEARIDADE ................................................................................1663 DETECÇÃO DA MULTICOLINEARIDADE ...............................................................................1694 O QUE FAZER NA PRESENÇA DE MULTICOLINEARIDADE? ...........................................177LEITURA COMPLEMENTAR ............................................................................................................184RESUMO DO TÓPICO 1 .....................................................................................................................186AUTOATIVIDADE ..............................................................................................................................187

TÓPICO 2 – HETEROSCEDASTICIDADE .....................................................................................1891 INTRODUÇÃO ..................................................................................................................................1892 A NATUREZA DA HETEROSCEDASTICIDADE ......................................................................1903 DETECTANDO O PROBLEMA DA HETEROSCEDASTICIDADE .......................................1924 RESOLVENDO O PROBLEMA DA HETEROSCEDASTICIDADE – O MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS ...............................................................201RESUMO DO TÓPICO 2 .....................................................................................................................211AUTOATIVIDADE ..............................................................................................................................212

TÓPICO 3 – AUTOCORRELAÇÃO ..................................................................................................2131 INTRODUÇÃO ..................................................................................................................................2132 A NATUREZA DA CORRELAÇÃO SERIAL ...............................................................................2143 DETECTANDO O PROBLEMA DA CORRELAÇÃO SERIAL ................................................2174 RESOLVENDO O PROBLEMA DA CORRELAÇÃO SERIAL – MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS ...............................................................230RESUMO DO TÓPICO 3 .....................................................................................................................235AUTOATIVIDADE ..............................................................................................................................236

REFERÊNCIAS ......................................................................................................................................239

1

UNIDADE 1

OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO

OBJETIVOS DE APRENDIZAGEM

PLANO DE ESTUDOS

A partir do estudo desta unidade, você será capaz de:

• definir o conceito e os objetivos da econometria, identificando os passos que envolvem o processo de pesquisa e as ferramentas utilizadas para este fim;

• explicar os conceitos básicos da econometria, tais como regressão, variável dependente e explanatória, os tipos de dados e suas fontes;

• aplicar o conhecimento desenvolvido para construir um modelo econo-métrico simples;

• estimar o modelo construído utilizando dados econômicos, analisar os re-sultados obtidos e com base nas inferências estatísticas, validar ou refutar as hipóteses propostas inicialmente.

Esta unidade está dividida em três tópicos. No decorrer da unidade você encontrará autoatividades com o objetivo de reforçar o conteúdo apresentado.

TÓPICO 1 – INTRODUÇÃO AO ESTUDO ECONOMÉTRICO

TÓPICO 2 – MODELO DE REGRESSÃO LINEAR GERAL

TÓPICO 3 – MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS

3

TÓPICO 1UNIDADE 1

INTRODUÇÃO AO ESTUDO

ECONOMÉTRICO

1 INTRODUÇÃO

Prezado acadêmico, seja bem-vindo ao maravilhoso mundo da econometria. Esperamos que você esteja pronto para a nossa jornada, mas, se não tiver certeza disso, não se preocupe, juntos construiremos os fundamentos necessários para que você possa usar essa importante ferramenta na sua vida acadêmica e profissional.

Até agora você aprendeu os principais conceitos econômicos, estudou os seus fundamentos matemáticos e estatísticos, viu a separação dos aspectos microeconômicos dos macroeconômicos e foi apresentado a diversas teorias e modelos.

A partir de agora, estudando econometria, você terá a oportunidade de colocar em prática e testar a maior parte das teorias aprendidas e as que aprenderá até o final do seu curso. Além disso, poderá incorporar aos seus trabalhos acadêmicos todas as ferramentas aprendidas neste livro de estudos. Para isso, veremos, de forma gradual e seguindo uma sequência lógica e organizada, um conjunto de técnicas que, além de modernas, refletem o que as grandes universidades ao redor do mundo estão ensinando aos seus graduandos em economia.

A disciplina de econometria, apesar de não ser exclusividade dos cursos de ciências econômicas, é, sem sombra de dúvidas, o nosso grande diferencial como economistas. Por esse motivo, dominar a técnica econométrica poderá ser o seu diferencial nesse mercado cada vez mais competitivo.

Para ajudá-lo nessa empreitada, o primeiro tópico desse livro buscará entender o significado de econometria, um pouco da sua história, como ela se insere dentro da economia como ciência e como torná-la uma aliada para os seus estudos.

2 O QUE É ECONOMETRIA?

Se tivéssemos que traduzir a palavra econometria de forma literal, diríamos que é uma medida econômica ou mensuração econômica, mas a tradução literal é muito fria e em nada reflete a dinâmica dessa disciplina. Na prática, pouco adianta saber a etimologia da palavra se você não entender o que ela significa de fato e não puder compreender a sua importância.

4

UNIDADE 1 | OS FUNDAMENTOS DA ANÁLISE DE REGRESSÃO

4

( )dQ f P=

Para saber o real significado da econometria é necessário recordarmos o que aprendemos até agora sobre a economia e uma das coisas mais importantes, na própria definição de economia, é entender que ela é uma ciência social.

Por seu aspecto científico, a economia “[...] mais do que outras disciplinas – exige uma combinação de aptidões verbais e quantitativas” (TAYLOR, 2007, p. 69). Embora alguns pensem o contrário, a economia não é exclusivamente para quem gosta de cálculo, nem tampouco está voltada apenas para entender o funcionamento do mercado financeiro.

Conseguir explicar a dinâmica das relações econômicas faz do economista um profissional diferenciado. Nesse quesito, muito mais do que conseguir efetuar um cálculo, é necessário ter a capacidade de síntese no sentido de poder interpretar os resultados obtidos. É aí que entra a parte não quantitativa da economia, aquela que descrevemos com o uso de palavras.

Devemos ter em mente que o homem, nas suas relações interpessoais, tem certas necessidades as quais busca satisfazer. Esse agente econômico, que pode ser uma pessoa, o governo ou uma empresa, dispõe de certa quantidade de recursos para atender as suas escolhas.

Ocorre que esses recursos nem sempre são suficientes. As necessidades, na maioria das vezes são ilimitadas, e aquilo que você quer, as suas escolhas, envolvem determinados custos. Assim, como bem sintetiza Krugman e Wells (2007, p. 5), “as escolhas individuais estão no cerne da economia”. Ou ainda, como nos ensina Marshall (1996, p. 77), “Economia Política ou Economia é um estudo da Humanidade nas atividades correntes da vida; examina a ação individual e social em seus aspectos mais estreitamente ligados à obtenção e ao uso dos elementos materiais do bem-estar”.

Isso nos traz grandes desafios. Como medimos essas relações? Como sabemos em que grau as trocas ocorrem? As escolhas, feitas por um indivíduo, afetam a decisão de outros? Caso a resposta seja positiva, em que medida? De que maneira podemos descrever essas relações e mensurá-las?

Uma importante ferramenta de análise é a economia matemática. Com ela podemos formular melhor a economia, ou seja, traduzir aquelas palavras que usamos para descrever certas relações através de equações. Por exemplo, sabemos que a demanda de um determinado bem, de maneira bem simplificada, pode ser expressa em função do seu preço, como:

5

TÓPICO 1 | INTRODUÇÃO AO ESTUDO ECONOMÉTRICO

5

Em que:

Qd é a quantidade demandada (unidades, quilos, metros etc.), eP é o preço desse bem.

Nessa relação, esperamos que se o preço for muito alto, as pessoas demandem menos unidades do que quando o preço for menor. Exceções a esta regra podem ser vistas na microeconomia, mas, como um bom estudante de economia, deixaremos para você verificar!

A equação anterior não nos conta a história toda. Para avançarmos em nossa análise, precisaremos coletar informações na quantidade e qualidade suficientes, e assim teremos condições de averiguar se o comportamento descrito condiz com a realidade prática. Na ciência econômica, nós usamos técnicas estatísticas para resolver esses problemas econômicos, formulados pela matemática, de forma empírica (HOFFMANN, 2002, p. 2).

E quanto à econometria? Onde ela se encaixa nessa história toda? Se você juntar a teoria econômica com a economia matemática e a estatística econômica, você terá aquilo que chamamos de econometria. Ela nada mais é do que a junção, ou a soma, ou ainda, como diz Gujarati e Porter (2011, p. 26), “[...] econometria é um amálgama de teoria econômica, economia matemática, estatística econômica e estatística matemática”.

A palavra econometria foi utilizada pela primeira vez em 1933, quando saiu a edição de número um da revista Econométrica. Sua definição formal está no documento de constituição da Econometric Society, que em uma tradução livre diz que é uma sociedade internacional para o avanço da teoria econômica e sua relação com a estatística e a matemática (ROOS, 1933, p. 106).

Desde o seu início, a econometria vem evoluindo dia após dia. Atualmente não podemos entender essa disciplina ou ramo da ciência econômica apenas analisando os seus aspectos matemáticos. Da mesma forma, apesar de toda a sua força e utilidade, a estatística é uma ferramenta empregada no processo econométrico, mas não se pode confundi-las como sendo a mesma coisa. Além disso, aquilo que entendemos como teoria econômica é ponto de partida para a econometria, dando sentido a sua análise, mas não é a econometria em si.

Fica claro que a junção dessas três áreas críticas torna a econometria uma ferramenta poderosa para os economistas desenvolverem o seu trabalho com qualidade e assertividade. Porém, há um elemento-chave no processo econométrico que não pode ser desprezado, a tecnologia, que vem dando um impulso sem precedentes ao desenvolvimento tanto da econometria teórica quanto da econometria aplicada.

6


6

Você consegue imaginar os economistas, nos anos 1930, fazendo análises estatísticas, coletando dados, tabulando e extraindo conclusões, sem um microcomputador? Nós que estamos acostumados ao uso dos meios eletrônicos temos dificuldade para imaginar um mundo assim. Pense em um matemático calculando derivadas, usando logaritmos, ou obtendo ângulos de figuras geométricas com o uso de tabelas específicas criadas para esse fim!

Apesar de ser possível fazer tudo isso, temos que compreender que a tecnologia tem um papel central em todas as áreas de estudo e pesquisa, e na econometria ela é indissociável. Como veremos adiante, temos programas de computador tradicionais, como o SAS ou o Eviews, que têm um custo significativo, porém, para quem os usa no campo da pesquisa, o seu retorno compensa o investimento. Por outro lado, graças ao GNU e ao Free Software Foundation, temos hoje uma série de opções que, além de serem gratuitas, são poderosas ferramentas e acessíveis a todos, inclusive a nós, que usaremos muita técnica e tecnologia ao longo deste curso.

Toda pesquisa começa por um problema, algo que intriga o pesquisador, que precisa de uma resposta. Assim, o objetivo principal da econometria é auxiliar o economista a responder aos seus problemas de pesquisa. Em uma investigação sobre um determinado evento ou fenômeno, nos deparamos com uma série de questões, que muitas vezes começam com a palavra “quanto?”.

Esses problemas de pesquisa, ou essas questões que precisam ser resolvidas, encontram abrigo nas chamadas hipóteses ou pressupostos, que nada mais são que respostas prévias às perguntas formuladas anteriormente, as quais precisam ser medidas e testadas. Precisamos nos assegurar de que aquilo que entendemos como verdadeiro realmente é verdadeiro. Não basta afirmar, tem que comprovar!

São exemplos de perguntas, ou problemas, com que nos deparamos em nossas pesquisas e para as quais a econometria é nossa grande aliada:

I- Quanto irá variar o consumo se houver um aumento real no salário mínimo?II- Quantos carros serão vendidos se o IPI for reduzido a zero?III- Quanto uma mudança em uma determinada variável afeta a outra?IV- Haverá alguma variação no PIB caso o COPOM decida reduzir a meta da

SELIC?V- Qual deve ser o nível de inadimplência caso o país passe por um período de

recessão?VI- É possível determinar se houve discricionariedade na condução da política

monetária por parte do Banco Central entre dois governos distintos?

A resposta a essas e muitas outras questões que surgem durante um trabalho de pesquisa é obtida através do emprego de certas técnicas, dentre as quais, no caso da ciência econômica, a econometria é, sem sombra de dúvidas, a peça-chave.

7


7

A seguir, veremos os passos que envolvem o processo econométrico através de um exemplo clássico, a teoria keynesiana do consumo. Veremos que existe uma sequência lógica que precisa ser respeitada para se obter resultados que sejam coerentes com a realidade. Ao longo de todo este livro desenvolveremos e refinaremos as técnicas apresentadas nesta primeira unidade, e com o tempo nos prepararemos para aprender modelos ainda mais robustos e cujas aplicações estão em linha com o que se vem empregando no mundo acadêmico e dos negócios.

3 O MÉTODO ECONOMÉTRICO

Grande parte dos livros de econometria descreve o método econométrico com um exemplo prático. Não faremos diferente, até mesmo porque é preciso que você já comece a se familiarizar com o método e a visualizar as opções para aplicar essas poderosas ferramentas na sua vida acadêmica e profissional. O exemplo clássico que usaremos é a função consumo keynesiana, que nos dá algo a ser investigado ou medido, a propensão marginal a consumir.

Utilizando a sequência proposta por Gujarati e Porter (2011), Greene (2012) e Wooldridge (2016), vamos ver o que Keynes (1996, p. 118) falou sobre a relação consumo versus renda:

A lei psicológica fundamental em que podemos basear-nos com inteira confiança, tanto a priori, partindo do nosso conhecimento da natureza humana, como a partir dos detalhes dos ensinamentos da experiência, consiste em que os homens estão dispostos, de modo geral e em média, a aumentar o seu consumo à medida que a sua renda cresce, embora não em quantia igual ao aumento de sua renda.

Toda pesquisa começa com algo que desperte a atenção do pesquisador e que lhe suscite perguntas. Por exemplo, no excerto da obra de Keynes citada, seria interessante considerar a possibilidade de se medir essa proporção do aumento na renda repassada ao consumo das famílias. O nosso problema de pesquisa já está bem claro e delineado, mas essa é apenas a primeira parte do processo econométrico e ainda está na fase da teoria econômica.

Agora usaremos a matemática e a estatística como auxiliares no desenvolvimento da nossa pesquisa, e depois, quando tudo estiver bem claro, a tecnologia será o nosso “workhorse”, ou numa tradução livre, nosso “cavalo de batalha” nessa grande empreitada, e que nos conduzirá, de alguma forma, à vitória.

Usando a matemática para refinar nossa intuição, devemos nomear as variáveis e estabelecer as relações em uma forma funcional que seja capaz de resumir a hipótese a ser testada. O formato dessa função matemática pode ter como fonte a própria teoria subjacente, porém, no nosso caso específico, a exposição de Keynes não nos dá uma pista sobre qual seria a relação funcional existente entre consumo e renda.

8


8

Por simplificação, podemos supor que exista uma relação linear. Como veremos mais adiante, a linearidade é essencial para as análises que serão propostas e torna o nosso trabalho mais fácil. Por enquanto, vamos propor que a relação tenha a seguinte forma:

A equação acima parece perfeita para aquilo que estamos propondo, porém teremos que testá-la na prática para ver se realmente serve para o nosso trabalho. Podemos supor que a propensão marginal a consumir, ou seja, quanto varia o consumo dada uma variação na renda, seja menor do que um. Leia novamente o excerto de Keynes e você verá isso bem claro.

Se for verdade que apenas parte do aumento na renda é transferida para o consumo, podemos esperar que 0 < β2 < 1.

Acho que você já deve ter percebido que a equação 1.2 é uma velha conhecida nossa. É a equação linear mais elementar, a qual costumamos escrever nas aulas de matemática com o formato Y = a + bX, em que a é o intercepto, ou o ponto onde a reta formada pela equação toca o eixo vertical do plano cartesiano e b é o coeficiente angular, ou, a inclinação dessa reta.

O problema de se usar a equação 1.2 é que ela estabelece uma relação exata entre duas variáveis. Na vida real sabemos que isso nem sempre acontece de fato. Você é capaz de imaginar uma gama de outras coisas que podem afetar o consumo? Uma delas é o consumo no período anterior. Se você faz uma compra grande no início do mês e não consome tudo o que comprou, o que sobra diminui a quantidade adquirida na próxima compra.

Alguns fatores são puramente subjetivos, outros são bem objetivos e quantificáveis, mas no geral todos são capazes de influenciar o consumo, o que nos faz concluir que na prática a relação entre consumo e renda não é exata ou determinística como em 1.2.

Portanto, precisamos de uma variável que seja capaz de capturar a influência de todas essas variáveis, as quais de alguma forma afetam o consumo, mas que estamos deixando de fora dessa equação matemática por razões que ainda estudaremos neste livro. Chamaremos essa variável de termo de perturbação estocástica e representaremos pela letra u.

Chamamos de perturbação porque ela é capaz de perturbar o comportamento da nossa variável consumo e é dita estocástica porque não segue um comportamento previsível, é totalmente aleatório, porém, como veremos mais adiante, com distribuições de probabilidade conhecidas.

1.2Consumo = β1 + β2 Renda

9


9

Vamos alterar o modelo 1.2 incluindo esse termo estocástico, o que fará com que ele se torne um modelo econométrico:

1.3Consumo = β1 + β2 Consumo + u

Temos uma teoria para ser testada, temos o modelo econométrico que derivou de uma função matemática, agora podemos obter os dados e empregar a estatística para prepará-los para a estimação ou solução de 1.3. Existem diversas fontes de dados, o que você precisa ter em mente é que nem sempre eles são confiáveis, por isso precisam de uma análise criteriosa, porque, em algum momento, alguém irá ler o resultado da nossa pesquisa e poderá se basear nela para implementar alguma política governamental, por exemplo. Por este motivo é importante que você se habitue a ser muito cuidadoso e crítico em tudo o que você faz.

Como o excerto da teoria keynesiana não define claramente as variáveis, empregaremos uma aproximação, uma “proxy” para cada variável. Veremos ao longo do livro que a correta definição das variáveis que entram no modelo econométrico é muito importante, pois mitiga o risco de especificarmos um modelo de forma incorreta, ou, como é chamado, viés de especificação.

Depois de coletar os dados e montar a nossa base, entra em ação um aliado importantíssimo do econometrista, a tecnologia. Estimaremos o modelo econométrico, ou seja, resolver a equação 1.3, com o emprego dos dados coletados, empregando um software econométrico. Como dissemos anteriormente, hoje em dia há uma variedade grande deles à disposição no mercado. Alguns são pagos e outros até gratuitos. Greene (2012) relaciona os seguintes programas e seus respectivos endereços na internet, os quais reproduzimos no quadro a seguir:

QUADRO 1 – RELAÇÃO DE ALGUNS SOFTWARES ECONOMÉTRICOS DISPONÍVEIS NO MERCADO

Software Endereço eletrônico Fornecedor/desenvolvedorEViews <www.eviews.com> QMS, Irvine, CAGauss <www.aptech.com> Aptech Systems, Kent, WA

LIMDEP <www.limdep.com> Econometric Software, Plainview, NYMATLAB <www.mathworks.com> Mathworks, Natick, MANLOGIT <www.nlogit.com> Econometric Software, Plainview, NY

R <www.r-project.org> The R Project for Statistical ComputingRATS <www.estima.com> Estima, Evanston, ILSAS <www.sas.com> SAS, Cary, NC

Shazam <www.econometrics.com> Northwest Econometrics Ltd., Gibsons, CanadaStata <www.stata.com> Stata, College Station, TXTSP <www.tspintl.com> TSP International, Stanford, CA

FONTE: Greene (2012, p. 37)

10


10

Da listagem fornecida por Greene (2012), é comum as grandes empresas, os centros de pesquisa de universidades, os profissionais do mercado financeiro, entre outros, escolherem dois ou até mais deles para suas atividades diárias. Todos eles são muito bons, mas não há um programa que faça exatamente tudo o que precisamos.

Muitas vezes, o programa tem rotinas prontas que resolvem o nosso problema com alguns cliques do mouse. Mas, em aplicações mais avançadas, precisamos dominar a linguagem que está por trás do programa e escrever as linhas, as rotinas ou o algoritmo que será empregado. Evidentemente que no nosso livro de estudos não faremos algo assim tão avançado, até mesmo porque isso fugiria do escopo do que está sendo proposto nesse material. Porém, fica como advertência que, agora que você está entrando nesse mundo fantástico da econometria, mais cedo ou mais tarde você sentirá a necessidade e o desejo de avançar ainda mais nos seus estudos e buscar esse conhecimento.

Vamos deixar você escolher o programa que melhor se adapte ao seu gosto, ao seu bolso, e ao domínio que você tem da língua inglesa, caso queira pagar pela licença de uso de um deles. Ao longo de todo o curso de Econometria I, usaremos o Gretl, que não foi relacionado por Greene (2012) e, portanto, não está na listagem.

Gretl é a abreviatura ou acrônimo de Gnu Regression, Econometrics and Time-series Library. É um software livre e de código aberto, feito para análise estatística e econométrica de dados. Trata-se de uma importante ferramenta a serviço dos econometristas, especialmente dos graduandos!

Ele traz como vantagens o fato de ser totalmente gratuito, possuir interface em diversas línguas, inclusive o português, e ser multiplataforma, o que permite que seja instalado praticamente em todos os computadores vendidos atualmente.

Para obter uma cópia deste programa você deve ir até <http://gretl.sourceforge.net/pt.html>, clicar na opção “Download” e selecionar o arquivo de instalação de acordo com o seu sistema operacional. Como usamos o Windows 10, da Microsoft, as telas apresentadas a seguir foram produzidas a partir deste sistema operacional.

Os procedimentos de instalação são intuitivos e os manuais disponíveis no site o ajudarão nessa tarefa, caso tenha alguma dificuldade. Mesmo assim, sugerimos que você leia o material produzido por Carlos Henrique Coelho de Andrade, da UFRGS. Ele elaborou um manual introdutório ao Gretl, com o “objetivo [de] apresentar, de forma simplificada, algumas das funcionalidades presentes no Gretl de forma a auxiliar seu aprendizado tanto por aqueles que nunca utilizaram pacotes econométricos quanto aqueles que já possuem certa experiência com esse tipo de programa” (ANDRADE, 2013, p. 2). Esse manual está disponível para ser baixado em <https://www.ufrgs.br/ppge/wp-content/themes/PPGE/page/textos-para-discussao/pcientifica/2013_12.pdf>.

DICAS

11


11

Após estimar a regressão dada pela equação 1.3, fazemos uma série de verificações a fim de garantir que o modelo tenha a especificação adequada e os resultados sejam consistentes. Com o modelo devidamente validado, fazemos os testes de hipótese, as inferências estatísticas ou usamos o modelo para fins de previsão econômica. Se concluirmos que o modelo não é adequado, reiniciamos todo o trabalho, alterando a definição das variáveis, coletando mais dados, modificando a estrutura deles ou até mesmo redefinindo a forma funcional do modelo de regressão, como veremos na prática ao longo dos nossos estudos.

O nascimento da econometria e sua contribuição para a sociedade

Samy Dana

Lousas rabiscadas de equações matemáticas, barulhos de calculadoras e cheiro de giz permeiam o ambiente. Para quem não frequenta as aulas de econometria, tal cenário pode parecer uma bolha matemática muito distante da realidade. Engana-se quem pensa assim. Um dos maiores interesses de um economista é ver se o que foi proposto pela teoria se aplica na realidade. Isso, porém, sempre representou um dos maiores desafios da Economia. Diferentemente das ciências naturais, o economista raramente consegue realizar experimentos controlados, por isso os dados coletados em Economia são resultados de muitas relações de interdependência, o que torna difícil inferir relações de causa e consequência. Para tentar resolver este problema foi desenvolvida a Econometria: braço da Economia responsável por, justamente, estimar e testar as relações apresentadas pelos modelos teóricos usando dados da realidade.

Até a metade do século passado faltava aos pesquisadores um sistema comum para formular, analisar e resolver os problemas de teste e estimação. Por causa disso, grandes economistas, como John Keynes, rejeitavam o uso dos métodos adotados, pois acreditava que isso limitava muito a extensão da teoria para o mundo real. Nesse cenário limitado, surge o trabalho de Trygve Haavelmo. O economista foi responsável por introduzir de forma consistente o uso dos métodos probabilísticos no campo da Econometria e, por consequência, por uma grande evolução na Ciência Econômica.

Haavelmo nasceu em Oslo, na Noruega, em 1911. Graduou-se em economia pela Universidade de Oslo no ano de 1933. Entrou no Instituto de Economia como assistente de Ragnar Frisch, grande econometrista da época e laureado com o Nobel em Ciências Econômicas anos depois. O economista também estudou estatística no University College London. Em 1941, recebeu o título de Ph.D. pelo trabalho “The Probability Approach in Econometrics” (Abordagem Probabilística em Econometria, tradução livre), sendo essa a base que, seguida por outros de seus trabalhos, serviu para mostrar de forma convincente que o uso de probabilidade na formulação e teste das teorias econômicas poderia resolver grande parte dos problemas enfrentados pela Econometria da época.

LEITURA COMPLEMENTAR

12


12

O uso da abordagem probabilística é tão importante porque permite a aplicação de métodos de inferência capazes de apontar conclusões confiáveis sobre as relações previstas pela teoria. De maneira mais simples, a abordagem probabilística possibilita que, com dados da realidade, o pesquisador diga algo confiável sobre o todo, algo previsto pela teoria e confirmado pelas evidências práticas. Por exemplo, pode-se pegar os dados sobre programas do governo e entender se eles funcionam de acordo com o que foi planejado, desse modo há possibilidade de aperfeiçoamento do programa.

Ao mostrar a necessidade do uso da teoria de probabilidade, ele também provou a sensatez por trás do novo método. Afinal, acreditar que é possível prever tudo sem incorrer em erros no cenário econômico complexo enfrentado pelos economistas seria absurdo. O ponto forte da probabilidade é o fato de ela ter erros e imprecisões, mas ser viável medir os erros e trabalhar para minimizar as imprecisões.

O norueguês também contribui para a análise de problemas com interdependência nas relações econômicas. Basicamente, o problema é que um acontecimento econômico, como aumento de preço da gasolina, impacta muitos outros preços de várias formas. A gasolina mais cara aumenta o custo da entrega de pizza, mas a pizza ficou mais cara também porque a entrega da farinha ficou mais custosa. Por isso, é difícil entender o resultado pontual do preço da gasolina. Haavelmo explicou que se fosse utilizado um conjunto de relações autônomas, algo como relações entre custo da farinha e da pizza, custo da entrega e da pizza, e assim por diante, seriam explicadas de uma forma melhor.

É do interesse do governo e das instituições que atuam na economia entender a inflação - como os preços vão aumentar -, a fim de fazer um planejamento mais adequado para o futuro. Imagine o seguinte exemplo: uma indústria está interessada em comprar uma máquina que custa R$ 1 milhão. Para isso, ela precisa saber qual será o melhor momento para efetuar a compra da máquina. Se em um ano a máquina custar R$ 1,1 milhão (inflação de 10%) e em dois anos a mesma máquina custar R$ 1,5 milhão (inflação de 50%), a empresa optará por efetuar a compra em um ano, pois pagará por um preço menor se tiver caixa. E a empresa só conseguirá tomar a melhor decisão se conseguir projetar bem a inflação. Antes de Haavelmo, isso não seria possível, já que os economistas não acreditavam na possibilidade de prever esses dados, afinal, não existia um processo preciso e bem estruturado. Depois de seus trabalhos, tais previsões são realizadas com grande frequência. São elas que permitem um melhor processo de decisão pelas empresas e pelo governo.

Graças a Trygve Haavelmo, o giz que rabisca as equações na lousa das aulas de econometria se tornou capaz de desenhar soluções para problemas reais da sociedade.

FONTE: <http://g1.globo.com/economia/blog/samy-dana/post/o-nascimento-da-econometria-e-sua-contribuicao-para-sociedade.html>. Acesso em: 25 ago. 2018.

13

Neste tópico, você aprendeu que:

• A econometria utiliza a teoria econômica, a matemática, a estatística e a computação para, de forma empírica, testar teorias, formular e avaliar políticas econômicas e auxiliar as empresas na tomada de decisão.

• O método econométrico segue alguns passos, a saber: a identificação de um problema de pesquisa, ou hipótese a ser testada, o refinamento com o uso da matemática, a especificação das variáveis, coleta e o tratamento adequado dos dados com o auxílio da estatística, a estimação dos parâmetros do modelo econométrico com o uso de um software e a análise dos resultados.

• Neste livro de estudos usamos o Gretl, que é um software livre de código aberto, muito útil por ter uma interface amigável, em língua portuguesa e de utilização intuitiva.

RESUMO DO TÓPICO 1

14

Para fechar este tópico, queremos propor uma atividade para você. Como você está iniciando na econometria, vamos começar com calma, sem preocupação com o acertar, mas queremos que você se esforce para fazer o melhor possível. Ao longo do livro você aprenderá uma série de técnicas que lhe permitirá voltar a esse exercício no momento que desejar e testar cada uma das ferramentas econométricas que aprender.

Questão única – Com base no conhecimento que você adquiriu até agora ao longo do curso de Ciências Econômicas, procure lembrar de alguma teoria ou de algum aspecto que lhe chamou atenção e tente, a partir disso, elaborar um problema de pesquisa. Ao elaborar o problema, tente propor uma resposta para ele, mas não se preocupe se estiver certo ou errado, apenas faça a proposição de forma que você consiga identificar uma relação entre duas variáveis apenas. Procure defini-las adequadamente e baixe os dados da internet, salvando em uma planilha eletrônica que você consiga manipular. Com os dados em mãos, monte um gráfico de dispersão, colocando no eixo y a variável que você entende que depende da outra variável, a qual você colocará no eixo x. Olhando para esse gráfico e tendo em mente o que você já sabe sobre economia, procure analisar a sua hipótese e diga se é capaz de confirmá-la ou se terá que refutá-la. A que conclusões gerais você chegou com esse exercício? Procure escrever isso na forma de relatório, e na medida do possível, limite o conteúdo de forma a caber em apenas uma página.

AUTOATIVIDADEAUTOATIVIDADE

15

TÓPICO 2

MODELO DE REGRESSÃO LINEAR GERAL

UNIDADE 1

1 INTRODUÇÃO

Neste tópico, aprenderemos os conceitos básicos da econometria, os quais nos acompanharão enquanto estivermos estudando ou trabalhando na área econômica. São conceitos universais essenciais para compreender o funcionamento e a importância da econometria e sua aplicação prática. Por isso, vamos começar devagar, apresentando a análise de regressão, o modelo de regressão linear simples para finalmente entrarmos no método dos mínimos quadrados ordinários.

Antes de vermos cada um desses pontos, devemos nos lembrar de que a ciência econômica é repleta de teorias, as quais são sintetizadas em modelos econômicos, sendo eles mais ou menos complexos, dependendo da sua aplicabilidade. Mas o que é um modelo, afinal de contas? É o que veremos a partir de agora.

2 A MODELAGEM ECONÔMICA E A ORIGEM DOS DADOS ECONOMÉTRICOS

Como bem define Maddala (2003, p. 3), “um modelo é uma representação simplificada do mundo real.” A ideia de simplificar as relações torna mais fácil compreender o resultado das interações. Por exemplo, se estamos interessados em entender o motivo pelo qual o Comitê de Política Monetária do Banco Central (COPOM) altera a meta para a taxa básica de juros, podemos começar nossa análise dizendo que a sua decisão está baseada na expectativa que os agentes econômicos têm sobre o comportamento futuro dos preços.

O problema é que estimar uma função resposta do Banco Central com base apenas no comportamento dos preços torna esse nosso modelo simplista demais. Para resolver essa questão poderíamos supor que, mantendo inalteradas todas as demais variáveis que afetam a decisão do Bacen, a taxa básica de juros da economia brasileira será alterada de acordo com as mudanças nas expectativas em relação à inflação futura. Assim, aplicando a condição ceteris paribus, ou seja, fixando as demais variáveis, podemos nos concentrar naquilo que realmente nos interessa, que é compreender quanto de aumento ou diminuição nos juros nós teremos quando a inflação aumenta ou diminui.

UNIDADE 2


16

Poderíamos imaginar também que a safra agrícola brasileira dependerá, dentre outros fatores, da quantidade de fertilizantes utilizados nas lavouras. Claro que a maioria de nós gosta de consumir produtos naturais, ou seja, sem a adição de elementos químicos para alterar sua composição e assim produzir além do que produziria em um processo natural. Quando elaboramos um modelo capaz de explicar a safra agrícola, usando como explicação a quantidade de fertilizantes, estamos estabelecendo uma relação ceteris paribus para as demais variáveis que, de alguma forma, impactam na safra.

Como estudante de economia, você já deve ter feito o exercício de tentar enxergar todas as variáveis que afetam ou explicam um determinado fenômeno. No caso da safra agrícola, podemos pensar na quantidade de chuva durante o ano, medida em milímetros cúbicos, até mesmo na quantidade de sol, pensando em horas de luz por dia, no fato de a acidez do solo ter sido corrigida ou não, no método de plantio e até mesmo na época do ano em que o agricultor começou a plantação.

E no caso do Banco Central, você consegue enumerar quais são as variáveis que afetam a decisão do COPOM ao tomar sua decisão em relação a elevar, manter ou reduzir a taxa básica de juros?

Sugerimos que você dê uma lida na ata da última reunião do COPOM, disponível em <https://www.bcb.gov.br/?ATACOPOM>, e veja tudo o que é analisado pelo comitê para se chegar a um consenso sobre a decisão a ser tomada. Você perceberá que eles falam em cenários, e esses cenários são definidos com o uso de modelos econométricos que estudaremos na disciplina de Econometria II.

O Bacen usa modelos complexos, mas a ideia de impor restrições ao modelo ajuda a torná-lo simples, porém alguns pressupostos podem ser tão restritivos que os tornam irrealistas. Por isso, podemos começar com um modelo simples e ir adicionando outras variáveis até termos certeza de que temos o suficiente para representarmos a realidade (MADDALA, 2003, p. 4).

Uma forma de construir modelos é começando com uma proposição como aquela de Keynes sobre o consumo e a renda, apresentada no Tópico 1. Podemos falar em comportamento conjunto, dizer que uma variável provoca alterações em outra, ou é causada por outra, ou ainda varia em função de outra variável (GREENE, 2012, p. 51).

Costumamos definir a variável que provoca as alterações como “explicativa” enquanto a que sofre a mudança é a “explicada”. O termo “explicativa”, em econometria, é sinônimo de explanatória, independente, exógena, previsor ou

DICAS

TÓPICO 2 | MODELO DE REGRESSÃO LINEAR GERAL

17

regressor. Por outro lado, “explicada” é sinônimo de dependente, alvo, endógena, de efeito, variável de controle ou regressando.

As variáveis são construídas a partir de dados coletados geralmente na internet, em sites oficiais do governo ou de entidades privadas e de pesquisa onde as informações são divulgadas, tais como IBGE, Banco Central, IPEADATA, FMI, CNI, entre outros. Eles também podem ser coletados por meio de pesquisa de campo, ou seja, monta-se um questionário e o pesquisador vai a campo para aplicar e, posteriormente, tabular as informações coletadas.

Há ainda outras formas de se obter os dados, tais como em experimentos controlados em laboratório, o que dificilmente conseguiremos fazer em economia, porém é comum em outras áreas da ciência, como a Biologia, a Física, ou até mesmo em fábricas, quando querem testar algo novo. Esses dados podem ser de três tipos: séries temporais, dados de corte e painel de dados.

Um conjunto de dados é dito de séries temporais quando temos mudanças ao longo do tempo. Nós os representamos nos nossos modelos pelo subscrito “t”, por exemplo, Yt. Dessa forma, quando falamos na inflação anual do período compreendido entre 1994 e 2016, estamos relacionando o acumulado de cada ano em uma sequência. Da mesma forma, a variação percentual trimestral do Produto Interno Bruto ao longo do ano de 2016 também representa uma série temporal. Esses dados podem ser coletados com frequência intradiária (séries financeiras como preço de ações, câmbio etc.), diária, mensal, bimestral, trimestral, semestral, anual e assim por diante.

Dizemos que esse conjunto de dados faz parte da Macroeconometria, porque está relacionado a temas estudados na Macroeconomia, tais como:

a) Qual o efeito causado por mudanças na taxa básica de juros da economia brasileira sobre a inflação? Quando esse efeito começa e por quanto tempo ele dura?

b) Longos períodos de recessão costumam ter como custo social altas taxas de desemprego. Quais os efeitos da baixa produção e do desemprego sobre o nível de preços da economia?

Os dados de corte são aqueles obtidos em um determinado momento no tempo e representamos com o subscrito “i”, por exemplo, Yi. Esse subscrito indica que estamos tratando de indivíduos, que podem ser pessoas, estados, países, firmas etc.

Ao longo da série de dados não há alterações temporais. Esses dados de corte são objeto de estudo da Microeconometria e nos ajudam a responder questões, como:

a) Qual a relação entre gastos de campanha e número de votos na eleição presidencial de 2014?


18

b) A quantidade de alunos em sala de aula, na rede pública de ensino em 2017, é capaz de explicar o seu desempenho no ENEM?

c) Profissionais com menos idade, mas com o domínio de mais idiomas estrangeiros ganham mais do que profissionais mais velhos que dominam apenas um idioma estrangeiro?

Finalmente, o painel de dados, que também está relacionado à Microeconometria, junta tanto os dados de séries temporais quanto os dados de corte e suas séries são representadas pelos subscritos “i” e “t”, como em Yit. Isso significa que estamos nos referindo ao indivíduo “i” no período “t”. Em termos práticos, falamos na arrecadação tributária dos estados do Paraná (“i”) em 2014 (“t”), 2015 e 2016, estado de Santa Catarina em 2014, 2015 e 2016 e Rio Grande do Sul em 2014, 2015 e 2016. Aqui os indivíduos “i” são os estados, enquanto o período “t” são os anos de 2014 até 2016.

A tabela a seguir apresenta um exemplo de painel de dados. Como você pode perceber, nesse caso nós empilhamos as informações individuais ao longo do tempo, a fim de construir a base de dados e conseguir estimar os modelos econométricos:

TABELA 1 – PAINEL DE DADOS

Observação Ano País PIB(bilhões de US$) Desemprego (%) Inflação

(% ao ano)1 2013 Argentina 716,419 7,2 9,772 2014 Argentina 743,121 7,2 10,043 2015 Argentina 777,945 7,3 10,624 2013 Bolívia 50,904 5,8 9,885 2014 Bolívia 55,229 5,4 4,526 2015 Bolívia 59,195 3,2 5,737 2013 Brasil 2.294,243 6,0 6,648 2014 Brasil 2.355,586 5,5 5,409 2015 Brasil 2.423,306 6,6 6,2010 2013 Chile 299,632 6,1 3,3411 2014 Chile 320,54 6,4 3,0012 2015 Chile 334,76 5,9 1,7913 2013 Colômbia 471,964 10,9 3,4214 2014 Colômbia 502,874 10,4 3,1715 2015 Colômbia 527,565 10,5 2,02

FONTE: <www.imf.org>. Acesso em: 26 ago. 2018.

Empregamos painel de dados quando o número de dados de corte e de séries de tempo são insuficientes para fazermos o nosso estudo com qualidade. Com eles, podemos responder a perguntas do tipo:


19

3 ANÁLISE DE REGRESSÃO

Em 1886, Francis Galton publicou um artigo em que estudou as semelhanças familiares em estatura, explicando que a estatura média familiar gradualmente diminui ou regride à altura média da população como um todo (GALTON, 1886, p. 42). Isso ficou conhecido como regressão à mediocridade.

A ideia por trás dessa expressão é bem simples e se resume a algumas questões que Galton (1886) tentou responder:

1. Por que filhos de pais altos tendem a ser altos também, mas não tão altos quanto seus pais?

2. Por que filhos de pais baixos tendem a ser baixos também, mas não tão baixos quanto seus pais?

3. Por que pais de filhos altos tendem a ser altos, mas não tão altos quanto os seus filhos?

4. Por que pais de filhos baixos tendem a ser baixos, mas não tão baixos quanto os seus filhos?

Essas questões levantadas por Galton e que deram origem à expressão “regressão à mediocridade”, também podem ser observadas em outras áreas. Por que um atleta de alto nível tem um bom desempenho em uma temporada, mas na temporada seguinte seu rendimento cai? Por que um time de futebol brasileiro, ao disputar a final do mundial de clubes no fim da temporada, não tem o mesmo desempenho físico do início do ano?

Essa ideia de regressão é a que está na origem do termo que usamos hoje em dia, porém com um significado um pouco diferente. De um ponto de vista mais moderno, Maddala (2003, p. 32) diz que a “análise de regressão refere-se à descrição e à quantificação da relação entre uma dada variável (em geral chamada de variável explicada ou dependente) e uma outra ou mais outras variáveis (em geral chamadas de variáveis explicativas ou independentes)”.

a) Como o estoque de capital das cinquenta maiores empresas do Brasil impactaram nos seus investimentos brutos nos últimos três anos?

b) De que forma a estrutura de mercado impacta na decisão de inovar das indústrias brasileiras?

c) Qual o impacto dos grandes eventos esportivos (olimpíadas e copa do mundo), sobre o crescimento econômico dos países sede, após a crise de 2008?

O termo regressão e o significado de análise de regressão são assuntos a serem discutidos com mais detalhe na sequência. Ao desenvolvermos o modelo de regressão linear geral, iniciaremos a parte técnica dos nossos estudos, o que irá demandar bastante atenção de sua parte. Sugerimos que você leia mais de uma vez o conteúdo e faça todas as aplicações práticas usando o software econométrico que você escolheu.


20

Geralmente denotamos por Yi a variável dependente e por Xi a variável explicativa e podemos, com o auxílio da matemática, formular essa relação da seguinte maneira:

Yi = f (Xi) 2.1

f (Xi) = b + mXi 2.2

Yi = b + mXi 2.3

Em que f (Xi) é uma função de Xi, que estabelece a relação existente entre a variável explicativa e a explicada, e assume qualquer formato. Ela pode ser um polinômio de segundo grau, ou de terceiro, pode ser uma função recíproca, logarítmica, enfim, terá o formato que se ajusta melhor aos dados coletados relativos às variáveis.

Como nem sempre sabemos qual a especificação exata da função 2.1, recorremos à teoria econômica que na maioria das vezes nos dá uma pista para seguirmos. Outras vezes recorremos aos próprios dados, plotando um gráfico de dispersão e observamos o formato da distribuição dos dados. Dependendo da figura formada ou do caminho seguido pelas informações, podemos chegar à conclusão sobre qual a melhor equação a ser usada.

No caso da função consumo keynesiana, podemos esperar que a relação entre consumo e renda se dê de forma linear. Assim, representamos a função da seguinte forma:

Substituindo 2.2 em 2.1, temos a expressão:

A função linear em 2.3 nada mais é do que um polinômio de grau zero. Ela tem como características uma variável dependente Yi, explicada por uma constante b, e um coeficiente angular m, que é multiplicado pela variável explicativa Xi. Note, também, que estamos supondo uma relação de causalidade direta, matemática ou determinística entre as variáveis Yi e Xi.

Em 2.3, b geralmente não tem um significado econômico relevante. Algumas vezes até tem, mas isso veremos com o tempo ao longo desse livro. O que chama a atenção é que, quando o coeficiente angular m é igual a zero, Yi assume o valor de b.

Por outro lado, m é de extrema importância e é nesse parâmetro que geralmente concentramos toda a nossa atenção. A leitura que fazemos dele é


21

Yi = 85,6742 + 0,516Xi 2.4

Yi = b + mXi + ui = 85,6742 + 0,516Xi ± 6 2.5

direta, ou seja, se Xi variar uma unidade, Yi irá variar exatamente m. Expresso de outra forma, podemos entender essa variação como ∆Yi/∆Xi = m.

Supondo que Yi, na equação 2.3, represente a altura dos filhos e Xi, a altura dos pais, ambos em centímetros, e suponha que a constante b e o coeficiente angular m assumam os seguintes valores:

Em 2.4, para um pai que tenha 180 cm de altura, podemos esperar que o filho tenha 178,55 cm (Y180 cm = 85,6742 + 0,516 x 180 = 178,55 cm). Porém, sabemos que essa relação de altura entre pais e filhos, na prática, não pode ser determinada com exatidão por nenhuma fórmula matemática, pois há outros fatores que podem afetar o crescimento. Por exemplo, há medicamentos específicos usados em determinados tratamentos médicos que prejudicam o crescimento, a quantidade de exercícios físicos, o tempo de exposição ao sol, a genética, entre outros, que influenciam diretamente no crescimento das crianças.

Se trabalharmos com o conceito de probabilidade, podemos melhorar nossa capacidade de prever a altura dos filhos. Vamos reescrever a equação 2.4 para incluir o termo comportamental u, que terá valor de ± 6 cm, com probabilidade de 50%:

Substituindo Xi por 180 cm, teremos Y180cm = 184,55 cm, com probabilidade de 50% e Y180cm = 172,55 cm com probabilidade de 50% (faça esse cálculo para confirmar). O problema dessa variável ui é que normalmente só conhecemos a sua distribuição de probabilidade.

Podemos supor que ui tenha distribuição normal padrão, com média igual a zero e variância constante igual a 1. Se for este o caso, Yi, ou a altura dos filhos, poderá assumir qualquer valor e assim teremos que nos indagar sobre a relevância da equação 2.5 em termos práticos.

Se tivéssemos a nossa disposição os dados da altura de todos os pais do mundo inteiro, saberíamos que alguns pais com 185 cm de altura têm filhos com estatura ligeiramente acima dessa marca ou ligeiramente abaixo dela. Alguns até superam em muitos centímetros para mais ou para menos. Assim, a relevância da equação 2.5 é permitir que estimemos a altura média dos filhos de pais com 185 cm de estatura, ou ainda, nos dar a ideia de quanto um filho deverá ter de altura, em média, se os pais tiverem altura em torno de Xi. Devemos ter em mente que o valor exato da altura dependerá de outros fatores e que geralmente teremos uma ótima estimativa, mas acertar o valor correto é outra história.


22

Essa é uma maneira de regredir à altura média da população, como definiu Galton (1886), e por isso chamamos a função 2.5 de Função de Regressão Populacional. O termo populacional é empregado porque estamos supondo que temos acesso a toda a população de dados. Imagine você medindo a altura de todos os pais e filhos de todos os 7,6 bilhões de pessoas que vivem no mundo. Obviamente é inviável, por isso na prática estimamos uma Função de Regressão Amostral e inferimos estatisticamente os resultados, a fim de tentar prever da melhor forma possível os verdadeiros b e m da população.

Ao tentar explicar a altura dos filhos a partir da altura dos pais, se fixarmos esta última variável em categorias e obtivermos amostras da primeira, poderemos ilustrar melhor esse comportamento, como fizemos no Gráfico 1 a seguir:

GRÁFICO 1 – DISPERSÃO DA ALTURA DOS FILHOS E DOS PAIS EM CM200

195

190

185

180

175

170

165

160160 165 170 175 180 185 190 195

Altu

ra d

os

filh

os

em

cm

Altura dos pais em cm

FONTE: O autor

No eixo vertical está a nossa variável dependente, enquanto no eixo horizontal encontra-se a variável que a explica. Esse exemplo é hipotético e tem como objetivo apenas ilustrar e consolidar alguns conceitos importantes. Por exemplo, ao se fixar os dados da variável explicativa, pode-se obter diversas amostras da variável dependente e distribuir esses valores, criando as subpopulações amostrais.

Se tirarmos uma média dessas subpopulações amostrais e traçarmos uma reta ligando esses pontos médios, teremos aquilo que chamamos de reta de regressão ou curva de regressão. “Em termos geométricos, uma curva de


23

regressão populacional é apenas o local geométrico das médias condicionais da variável dependente para os valores fixados da(s) variável(is) explanatória(s)” (GUJARATI; PORTER, 2011, p. 61).

Isso deixa claro que essa reta conecta os valores médios condicionais E(Y|Xi) da variável dependente, e que essa média condicional aumenta conforme aumentam os valores da variável explicativa, demonstrando que há uma relação positiva entre as variáveis como haveria de se esperar.

Apenas para lembrar, o valor médio esperado “E” ou esperança matemática pode ser definida como:

1 1 2 2 1

nn n i ii

...E(X) X P(X ) X P(X ) X P(X ) X P(X )=

= + + + =Σ 2.6

Em que Xi é a observação i da variável X, P(Xi)é a função de probabilidade de X. Como exemplo, suponha que X = (3,5,7,9), assim,

1 1 1 1E(X)=3 +5 +7 +94 4 4 4

, o que equivale a 4114 6

iiE(X) X== =Σ .

4 O MODELO DE REGRESSÃO LINEAR SIMPLES

Um modelo de regressão linear simples tem um formato parecido com a equação 2.5, em que uma variável Y é explicada em termos de outra variável, a qual representamos por X. Esse modelo é usado para responder questões acerca da população, porém como o acesso a toda a população é muito custoso em termos de tempo e recursos financeiros, via de regra procuramos obter uma estimativa dos parâmetros e a partir daí fazemos inferências sobre a população.

Vamos voltar à equação 2.5 para reescrevê-la da seguinte forma:

Yi = β1 + β2Xi + ui 2.7

A equação 2.7 é conhecida como modelo de regressão linear simples e vamos nos dedicar a entender melhor a sua funcionalidade. Como você pôde perceber, as variáveis dependente e explicativa são exatamente as mesmas usadas anteriormente, enquanto os coeficientes mudaram, para que possamos começar a usar a terminologia padrão ou universal da econometria.

Aqui queremos chamar a sua atenção para uma variável em especial, o termo de erro ou perturbação estocástica ui. Além de ela perturbar uma relação estável entre as demais variáveis, também tem papel central na análise de


24

regressão. A sua função básica é representar todas as demais variáveis que de alguma forma possam afetar a variável dependente, mas que, por certas razões, não estamos considerando no estudo.

Por que precisamos incluir esse termo de erro na nossa equação? São diversos os motivos que nos levam a fazer isso. Um deles é o fato de que nem sempre conseguimos capturar todas as relações existentes com o modelo que escolhemos. Isso ocorre porque a teoria subjacente pode deixar algo em aberto, ou não ser precisa quanto às especificações.

Talvez até sejamos capazes de relacionar todas as variáveis que explicam um determinado fenômeno, mas obter os dados necessários para estudar essas relações nem sempre é possível. Outras vezes algumas das variáveis relacionadas não são relevantes ao ponto de serem utilizadas no estudo. Assim, capturamos o seu efeito através desse termo de erro estocástico.

Há ainda os erros de mensuração, uma vez que é mais fácil definir quais variáveis entram no modelo do que definir como são medidas ou obtidas. Um modelo que busca explicar o consumo das famílias em função da renda e da sua riqueza tornará difícil a tarefa de determinar ou medir a riqueza, que tem um caráter bem subjetivo e pouco preciso.

Assim, em 2.7 temos uma parte que é determinística, formada por β1 + β2Xi, e outra que é totalmente aleatória, ui, e usamos esse modelo para estimar os parâmetros desconhecidos, β1 e β2, e com base nesses resultados somos capazes até mesmo de fazer previsões sobre o comportamento esperado da nossa variável-alvo: Yi.

Em geral, se ∆ui = 0, então ∆Yi = β2∆Xi, e com isso as mudanças na variável dependente são explicadas por β2 multiplicada pelas variações em Xi, ou seja, a inclinação da reta de regressão formada a partir da equação 2.7.

5 AS HIPÓTESES DO MODELO DE REGRESSÃO LINEAR

Os manuais de econometria apresentam um conjunto de hipóteses que explica como o modelo de regressão linear é capaz de capturar as relações entre as diversas variáveis que entram no modelo. Se o nosso objetivo é apenas calcular os parâmetros do modelo, ou seja, os βs em 2.7, basta coletar os dados e estimar aqueles parâmetros usando um bom software econométrico. Porém, se o nosso objetivo for ir além da estimativa pura, e sempre queremos ir além, precisaremos estabelecer algumas regras, ou hipóteses que carregaremos conosco enquanto estudarmos e aplicarmos na prática o método econométrico.

A seguir, enumeramos essas hipóteses. Chamamos a sua atenção para o fato de usarmos o subscrito i, indicando que essa variável assume valores diferentes para cada indivíduo ao longo da sequência de dados.


25

a) Hipótese 1

O modelo de regressão especifica uma relação linear entre a variável dependente e a explicativa. Essa linearidade se dá nos parâmetros como em Yi = β1 + β2Xi + ui.

Uma função é dita linear nas variáveis quando essas não são divididas por outras variáveis ou quando não são elevadas à potência diferente de 1. Neste

caso, Yi = β1 + β2Xi2 + ui e 1 2

ii i

i

XY u

Zβ β= + + são exemplos de modelos que não são

lineares nas variáveis, porque elas são elevadas à potência diferente de 1, como no primeiro caso, ou são divididas por outra variável, como no segundo caso.

No entanto, esse tipo de função, que não é linear nas variáveis, não viola a hipótese 1 do modelo de regressão linear. Isso decorre do fato de que a linearidade que nos interessa é nos parâmetros. Com isso, modelos do tipo Yi = β1 + βi

2Xi + ui ou

do tipo 21

1i i iY X u

ββ

β= + + violam a hipótese 1, no sentido de que o parâmetro β2

no primeiro exemplo é elevado à potência diferente de 1 e no segundo exemplo, ele é dividido pelo parâmetro 1.

Gujarati e Porter (2011, p. 63) resumem bem a relação entre linearidade nos parâmetros versus linearidade nas variáveis. Podemos ter um modelo de regressão que seja linear nos parâmetros, mas não necessariamente linear nas variáveis. Por outro lado, podemos ter um modelo de regressão que não seja linear nos parâmetros, e ele pode ser linear nas variáveis ou não. Em síntese, o que nos interessa são os modelos de regressão que são lineares nos parâmetros, e não nos importamos se são ou não lineares nas variáveis, pelo menos não neste momento.

b) Hipótese 2

A variável X é não estocástica e seus valores são fixos em amostras repetidas. Isso significa que conhecemos os valores de X, que não são gerados ao acaso.

Por exemplo, pais com 180 cm de altura geram filhos mais altos ou mais baixos do que eles. Para sabermos a probabilidade de os filhos serem maiores ou menores, tomamos várias amostras de filhos cujos pais têm a altura de 180 cm. Em outras palavras, repetimos a amostra várias vezes, mas condicionamos ou fixamos a altura dos pais para podermos coletar os dados. No entanto, apesar de fixarmos os valores nas amostras repetidas, os valores individuais de X devem variar, pois se cada valor de Xi for igual ao outro, a sua média X será igual aos Xi individuais, e com isso não conseguiremos calcular o coeficiente β2, como veremos adiante.


26

A reta de regressão é dada por E(Y|Xi) = β1 + β2Xi. Substituindo em 2.7, temos:

c) Hipótese 3

A média condicional do termo de erro é igual a zero. Em termos algébricos, estamos dizendo que E(ui|Xi) = 0. Podemos ilustrar essa hipótese por meio da figura a seguir:

FIGURA 1 – DISTRIBUIÇÃO CONDICIONAL DOS TERMOS DE ERRO

FRP: Yi = β1 + β2Xi

X1 X2 X3 X4

Y

X

+ui

-ui

FONTE: Gujarati e Porter (2011, p. 85)

Para que a média condicional do termo de erro seja zero, precisamos retomar à equação 2.7:

Yi = β1 + β2Xi + ui 2.8

Yi = Yi – E(Y|Xi) 2.9

Resolvendo a equação para ui, temos:


27

var(ui|Xi) = E[ui – E(ui|Xi)]2 2.10

var(ui|Xi) = E(ui2|Xi) 2.11

Volte novamente à Figura 1. Veja que para qualquer valor de Xi há diversos pontos acima e abaixo do valor médio, o qual se situa sobre a reta de regressão, expressa por Yi = β1 + β2Xi, que, já sabemos, equivale a E(Y|Xi). A distância entre os diversos valores de Y e o valor médio é chamado de termo de erro e aqui representamos por E(ui|Xi).

Perceba, ainda, que os valores de ui acima da reta de regressão são positivos, pois neste caso Yi – E(Y|Xi) > 0. Por outro lado, os valores de ui abaixo da reta de regressão são negativos, pois Yi – E(Y|Xi) < 0. Podemos finalmente concluir que, se tirarmos a média dos diversos ui obteremos o valor zero, pois os valores positivos encontrados anulam os valores negativos.

Você pode verificar isso com um exemplo simples. Seja Y = (3, 5, 7, 9), como vimos anteriormente, E(Y) = 6, e se fizermos Y – E(Y) teremos Y – E(Y) = [(3 – 6) + (5 – 6) + (7 – 6) + (9 – 6)] = 0.

d) Hipótese 4

Os erros ui são homoscedásticos e não apresentam autocorrelação. A homoscedasticidade tem um sentido de espalhamento simétrico da dispersão em torno do valor médio. Isso significa que, para cada Xi, corresponde um conjunto de valores observados de Y.

Sabemos que o termo de erro é medido pela distância entre o valor médio de Yi relativo a cada Xi. Ter erros homoscedásticos significa que não importa o valor de Xi, a distribuição de probabilidade dos erros é simétrica e constante, como em uma curva de Gauss, ou “curva de sino”, se você preferir, visto na Figura 1.

Como sabemos, a média dos erros é igual a zero, ou seja, E(ui|Xi) = 0, a hipótese de homoscedasticidade implica que a variância condicional do termo de erro deve ser constante:

Sabemos que E(ui|Xi) = E(ui2|Xi), isso nos leva a:

Também sabemos que o quadrado de um número negativo tem por resultado um valor positivo. Dessa forma, a variância condicional do termo de erro é um número positivo e constante. Em termos algébricos, temos:


28

var(ui|Xi) = o2 2.12

cov(ui, uj|Xi, Xj) = E[ui – E(ui

)]|Xi[uj – E(uj

)]|Xj 2.13

cov (ui, uj|Xi, Xj) = E(ui|Xi

(uj|Xj) 2.14

cov (ui, uj|Xi, Xj) = 0 2.15

E se a variância não for constante? Neste caso teremos o problema da heteroscedasticidade, que será objeto de estudo mais adiante, na Unidade 3.

O outro ponto dessa hipótese diz respeito à ausência de autocorrelação entre os termos de erro. Isso significa que a convariância condicional entre os termos deve ser nula:

Já sabemos que E(ui|Xj) = 0, e isso também é válido para E(uj|Xj

) = 0. Com isso, temos:

Em termos práticos, a covariância condicional igual a zero significa que um termo de erro condicionado a Xi não pode influenciar o outro termo de erro condicionado a Xj. Devido a sua complexidade, exploraremos mais esse conceito adiante, na Unidade 3.

Gujarati e Porter (2011) apresentam ainda outras hipóteses, tais como a ausência de covariância entre ui e Xi, ou seja, E(ui Xi

), a necessidade de a nossa amostra ser grande o suficiente para que o número de observações seja maior do que a quantidade de parâmetros a serem estimados e a necessidade de o modelo estar corretamente especificado.

As hipóteses que enumeramos são suficientes, por enquanto, para avançarmos em nossos estudos. Em breve apresentaremos outras hipóteses, à medida que necessitarmos de técnicas mais apuradas na solução dos nossos problemas. Por exemplo, quando estivermos analisando um modelo de regressão múltiplo, precisaremos que as variáveis X não sejam colineares. Mas isso ficará para outro momento, primeiro precisamos saber como estimar os parâmetros do modelo de regressão, e para isso aplicaremos o método de mínimos quadrados ordinários.

29

RESUMO DO TÓPICO 2

Nesse tópico, você aprendeu que:

• Existem os conceitos básicos da econometria, tais como variável dependente e explicativa, os tipos de dados usados no processo econométrico (dados de corte, séries temporais e painel de dados).

• O termo “regressão”, cunhado por Francis Galton em 1886, tinha um sentido de regressão à mediocridade. Atualmente tem um sentido de análise da relação quantitativa existente entre duas variáveis, a dependente e a explicativa.

• Estudamos o modelo de regressão linear simples, que diferentemente do modelo matemático determinístico apresenta uma forma estocástica com a inclusão do termo de erro, uma variável aleatória que captura o sentido ceteris paribus na econometria.

• As hipóteses do modelo clássico de regressão linear devem ser observadas se quisermos ir além da estimação pontual dos parâmetros do modelo de regressão.

30

1 Sobre os principais conceitos da econometria, relacione a coluna da direita com a da esquerda:

AUTOATIVIDADE

( A ) Variável dependente ( ) Tem a capacidade de influenciar outras variáveis.

( B ) Variável explicativa ( ) A arrecadação tributária do Paraná, Santa Catarina e Rio Grande do Sul em 2004, 2008 e 2012.

( C ) Séries temporais ( ) O IDH de todos os municípios brasileiros em 2010.( D ) Dados de corte ( ) Aquela que é explicada por outras variáveis.( E ) Painel de dados ( ) O rendimento da poupança nos últimos 24 meses.

2 Suponha que estimamos uma regressão cujo resultado é Yi = 1.200 + 0,73Xi, em que Yi representa o consumo de um determinado grupo de famílias e Xi a renda recebida por essas famílias:

a) Qual deve ser o consumo estimado para uma família sem renda? b) Qual deve ser a renda de uma família que tem um consumo de $ 5.000?

3 Uma das hipóteses do modelo de regressão linear é que a linearidade deve ocorrer nos parâmetros. Sendo assim, responda “V” quando se tratar de uma função linear nos parâmetros e “F” quando a função não for linear nos parâmetros:

a) ( ) Yi = β1 + β2Xi + ui

b) ( ) Yi = β1 + β2X5 + ui

c) ( ) Yi = β1 + (β1 X β2) Xi + ui

d) ( ) i ii

Y uX

β β= + +1 21

4 Considerando as seguintes sequências de eventos aleatórios: Y = 3, 7, 12, 17 e X = 5, 9, 15, 19, calcule:

a) A média de Y, representada por i iYY == Σ41

14

e a média de X, representada

por i ixX == Σ41

14 .

b) A soma dos desvios de Y e X em relação a sua média: Yi i iu YY= = −Σ4

1 e Xi i i

u XX= = −Σ41 .

c) A variância de Y, dada por i iVar(Y) (Y Y)== −Σ4 21

14

e a variância de X, dada por i iVar(X) (X X)== −Σ4 2

114

.

31

TÓPICO 3

MÉTODO DOS MÍNIMOS QUADRADOS

ORDINÁRIOS

UNIDADE 1

1 INTRODUÇÃO

No tópico anterior, estudamos o modelo clássico de regressão linear. Aprendemos alguns conceitos e vimos as hipóteses relevantes que estão por trás de praticamente toda análise de regressão. O único problema é que o que vimos anteriormente se refere a uma situação em que o pesquisador tem acesso aos dados de toda a população de dados, ou dizendo em linguagem matemática, é como se tivéssemos a nossa disposição o conjunto universo dos dados.

Na prática existe um custo elevado para você acessar toda a população de dados. Aqui não estamos falando apenas em termos monetários, mas em termos de tempo dispendido ou de mão de obra empregada na pesquisa. Imagine que você queira investigar se a estatura do pai é capaz de influenciar a altura dos filhos. Como você levantaria as informações necessárias, ou melhor dizendo, como você faria para saber qual é a altura de cada indivíduo? Provavelmente você precisaria entrevistar as pessoas e medi-las. Uma coisa é você medir a altura de 100 pais e, digamos, 200 filhos (supondo dois filhos em média por pai), outra coisa é medir a altura de mais de 100 milhões de pais e outros duzentos milhões de filhos.

É por isso que empregamos a técnica da amostragem a fim de responder aos nossos problemas de pesquisa. Primeiro identificamos a população que tem as características que iremos estudar, por exemplo, os pais e os filhos. A partir daí, extraímos uma amostra representativa e montamos o nosso estudo.

A grande pergunta é: Como estimar essa relação entre variável dependente e explicativa com base em amostragem e ter certeza que temos em mãos resultados precisos? Para isso recorremos a um ferramental técnico-matemático e estatístico que nos permite não apenas chegar aos resultados buscados, mas ter certeza de que eles não são espúrios.

Este, que é o último tópico da Unidade 1, é também o mais extenso e o que envolve mais questões práticas. É aqui que começamos a sujar as mãos de verdade para aprender a econometria. Tenha em mente que essa disciplina envolve muita prática e que é indispensável que você faça todas as atividades propostas e vá além, pesquisando informações e lendo os estudos que outros pesquisadores fizeram. Isso o ajudará a conciliar a teoria com a prática e permitirá que você tenha uma perspectiva clara em relação ao tipo de economista que pretende ser.

32


2 A FUNÇÃO DE REGRESSÃO AMOSTRAL E SUAS CARACTERÍSTICAS

O objetivo da análise de regressão é estimar os parâmetros do modelo econométrico derivado da teoria subjacente, de forma mais precisa e confiável possível. Como não temos acesso à população de dados ou ao conjunto universo, recorremos a um subconjunto ou à amostragem cujas técnicas são discutidas nos livros de estatística que compõem as referências bibliográficas desse livro de estudos.

Estimar parâmetros significa calcular os βs da Função de Regressão Populacional 3.1, de forma a obter os resultados expressos em 3.2, que é a nossa Função de Regressão Amostral:

FRP Yi = β1 + β2Xi + ui 3.1

Esse chapéu (^) que vemos na equação 3.2 significa que estamos diante dos estimadores, ou seja, de valores que esperamos serem o mais próximo possível dos verdadeiros valores encontrados na população, caso tivéssemos acesso a todas as informações existentes. Assim, iY nada mais é do que uma estimativa de E(Y|Xi), enquanto β1 e β2 são estimativas de β1 e β2 e o resíduo (por se tratar de uma amostra) ˆ é o estimador do termo de erro estocástico (que se refere à população) ui.

Em termos práticos, raramente teremos acesso aos verdadeiros parâmetros populacionais, mas temos condições de obter a melhor estimativa possível se empregarmos a técnica correta e tomarmos os cuidados necessários, como veremos adiante. Com isso esperamos que, usando as estimativas da Função de Regressão Amostral, sejamos capazes de determinar:

3.2FRA i i iˆ ˆ ˆY X uβ β= + +1 2

3.3i i iY X uˆ ˆ ˆβ β= + +1 2

A relação entre FRP e FRA pode ser vista na Figura 2, em que você deve perceber que a nossa FRA não tem o mesmo desenho da FRP (inclinação e interceptos diferentes). Isso acontece pelos motivos que já conversamos e porque o máximo que conseguimos a partir da FRA é uma estimativa dos parâmetros da FRP. Se tomarmos outra amostra é bem possível que a curva de regressão da nossa FRA tenha outros parâmetros, e assim sucessivamente, à medida que formos obtendo novas amostras e fazendo novas estimativas. Porém, se repetirmos muitas vezes a amostragem, veremos que em média os valores dos parâmetros de 3.3 tendem a convergir aos valores dos parâmetros de 3.1.

TÓPICO 3 | MÉTODO DOS MÍNIMOS QUADRADOS ORDINÁRIOS

33

FIGURA 2 – REPRESENTAÇÃO DAS LINHAS DE REGRESSÃO

Verdadeiro Y

da poulação

Obtido pela

À esquerda do ponto "A", a

FRA subestima a verdadeira

FRP, enquanto que à direita de

"A", a FRA superestima a

verdadeira FRP.

FRP → E(Y|Xi) = β1 + β2Xi

FRP E(Y|Xi)=

XiX

E(Y|Xi)

Yi

ui

Yi

Y

A

Resíduo

Desvio

i iFRA Y Xβ β→ = +1 2



iu

FONTE: Adaptado de Gujarati e Porter (2011, p. 69)

No gráfico fica muito clara a definição de desvio, que é a diferença entre o verdadeiro valor de Yi e o seu valor médio da população E(Y|Xi). Também fica clara a definição de resíduo, ou seja, a distância entre o verdadeiro valor de Yi e o seu valor estimado pela equação 3.2. Também podemos ver que, como não conhecemos os verdadeiros valores dos parâmetros populacionais, os βs, a nossa linha de regressão em alguns momentos subestimará a verdadeira reta de regressão e, em outros, ela superestimará aquela reta.

No fim das contas, o grande segredo está na obtenção de estimadores precisos, como mencionamos, e para fazer isso existe um grande número de técnicas de estimação, porém a mais popular é a de Mínimos Quadrados Ordinários, e também é a mais eficiente, como veremos a seguir.

3 ESTIMATIVA DOS PARÂMETROS POR MÍNIMOS QUADRADOS ORDINÁRIOS

Se voltarmos nossa atenção novamente à FRP e à Figura 2, veremos que existe uma diferença entre o valor médio condicionado de Y, dado por E(Y|Xi) e o verdadeiro valor obtido na população. Essa diferença chamamos de termo de erro estocástico ou desvio e a representamos por ui:

34


3.4Yi = β1 + β2Xi + ui

Ao obtermos a estimativa dos parâmetros de 3.4, usando a FRA, temos:

3.5i i iY X uˆ ˆ ˆβ β= + +1 2

3.7i i iu Y Yˆ = −

3.6 ii iY Y u= +

A equação 3.5 pode ser reescrita como:

Assim, para sabermos o valor do verdadeiro Yi da população, precisamos estimar um valor para E(Y|Xi), o qual é representado por iY , e a esse valor somamos o resíduo da função iu , como pode ser visto em 3.5 e na Figura 2. O segredo, portanto, é obter uma estimativa precisa errando o mínimo possível.

Para minimizar os desvios, primeiro resolvemos 3.6 para iu conforme 3.7:

Sabemos que a soma dos resíduos é zero, ou seja, n

iiu

==Σ 1

0 , por isso tentar minimizar a soma dos desvios não é possível. Uma saída possível poderia ser minimizar a soma em módulo dos desvios, porém alguns valores são maiores do que os outros e, se fizermos assim, estaremos atribuindo o mesmo peso a todos eles.

A melhor opção é minimizar a soma dos quadrados, como em 3.8:

3.8 n ni iii i

u (Y Y )= =

= −Σ Σ2 21 1

Dessa forma penalizamos os resíduos maiores e conseguimos obter uma estimativa mais precisa dos parâmetros. Como n

iii(Y Y )

=−Σ 2

1 implica em

ni ii

(Y X )β β=

− −Σ 21 21

, em última análise, a soma dos quadrados dos resíduos é uma função dos parâmetros que pretendemos estimar, o que significa que basta fazer diversas simulações para os parâmetros e escolher β 1 e β 2 cuja soma dos quadrados seja a menor dentre todas.

Obviamente essa tarefa é muito custosa, mas felizmente aprendemos em matemática que, para minimizar uma função escolhendo um parâmetro, a técnica de diferenciação é a que deve ser empregada.


35

3.11Xˆ Y ˆβ β= −1 2

Para diferenciarmos, especificamos a função e as restrições como:

3.9( )i i,ˆ ˆ iˆmin Yu Xˆ

β ββ β∑ = ∑ − −

1 2

221 2

3.10( )ii i

uY X

ˆ ˆ ˆˆ β ββ

∂∑− ∑ − −

∂

2 2

1 21

2

3.12( )ii i i

uY

ˆXˆ Xˆ

ˆ β ββ

∂∑− ∑ − −

∂

2

1 22

2

3.13( )( )

( )i i

i

Yˆ X X Y

X Xβ

∑ − −=

∑ −2 2

3.14i i

i

ˆ x yx

β∑

=∑2 2

Diferenciando 3.9 em relação a β1 obtemos:

Após alguns algebrismos cansativos, cuja demonstração pode ser encontrada com facilidade nas obras de referência, obtemos a nossa estimativa para β1:

O mesmo procedimento é aplicado em 3.9 para obter o β2 :

Resolvendo para β2 e após algumas manipulações, obtemos:

Por simplificação, podemos fazer ( )i ix X X= − e ( )i iy Y Y= − e assim obter:

No Quadro 2 temos dados aleatórios referentes à altura dos filhos em cm, representada por Y, e a altura dos pais em cm, representada por X. Com base nas equações 3.11 e 3.14 estimaremos os valores de β1 e β2.

36


O primeiro passo é obter os valores de yi, xi, xiyi e xi2, o que não é muito

difícil de fazer quando você tem poucas observações como no Quadro 2, porém, para uma base de dados muito grande, fazer esses cálculos manualmente se torna uma tarefa complicada e um simples erro pode gerar resultados questionáveis.

QUADRO 2 – ALTURA DOS PAIS E FILHOS EM CM

(a) (b) (c) (d) (e) (f)

Obs. Y X yi Yi Y= = xi Xi X= = xiyi xi2

1 166 165 -13,2 -13,5 178,2 182,252 168 168 -11,2 -10,5 117,6 110,253 169 171 -10,2 -7,5 76,5 56,254 176 174 -3,2 -4,5 14,4 20,255 180 177 0,8 -1,5 -1,2 2,256 179 180 -0,2 1,5 -0,3 2,257 185 183 5,8 4,5 26,1 20,258 186 186 6,8 7,5 51 56,259 188 189 8,8 10,5 92,4 110,2510 195 192 15,8 13,5 213,3 182,25

Soma 1792 1785 0 0 768 742,5Média 179,2 178,5 0 0 76,8 74,25

FONTE: O autor

Após obter as séries de yi, xi, xiyi e xi2 apresentadas nas colunas c até f no

quadro, aplicamos esses resultados na equação 3.14 e obtemos:

3.15i i

i ,ˆ x y

,x

β∑

= = =∑2 2

768 1 0343742 5

Substituindo o resultado de 3.15 na equação 3.11 teremos:

3.16*ˆ Y X , , ,ˆ ,β β= − = − = −1 2 179 2 1 0343 178 5 5 43

3.17i iY , , X= − +5 43 1 0343

Concluímos a nossa estimação formando a FRA da seguinte forma:


37

Em 3.17 podemos ver um intercepto β1 negativo, porém sem um significado prático evidente. Imagine você, que por se tratar do intercepto em uma equação linear, ele representa o valor de Yi quando Xi é zero. Neste caso, não podemos pensar em um pai sem altura alguma (caso em que Xi seria zero). Por outro lado, β2, ao representar o coeficiente angular da função linear, indica o quanto da altura do pai que se transfere para o filho de forma hereditária. Claro que estamos diante de uma relação puramente matemática ou estatística, ou seja, não podemos falar aqui de relação de causalidade, como alertam Gujarati e Porter (2011, p. 43).

Como vimos, a ideia aqui é minimizar a soma dos quadrados dos resíduos, o que nos garante que estamos diante dos melhores estimadores possíveis. A seguir, veremos que esses estimadores possuem propriedades importantes e daremos sequência aos nossos estudos, porque, afinal de contas, não basta calcular os valores, é preciso ter certeza de que eles são confiáveis.

4 PROPRIEDADES NUMÉRICAS DOS ESTIMADORES

Anteriormente vimos as hipóteses do modelo clássico de regressão linear, agora veremos as propriedades numéricas dos estimadores de MQO, as quais se mantêm, independentemente da forma como os dados foram gerados (GUJARATI; PORTER, 2011, p. 81):

1. nii u= =Σ 1 0 : os resíduos gerados pelo método de mínimos quadrados ordinários

têm soma zero. Essa regra também se aplica à média dos resíduos, ou seja, ( )iE u = 0 .

2. ni iiXu

==Σ 1

0 : isso equivale a dizer que não existe covariância entre os resíduos e os regressores. Poderíamos representar essa propriedade como ( )i iE u X = 0 , ou ainda ( )i ic ˆov u X .= 0 Em termos práticos ela indica que a distribuição de iu não depende de Xi.

3. niii u Y= =Σ 1 0 : da mesma forma que a propriedade 2, nesta vemos que não há

covariância entre os resíduos e o valor estimado de Yi. Isso quer dizer que os resíduos são independentes tanto de Xi quanto de iY .

4. Os valores médios de X e Y sempre estarão sobre a reta de regressão. Dito de outra forma, se pegarmos o resultado da regressão em 3.17 e substituirmos o valor de Xi pela sua média, 178,5, o resultado deverá ser a média de Yi, ou seja, 179,2. Vamos deixar para você o desafio de verificar essa afirmação na prática.

A demonstração dessas propriedades pode ser vista no Quadro 3. A questão que fica agora é: Quão precisas são essas estimativas? Além disso, se empregássemos outro método para obter os estimadores, será que ainda assim escolheríamos aqueles obtidos por MQO?

38


Ainda estamos no início da nossa jornada e é natural surgirem essas dúvidas e muitas outras. Por isso, precisamos agora nos concentrar em aferir o nosso modelo e usaremos o ferramental estatístico de que dispomos para fazer diversos testes a fim de nos certificarmos de que estamos diante de estimativas confiáveis.

QUADRO 3 – ALTURA DOS PAIS E FILHOS EM CM, COM VALORES ESTIMADOS

Obs. Y X i iY Xβ β= +1 2

ii iu = Y - Y i iu Xi iu Y

1 166 165 165,2364 0,7636 126 126,18052 168 168 168,3394 -0,3394 -57,0182 -57,13343 169 171 171,4424 -2,4424 -417,6545 -418,73514 176 174 174,5455 1,4545 253,0909 253,88435 180 177 177,6485 2,3515 416,2182 417,74316 179 180 180,7515 -1,7515 -315,2727 -316,58907 185 183 183,8545 1,1455 209,6182 210,59708 186 186 186,9576 -0,9576 -178,1091 -179,02609 188 189 190,0606 -2,0606 -389,4545 -391,640010 195 192 193,1636 1,8364 352,5818 354,7187

Soma 1792 1785 1.792 0,0000 0,0000 0,0000Média 179,2 178,5 0,00 0,0000 0,0000 0,0000

FONTE: O autor

No Quadro 3, a coluna que contém os valores de Yi foi obtida usando os

parâmetros calculados em 3.17, ou seja, Yi = –5,43 + 1,0343X

i.

ATENCAO

^

5 TESTES ESTATÍSTICOS

Depois de calcular os estimadores dos parâmetros do nosso modelo, precisamos saber quais características esperamos encontrar neles. Obviamente queremos estimadores precisos, não tendenciosos e eficientes.

Iniciamos nossa análise com uma medida de precisão, o desvio padrão. Sabemos da estatística que o desvio padrão de uma variável aleatória nada mais é do que a raiz quadrada da variância. Essas duas medidas nos dizem quão disperso um valor obtido através de uma estimativa está do valor esperado.


39

As medidas de dispersão nos indicarão se nossas estimativas estão centradas em torno dos verdadeiros valores dos parâmetros, os quais só saberíamos se tivéssemos acesso a todas as informações disponíveis da população. Com isso, supondo que os desvios são homoscedásticos, ou seja, var(ui|Xi) = o2 – um número constante e positivo –, obtemos a variância dos estimadores de mínimos quadrados dos parâmetros, como:

3.18( )( )

i

i

Xva

n X Xˆr β σ

∑=

∑ −

22

1 2

3.19( )( )i

var ˆX X

σβ =∑ −

2

2 2

3.20( )( )

i

i

Xe

n X Xˆp β σ

∑=

∑ −

2

1 2

3.21( )( )i

ep ˆX X

σβ =∑ −

2 2

3.22iuˆn

σ∑

=−

22

2

Em que n é o tamanho da amostra. A partir das equações 3.18 e 3.19, obtemos facilmente o erro padrão ou desvio padrão:

O problema das equações acima é que não sabemos qual o valor da variância dos desvios o2, pois se trata de um parâmetro populacional e, por razões já discutidas, nós só dispomos de uma amostra. O desvio agora é obter um estimador para o2.

Para uma estimativa da variância, usaremos a equação 3.22:

Obviamente, o desvio padrão é obtido da seguinte forma:

40


O denominador das equações 3.22 e 3.23 é n – 2, porque, ao calcular a variância, e consequentemente o desvio padrão, perdemos dois graus de liberdade. Os graus de liberdade são o tamanho da amostra e as perdas se devem em função dos parâmetros estimados, ou seja, β 1 e β 2. Isso garante que, com o aumento do tamanho da amostra, a precisão dos estimadores também aumente, pois vamos nos aproximando cada vez mais do número de observações existente na população e com isso a dispersão em torno do valor médio diminui.

Agora podemos reescrever as equações 3.18 até 3.21 e assim obter os estimadores da variância e dos desvios padrão dos nossos βs:

3.24( )( )

i

i

ˆ ˆXvar

n X Xβ σ

∑=

∑ −

22

1 2

3.25( )( )i

var ˆX X

σβ =∑ −

2

2 2

3.26( )( )

i

i

Xe ˆ

n Xˆp

Xβ σ

∑=

∑ −

2

1 2

3.27( )( )i

ep ˆX X

σβ =∑ −

2

2 2

Para avançarmos em nosso estudo e podermos trabalhar com os testes estatísticos, que validarão o nosso modelo econométrico estimado, o termo de erro deve ter distribuição normal. Essa condição de normalidade é indispensável para a inferência estatística, e as razões teóricas nas quais nos baseamos para usá-la são a Lei dos Grandes Números e o Teorema do Limite Central.

A Lei dos Grandes Números tem a ver com o tamanho da amostra e por isso tem um sentido de assimptótico, ou seja, de aumento indefinido. De uma forma simples e prática, significa que, à medida que a amostra cresce tendendo ao infinito, a média amostral converge para a média populacional (SARTORIS, 2013).

3.23iuˆn

σ∑

=−

2

2


41

Por sua vez, o Teorema do Limite Central diz que se a variável for distribuída de forma independente e identicamente, e a amostra for suficientemente grande, a média amostral da variável em questão terá distribuição normal, ou seja, converge em distribuição para normal (SARTORIS, 2013).

Dessa forma, dizemos que ui tem distribuição normal com média E(ui) = 0, variância E(ui

2) = o2 e covariância E(ui,uj) = 0, para todo i ≠ j, e representamos como:

3.28ui~N(0,o2)

Em que ~ deve ser lido como “é distribuído como”, N indica o tipo de distribuição de probabilidade, que neste caso é o normal. O primeiro termo entre parênteses indica a média, e já vimos que é igual a zero e o segundo termo é a variância (um número constante e finito).

Além da distribuição normal dos erros, há outras propriedades desejáveis em um estimador, tais como não tendenciosidade, variância mínima (eficiência) e consistência (convergem para os verdadeiros valores da população). Essas propriedades são encontradas nos estimadores de mínimos quadrados ordinários.

Se as hipóteses do modelo clássico de regressão linear se mantiverem e o termo de erro tiver distribuição normal, o teorema de Gauss-Markov pode ser aplicado. Esse teorema nos diz que, dentre todos os estimadores lineares não tendenciosos existentes, os que são gerados pelo método de mínimos quadrados ordinários são os que têm variância mínima. Isso garante que estamos diante dos melhores estimadores lineares não tendenciosos, que em inglês é representado pela sigla BLUE (Best Linear Unbiased Estimator).

Para entender melhor o que acabamos de discutir, lembre-se de que os estimadores que calculamos em 3.17 foram obtidos com base em uma única amostra. Portanto, tratam-se de estimadores pontuais. Se tirarmos outra amostra da população, é provável que os resultados estimados sejam diferentes. Assim, se fizermos 100 amostras diferentes, obteremos 100 estimadores também diferentes. No entanto, se tirarmos a média desses estimadores, seus valores se aproximarão em muito dos verdadeiros valores populacionais. Em outras palavras, o E(β1) = β1 e E(β2

) = β2 , ou seja, essa convergência é o que garante a eficiência desses estimadores.

Para uma verificação prática dessa propriedade, suponha um parâmetro estimado, digamos ө, com média 5 e variância 2. Suponha ainda que tenhamos outros dois estimadores com exatamente a mesma média, só que com variância 4 e 6, respectivamente. Dentre esses três estimadores, qual é o mais eficiente?

A resposta você mesmo pode obter abrindo o Gretl e seguindo os seguintes passos:

42


FIGURA 3 – GRÁFICOS DE DISTRIBUIÇÕES

FONTE: Adaptado de Gretl (2018)

2. Na tela seguinte, altere os parâmetros da média para 5 e do desvio padrão para 2 e pressione o botão ok para confirmar (Figura 4):

FIGURA 4 – DISTRIBUIÇÃO NORMAL DO PRIMEIRO PARÂMETRO


3. O passo anterior gerará um gráfico de distribuição normal, com média cinco e variância igual a quatro. Clique com o botão direito do seu mouse sobre o gráfico e escolha “Acrescentar outra curva...” (Figura 5):

1. Vá no menu “Ferramentas” e escolha “Gráficos de distribuições” (Figura 3):


43

FIGURA 5 – ACRESCENTAR OUTRA CURVA


4. Na janela que abrir, você deve alterar apenas o desvio padrão para 4 e posteriormente para 6. O resultado será idêntico ao do Gráfico 2:

GRÁFICO 2 – EFICIÊNCIA DE UM ESTIMADOR

0,2

N(5 4)

N(5 16)

N(5 36)

0,15

0,1

0,05

0-30 -20 -10 0 10 20 30 40


44


Com base nos resultados apresentados no Gráfico 2 é possível perceber que o estimador mais eficiente é o primeiro, que apresenta a menor variância, representada pela curva N (5,4). Via de regra, sempre escolheremos o estimador com menor variância, porque é ele que tem a maior probabilidade de estar próximo do verdadeiro parâmetro populacional.

Para calcular a variância e o desvio padrão dos coeficientes estimados, usamos as equações precedentes, como descrito no quadro a seguir:

QUADRO 4 – CÁLCULO DA VARIÂNCIA E DESVIO PADRÃO DOS COEFICIENTES ESTIMADOS

Parâmetro Equação Cálculo

σ 2 iuˆn

σ∑

=−

22

2,ˆ ,σ = =−

2 27 2242 3 403010 2

σ iuˆn

σ∑

=−

2

2ˆ , ,σ = =

−27 2242 1 844710 2

( )var β1 ( )( )

i

i

ˆ ˆXvar

n X Xβ σ

∑=

∑ −

22

1 2 ( ) .var , ,,

ˆ*

β = =1319 365 3 4030 146 3702

10 742 5

( )ep β1 ( )( )

i

i

Xe ˆ

n Xˆp

Xβ σ

∑=

∑ −

2

1 2 ( ) .ep * , ,*

ˆ,

β = =1319 365 1 8447 12 0982

10 742 5

( )var β2( )

( )i

var ˆX X

σβ =∑ −

2

2 2 ( ) ,var ,,

β = =23 4030 0 0046742 5

( )ep β2 ( )( )i

ep ˆX X

σβ =∑ −

2

2 2 ( ) ,ep ,,

β = =23 4030 0 0677742 5

FONTE: O autor

Como você pôde perceber no Quadro 4, deixamos para você a tarefa de calcular algumas das variáveis que entram nas equações. Porém, como você deve ter percebido, ter a capacidade de fazer esses cálculos conseguindo ler as fórmulas matemáticas é indispensável no estudo econômico. A ideia até aqui era permitir que você tivesse acesso a uma base de dados e, ao se deparar com fórmulas matemáticas, fosse capaz de ler e interpretar o seu significado. Entender a engenharia por trás dos resultados é fundamental para compreender o seu significado.

Os coeficientes estimados, as variâncias dos parâmetros e seus respectivos desvios padrão, por si só, não são suficientes para responder a todas as perguntas relevantes que fazemos quando decidimos testar uma teoria econômica. Lembrando que essas estimativas são pontuais, o que significa dizer que não carregam informações suficientes para aquilo ao qual nos propomos a fazer.


45

Uma das alternativas possíveis para essa deficiência é estimar um intervalo de confiança, que consiste em uma faixa de valores dentro da qual há certa probabilidade de os verdadeiros parâmetros populacionais estarem contidos.

Sabemos através de 3.28 que os erros ui têm distribuição normal, por isso os seus estimadores de mínimos quadrados β1 e β2 também têm. Representamos essa distribuição da seguinte forma:

3.31

( ) ( )k k

nk

t ~ tep

ˆˆ

β β

β −

−= 2

O procedimento descrito a seguir foi obtido de Hill, Griffiths e Judge (2010). Dadas as hipóteses do modelo de regressão linear e as equações 3.29 e 3.30, podemos escrever de modo geral que:

3.29( )

i

iXˆ ˆX

~ N , ,n X

β β σ ∑ ∑ −

22

1 1 2

3.30( )iX

ˆˆ ~ N ,X

σβ β ∑ −

2

2 2 2

Em que n é o tamanho da amostra e k é igual a 1 e 2, sendo 1 o β1 e 2 para o β2, o que significa que se tivéssemos mais parâmetros estimados teríamos um k ainda maior. Como estamos estimando um modelo de regressão simples, com uma variável dependente sendo explicada por uma variável explicativa, e incluímos uma constante no modelo de regressão i i iY X uˆ ˆ ˆβ β= + +1 2 , perdemos dois graus de liberdade ao estimar a regressão (um grau para cada parâmetro beta).

O intervalo de confiança é obtido a partir de 3.31, porque não conhecemos o verdadeiro valor de σ 2, mas conhecemos a sua estimativa σ 2, e o erro padrão dos coeficientes de mínimos quadrados é dado por 3.26 e 3.27. Essa variável t apresenta distribuição t de Student, com n – 2 graus de liberdade pelas razões discutidas.

Segundo Hill, Griffiths e Judge (2010, p. 108), a construção do intervalo de confiança requer a consulta a uma tabela de valores críticos da estatística t. Porém, podemos usar o Gretl, como veremos adiante. Em ambos os casos, encontraremos valores críticos tc, que satisfazem:

46


3.32P(t > tc) = P(t < tc

) = a/2

3.33P(–tc < t < tc) = 1 – a

Reorganizando, temos:

Substituindo 3.31 em 3.33, obtemos:

3.34( )k k

c ck

P t tp

ˆˆe

β βα

β

− − ≤ ≤ = −

1

Simplificando, temos:

3.35( ) ( )k c k k k c kP t pˆ ˆ ˆep tˆ eβ β β β β α − ≤ ≤ + = − 1

Em que tc é o valor crítico da estatística t, e c = α/2 é obtido em tabelas próprias disponíveis na internet ou nos apêndices de livros de estatística e econometria, mas que não precisaremos recorrer a elas porque estamos usando o software Gretl como apoio e ele já tem essa e outras tabelas no menu “Ferramentas” e “Tabelas Estatísticas”. O parâmetro α é um valor de probabilidade, digamos 1%, 5% ou 10% na maioria das aplicações práticas, chamado de nível de significância.

Para entender o seu funcionamento na prática, vamos voltar aos resultados dos parâmetros estimados e seus respectivos erros padrão. Começaremos com β1 e depois faremos o mesmo procedimento para o β2.

De 3.17, sabemos que ˆ ,β = −1 5 43, e de 3.26 e do Quadro 4, sabemos que ( )ep ˆ ,β =1 12 0982. Usando 3.35 estabelecemos um nível de significância α = 5%

ou 0,05, e construímos um intervalo de confiança de 100(1 – α)%, ou 95%, para β1 com 10 – 2 = 8 graus de liberdade:

3.36( ) ( ), / , /P t ep ˆ t epˆ ˆ ˆ ,β β β β β − ≤ ≤ + = − 1 0 05 2 1 1 1 0 05 2 1 1 0 05

3.37( ) ( )P , , ep , pˆ , e ,ˆβ β β − − ≤ ≤ − + = 1 1 15 43 2 306 5 43 2 306 0 95


47

O erro padrão de β1 é 12,0982, com isso podemos construir um intervalo de confiança para β1 em que:

3.38( ) ( ), /t ep , , ,ˆ , ; ,ˆβ β ± = − ± = − 1 0 05 2 1 5 43 2 306 12 0982 33 3284 22 4684

Ou, – 33,3284 < β1 < 22,4684.

Vamos analisar melhor as equações acima para podermos dar uma interpretação a esse resultado. Primeiramente você precisa saber de onde surgiu esse valor de 2,306. Algumas tabelas de distribuição da estatística t são monocaudais, enquanto outras são bicaudais.

Observe o Gráfico 3, ela apresenta o gráfico de distribuição da estatística t, com 8 graus de liberdade. A área cinza sob a curva é o valor t α/2, obtido em uma tabela de distribuição t:

GRÁFICO 3 – GRÁFICO DE DISTRIBUIÇÃO DE t, COM 8 GRAUS DE LIBERDADE

0,5T(8)

0,4

0,3

0,2

-5 -4 -3 -2 -1

1 – α

0 11 2 3 4 5

0,1

0


A curva de distribuição de t é semelhante à da distribuição normal, porém com poucos graus de liberdade, ela é mais magra do que a normal padrão. À medida que o número de graus de liberdade aumenta, a distribuição t tende à distribuição normal.

48


A Figura 6 apresenta a estatística de teste gerada pelo Gretl. Para gerar esses valores, basta escolher o menu “Ferramentas” e em seguida “Tabelas estatísticas”. Ao abrir a janela com as estatísticas de distribuição, você deve escolher “t”, e em seguida informar os graus de liberdade, n – 2 → 10 – 2 = 8, ou seja, o tamanho da amostra, 10, menos o número de parâmetros estimados, 2. Na parte de baixo você informa a probabilidade da cauda à direita, que é α/2 → 0,05/2 = 0,025. Observação importante: use ponto para separar os decimais no Gretl em vez de usar vírgula, ou seja, use 0.025 em vez de 0,025.

FIGURA 6 – VALORES CRÍTICOS DE t PARA 8 GRAUS DE LIBERDADE


O Quadro 5 apresenta uma parte da tabela de distribuição de t. Os números da primeira coluna à esquerda são os graus de liberdade, enquanto as colunas à direita são os níveis de significância α. Note que, para 8 graus de liberdade e significância monocaudal de 0,025, o valor crítico é t0,05/2 = 2,306.

QUADRO 5 – DISTRIBUIÇÃO DA ESTATÍSTICA t

Graus de liberdadeProbabilidade:

Monocaudal α/2 0,05 0,025 0,005Bicaudal α 0,10 0,05 0,010

1 6,314 12,706 63,6572 2,920 4,303 9,9253 2,353 3,182 5,8414 2,132 2,776 4,604

8 1,860 2,306 3,355

... ... ... ... ...

FONTE: Adaptado de Gujarati (2011 p. 876)


49

Agora que sabemos de onde vêm as informações que usamos, podemos interpretar o resultado obtido. A leitura é bem simples, direta e seu significado diz respeito à obtenção de um grande número de amostras repetidas. Neste caso específico, como estabelecemos que α = 5% ou 0,05, se fizéssemos várias amostras, 95 em cada 100 delas o valor de β1 estaria dentro do intervalo – 33,3284 < β1 < 22,4684.

Porém, aqui fica um alerta, isso não significa que a probabilidade de o intervalo – 33,3284 < β1 < 22,4684 conter o verdadeiro β1 é de 1 – α → 1 – 5% = 95%. Isso ocorre porque após estimar o parâmetro e especificar o intervalo, nós o fixamos. Neste caso, a probabilidade de esse intervalo específico conter o verdadeiro β1 é 0 ou 1. Como o valor estimado é -5,43, podemos dizer que o nosso modelo estimou um β1 que está dentro do intervalo de confiança de 95%.

Vamos repetir o procedimento e calcular o intervalo de confiança para o β2.

3.39( ) ( ), / , /P t ep ˆ t epˆ ˆ ˆ ,β β β β β − ≤ ≤ + = − 2 0 05 2 2 2 2 0 05 2 2 1 0 05

3.40( ) ( )P , , e ,ˆ ˆp , ep ,β β β − ≤ ≤ + = 2 2 21 0343 2 306 1 0343 2 306 0 95

3.41( ) ( ), / eˆ ˆt p , , , , ; ,β β ± = ± = 2 0 05 2 2 1 0343 2 306 0 0677 0 8782 1 1904

3.42, ,β≤ ≤20 8782 1 1904

Como no caso do β1, o coeficiente β2 também está dentro do intervalo especificado. Se fizéssemos várias amostras repetidas e estimássemos dezenas ou centenas de vezes o coeficiente β2, 95 de cada 100 intervalos como 0,8782 < β2 < 1,1904 conteriam o verdadeiro β2, com 95% de confiança.

Podemos aproveitar esses intervalos calculados para fazer testes de hipótese sobre os coeficientes estimados. A hipótese que será testada é chamada de hipótese nula e é representada por H0, enquanto a alternativa geralmente é representada por H1.

Vamos analisar o parâmetro β2 e imaginar que existem razões teóricas muito fortes para crermos que o seu verdadeiro valor é 0,516, ou seja, β2 = 0,516. Montamos o nosso conjunto de hipóteses como:

50


H : ,H : ,

ββ

=≠

0 2

1 2

0 5160 516

Além das hipóteses estabelecidas acima, precisamos de um intervalo de confiança de 95%, e assim, podemos usar 3.42. Caso o valor de β2 sob a hipótese nula esteja dentro desse intervalo, não poderemos rejeitar a hipótese nula. Caso o valor de β2 sob a hipótese nula esteja fora desse intervalo, nós a rejeitamos em favor da hipótese alternativa, ou seja, o verdadeiro valor de β2 é um número diferente de 0,516, com 95% de confiança. A Figura 7 ilustra a regra de decisão:

FIGURA 7 – REGRA DE DECISÃO PARA OS TESTES DE HIPÓTESE

Caso o valor de β2 sob H0 cair dentro desseintervalo, não rejeitamos a hipótese nula.

k kct ep( )β β−

k kct ep( )β β+


Se rejeitarmos a hipótese nula, automaticamente estamos aceitando a hipótese alternativa. Neste caso, como a hipótese nula diz que β2 = 0,516 e a alternativa diz que o verdadeiro valor é diferente disso, mas não diz se é maior ou menor, rejeitar a hipótese nula implica aceitar que o verdadeiro β2 pode ser qualquer valor maior ou menor do que aquele estabelecido na hipótese nula.

A Figura 8 (com base no intervalo de confiança obtido em 3.42) mostra o resultado do nosso teste de hipótese. Perceba que, com 95% de confiança, o β2 de H0 caiu fora da região de aceitação da hipótese nula. Com isso, a rejeitamos em favor da hipótese alternativa, H1, de que o verdadeiro β2 não é 0,516, mas sim um número diferente, seja ele qual for.

FIGURA 8 – TESTE DE HIPÓTESE PARA β2

Região de rejeição daH0 e a aceitação da H1.

Região de rejeição daH0 e aceitação da H1.

Região de aceitação da H0.

0,87820,516 1,1904FONTE: O autor

Caso aceitássemos a hipótese nula, diríamos que os resultados obtidos com a amostra são compatíveis com a hipótese de que o β2 = 0,516.


51

Além do teste intervalar, podemos implementar o teste t para verificar a significância estatística dos nossos coeficientes estimados. Na prática, esse tipo de teste é mais empregado do que o de intervalo de confiança, por ser intuitivamente mais claro de se entender do que o anterior.

Os passos para implementar o teste de hipóteses estão no quadro a seguir:

QUADRO 6 – FORMATO DO TESTE DE HIPÓTESES

Passo Especificação1 Determine as hipóteses nula, H0, e alternativa, H1.2 Especifique a estatística de teste e sua distribuição se a hipótese nula é verdadeira.3 Escolha α e determine a região de rejeição.4 Calcule o valor amostral da estatística de teste.5 Formule sua conclusão.

FONTE: Adaptado de Hill, Judge e Griffiths (2010, p. 117)

Vamos verificar a implementação desses procedimentos com o nosso exemplo prático. Começamos recordando que o resultado estimado pelo nosso modelo econométrico, dado por 3.17, é:

3.17i iY , , X= − +5 43 1 0343

Agora devemos determinar as hipóteses nula e alternativa. A hipótese nula é aquela que expressa uma crença que temos em relação àquele parâmetro estimado pelo modelo. Ela pode emergir da própria teoria econômica, ou pode ser formulada para testar algo que acreditamos, quer seja por questões técnicas, quer seja por nossa suposição.

Normalmente testamos a hipótese de que os coeficientes estimados são iguais a zero. Isso faz sentido em relação a β1, porque, como estamos diante de uma equação linear, esse coeficiente parte de algum ponto situado sobre o eixo vertical do nosso gráfico cartesiano. Se ele for igual a zero, isso significa que podemos eliminá-lo do nosso resultado e a reta de regressão partirá do ponto (0,0), ou seja, da origem.

O outro coeficiente, β2, se for igual a zero significa que Xi não é capaz de explicar as variações em Yi, ou seja, quer dizer que a inclinação da reta de regressão é nula e, portanto, a reta é horizontal em relação a Xi, indicando que mudanças em sua trajetória não influenciam a trajetória de Yi.

Vamos construir as nossas hipóteses da seguinte forma:

52


H : H :

ββ

=≠

0 1

1 1

00

O segundo passo diz que devemos especificar a estatística de teste e sua distribuição de probabilidade. Por definição, vimos em 3.31 que:

3.31( ) ( )k k

nk

t ~ tep

ˆˆ

β β

β −

−= 2

Isso significa que aceitar H0 é aceitar a distribuição de 3.31, enquanto rejeitar H0 em favor de H1 quer dizer que 3.31 não tem distribuição tn – 2.

Antes de explicar o que significa a escolha de α, precisamos entender o que acontece quando rejeitamos uma hipótese nula e ela é verdadeira, ou quando aceitamos uma hipótese nula e ela é falsa. Em estatística podemos cometer dois tipos de erro: o erro tipo I e o erro tipo II.

Um erro do tipo I ocorre quando rejeitamos a hipótese nula e ela é verdadeira. Assim, se rejeitarmos a H0:β1 = 0, aceitando que ele tem qualquer valor diferente de zero, mas na verdade ele é zero, estaremos cometendo um erro do tipo I.

Por outro lado, o erro do tipo II ocorre quando aceitamos H0, mas na realidade ela é falsa, ou seja, aceitamos que H0:β1 = 0, fazemos nossa análise com uma linha de regressão que passa pela origem, quando na verdade β1 não é zero, é um número qualquer diferente de zero.

Assim, aceitar ou rejeitar uma hipótese consiste em um jogo em que estamos sujeitos a cometer um determinado erro, porém há uma certa probabilidade envolvida nessa escolha. O que nos leva a tomar a decisão é a minimização da probabilidade de se cometer um erro do tipo I. E é exatamente aqui que entra a escolha do nível de significância α.

Escolher α significa responder à questão: Quão rigoroso eu sou ou pretendo ser em relação ao meu resultado? Ou ainda: Qual a probabilidade de se cometer o erro do tipo I que eu estou disposto a aceitar? Se escolhermos um α = 0,10, quer dizer que estou disposto a rejeitar a hipótese nula em favor da hipótese alternativa, com 10% de probabilidade de se cometer o erro do tipo I.

Como padrão, os pesquisadores costumam aceitar 5% de probabilidade de se cometer um erro do tipo I, ou seja, escolhem um α = 0,05. Outros, que buscam resultados mais precisos, estabelecem α = 0,01, ou 1% de probabilidade de se rejeitar a hipótese nula quando ela é verdadeira.


53

Em relação ao erro do tipo II, podemos dizer que sua probabilidade é dada por θ (teta). Assim, podemos definir o poder do teste como 1 – θ, que é a probabilidade de se rejeitar H0 quando ela realmente é falsa. Com isso, dizemos que se a probabilidade de se cometer o erro do tipo II é de 10%, o poder do teste é de 90%, ou seja, θ = 0,10 → 1 – θ = 0,90.

Para o nosso exemplo, vamos escolher o α = 0,05, e aceitar a probabilidade de se rejeitar a H0:β1 = 0 quando ele é diferente de zero em 5%. Com isso podemos partir para o próximo passo que consiste em calcular a estatística de teste, dada por 3.31 cujo resultado está em 3.43:

3.43( ),t ,,e ˆp

β β

β

− − −= = = −1 1

1

5 43 0 0 448812 0982

O resultado em 3.43 deve ser comparado à tabela de distribuição de t, com n – 2 graus de liberdade, em que n é o tamanho da amostra. No nosso caso, n – 2 → 10 – 2 = 8 graus de liberdade.

Já sabemos como obter o valor crítico da distribuição t8gl a partir de uma tabela estatística e a partir do Gretl. Vamos usar a segunda opção por ser mais prática. Só precisamos lembrar de que essa informação está em “Ferramentas” e “Tabelas estatísticas”, e depois selecionamos a aba que contém a distribuição de t. No campo gl informamos 8 e no campo probabilidade da cauda direita, temos que informar 0.025 (ponto ao invés de vírgula). Por que informamos 0.025 ao invés de 0.05, se escolhemos o α = 0,05? Porque no Gretl ele pede a probabilidade da cauda direita e, como vimos, a distribuição t é simétrica, semelhante à distribuição normal. Por isso, basta indicar a probabilidade de uma das caudas que o programa calcula a da outra.

O resultado obtido é t8gl = 2,306, o qual é maior do que o valor obtido no cálculo da estatística de teste, ou seja, t = – 0,4488. Aqui devemos estabelecer a seguinte regra: se o valor de tcalculado > ttabela, rejeitamos a hipótese nula no nível de significância estabelecido. No caso do nosso exemplo, como – 0,4488 < 2,306, ou seja, o t calculado é bem menor do que o t da tabela, com nível de significância de 5% (0,05) e 8 graus de liberdade. Nesse caso não podemos rejeitar a hipótese nula de que o β1 = 0 e, portanto, a linha de regressão, para este exemplo, deve passar pela origem.

54


GRÁFICO 4 – TESTE DE HIPÓTESE PARA O β1

0,5T(8)

0,4

0,3

0,2

-5 -4 -3 -2 -1 0 1 2 3 4 5

0,1

0

Região derejeição da H

0.

Região deaceitação da H

0.

Região derejeição da H

0.


Em termos gráficos, o Gráfico 4 apresenta uma análise intuitiva dos resultados obtidos. A região de aceitação da hipótese nula está demarcada no gráfico de distribuição de t8gl. A área cinza em ambos os lados indica a região de rejeição da hipótese nula. O demarcador de cada região é o valor de tc, ou seja, do valor da estatística de t encontrado na tabela de distribuição de probabilidade.

Como o valor calculado de t, dado por 3.43 está dentro da região de aceitação da hipótese nula, essa hipótese não pode ser descartada. Com isso, a indicação é que a regressão não deveria ter intercepto e seu gráfico ficaria como o do Gráfico 5.

A pergunta que fica é: Nós podemos realmente fazer isso? Na prática, uma regressão que passa pela origem é válida? Por ora basta sabermos que, apesar de o nosso teste de significância nos dizer que o β1 é estatisticamente igual a zero, somente iremos retirá-lo da nossa regressão se houver argumentos teóricos e técnicos muito convincentes. Alguns modelos de regressão realmente não dispõem de constante β1, por exemplo, o modelo CAPM (de formação de preços de ativos financeiros). Porém, via de regra, não devemos omitir o intercepto do nosso modelo de regressão.


55

GRÁFICO 5 – REGRESSÃO QUE PASSA PELA ORIGEM

Y

0 X

i iY Xβ→ = 2FRA

FONTE: O autor

Mais adiante voltaremos ao β1 não significativo em termos estatísticos, quando interpretarmos o resultado da regressão como um todo. Agora vamos fazer um novo teste de hipótese, só que para o β2, e por coerência, manteremos os mesmos critérios, ou seja, nível de significância estatística de 5% ou α = 0,05.

HH

ββ

=≠

0 2

1 2

: 0: 0

A estatística de teste calculada é:

3.44( )t

epβ β

β

− −= = =2 2

2

1,0343 0 15,2777ˆ

0,067ˆ 7

Sabemos que o valor da tabela é de tc = 2,306, que é menor que 15,2777. Dessa forma, como o valor calculado da estatística de t é maior do que o valor da tabela, rejeitamos a hipótese nula em favor da hipótese alternativa que diz que o β2 é estatisticamente diferente de zero. Esse resultado nos dá um alento, afinal, o intercepto foi considerado não significante do ponto de vista estatístico. Caso o coeficiente angular β2 também fosse estatisticamente igual a zero, teríamos um sério problema. Isso significaria que nosso modelo não é válido, como já discutimos.

56


Vamos recapitular o que vimos até agora. Após estimarmos o nosso modelo econométrico, obtivemos estimativas pontuais para os β1 e β2, calculamos a variância do termo de erro e os desvios padrão dos coeficientes estimados de mínimos quadrados. Estimamos um intervalo com 1 – α de confiança, com α = 0,05 ou 95%, e percebemos que as nossas estimativas estão dentro desses intervalos especificados. Porém, o intercepto não é estatisticamente significativo em nível de 5% de significância estatística.

Vamos deixar para você testar novamente o intercepto, considerando um nível de significância de 10%. Será que se formos menos rigorosos o nosso intercepto será estatisticamente significativo? Você deverá repetir o teste para o β2, só que com um nível de significância menor, de 1%. Neste caso, sendo ainda mais rigoroso, continuamos rejeitando a hipótese nula para o β2?

Falta ainda um passo para terminarmos nossa análise estatística, antes de fazermos a interpretação dos resultados. O que queremos saber agora é se o modelo se ajusta bem aos dados, e para isso calcularemos o coeficiente de determinação r2, que nos dará uma medida da qualidade do ajustamento do nosso modelo aos dados. Dito de outra forma, saberemos quantos por cento das variações de Y são explicadas por i iY X= − +ˆ 5,43 1,0343 .

A estimação dos parâmetros da regressão se dá através da minimização da soma dos quadrados dos desvios, por isso se chama de método dos mínimos quadrados ordinários. Ocorre que essa soma dos quadrados dos desvios, ou soma total dos quadrados (SQT), pode ser dividida em dois componentes. Um deles é a soma dos quadrados dos resíduos (SQR) e o outro a soma dos quadrados explicados pela regressão (SQE).

Para facilitar a compreensão, vamos dar uma olhada na Figura 9. Ela apresenta a decomposição da variação dos erros. Dito de outra forma, nela encontramos o valor médio de Y, representado por Y, traçamos uma linha da função de regressão amostral e indicamos onde estão localizados, no gráfico, o verdadeiro valor de Y e o seu valor estimado pela regressão Y.

Assim fica claro entender que, quando falamos na soma total dos quadrados, estamos nos referindo à soma das variações de Y em torno do seu valor médio amostral, que é dado por:

3.45iSQT Y Y= −∑ 2( )

3.46iiSQE Y Y= −∑ 2( )

Por sua vez, a soma dos quadrados da variação residual de Y, SQR, é obtido por:


57

Finalmente, a soma dos quadrados da variação explicada de Y, SQE, é:

( )iSQR Y Y= ∑ −2ˆ 3.47

Da relação entre as equações anteriores, podemos escrever:

3.48SQT = SQR + SQE

Dividindo ambos os lados de 3.48 por SQT, teremos:

3.49SQR SQESQT SQT

= +1

Que equivale a:

3.50( )( )

( )( )

i i i

i i

Y Y Y Y

Y Y Y Y

∑ − ∑ −= +∑ − ∑ −

2 2

2 2

ˆ ˆ1

De 3.8, sabemos que ( )i i iu Y Y∑ = ∑ −2

2 ˆˆ , então, podemos reescrever 3.50 como:

3.51( )

( )( )

ii

i i

Y Yu

Y Y Y Y

∑ −∑= +∑ − ∑ −

22

2 2

ˆˆ1

Agora, podemos definir o coeficiente de determinação r2, que mede quanto da variação de Y é explicada pelo modelo de regressão. Algebricamente escrevemos:

3.52( )( )

i

i

Y YSQErSQT Y Y

∑ −= =

∑ −

2

22

ˆ

Ou, alternativamente, ( )

i

i

u SQRrSQTY Y

∑= − = −

∑ −

22

21 1ˆ

.

58


FIGURA 9 – DECOMPOSIÇÃO DA VARIAÇÃO DOS ERROS

Y

Y

i iY Xβ β→ = +1 2FRA

iiY Y= −Total ( )

iiY Y= −Total ( )

iiY Y= −Total ( )

Yi Y−( )Devido à regressão =

Devido aos resíduos = iu

XXi


Vamos pôr em prática o que vimos calculando o coeficiente de determinação para o modelo econométrico que está servindo de exemplo para os nossos estudos:

QUADRO 7 – ALTURA DOS PAIS E FILHOS EM CM, COM VALORES ESTIMADOS E RESÍDUOS

Obs. Y X = −i iy Y Y ( )22 = −i iy Y Y Yi = β1 + β2Xiˆˆ = −i i iu Y Y 2ˆ iu

1 166 165 -13,2 174,24 165,2364 0,7636 0,58312 168 168 -11,2 125,44 168,3394 -0,3394 0,11523 169 171 -10,2 104,04 171,4424 -2,4424 5,96544 176 174 -3,2 10,24 174,5455 1,4545 2,11575 180 177 0,8 0,64 177,6485 2,3515 5,52966 179 180 -0,2 0,04 180,7515 -1,7515 3,06787 185 183 5,8 33,64 183,8545 1,1455 1,31218 186 186 6,8 46,24 186,9576 -0,9576 0,91709 188 189 8,8 77,44 190,0606 -2,0606 4,246110 195 192 15,8 249,64 193,1636 1,8364 3,3722

Soma 1792 1785 0 821,6 1.792 0,0000 27,2242Média 179,2 178,5 0 82,16 0,00 0,0000 2,7224

FONTE: O autor


59

O Quadro 7, que é uma síntese dos quadros 2 e 3, apresenta as informações que precisamos. Vamos usar a seguinte equação:

3.53( )2

221

ˆ i

i

ur

Y Y

∑= −

∑ −

3.542 27,2242 1 0,9669821,6

r = − =

Isso significa que 96,69% das variações em Y são explicadas pelo nosso modelo de regressão. Podemos dizer que é um ótimo resultado!

O coeficiente de determinação é uma estatística cujo resultado deve ficar entre 0 < r2 < 1. Se for igual a zero, dizemos que nosso modelo de regressão não é capaz de explicar as variações de Y. O outro extremo, isso é, r2 = 1,00, significa que 100% das variações em Y são explicadas pelo nosso modelo. O caso extremo é raro de acontecer, normalmente teremos valores intermediários.

6 O USO DO GRETL PARA ESTIMAÇÃO E ANÁLISE ECONOMÉTRICA: A ANÁLISE DOS RESULTADOS E SUA INTERPRETAÇÃO

Depois de todo esse esforço braçal que fizemos para estimar o modelo de regressão, calcular os intervalos de confiança, testar as hipóteses e verificar a qualidade do ajustamento do nosso modelo, é hora de darmos passos mais largos e avançarmos de forma mais rápida e sermos mais eficientes no nosso trabalho.

A tecnologia é grande aliada dos economistas e, especialmente, dos econometristas. Fazer todos esses cálculos que fizemos até agora na mão é muito importante para você entender de onde vêm as coisas e valorizar os resultados obtidos, mas, do ponto de vista prático, é um tempo precioso que gastamos e que poderia ser investido em outras coisas, por exemplo, analisar e interpretar os resultados ou trabalhar melhor o nosso banco de dados.

A ideia de agora em diante é gastar o menor tempo possível fazendo cálculos manuais e aproveitar o máximo possível o tempo analisando e interpretando os resultados. Para isso, vamos propor o mesmo experimento feito anteriormente. Vamos investigar se a altura dos pais é passada para os filhos, ou seja, vamos testar o grau de hereditariedade na altura. O Quadro 8 traz dados simulados da altura dos filhos e dos pais, em cm:

60


QUADRO 8 – ALTURA DOS FILHOS E DOS PAIS EM CM

Obs. Y X

1 166 1652 168 1683 169 1714 176 1745 180 1776 179 1807 185 1838 186 1869 188 18910 195 192

Soma 1792 1785Média 179,2 178,5

FONTE: O autor

Os quadros 2 e 8 são os mesmos, só que agora sem os cálculos que apresentamos naquela oportunidade. A primeira coisa que precisamos fazer é abrir o nosso software econométrico, o Gretl, e colocar essa tabela dentro dele. Para isso, na tela inicial escolha “Arquivo” e “Novo conjunto de dados”. Na janela seguinte ele pede o número de observações, escolha 10, porque é essa a quantidade de dados presentes no Quadro 8.

Ao pedir qual é a estrutura de dados, ele apresenta três opções: são dados de corte (aqueles que são dispostos por indivíduo e não variam no tempo), série temporal (dados de um indivíduo que variam no tempo) e painel (que junta dados de corte e série temporal). Neste caso você escolherá dados de corte e clicará em “Avançar”, e depois, quando ele pedir para confirmar a estrutura de dados, escolha “Aplicar”.

O Gretl criará uma variável índice que contém uma sequência de números que vão de 1 a 10. Essa variável não tem nenhuma aplicação prática para nós nesse momento. Para acrescentar os dados do Quadro 8, você deve selecionar o menu “Acrescentar” e depois “Definir nova variável”. Quando abrir a janela, você informará a fórmula da nova variável ou o seu nome. Informe Y e clique em “ok”.

Automaticamente o Gretl abrirá uma tabela para você entrar com as informações de Y. Basta digitá-las, linha por linha, e no final você deve clicar no botão de que aparece na parte superior direita da tabela, como mostra a Figura 10. Ao repousar o mouse sobre o botão, ele apresentará a legenda “acrescentar”, como pode ser visto na figura. Abrirá um menu de opções e você selecionará “Acrescentar variável” e posteriormente informará o nome da próxima variável que é X.


61

FIGURA 10 – ENTRANDO COM OS DADOS NO GRETL MANUALMENTE


A partir daí é só entrar com as informações da variável X e clicar no botão aplicar para concluir a importação dos dados. Ao retornar à tela inicial do Gretl, você visualizará uma constante com indicador 0 , a variável índice com indicador 1, a variável Y com indicador 2 e a variável X com indicador 3.

Há outra opção que consiste em importar os dados diretamente de uma planilha do Excel. O processo de importação de dados é bastante simples, bastando selecionar a opção Arquivo → Abrir dados → Arquivo do usuário, e em seguida escolher a pasta onde está o arquivo e o formato desejado, como na Figura 11.

Na tela seguinte você deve informar em qual planilha, coluna e linha estão os dados, sendo a “Coluna 1” do Gretl o equivalente à coluna “A” do Excel, e a “Linha 1” do Gretl é onde tem o rótulo dos dados no Excel (ver Figura 12).

62


FIGURA 11 – IMPORTANDO OS DADOS PARA O GRETL A PARTIR DO EXCEL


O Gretl apresenta uma mensagem, informando que foram encontradas “x” planilhas, “y” variáveis e “z” observações. Como a única opção apresentada é “Fechar”, basta escolhê-la para que seja apresentada a segunda mensagem, que diz respeito ao tipo de dados que se está trabalhando. No caso de dados de corte, nosso caso, basta dar um “Não”.

FIGURA 12 – IMPORTAÇÃO DOS DADOS PASSO A PASSO


63


Você poderá clicar com o botão direito do mouse sobre cada uma das variáveis e escolher “Editar as características” para acrescentar informações que julgue relevantes, tais como descrição, por exemplo. Essa atividade de personalizar a apresentação da sua estrutura de dados ficará como desafio. Assim, você poderá explorar as funcionalidades do software e aprender coisas novas. Lembre-se, é sujando as mãos que se aprende econometria!

É costume entre os econometristas rodar um gráfico de dispersão antes de estabelecer qual modelo econométrico será estimado. Com isso espera-se obter alguma informação sobre a equação matemática que servirá de base para o modelo de regressão. Para fazer isso, na borda inferior do Gretl, selecione o botão que tem uma figura de gráfico . Na janela que abrir, você deve indicar a variável X para o eixo X, e obviamente a variável Y para o eixo Y. O Gráfico 6 apresenta o gráfico de dispersão que geramos a partir do Gretl:

64


GRÁFICO 6 – GRÁFICO DE DISPERSÃO DA ALTURA DOS FILHOS EM RELAÇÃO À ALTURA DOS PAIS COM LINHA DE REGRESSÃO


Um fato importante em relação ao gráfico de dispersão apresentado é que o Gretl já mostra a linha de regressão, mesmo sem termos solicitado. Para removê-la, basta você clicar sobre o gráfico com o botão direito e escolher “Editar”. Na aba principal da janela que se abrirá, você escolhe “Linha de ajustamento” e seleciona “Nenhum”, clicando em “ok” na sequência. O Gráfico 7 mostra o gráfico sem a linha de regressão:

195

190

185

180

175

170

165

165 170 175 180 185 190160

++

+

+

++

+ ++

5,43 1,03Y X= − +

Y versus X (com ajustamento por mínimos quadrados)

Y

X


65

GRÁFICO 7 – GRÁFICO DE DISPERSÃO DA ALTURA DOS FILHOS EM RELAÇÃO À ALTURA DOS PAIS SEM LINHA DE REGRESSÃO

195

190

185

180

175

170

165

165 170 175 180 185 190160

++

+

+

++

+ ++


O procedimento anterior também é útil para testar outras formas funcionais, bastando selecionar qualquer uma das opções, quadrática, cúbica, inversa, entre outras, como mostra a figura:

FIGURA 13 – SELEÇÃO DE LINHAS DE AJUSTAMENTO


66


Voltando ao Gráfico 7 é possível perceber que há uma correlação positiva entre as variáveis. Isso fica evidente na medida em que os pontos estão dispersos da esquerda para a direita de forma ascendente. Com isso, e dado que a distribuição parece seguir uma linha mais ou menos reta, podemos escolher uma equação linear e esperar que o coeficiente angular seja positivo, afinal de contas, a correlação aparentemente é positiva.

Estabelecemos o seguinte modelo de regressão a ser estimado:

3.55Yi = β1 + β2Xi + ui

O procedimento de estimação no Gretl é bem intuitivo. No menu principal do Gretl você deve selecionar “Modelo”, e em seguida “Mínimos Quadrados Ordinários”. Na variável dependente você informa Y, clicando sobre a variável e na seta correspondente, e para o campo “regressor”, já temos a constante como padrão, bastando selecionar X. Depois é só clicar em “ok” para visualizar os resultados, que são apresentados no Quadro 9.

Perceba a quantidade enorme de informações apresentada pelo Gretl. Vamos ler a maior parte delas agora e individualmente para entender o que temos em mãos. Na equação 3.17 vimos o resultado da estimação manual dos coeficientes de mínimos quadrados. Agora podemos compará-los à saída do Gretl e ver se o nosso cálculo estava correto.

Os parâmetros calculados manualmente e os calculados pelo Gretl são exatamente os mesmos, diferindo ligeiramente por questão do arredondamento usado nos cálculos manuais. Este é mais um motivo pelo qual não devemos fazer esses cálculos à mão. A precisão do programa de computador é muito maior do que a nossa capacidade de calcular e arredondar os resultados.

QUADRO 9 – SAÍDA DO GRETL PARA A ESTIMAÇÃO DO MODELO DE REGRESSÃO 3.55

Modelo 1: MQO, usando as observações 1-10Variável dependente: Y

coeficiente erro padrão razão-t p-valor --------------------------------------------------------- const −5,43030 12,0984 −0,4488 0,6655 X 1,03434 0,0676994 15,28 3,34e-07 ***

Média var. dependente 179,2000 D.P. var. dependente 9,554522Soma resíd. quadrados 27,22424 E.P. da regressão 1,844730R-quadrado 0,966864 R-quadrado ajustado 0,962722F(1, 8) 233,4319 P-valor(F) 3,34e-07Log da verossimilhança −19,19700 Critério de Akaike 42,39400Critério de Schwarz 42,99917 Critério Hannan-Quinn 41,73013



67

O Quadro 9 apresenta também, nas linhas iniciais, ao lado dos coeficientes estimados, o erro padrão e a razão t. Comparem esses resultados com os que obtivemos no Quadro 4 e nas equações 3.43 e 3.44. Novamente a diferença está no arredondamento.

Por padrão, a razão t apresentada pelo Gretl trabalha com a H0 de que o coeficiente estimado é estatisticamente igual a zero. Neste caso, sabemos por 3.31 que basta dividir o coeficiente pelo desvio padrão e assim obter o valor de t.

Ao lado da estatística t está o p-valor, que mede o nível exato da probabilidade de se cometer o erro do tipo I, ou seja, o menor nível de significância ao qual rejeitamos a hipótese nula (GUJARATI; PORTER, 2011, p. 142). Para o β1

, que é representado no Quadro 9 como constante, a probabilidade de se cometer o erro do tipo I é de 66,55%, caso decidirmos rejeitar a hipótese nula de que o β1 é zero, quando ela é verdadeira. Por isso não podemos rejeitar a H0.

Por outro lado, vemos que o p-valor do β2 é muito baixo, 3,34e-07. Esse número científico pode ser traduzido para 0,000000334. Ou seja, “e-07” quer dizer que há 6 zeros após a vírgula e a partir da sétima casa decimal aparecem os números 334. Podemos concluir que a probabilidade de se cometer um erro do tipo I ao se rejeitar H0 : β2 = 0 é muito pequena. Por isso podemos rejeitá-la sem medo.

Podemos adotar como regra geral para a rejeição da hipótese nula: quando o p-valor do teste de hipótese é menor do que o valor escolhido de α, rejeitamos a hipótese nula. Assim, se α = 0,05 e o p-valor é 0,0000, podemos rejeitar a hipótese nula de que o coeficiente estimado é estatisticamente igual a zero, com 0,00% de probabilidade de se cometer um erro do tipo 𝐼.

Outro detalhe são os três asteriscos que aparecem ao lado do p-valor. O Gretl está nos informando que esse parâmetro é estatisticamente significativo ao nível de 1%. Ele usa como padrão três asteriscos para 1%, dois asteriscos para 5% e um asterisco para 10% de significância estatística. Quando não aparecem os asteriscos quer dizer que o coeficiente estimado não é estatisticamente significativo ou estatisticamente diferente de zero.

Em 3.54 calculamos o grau de ajustamento do modelo, representado pelo r2. Naquela ocasião chegamos ao valor de r2 = 0,9669. Compare esse resultado com o Quadro 9 e perceba novamente que a diferença entre os resultados está no arredondamento. Para padronizar a sua apresentação e os seus cálculos, procure usar sempre quatro casas após a vírgula.

Como o resultado dos programas econométricos apresentam um excesso de informação, no momento de apresentar o seu resultado em um artigo científico ou em um trabalho acadêmico, você deve selecionar apenas algumas dessas informações. Não existe uma apresentação padrão, por isso sugerimos o seguinte:

68


( ) ( )2

5 4303 1 034312 0984 0 06770 9669

i iY , , X, , * * *,

ˆ

r

= − +

=

3.56

( ) ( )2

5 4303 1 034312 0984 0 06770 9669

i iY , , X, , * * *,

ˆ

r

= − +

=

3.57

Em 3.56 apresentamos entre parênteses os erros padrão. Assim, quem ler o seu resultado poderá fazer um teste de hipóteses rapidamente, calculando a razão t e verificando se os coeficientes estimados são estatisticamente significativos.

Outra forma de apresentar é substituir os valores dos desvios padrão pelas razões t. Você pode ainda optar por colocar asteriscos ao lado da estatística para que o leitor saiba se as estimativas são significativas ou não e em qual nível:

Para interpretar o resultado da regressão precisamos recorrer ao nosso conhecimento prévio, à teoria econômica por trás do modelo, ao problema proposto e às hipóteses levantadas. Com isso em mente, verificamos se os resultados alcançados fazem sentido. Também buscamos em estudos semelhantes ao nosso por resultados que estão em linha ou que discordam daquele que alcançamos.

Como o estudo proposto dizia respeito à hereditariedade, ou seja, à capacidade dos pais transferirem aos filhos a sua estatura, o nosso modelo estimado está bem coerente com o que se esperava. Em primeiro lugar porque o sinal do coeficiente estimado β2 é positivo, indicando que em média a altura dos pais influencia a estatura dos filhos de forma positiva, ou seja, quanto maiores os pais, maiores também serão os filhos.

Além disso, o coeficiente estimado β2 é estatisticamente significativo, mesmo considerando um nível de significância estatística de 1% (α = 0,01). Por outro lado, o intercepto β1 não é estatisticamente significativo. Em geral, esse coeficiente não tem muito sentido econômico e, como vimos, a menos que se tenha uma razão teórica muito forte, o fato de o intercepto não ser significativo não quer dizer que deva ser eliminado da nossa regressão. Faz mais sentido mantê-lo, até mesmo para se evitar um erro de especificação, como será visto ao longo desse curso.

O coeficiente de determinação r2 é de 0,9669, o que significa que 96,69% das variações na altura dos filhos nessa amostra é explicado pelo nosso modelo


69

econométrico. Isso é muito bom porque significa que o nosso modelo se ajusta muito bem aos dados. Porém, aqui vai um alerta importante. Todos esses resultados foram obtidos com uma amostra contendo apenas 10 observações. Acontece que esse tamanho é muito pequeno e pode causar alguns problemas estatísticos, como a micronumerosidade. Além disso, praticamente todos os testes estatísticos são testes assintóticos, ou seja, construídos para que funcionem bem em amostras grandes.

Sempre que trabalharmos com a estimação de regressões por mínimos quadrados, precisamos de amostras que contenham no mínimo 20 graus de liberdade, independentemente de quantos estimadores ou variáveis explicativas tenham o nosso modelo. Os graus de liberdade são estabelecidos a partir do tamanho da amostra, no nosso exemplo são 10, menos os parâmetros estimados, ou seja, a constante β1 e o coeficiente β2. Assim, perdemos 2 graus de liberdade e, com isso, em vez de dez, temos apenas oito graus de liberdade, o que é consideravelmente pouco para um experimento confiável.

Essa regra sobre graus de liberdade pode ser somada à regra que diz que, sob a hipótese nula de que o parâmetro estimado é estatisticamente igual a zero, se tivermos pelo menos 20 graus de liberdade, e com um nível de significância de 5%, o valor da estatística t deve ser maior do que 2 em módulo, ou seja, |t| > 2. Se você procurar em uma tabela estatística os valores críticos de t, com 20 graus de liberdade, e α = 0,05, encontrará um valor próximo de 2, ou, para sermos mais precisos, de 2,08596. Com isso, e sabendo que se o valor de tcalculado > ttabela, a um nível de 5% de significância estatística, podemos rejeitar a hipótese nula a favor da hipótese alternativa de que o coeficiente é estatisticamente diferente de zero.

Devemos nos lembrar de que estamos supondo que os termos de erro têm distribuição normal, sem a qual as estatísticas não têm o menor valor. O teste de normalidade de Jarque-Bera (JB) pode ser facilmente implementado com o auxílio do Gretl. Basicamente ele consiste na estimação da equação 3.58, e tem como 0 iH : u ~ˆ Normal, e usa uma tabela qui-quadrado com dois graus de liberdade:

( )22 3

6 24KSJB n

− = +

3.58

Em que n é o tamanho da amostra, S é o coeficiente de assimetria, que deve ser igual a zero, e K é o coeficiente de curtose, que deve ser igual a 3. Graficamente falando, a curva será uniformemente distribuída em ambos os lados da média.

O teste é implementado a partir do modelo de regressão estimado pelo Gretl, na janela da estimativa, no menu “Testes” e “Normalidade dos resíduos”. Os resultados são apresentados no Gráfico 8, e os resultados do teste, também apresentados pelo Gretl, estão no Quadro 10.

70


Grifamos o resultado do teste para você compreender melhor o seu significado. Perceba que o Gretl apresenta a hipótese nula de que os resíduos têm distribuição normal. Apresenta o valor do qui-quadrado com dois graus de liberdade e o p-valor, de 0,36133. Sabemos que o p-valor é a probabilidade exata de se cometer um erro do tipo I, ou seja, rejeitar a hipótese nula quando ela é verdadeira. Nesse caso, a probabilidade de rejeitarmos a hipótese nula e ela ser verdadeira é de 36,13%. Por este motivo, nós não rejeitamos a hipótese nula e chegamos à conclusão de que os resíduos têm distribuição normal.

QUADRO 10 – DISTRIBUIÇÃO DE FREQUÊNCIA PARA TESTE DE JARQUE-BERA

Distribuição de frequência para uhat1, observações 1-10número de classes = 5, média = 5,68434e-015, desvio padrão = 1,84473

intervalo pt. médio frequência rel. acum.

< -1,8432 -2,4424 2 20,00% 20,00% ******* -1,8432 - -0,64470 -1,2439 2 20,00% 40,00% ******* -0,64470 - 0,55379 -0,045455 1 10,00% 50,00% *** 0,55379 - 1,7523 1,1530 3 30,00% 80,00% ********** >= 1,7523 2,3515 2 20,00% 100,00% *******

Teste para a hipótese nula de distribuição normal:Qui-quadrado(2) = 2,036 com p-valor 0,36133


Você deve estar se perguntando: Devo testar a hipótese nula em todas as minhas regressões? Não necessariamente. Apesar de ser uma hipótese importante, ela deve ser testada de fato para amostras com menos de 100 observações (GUJARATI; PORTER, 2011, p. 120). Como a distribuição normal é assintótica, pelo Teorema do Limite Central, à medida que a amostra aumenta indefinidamente, a distribuição de um estimador tende a se aproximar da distribuição normal (GUJARATI; PORTER, 2011, p. 827).


71

GRÁFICO 8 – TESTE DE NORMALIDADE DOS RESÍDUOS


Consideramos ainda que os estimadores de mínimos quadrados convergem para os valores verdadeiros, os quais seriam obtidos se tivéssemos acesso a todas as observações da população. Mas, como estamos trabalhando com amostras, dizemos que em amostras repetidas, em média, os parâmetros devem convergir para as médias populacionais. Isso significa que os coeficientes estimados por mínimos quadrados são não tendenciosos.

Podemos testar essa afirmação usando os chamados experimentos de Monte Carlo e verificar se, em média, os valores de β2 convergem em média ao valor que estimamos. Para fazer isso, ainda dentro do arquivo que você usou para rodar a regressão, abra o console do Gretl, clicando no botão no menu - “abrir o menu console” – na parte inferior do programa.

Na janela aberta, digite a sequência de comandos do Quadro 11, lembrando de substituir a vírgula por ponto. O primeiro passo é criar uma série de ˆ

iY , o qual é obtido com o comando “series Ys”. Na sequência é definida a quantidade de estimações repetidas que serão feitas, e neste caso são 1.000 estimações. Como sabemos que ˆ

i i iY Y u= + , e definimos essa variável ˆiY no primeiro passo, devemos

supor que os ui~N(0,1) . Com isso obtemos o valor de Yi.

Agora é só rodar a regressão por mínimos quadrados ordinários de Yi contra Xi, através do comando “ols” (de ordinary least square) e salvar os

0,3

0,25

0,2

0,15

0,1

0,05

0-6 -4 -2 0 2 4 6

Estatística de teste para normalidade:Qui-quadrado(2) = 2,036 [0,3613]

uhat1N(5,6843e-0,15 1,8447)

Den

sida

de

uhat1

72


parâmetros estimados obtidos em cada uma das 1.000 estimativas. Depois disso, ao dar o comando “endloop”, o programa encerra o experimento informando os resultados das estimativas de mínimos quadrados de Yi contra Xi, com os valores médios dos parâmetros estimados.

A sequência de comandos que vem depois serve para mostrar as demais estatísticas desses parâmetros estimados, o que nos permite verificar se os resultados após 1.000 estimativas são convergentes.

QUADRO 11 – EXPERIMENTO DE MONTE CARLO


series Ys = -5.4303 + 1.0343*Xloop 1000 --progressive --quietY = Ys + normal(0,1)ols Y const Xscalar b1 = $coeff(const)scalar b2 = $coeff(X)scalar sig2 = $sigma^2print b1 b2 sig2store "@workdir\coef.gdt" b1 b2 sig2endloopopen "@workdir\coef.gdt"summary

freq b2 --normal

O resultado do experimento pode ser sintetizado no Gráfico 9. Se os coeficientes estimados são de fato não tendenciosos, então, tomando como exemplo o β2, vamos esperar que, após 1.000 simulações, ou seja, 1.000 estimações diferentes, teremos alguns valores maiores e outros menores do que os que estimamos no nosso modelo original. Porém, em média, os valores devem convergir para 1,0343 , como pode ser visto no resultado do nosso experimento.


73

GRÁFICO 9 – RESULTADO DO EXPERIMENTO DE MONTE CARLO


7 OUTROS TÓPICOS RELACIONADOS AO MÉTODO DE MQO

Nesta última seção da Unidade 1, conversaremos sobre banco de dados, formas funcionais e faremos uma aplicação prática para conversarmos um pouco sobre a utilização dos modelos econométricos na previsão do comportamento das variáveis explicadas.

Um dos pontos mais sensíveis na análise de regressão é a base de dados. Muitos trabalhos de pesquisa alcançaram sucesso em função de ter uma boa base de dados, com variáveis bem definidas e fontes confiáveis. Da mesma forma, alguns trabalhos fracassam porque a sua base de dados é ruim, prejudicando a análise e interpretação à luz da teoria econômica subjacente.

Por utilizar informações do mundo real, a economia nem sempre nos fornece aquilo de que precisamos para os nossos estudos na quantidade e na qualidade adequadas. Muitas vezes precisamos adaptar algumas variáveis, criando uma aproximação, ou proxy. Para um exemplo de variável proxy, podemos analisar a função consumo keynesiana, supondo que o consumo seja uma função da renda e da riqueza da pessoa.

Como fazemos para medir a riqueza? Essa é uma variável para a qual não há uma definição de consenso na literatura econômica. Podemos medir, por exemplo,

Estatística de teste para normalidade:Qui-quadrado(2) = 1,024 [0,5992]

12

10

8

6

4

2

0

Den

sida

de

b20,95 1,05 1,1 1,151

b2N(1,0343 0,036394)

74


pelo volume de dinheiro aplicado no mercado financeiro. Outra forma seria pela conta de luz, supondo que quanto mais rica for uma família, mais energia elétrica ela irá consumir, tendo em vista que terá em sua residência uma quantidade maior de aparelhos elétricos e eletrônicos em comparação com pessoas menos ricas.

Essas maneiras diferentes de medir a riqueza são aquilo que chamamos de variáveis proxy. Não é a riqueza em si, mas algo plausível e próximo o suficiente da verdadeira variável a ponto de conseguirmos extrair um resultado confiável do nosso modelo econométrico.

Aqui fica um alerta em relação às variáveis proxy, que serve também para as demais. Se você não especificar corretamente as variáveis que entram no modelo de regressão, poderá gerar um viés de especificação. Com isso, os estimadores de mínimos quadrados perdem algumas das suas características, tais como a ausência de viés e a consistência, pois geram resíduos correlacionados ou com a variável dependente, ou com a explicativa.

Em um estudo sobre o endividamento das famílias e a sua renda, que requeira a aplicação de um questionário, pode ter alguns entrevistados que se recusem a fornecer determinadas informações. Isso gera um problema de ausência ou omissão de informação.

A solução para esse tipo de problema envolve a aplicação de certas técnicas estatísticas. Por exemplo, em uma situação com uma amostra contendo 40 observações, em que temos duas variáveis, Y e X, sendo que para Y, a variável dependente, temos apenas as 38 observações, enquanto para X temos todas as 40 observações.

Há três possibilidades de solução nesse caso hipotético. Como você tem uma base de dados consideravelmente grande, com mais de 20 graus de liberdade, seria possível eliminar as duas observações de X que não formam par com as de Y, resolvendo assim o nosso problema. Claro que com isso você tem a perda de dois graus de liberdade por reduzir o tamanho da amostra, mas mesmo assim, o custo é compensado pela possiblidade de se chegar a resultados consistentes.

A segunda alternativa é preencher essa lacuna com uma previsão para os valores faltantes. Nesse caso, você estima a regressão para as 38 observações que estão completas e emprega o modelo de regressão estimado para prever os dois dados faltantes. Esse é outro procedimento simples de se empregar e garante um resultado confiável, além de manter os graus de liberdade que você perderia ao eliminar duas observações.

A terceira consiste na imputação de valores através da média das observações anteriores de Y. Porém, essa técnica seria melhor empregada se os dados ausentes não forem contíguos. Dessa forma, temos condições de gerar estimadores não tendenciosos dos parâmetros de regressão.


75

Algumas vezes não temos dificuldade em especificar as nossas variáveis. Elas são muito claras e até a coleta de dados é bem tranquila no sentido de serem facilmente encontradas. Você faz a coleta, monta a sua regressão, mas descobre que uma ou algumas poucas observações destoam das demais. Em um gráfico, nós visualizaríamos como aquele ponto que destoa ou que é discrepante em relação aos demais, como na Figura 14.

Perceba que o volume de câmbio contratado vinha em uma trajetória mais ou menos bem-comportada. Ele passa de US$ 2.018 milhões em março/2013 para US$ 6.672 milhões em abril/2013, e mais do que dobra em maio, com US$ 14.098 milhões.

O termo técnico para isso é outlier, e no nosso dia a dia estamos acostumados a ouvir a expressão “ponto fora da curva”. É exatamente isso que significa, ou seja, ele destoa dos demais pontos por motivos que precisam ser bem estudados, pois apresentam uma discrepância em relação ao comportamento dos demais dados da série.

Neste caso, precisamos entender o motivo pelo qual houve essa mudança brusca no valor. Precisamos verificar estatisticamente se esse dado precisa ser suavizado, através de médias móveis ou a aplicação de algum filtro estatístico, ou ainda se é necessário excluí-lo da amostra.

FIGURA 14 – CÂMBIO COMERCIAL CONTRATADO EM US$ (MILHÕES)

FONTE: <www.ipeadata.gov.br>. Acesso em: 22 ago. 2018.

Essa atitude extrema, de excluir essa informação da amostra, poderá causar um problema maior do que se a mantivermos na nossa base de dados. Talvez essa seja uma grande oportunidade que se revela durante um estudo empírico. O pesquisador vem preparado para investigar um fenômeno e acaba esbarrando, quase sem querer, em outro que requer a máxima atenção.

Há outras possiblidades, que dependem de qual é a variável em estudo e de como ela foi obtida. Talvez o método empregado em sua coleta ou na sua transformação apresenta falhas, bastando apenas corrigir esses erros e continuar o trabalho. Enfim, tudo dependerá da natureza desse fenômeno e de sua capacidade em influenciar os parâmetros do nosso modelo de regressão.

76


Outra questão que requer a nossa atenção diz respeito às formas funcionais dos modelos de regressão. A primeira hipótese do modelo clássico de regressão linear estabelece uma relação linear entre a variável dependente e a explicativa. Mas de que tipo de linearidade estamos falando?

Quando falamos em linearidade nos modelos de regressão, nos referimos sempre aos parâmetros e não às variáveis. Isso significa que um modelo como o da equação 3.59 é linear no sentido que buscamos e que atende às hipóteses do modelo clássico:

Yi = β1 + β2Xi + β3Xi2 + ui 3.59

Yi = β1 + β22Xi + ui 3.61

Por outro lado, um modelo com o formato da equação 3.60 ou 3.61 não é considerado linear:

21

3Y X ui i i

ββ

β= + + 3.60

Isso nos permite formular o seguinte conceito relativo à linearidade: um modelo de regressão é considerado linear nos parâmetros e, portanto, atende às exigências do modelo clássico de regressão linear, se nenhum dos seus parâmetros estiver sendo multiplicado por outro parâmetro ou estiver sendo elevado a uma potência diferente de 1.

Assim, uma equação que contenha variáveis elevadas a determinada potenciação, divididas ou ainda multiplicadas por outra variável, ainda assim pode ser considerada linear (nos parâmetros) se os coeficientes não forem elevados a potência diferente de 1, não estiverem sendo multiplicadas ou divididas por outros coeficientes. Os gráficos 10 e 11 trazem a representação de duas funções que, apesar da aparência, são lineares nos parâmetros, apesar de não o serem nas variáveis:


77

GRÁFICO 10 – EXEMPLO DE FUNÇÃO QUADRÁTICA COM Y = α + bX + cX2

FONTE: O autor

Note que no Gráfico 10 os dados se ajustam perfeitamente ao desenho dessa função. É por esse motivo que o primeiro passo em um estudo empírico deve passar obrigatoriamente pela plotagem do gráfico de dispersão, com o objetivo de verificar qual o desenho que lhe é apresentado. Somente depois disso é que você elabora o modelo matemático que melhor se ajusta aos dados e, posteriormente, o seu modelo de regressão. O mesmo vale para o Gráfico 11:

GRÁFICO 11 – EXEMPLO DE FUNÇÃO CÚBICA COM Y = a + bX + cX2 + dX3

FONTE: O autor

Isso nos faz lembrar que não precisamos nos prender ao tradicional Y = a + bX + u para rodarmos um estudo econométrico. Outras formas, por exemplo, uma função de produção do tipo Cobb-Douglas, podem ser usadas. Neste caso é preciso transformar o modelo a fim de torná-lo linear, como mostram as equações 3.62 e 3.63:

78


3.62321 2 3

iui i iY X X eβββ=

A equação 3.62 não é linear, por isso precisa ser transformada. Essa transformação ocorre quando empregamos logaritmos:

3.631 2 2 3 3i i i iLnY LnX LnX uβ β β= + + +

Em que β1 = Lnβ1. Agora obtemos a linearidade nos parâmetros e mesmo que as variáveis não sejam lineares, ainda assim é possível empregar o método de mínimos quadrados ordinários.

Os logaritmos são um artifício amplamente utilizado em análise de regressão, como teremos a oportunidade de estudar mais adiante neste manual. Entre as vantagens está o fato de que ele comprime os dados e, como veremos, nos ajuda a melhorar a estimação do nosso modelo econométrico. Outra vantagem é que no caso do modelo 3.63, o parâmetro estimado β2 nos dá a elasticidade de Y em relação a X, o que é muito útil em estudos de microeconomia e economia monetária.

Há ainda outros casos específicos em que os modelos precisam ter logaritmos. Além da análise de elasticidade, podemos precisar obter variações percentuais ou estimativas de crescimento entre outras aplicações.

DICAS

Ao longo de todo o nosso estudo teremos a oportunidade de voltar a esse assunto, mas se você quiser se aprofundar, sugerimos a leitura do Capítulo 6 do livro:

• GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa.

79

RESUMO DO TÓPICO 3


• Utilizando técnicas de amostragem é possível inferir sobre uma determinada população de dados através da estimação de uma função de regressão amostral.

• A estimação da função de regressão amostral é feita através do método dos mínimos quadrados ordinários, que busca a minimização da soma dos quadrados dos resíduos através da escolha dos parâmetros beta que melhor se ajustam aos dados obtidos para as variáveis.

• Os testes estatísticos são suportados pela hipótese de que os erros têm distribuição normal, e devido ao teorema de Gauss-Markov é possível verificar que os estimadores de mínimos quadrados, dentre a classe dos estimadores não tendenciosos, são os melhores estimadores para os parâmetros da regressão.

• Usando a estatística t, nós podemos construir intervalos de confiança e testar hipóteses acerca dos coeficientes estimados.

• Podemos construir testes de hipótese e buscar minimizar a probabilidade de cometer o erro do tipo I, que consiste em rejeitar uma hipótese nula quando ela é verdadeira.

• Podemos usar o Gretl para estimar a regressão, aplicar os testes estatísticos e interpretar os resultados obtidos.

• A base de dados de uma pesquisa está estritamente relacionada ao sucesso ou ao fracasso de uma investigação empírica.

80

Período 2016 VALE BBAS PETR IBOVjaneiro -0,2540 -0,0604 -0,1914 -0,0679

fevereiro 0,2150 -0,0224 0,0606 0,0591 março 0,2828 0,4601 0,4463 0,1697 abril 0,2997 0,1184 0,2484 0,0770 maio -0,2778 -0,2551 -0,2329 -0,1009 junho 0,1442 0,0431 0,1306 0,0630 julho 0,1371 0,2253 0,2172 0,1122

agosto -0,0843 0,1026 0,0521 0,0103 setembro 0,0514 -0,0177 0,0271 0,0080 outubro 0,2398 0,2846 0,2312 0,1124

novembro 0,2708 -0,0270 -0,0091 -0,0465 dezembro -0,0848 -0,0144 -0,0828 -0,0271

Período 2017 VALE BBAS PETR IBOVjaneiro 0,2531 0,1075 -0,0443 0,0738

fevereiro 0,0168 0,0640 -0,0142 0,0308março -0,0895 0,0202 -0,0508 -0,0252abril -0,0779 -0,0272 -0,0521 0,0064maio -0,0109 -0,1373 -0,0515 -0,0412junho 0,0674 -0,0543 -0,0308 0,0030julho 0,0793 0,0709 0,0455 0,0480

agosto 0,1208 0,0697 0,0123 0,0746setembro -0,0915 0,1368 0,1317 0,0488outubro 0,0072 -0,0132 0,1018 0,0002

novembro 0,0947 -0,1310 -0,0844 -0,0242dezembro 0,1457 0,0631 0,0602 0,0536

AUTOATIVIDADE

Foram coletados dados mensais do retorno de algumas ações selecionadas do índice da bolsa BM&F Bovespa. A variável VALE se refere ao retorno do papel Vale3, da empresa Vale S.A., BBAS se refere ao papel BBAS3, do Banco do Brasil S.A., PETR representa o papel PETR4, da Petrobras S.A. e IBOV o índice de ações da BM&F Bovespa. Os dados são mensais, referentes ao período de janeiro de 2016 a dezembro de 2017, totalizando 24 meses e obtidos acessando o site <https://br.financas.yahoo.com/>. Lembre-se de que, por se tratar de séries temporais, você deve dar o devido tratamento no Gretl. Em outras palavras, ao importar os dados, você deve informar que se trata de dados de série temporal, com frequência mensal iniciando em janeiro de 2016.

QUADRO 12 – RETORNO DA VALE E DO IBOV

FONTE: Adaptado de <https://br.financas.yahoo.com/>. Acesso em: 22 ago. 2018.

81

Parâmetro Modelo 1 Modelo 2 Modelo 3 β1

Razão t

p – valor β2

Razão t p – valor

r2

2 Com relação aos modelos estimados na Questão 1, qual deles explica melhor a variável dependente? Justifique a sua resposta.

3 Analisando os parâmetros β2 de cada modelo, qual papel é mais sensível a mudanças no índice Ibov? Justifique a sua resposta.

4 No Gretl, selecione, a partir do menu “Ver”, a opção “Gráfico das variáveis”. Na sequência, escolha a opção “Série temporal”. Selecione todas as variáveis para gerar um gráfico e reproduza-o fazendo comentários sobre o resultado dos modelos estimados e o gráfico gerado.

Com base nos dados do quadro, responda ao que se pede:

1 Estime os seguintes modelos de regressão, preenchendo o quadro abaixo com quatro casas decimais. Ao lado do p-valor indique: *, ** e *** para os parâmetros que são estatisticamente significativos ao nível de 10%, 5% e 1%, respectivamente. Caso o parâmetro não seja estatisticamente significativo, deixe sem asteriscos:

Modelo 1 → Valet = β1 + β2Ibovt + ut Modelo 2 → BBASt = β1 + β2Ibovt + ut Modelo 3 → PETRt = β1 + β2Ibovt + ut

UNIDADE 2 |

82

TÓPICO 1 |

83

UNIDADE 2

REGRESSÃO MÚLTIPLA


PLANO DE ESTUDOS

A partir do estudo desta unidade, você deverá ser capaz de:

• redefinir o modelo econométrico desenvolvido na Unidade 1, com a inclu-são de múltiplas variáveis explicativas;

• estimar o modelo e analisar os resultados comparando-os com o que foi obtido nos modelos de regressão simples;

• resumir os resultados de ambos os modelos, avaliar, criticar e escolher qual modelo deve ser utilizado para fins de controle e previsão;

• incorporar aos modelos de regressão as variáveis que não podem ser men-suradas quantitativamente, como sexo, religião, localização geográfica, classe social etc., conhecidas como variáveis qualitativas ou binárias;

• categorizar estas novas variáveis distinguindo a sua aplicabilidade prática.

Esta unidade está dividida em três tópicos. No decorrer da unidade, você en-contrará autoatividades com o objetivo de reforçar o conteúdo apresentado.

TÓPICO 1 – O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL

TÓPICO 2 – ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS

TÓPICO 3 – USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS

UNIDADE 2 | REGRESSÃO MÚLTIPLA

84

TÓPICO 1 | O MODELO DE REGRESSÃO LINEAR EM FORMA MATRICIAL

85

TÓPICO 1

O MODELO DE REGRESSÃO LINEAR EM

FORMA MATRICIAL

UNIDADE 2

1 INTRODUÇÃO

Na Unidade 1, fomos apresentados à análise de regressão através do modelo linear simples. Na Unidade 2, veremos que esse tipo de modelo, com apenas uma variável explicativa, nem sempre consegue explicar de forma completa as alterações na variável dependente, porque não estamos considerando outros fatores que são igualmente importantes. Dito de outra forma, tornamos nosso modelo tão simples que acabamos ignorando a influência de certas variáveis que são imprescindíveis na explicação do fenômeno em estudo.

Para entender melhor a necessidade e a vantagem de se usar modelos de regressão múltiplos, considere um exemplo hipotético sobre a formação de preços da gasolina por parte de uma determinada refinaria. Qual é a variável que afeta o preço escolhido pela petrolífera?

Poderíamos montar uma função para explicar essa decisão da seguinte forma:

P = f(E) + ε 1.1

Em que P é o preço da gasolina na refinaria, E é a taxa de câmbio definida como a quantidade de R$ necessário para comprar US$ 1,00, e ε o termo de erro.

Note que esse modelo consegue explicar de alguma forma as oscilações no preço da gasolina e, pensando bem, como a gasolina é derivada do petróleo, que é um tipo de bem que tem cotação em dólar, faz sentido alterar o seu preço em razão da flutuação no mercado de câmbio.

A dúvida que fica é se essa variável é suficiente para determinar o comportamento do preço desse combustível. Podemos pensar em uma série de outras variáveis capazes de exercer essa influência, tais como o preço de bens substitutos (álcool, por exemplo), o preço de carros novos ou de carros usados, e ainda a cotação do barril do petróleo no mercado externo.

Se modificássemos o modelo para incluir essa última variável, teríamos:


86

P = f(E,B) + ε 1.2

As variáveis permanecem as mesmas do modelo 1.1, tendo apenas a inclusão de β, a cotação internacional do barril do petróleo.

Se trabalhássemos em uma transportadora e estivéssemos elaborando o planejamento da empresa para o próximo ano, certamente o preço da gasolina seria determinante para o nosso direcionamento estratégico. Qual dos dois modelos você considera que poderia fornecer uma estimativa mais próxima ou mais assertiva do preço da gasolina?

Certamente o modelo 1.2 é o mais completo, porque agrega mais variáveis explicativas do que o modelo 1.1, mas como veremos mais adiante, nem sempre acrescentar novas variáveis torna o modelo melhor. Há que se cuidar com o viés da especificação do modelo ou, como se diz na gastronomia, às vezes “menos é mais”!

Mesmo assim, o fato de termos mais variáveis relevantes melhora a nossa capacidade de explicar a variável dependente, ou a nossa capacidade de previsão, o que nos leva a aceitar essa justificativa para a utilização de modelos com múltiplas variáveis exógenas.

Para avançarmos em nosso estudo, precisaremos recorrer a uma ferramenta matemática que tornará nosso entendimento mais intuitivo. Trata-se da álgebra matricial, que além de facilitar a compreensão da parte econométrica, tem como argumento a seu favor o fato de que é a linguagem universal empregada pelos econometristas modernos no desenvolvimento e apresentação dos resultados das suas pesquisas empíricas.

Por isso, o estudo das unidades 2 e 3, em sua maior parte, se dará com o uso de matrizes e todas as técnicas inerentes a elas, mas não se preocupe se você não domina a álgebra matricial, na verdade você deve apenas estar familiarizado com os conceitos importantes, tais como multiplicação de matrizes, determinantes, inversão, entre outros. O fato de conhecer esses conceitos facilitará a sua compreensão e, caso tenha dificuldade em lembrar, sugerimos começar pela autoatividade desse tópico, pois lá consta uma ligeira revisão daqueles pontos que são mais importantes e dos quais você deve ter um certo conhecimento antes de avançar nesse conteúdo.


87

Salárioi = β1 + β2 Educaçãoi + εi 1.3

DICAS

Além da autoatividade, se preferir, você pode fazer uma leitura rápida nos apêndices dos manuais de econometria, de Gujarati e Porter (2011), ou no material extra do Wooldridge (2016), disponível gratuitamente na internet, porém, se você se sente seguro para ir adiante, pode dispensar essa rápida revisão.

• GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. – Edição do Kindle.

• WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. 6. ed. São Paulo: Cengage Learning, 2016. 848 p.

2 O MODELO DE REGRESSÃO LINEAR GERAL EM FORMA MATRICIAL

O modelo de regressão linear com múltiplas variáveis explicativas parte do princípio de que existe uma relação entre uma variável dependente, representada por Yi, e diversas outras variáveis que são capazes de explicá-la, as quais representamos por Xi. Em que i = 1, 2, ..., k, o que significa que temos X1, X2, ..., Xk variáveis explicativas.

Poderíamos desenvolver toda a análise usando a álgebra tradicional. Ela se encaixaria facilmente para duas variáveis explicativas, ou seja, X1 e X2, mas quanto mais variáveis X fôssemos acrescentando, o entendimento deixaria de ser intuitivo e passaria a ser cada vez mais complexo. O emprego de álgebra matricial nos permite analisar tanto os modelos simples, como vimos na Unidade 1, quanto os modelos complexos, com 10 regressores, por exemplo, ou mais.

Vamos começar supondo que você está trabalhando no estudo sobre a remuneração de um grupo específico de profissionais, em que diversos fatores são considerados para estabelecer o salário no momento da contratação. A equação 1.3 nos dá uma dessas possiblidades:

Em que Salárioi é a remuneração recebida pelas pessoas em uma amostra, Educaçãoi é o tempo de educação formal que o profissional teve em sua vida e ε1 é o termo de erro, usado para capturar as demais variáveis que influenciam na remuneração, mas que não estamos considerando nesse modelo por acreditarmos que sua influência conjunta seja muito pequena.


88

Sabemos que a educação é importante na composição dos salários, que quanto maior o nível de instrução de uma pessoa, maior tenderá a ser a sua remuneração. Porém, há diversos fatores que não podem ser desprezados sob o risco de cometermos um erro crucial. Trata-se da omissão de variáveis explicativas.

Neste caso, sabemos que o tempo de experiência profissional também entra na composição do salário. Esperamos que profissionais experientes tenham uma remuneração maior do que os que estão entrando agora no mercado de trabalho. Afinal, a experiência profissional deve valer de alguma coisa, não é mesmo?

A fluência em outras línguas também ajuda a melhorar a renda e esperamos que um profissional que fale várias línguas estrangeiras tenha um salário maior do que aquele que fala apenas o português.

Vamos reescrever 1.3 da seguinte forma:

Salárioi = β1 + β2Educaçãoi + β3Experiênciai + β4Idiomasi + εi 1.4

Agora temos uma variável dependente sendo explicada por três variáveis exógenas. A dúvida é: Como estimamos os coeficientes em um modelo como esse?

Nos modelos 1.3 e 1.4 usamos o subscrito i para indicar que se tratam de indivíduos, ou seja, o salário de João, Paulo, Marcia etc., é explicado pelo tempo de estudos de João, Paulo, Marcia etc., mais o tempo que João, Paulo, Marcia etc. atuam no mercado, e mais ainda, quantos idiomas cada um deles fala.

Podemos montar uma equação para cada indivíduo da seguinte forma:

SalárioJoão = β1 + β2EducaçãoJoão + β3ExperiênciaJoão + β4IdiomasJoão + εJoão

SalárioPaulo = β1 + β2EducaçãoPaulo + β3ExperiênciaPaulo + β4IdiomasPaulo + εPaulo

SalárioMarcia = β1 + β2EducaçãoMarcia + β3ExperiênciaMarcia + β4IdiomasMarcia + εMarcia... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...Salárioi = β1 + β2Educaçãoi + β3Experiênciai + β4Idiomasi + εi

1.5

Podemos resumir 1.5 como:

Yi = β1 + β2X2i + β3X3i + β4X4i + ... BkXki + εi 1.6

O formato desse modelo 1.6, nós já conhecemos. Estamos habituados a ele e nos sentimos muito confortáveis ao fazer a sua leitura. Há, no entanto, outra forma de escrever 1.6, mas para isso teremos que ampliar a nossa zona de conforto e pensar em empilhar os dados, colocando um embaixo do outro. Isso pode ser visto em 1.7:


89

k

k

k

n n n kn k n

Y X X XY X X XY X X X

Y X X Xy X

n n k k n

β εβ εβ ε

β εβ ε

… … = +… …

= +× × × ×

1 21 31 1 1 1

2 22 32 2 2 2

3 23 33 3 3 3

2 3

111

1

1 1 1

1.7

Em que y é um vetor coluna n x 1 de observações da variável dependente, X é a matriz n x k de variáveis explicativas, ou seja, X21 se refere aos anos de educação formal de João, X31 se refere ao tempo de experiência de João, X22 é o tempo de educação formal de Paulo, X23 o tempo de experiência de Paulo, e assim sucessivamente. β representa o vetor coluna k x 1 dos parâmetros do modelo e ε é o vetor coluna n x 1 dos termos de erro.

Acadêmico, duas coisas serão destacadas. Primeiro é que a amostra vai até n observações, e segundo, a primeira coluna de X é composta por números 1 porque é a partir dela que se calcula o intercepto da regressão, ou seja, o β1. Com isso, as colunas representam vetores de n observações de cada variável explicativa.

De forma compacta, reescrevemos 1.7 como:

y = Xβ + ε 1.8

Em que X tem posto de coluna = (k), que é menor do que o número de observações n, e ε é idêntica e individualmente distribuído com média 0 e variância σ2I , ou seja, ε~iid(0, σ2I) , como veremos mais adiante.

Uma matriz com posto de coluna = (k), em que k é o número de colunas da matriz, significa que essas colunas são independentes, no sentido de que uma não é exatamente colinear a outra. Em econometria, como veremos nas hipóteses do modelo, é chamado de full rank.

3 HIPÓTESES DO MODELO

Da mesma forma que no modelo de regressão linear simples, o modelo de regressão múltiplo se sustenta sob determinadas hipóteses, que veremos agora, baseado em Greene (2012), e que é uma extensão do que foi visto na Unidade 1.


90

a) Hipótese 1

O modelo de regressão é linear nos parâmetros – considere um modelo econométrico com k variáveis explicativas e n observações. Usaremos as letras minúsculas em negrito para representar cada coluna ou linha de uma matriz de variáveis e as letras maiúsculas em negrito para representar as respectivas matrizes ou vetores.

Assim, a Hipótese 1 afirma que existe uma relação linear entre cada variável dependente yi e as variáveis explicativas x1, x2, ..., Xk, de modo que:

y = x1β1 + x2β2 + ... + xkβk + ε 1.9

y = Xβ + ε 1.10

E[εi|xj1, xj2, ..., xjk] = 0 1.11

Em que ε representa o termo de erro, e de forma convencional, representamos 1.9 como:

Em um modelo de regressão simples, com apenas uma variável explicativa, a matriz X é formada por apenas duas colunas, sendo a primeira formada por 1, representando o intercepto β1, e a segunda coluna representa a variável explicativa. Em um modelo de regressão múltiplo, ela tem a forma apresentada em 1.7.

a) Hipótese 2

A média condicional do termo de erro é zero – essa hipótese implica que as variáveis independentes são exógenas:

Pode ser escrita de forma geral como E[ε|X] = 0, o que significa que as variáveis independentes X não são capazes de prever o termo de erro ε.

Há três implicações para essa hipótese:

1. A média incondicional do termo de erro é zero: E[εi] = 0 .2. A covariância entre o termo de erro e a variável independente é zero: Cov[εi,xi] = 0.3. A média condicional de y é dada por: E[y|X] = Xβ .


91

a) Hipótese 3

Não há correlação ou colinearidade perfeita entre as variáveis explicativas X – essa hipótese implica que a matriz X, de variáveis explicativas, tem posto de coluna completo (full rank) ou, dito de outra forma, as colunas da matriz X são independentes.

Veremos adiante que para obtermos os estimadores de mínimos quadrados ordinários, haverá uma multiplicação entre a matriz X e sua transposta X'. Essa multiplicação é importante para obtermos os estimadores dos parâmetros, e para isso, o resultado X'X tem que ser inversível.

Para invertermos uma matriz é necessário obter o determinante, e se a matriz X não tiver posto completo, ou seja, se matriz n x k não tiver posto k, não será possível calcular esse determinante e, consequentemente, obter as estimativas dos coeficientes de mínimos quadrados.

Greene (2012, p. 59) apresenta no exemplo 2.5 de seu livro um caso em que o posto de coluna não é completo. Para isso ele descreve uma função consumo como:

C = β1 + β2outrasrendas + β3salário + β4rendatotal + ε 1.12

Var[εi|X] = σ2 1.13

Cov[εi, εj|X] = 0 1.14

Não é difícil perceber que a renda total é formada pela soma do salário e de outras rendas. Neste caso, há uma correlação perfeita ou colinearidade perfeita entre as variáveis explicativas.

Outro ponto que deve ser ressaltado é que o número de observações deve ser maior do que o número de coeficientes a serem estimados na regressão. Se tivermos uma amostra com 10 observações, por exemplo, e 11 coeficientes a serem estimados, logicamente a matriz X, n x k, terá posto < k, violando a Hipótese 3.

a) Hipótese 4

Os erros são homoscedásticos e não são correlacionados – algumas vezes ouviremos a expressão “disturbâncias esféricas” para essa hipótese. Para compreender melhor, considere que:

Para todo i = 1, 2, ..., n e i ≠ j.


92

Pela equação 1.13 a distribuição de probabilidade de cada termo de erro é um número constante, e por 1.14, que é válido no caso dados de séries temporais, vemos que os termos não são correlacionados, ou seja, não há correlação serial dos resíduos.

Na Unidade 3, teremos um tópico específico para analisar a Hipótese 3, e dois tópicos para entendermos as implicações da violação da Hipótese 4, ou seja, a heteroscedasticidade e a autocorrelação.

Em síntese, buscamos modelos capazes de gerar resíduos homoscedásticos, ou seja, com a mesma distribuição de probabilidade dos termos de erro e não correlacionados. Isso pode ser visto através da matriz de variância-covariância:

n

n

n n n n

E |X E |X E |XE |X E |X E |X

E |X

E |X E |X E |X

ε ε ε ε ε ε

ε ε ε ε ε εεε

ε ε ε ε ε ε

… =

′

1 1 1 2 1

2 1 2 2 2

1 2

1.15

n

n

n n n n

Var |X Cov |X Cov |XCov |X Var |X Cov |X

E |X

Cov |X cov |X Var |X

ε ε ε ε ε σε ε ε ε ε ε σ

εε

σε ε ε ε ε ε

… … = =

′

21 1 2 1

22 1 2 2 2

21 2

0 00 0

0 0

1.16

O termo σ2 é um escalar, ou seja, uma constante, e pelas propriedades da multiplicação de matrizes, podemos representar 1.16 como:

E[εε'|X] = σ2I 1.17

Em 1.16 notamos que em função de 1.13 a diagonal principal representa a variância do erro, que é igual a σ2 para cada termo, ou seja, um valor constante. Podemos ver ainda que nas demais posições temos 1.14, ou a covariância entre os termos de erro distintos, que por definição é zero, demonstrando ausência de autocorrelação.

a) Hipótese 5

A matriz X é não estocástica – em amostras repetidas, os valores de X são fixados. Obviamente não estamos dizendo que os valores de X não se alteram ao longo de uma amostra. O que queremos dizer é que se tirarmos 100 amostras, teremos em todas os mesmos valores de X, os quais são diferentes uns dos outros dentro da amostra.


93

ε|X~N[0, σ2I] 1.18

Essa variabilidade é crucial para podermos estimar os coeficientes por mínimos quadrados ordinários.

b) Hipótese 6

O vetor de erros ε tem distribuição normal, com média zero e variância constante:

Vale dizer ainda que se a intenção é apenas uma estimativa pontual dos coeficientes, as hipóteses de 1 a 5 são suficientes. No entanto, como precisamos aferir o modelo aplicando a inferência estatística, a hipótese 6 é fundamental. Como vimos na Unidade 1, a hipótese de normalidade é o pressuposto básico para podermos calcular intervalos de confiança, fazer testes de hipótese, utilizar o modelo para previsão, entre outras aplicações.

94

RESUMO DO TÓPICO 1


• O modelo de regressão apresentado na Unidade 1, contendo apenas uma variável explicativa, pode ser reescrito de forma a conter múltiplos regressores.

• Devido às complicações algébricas para se apresentar um modelo de regressão múltiplo da forma tradicional, ao apresentar esse modelo na forma matricial, podemos visualizar de forma mais intuitiva a relação entre as variáveis.

• As hipóteses do modelo de regressão múltiplo na forma matricial são expressas como:

a) Hipótese 1 – O modelo de regressão y = Xβ + ε é linear nos parâmetros.b) Hipótese 2 – A média condicional do termo de erro é zero.c) Hipótese 3 – Não há correlação ou colinearidade perfeita entre as variáveis

explicativas X.d) Hipótese 4 – Os erros são homoscedásticos e não são correlacionados.e) Hipótese 5 – A matriz X é não estocástica; em amostras repetidas, os valores

de X são fixados. f) Hipótese 6 – O vetor de erros ε tem distribuição normal, com média zero e

variância constante ε|X~N[0, σ2I].

95

AUTOATIVIDADE

Como introduzimos o modelo de regressão na forma matricial, talvez você não esteja bem à vontade com essa linguagem. Antes de mais nada, é importante lembrar que não esperamos que você tenha domínio total e completo de todas as particularidades envolvendo operações matriciais. O mais importante neste momento é que você tenha uma noção e que isso lhe permita entender de forma intuitiva a análise de regressão, na forma como está aprendendo nesse livro de estudos, e na forma como os modernos econometristas usam. Por esse motivo, as autoatividades a seguir têm por objetivo fazer uma revisão de matrizes e álgebra matricial, nas quais você poderá exercitar alguns dos conceitos mais importantes.

1 Sabemos que uma matriz nada mais é do que um arranjo retangular de números distribuídos em n linhas e k colunas. Assim, uma matriz A, de ordem n x k, pode ser representada por:

k

k

n n nk

a a aa a a

a a a

=

11 12 1

21 22 2

1 2

A

( )ija i , , ,n; j , , ,k= … = …1 2 1 2 são elementos de A, m x n é a dimensão da matriz.

As matrizes de modo geral têm algumas características importantes. Por exemplo, uma matriz n x 1 é chamada de vetor coluna e uma matriz 1 x k é chamada de vetor linha. Se o número de linhas é igual ao número de colunas, temos uma matriz quadrada. Quando todos os elementos fora da diagonal principal de uma matriz quadrada forem iguais a zero, temos a chamada matriz diagonal. Ela é semelhante à matriz identidade, também conhecida como matriz unitária, cujos elementos da diagonal principal são todos iguais a 1 e os elementos fora dessa diagonal são iguais a zero.

Considere as seguintes matrizes a seguir, relacionando-as com as respectivas definições:

96

=

3579

A

( ) Matriz Quadrada( ) Matriz Identidade( ) Vetor Coluna( ) Matriz Diagonal( ) Vetor Linha

= 10 20 30 40B

=

5 69 12

C

=

1 0 00 5 00 0 6

D

=

1 0 00 1 00 0 1

E

2 A soma de duas matrizes se dá elemento a elemento, ou seja, A + B = [aij + bij]. Assim, em uma matriz quadrada de ordem 2 x 2, temos:

a a b b a b a ba a b b a b a b + +

+ = + = + + 11 12 11 12 11 11 12 12

21 22 21 22 21 21 22 22

A B

Considere a matriz

=

2 46 8

A e a matriz

=

1 35 7

B . Determine A + B.

3 Na linguagem matricial, dizemos que um escalar é um número, uma constante. Uma constante multiplicada por uma matriz resulta em uma nova matriz, cujos elementos são o resultado da multiplicação do escalar por cada elemento da matriz original: δA = [δaij]. Por outro lado, se tivermos duas matrizes, só poderemos multiplicá-las se o número de colunas da primeira for igual ao número de linhas da segunda. Dito de outra forma, uma matriz n x k só pode ser multiplicada por outra matriz de ordem k x m. O resultado dessa multiplicação é uma matriz de ordem n x m, ou seja, terá o número de linhas da primeira matriz e o número de colunas da segunda matriz. A

multiplicação, por sua vez, se dá na forma nik kjk

a b=

= ∑ 1

AB . Assim, seja

=

2 4 96 8 0

A e =

1 35 78 0

B , determine C = AB. Depois, sendo δ = 2, um escalar,

obtenha D = δC.

97

4 A transposição de uma matriz é outro elemento importante na análise de regressão para a determinação dos parâmetros β. Transpor uma matriz qualquer nada mais é do que trocar as linhas por colunas e vice e versa.

Assim, se A = [aij], A' = [aij] . Considere a seguinte matriz =

5 1015 2025 30

A e

obtenha a transposta de A.

5 O determinante de uma matriz A, representado por det A, ou |A|, é um número ou escalar, que é obtido de uma matriz quadrada. São várias as técnicas para se obter o determinante de uma matriz, como por exemplo o método de Sarrus para matrizes de ordem até 3 x 3, o teorema de Laplace para matrizes de ordem superior a 3 x 3 , mas que pode ser empregado em matrizes quadradas de qualquer ordem. Há ainda o teorema de Leibniz, cálculo por triangulação entre outras técnicas. O importante é que você empregue a técnica que melhor se adapte ao seu estilo. Aqui faremos a demonstração do teorema de Laplace, calculando o determinante da matriz

A =

2 4 68 10 13 5 7

. Começamos obtendo o menor dos elementos da primeira

linha, denotado por |Mij|, dado pelo determinante da submatriz resultante da eliminação da i – ésima linha e da j – ésima coluna. Assim, na primeira

linha temos: =11

10 15 7

M , =12

8 13 7

M , =13

8 103 5

M . O determinante é

calculado por ( )i j

ijdet a+

= ∑ −1 ijA M :

( ) ( ) ( )det

+ + += × − + × − + × −

1 1 1 2 1 310 1 8 1 8 102 1 4 1 6 1

5 7 3 7 3 5A

( ) ( ) ( )det = × − − × − + × −2 70 5 4 56 3 6 40 30A

det = − +130 212 60A

det = −22A

Como exercício, obtenha o determinante de B =

0 1 23 6 01 4 1

.

6 O último conceito que precisamos revisitar é o de inversão de matrizes, que só é possível no caso de uma matriz quadrada não singular, ou seja, cujo determinante é diferente de zero. Matrizes singulares, ou com determinante igual a zero, não são passíveis de inversão. Para inverter uma matriz, devemos começar obtendo o menor dos elementos aij, como na questão 5,

98

mas nela nós obtivemos apenas para a primeira linha. Agora teremos que

obter para todas as linhas da matriz A =

2 4 68 10 13 5 7

.

Assim, na primeira linha temos: M =11

10 15 7

, M =12

8 13 7

, M =13

8 103 5

.

Na segunda linha temos: M =21

4 65 7

, M =22

2 63 7

, M =23

2 43 5

.

Na terceira linha temos: M ,=31

4 610 1

M =32

2 68 1

, M =33

2 48 10

.

Com esses resultados devemos construir uma matriz de Cofatores, dada por cij = (–1)i+j|Mij|. Dito de outra forma, trata-se de uma matriz composta por menores com sinal trocado quando i + j é ímpar:

( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )

M M M

A M M M

M M M

c c cCof c c c

c c c

+ + +

+ + +

+ + +

− − − = = − − − − − −

1 1 1 2 1 3

11 12 1311 12 13

2 1 2 2 2 3

21 22 23 21 22 233 1 3 2 3 3

31 32 3331 32 33

1 1 1

1 1 1

1 1 1

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

ACof

− − −

= − − − − − −

2 3 4

3 4 5

4 5 6

10 1 8 1 8 101 1 1

5 7 3 7 3 54 6 2 6 2 4

1 1 15 7 3 7 3 54 6 2 6 2 4

1 1 110 1 8 1 8 10

( )( ) ( )

( )ACof

− − − −

= − − − − − = − − − −

70 5 56 3 40 3028 30 14 18 10 124 60 2 48 20 32

− − − −

65 53 102 4 256 46 12

ACof =

− − − −

65 53 102 4 256 46 12

99

A transposta da matriz de Cofatores é chamada de matriz Adjunta e é dada por (Cof A)':

AAdj − = − − −

65 2 5653 4 46

10 2 12

A Inversa de A é dada por:

( )A AA

Adj − =1 1

Como o determinante de A = – 22, a sua inversa é:

A−

− = − − − −

1

65 2 561 53 4 4622

10 2 12

A .−

− − = − − − −

1

65 2 5622 22 22

1 53 4 4622 22 22 22

10 2 1222 22 22

Como exercício, obtenha a inversa de D

=

0 25 4

.

101

TÓPICO 2

ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS

MODELOS DE REGRESSÃO MÚLTIPLOS

UNIDADE 2

1 INTRODUÇÃO

Vimos no tópico anterior uma breve introdução ao modelo de regressão com múltiplas variáveis explicativas. Como você deve ter notado, representar o modelo na forma matricial, além de intuitivo, nos proporciona ganhos em termos de generalização, permitindo que tenhamos tantas variáveis explicativas quantas forem necessárias para descrever o comportamento da nossa variável dependente.

Na Unidade 1, vimos como obter uma estimativa dos parâmetros do modelo de regressão linear simples, empregando o método de mínimos quadrados ordinários em que, em síntese, minimizávamos a soma dos quadrados dos resíduos a fim de obter estimativas para os coeficientes populacionais que fossem consistentes e eficientes.

Naquela oportunidade demonstramos como obter os estimadores de um modelo com apenas uma variável explicativa. Mas, e se tivermos duas ou mais variáveis explicando a variável dependente? Neste caso, o cálculo tradicional torna-se complexo e cansativo, motivo pelo qual o emprego de matrizes para obtenção desses parâmetros é o mais indicado.

Além de estimar um modelo de regressão mais completo e complexo, teremos acesso a uma série de estatísticas de teste que nos permitirão deixar os resultados obtidos ainda mais robustos e a nossa análise ainda mais rica em detalhes.

A análise de regressão vai muito além da simples estimativa de parâmetros. Os modelos estimados podem ser empregados para fins de tomada de decisão no planejamento estratégico de uma empresa, ou como análise de impactos de uma política econômica. Por esses motivos, ter certeza de que temos em mãos resultados confiáveis é extremamente importante.

Imagine uma empresa em que boa parte dos insumos usados na produção de sua fábrica é importada do exterior. Você é escalado para construir um modelo de regressão capaz de prever o comportamento da taxa de câmbio no curto e médio prazos. Com base no modelo de regressão que você estimar, a empresa decidirá se e quando deverá contratar instrumentos de proteção cambial.


102

É nesse exato momento que o seu trabalho é posto à prova. Será que o modelo está corretamente especificado? Será que não deixou de fora alguma variável que poderia ser importante, ou relevante para explicar o comportamento do câmbio? Por outro lado, talvez tenha inserido variáveis de mais para explicar a variável dependente! Talvez uma relação linear nas variáveis não seja a forma funcional mais adequada. Um modelo com logaritmos pode trazer resultados mais eficientes e a decisão tomada a partir da previsão feita pelo modelo estimado com outra forma funcional pode ser gerar resultados melhores.

Essas e outras perguntas serão respondidas neste Tópico 2, que terminará com um exemplo que nos permitirá ver na prática cada conceito adquirido aqui.

2 ESTIMADORES DE MQO

Suponha que tenhamos um modelo econométrico com k variáveis explicativas. Esse modelo é representado em 2.1:

Yi = β1 + β2X21 + β3X3i + ... + βkXki + εi 2.1

Independentemente do que estamos pretendendo com este modelo, dificilmente teremos acesso a todos os dados existentes, nesse caso, obter uma amostra representativa e a partir dela fazer inferências acerca da população é o procedimento correto.

Com isso, 2.1, que é a Função de Regressão Populacional, dá espaço para 2.2, a Função de Regressão Amostral:

2.2i i i k ki iY ˆ ˆ ˆ ˆX XˆXβ β β β ε= + + +…+ +1 2 2 3 3

Podemos reescrever 2.2 na forma matricial como em 2.3:

2.3 y X εβ= +

Em que y é o vetor n x 1 da variável dependente, X é a matriz n x k de variáveis explicativas, β é o vetor de k x 1 de parâmetros estimados e ε é o vetor n x 1 dos resíduos da regressão. A ideia por trás do método de mínimos quadrados ordinários é minimizar a soma dos quadrados dos resíduos.

De 2.3, temos:

^ ^

TÓPICO 2 | ESTIMAÇÃO E INFERÊNCIA ESTATÍSTICA DOS MODELOS DE REGRESSÃO MÚLTIPLOS

103

2.4ε = y – Xβ^ ^

A soma dos quadrados dos resíduos é dada por:

2.5ε'ε = (y – Xβ)'(y –Xβ)^ ^ ^ ^

Assim, minimizamos 2.5 sujeito a β para obter:^

2.6 min (y X )'(y X )ε β β= − −β^

2.7min ε = y'y – yXβ – X'β'y + X'β'Xββ^

^ ^ ^ ^ ^

Como y'Xβ e X'β'y são iguais e, pelas propriedades da multiplicação de matrizes, podemos rearranjar e simplificar 2.7 para obter:

^ ^

ˆ' 'ˆmin ' y y X y Xˆ ˆˆ Xˆ

βε ε β β β+′ ′−′= 2 2.8

Pela condição de primeira ordem, tiramos a derivada parcial de 2.8, igualamos a zero e resolvemos para β :

( )' 'y y X y Xˆ Xˆ ˆ

ˆβ β β

β

∂

∂

′ ′ ′− +=

20 2.9

X y X Xβ− ′+′ = 0 2.10

Resolvendo para X X ,β′ temos:

2.11X X yˆ Xβ ′=′

Pré-multiplicando ambos os lados de 2.11 por ( )X X ,−

′1 obtemos:


104

2.12( ) ( ) ( ) 'X X X X X X Xˆ yβ− −

′=′ ′1 1

Em 2.12, pelas propriedades envolvendo multiplicação de matrizes invertidas, sabemos que ( ) ( )X X X X I

−′ ′ =

1, ou seja, uma matriz identidade. Assim,

o estimador de β de mínimos quadrados ordinários é dado por:

2.13( ) 'X X X yβ−

′=1

Que é um vetor k x 1 dos coeficientes estimados ou estimadores dos parâmetros do modelo de regressão.

Se o estimador em 2.13 for não viesado, ou seja, se obtivermos várias amostras e estimarmos diversas vezes os parâmetros β, esperamos que, em média, o valor dado por 2.13 convirja para o verdadeiro parâmetro da população. Dito de outra forma, esperamos que:

2.14E β β =

Para verificar isso, tomamos 2.13 e, sabendo que na população encontramos y = β + ε, escrevemos:

2.15( ) ( )'X X X Xβ β ε−

′= +1

2.16( ) ( )'Xˆ X X X X X X'β β ε− −

= +′ ′1 1

Em 2.16 aplicamos o operador de expectativas para reescrevê-la como:

2.17( ) ( )'E[ X X X X ] E X X Xβ β ε− − = +

′ ′ ′1 1

Em 2.17, (X'X)–1X'X resulta em uma matriz identidade I e, além disso,

podemos reescrever ( )E X X X ε− ′ ′

1 como ( )X X X E ε−

′ ′1

.

Como E ε = 0, temos:


105

2.18E β β =

Além de não tendencioso ou não viesado, queremos que esse estimador obtido em 2.13 seja eficiente, ou seja, tenha variância mínima.

Sabemos que a variância é obtida por:

2.19( )ˆV r â Ê Eβ β β = − 2

( ) ( ) Var E E . E 'ˆ ˆ ˆ ˆ ˆβ β β β β = − − 2.20

Sabemos por 2.16 que ( ) ( )'Xˆ X X X X X X'β β ε− −

= +′ ′1 1

. Em que

( ) 'X X X X I−

′ =1

. Se resolvermos 2.16 para β β− , temos:

2.21( )Xˆ X X'β β ε−

− ′=1

De 2.18, temos que ( )E β β= . Aplicando isso em 2.20 e substituindo o resultado em 2.21, podemos reescrever 2.20 para:

2.22 'V âr Ê .β β β β β = − −

2.23( ) ( )'

Var E X X X . X X Xβ ε ε− − =

′ ′

′ ′

1 1

2.24( ) ( )Var E X X X' 'Xˆ X Xβ εε− − = ′

′

1 1

2.25( ) ( )Var X X X E X X Xβ εε− −

′ ′ = ′ ′1 1

2.26( )Var E I X Xβ εε−

′ = ′1


106

Em 2.26 temos E ,εε ′ que por 1.17 é definida como Iσ 2 , e como a matriz identidade multiplicada por qualquer matriz resulta na própria matriz que é multiplicada, obtemos a variância de β como:

2.27( )Var X Xβ σ− = ′

12

Portanto, a matriz de variância do vetor de parâmetros β vai depender da estimativa de σ 2, que é o parâmetro populacional, o qual desconhecemos, e de ( )X X

−′

1.

Para obter uma estimativa de ,σ 2 usamos:

2.28'

n kˆ ˆˆ ε εσ =−

2

Em 2.28, sabemos que n – k é o total de observações da nossa amostra menos a quantidade de coeficientes β estimados na regressão. Dito de outra forma, é o número de graus de liberdade do modelo de regressão.

A matriz de variância e covariância de β está representada em 2.29:

2.29

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

k

k

k k k

var cov , cov ,

cov , var cov ,var cov

cov , cov ,

ˆ ˆ ˆ ˆ ˆ

ˆ ˆ ˆ ˆ ˆ

ˆ v

ˆ

ˆ ˆ ˆ a ˆr

β β β β β

β β β β ββ

β β β β β

… − =

1 1 2 1

2 1 2 2

1 2

Pelo fato de os estimadores serem lineares, não tendenciosos, terem variância mínima e ainda os resíduos terem distribuição normal, o teorema de Gauss-Markov garante que os estimadores de mínimos quadrados ordinários são os melhores estimadores lineares não tendenciosos, o que na literatura muitas vezes é representado pela sigla BLUE, ou seja, Best Linear Unbiased Estimator.

Em amostras relativamente pequenas, as propriedades vistas até agora podem não ser encontradas, no entanto, à medida que a amostra vai aumentando indefinidamente, vai-se confirmando todas as propriedades. Dizemos que no limite, em pequenas amostras, os estimadores são não tendenciosos, mas à medida que a amostra aumenta indefinidamente, eles se tornam consistentes, porque a variância vai diminuindo, tendendo a zero.


107

Pela Hipótese 6 do modelo de regressão linear, vimos que o vetor do termo de erro ε tem distribuição normal, com média igual a zero e variância constante. Como em última análise os parâmetros estimados β são uma função linear do vetor de erros, é possível supor que eles carregam essa característica estatística. Dito de outra forma, ( )|X ~ N , X Xβ β σ

−

′12 , o que implica que cada parâmetro

individual kβ também tem distribuição normal, ou seja, kkk k~ N , Sβ β σ

2 , em que Skk é o k – ésimo elemento da matriz ( )X X

−′

1.

Isso nos permite aplicar um teste t a fim de verificar se cada coeficiente é individualmente significante do ponto de vista estatístico. Você deve se lembrar, como vimos na Unidade 1, de que o primeiro passo é estabelecer as hipóteses (nula e alternativa) a serem testadas:

k

k

H : H :

ββ

=≠

0

1

00

O segundo passo é calcular a estatística de teste, neste caso:

2.30( )H

k

n kˆ

k kt

ˆ~ t

Sβ

β β−

−= 0 k , , ,n= …1 2para todo

Com kβ sendo o k – ésimo coeficiente estimado, Hkβ

0é o valor do k – ésimo

coeficiente sob a hipótese nula, k

ˆSβ é o desvio padrão do k – ésimo coeficiente

estimado e n – k representa o número de graus de liberdade, sendo n o tamanho da amostra e k o número de parâmetros estimados.

O resultado de 2.30 é comparado à tabela estatística de distribuição de probabilidade de t, e se o tcalculado > ttabela, para um nível de significância α, rejeitamos a hipótese nula em favor da hipótese alternativa de que o coeficiente estimado é estatisticamente significativo.

É preciso compreender que cada coeficiente estimado individualmente tem o seu significado, supondo ceteris paribus para os demais coeficientes. Ou seja, mantendo constantes todos os demais efeitos individuais sobre a variável dependente, a variável explicativa Xi tem um efeito kβ sobre Yi.

É possível também testar a hipótese nula H0, de que em conjunto, os coeficientes estimados k

ˆ , ,ˆ ˆ,β β β…2 3 são estatisticamente iguais a zero, contra a hipótese alternativa de que em conjunto os coeficientes estimados são estatisticamente diferentes de zero. Para isso empregamos um teste F, definido como:


108

2.31( )( ) ( ) ( )k , n k

SQE / k F ~ F

SQR / n k − −

−=

− 1

1

Em que SQE é a soma dos quadrados explicados pela regressão, obtida por ' yˆ X nYβ ′ − 2, com k – 1 graus de liberdade no numerador, e SQR é a soma dos quadrados dos resíduos, obtida por ˆ ˆ'ε ε , com n – k graus de liberdade no denominador. Esse valor calculado é comparado à estatística F obtida em uma tabela de distribuição de probabilidade, a um nível de significância α.

Da mesma forma que o teste t para os parâmetros individuais, se o Fcalculado > Ftabela, rejeitamos a hipótese nula com um nível de significância de α, em favor da hipótese alternativa.

E quanto à capacidade do nosso modelo de se ajustar aos dados? O coeficiente de determinação é dado por 2.32:

2.32SQERSTQ

=2

Que em notação matricial fica:

2.33'X y nYRy'

ˆ

y nYβ ′ −

=−

22

2

Note que em 2.33 estamos usando o R2 ao invés do r2 que tínhamos na Unidade 1. Fazemos isso para diferenciar o modelo de regressão simples do modelo de regressão múltiplo. Em termos de interpretação não muda nada, ou seja, o R2 fornece uma medida do poder explicativo da regressão, ou da qualidade do ajustamento do modelo aos dados.

Podemos ver ainda que se trata de uma decomposição da variância de y. Podemos analisar o coeficiente de determinação e obter outras estatísticas ligadas a ele através da análise de variância, ANOVA. Para isso, observe o quadro a seguir:


109

QUADRO 1 – ANÁLISE DE VARIÂNCIA

Causas da variação Fontes Graus de liberdade Quadrado médio

Devido à Regressão (SQE) ' yˆ X nYβ ′ − 2 k – 1

Devido aos Resíduos (SQR) ˆ ˆ'ε ε n – k σ 2

Total (STQ) y' y nY− 2 n – 1 yσ 2

Coeficiente de determinação'X y nY 'Ry' y n '

ˆ ˆY y nY

ˆy

β ε ε−= = −

−

′

−

22

2 21

( )( )

( )( )

'SQE / k X y nY / kF

SQR / n k ' / n k

ˆ

ˆ ˆβ

ε ε

′− − −= =

− −

21 1

FONTE: Adaptado de Greene (2012, p. 82)

3 ESTIMANDO O MODELO DE REGRESSÃO MÚLTIPLO

Um dos campos de aplicação da econometria que tem crescido nos últimos anos é o do desenvolvimento econômico e social. Nessa área de pesquisa, um dos indicadores mais difundidos é o Índice de Desenvolvimento Humano – IDH. Enquanto o PIB nos dá uma ideia de quão rica pode ser uma nação, o IDH nos mostra a qualidade dessa riqueza.

Vamos usar alguns indicadores do Atlas do Desenvolvimento Humano no Brasil <http://www.atlasbrasil.org.br> para ilustrar a estimação de um modelo de regressão múltipla. A ideia se baseia menos na parte teórica envolvendo os conceitos econômicos e sociais, para dar mais ênfase aos aspectos técnicos da análise de regressão.

Como ponto de partida, a variável explicativa será o IDHM, Índice de Desenvolvimento Humano Municipal, e como variáveis explicativas teremos o RDPC – renda per capita média, ESPVIDA – esperança de vida ao nascer e EANOSESTUDO – número médio de anos de estudo que uma geração de crianças que ingressa na escola deverá completar ao atingir 18 anos de idade, se os padrões atuais se mantiverem ao longo de sua vida escolar.

Temos a nossa disposição uma base de dados de corte, por estados brasileiros, relativa aos anos de 1991, 2000 e 2010. Isso nos permite estimar pelo menos três modelos econométricos e verificar se há mudanças significativas nos resultados para cada ano de levantamento dos dados.

O primeiro modelo econométrico é dado por 2.34 e se refere ao ano de 1991. Naquele ano, para o Brasil como um todo, o IDH era de 0,493:


110

i i i i iIDHM RDPC ESPVIDA EANOSESTUDOβ β β β ε= + + + +1 2 3 4 2.34

Esperamos que os coeficientes estimados β2, β3 e β4 tenham sinal positivo, indicando que renda, saúde e educação são fatores importantes no desenvolvimento humano de uma nação.

Como os dados se referem a estados brasileiros, e como o Brasil tem uma heterogeneidade muito grande, representaremos os demais fatores que influenciam no desenvolvimento humano, mas que não entraram nesse modelo, por εi, que supomos ter distribuição normal, com média zero e variância constante.

Os dados obtidos no site Atlas Brasil foram importados para o Gretl e ao todo temos 27 observações. Para compreender melhor o significado de dados de corte e da análise de regressão múltipla usando matrizes, vamos dar uma olhada no quadro seguinte:

QUADRO 2 – AMOSTRA DA BASE DE DADOS DO IDHM DE 1991

Unidade da Federação X1 RDPC ESPVIDA EANOSESTUDO IDHMRondônia 1 304,90 63,11 7,55 0,407

Acre 1 284,96 63,72 6,56 0,402Amazonas 1 345,82 63,67 6,52 0,430Roraima 1 437,24 62,66 7,14 0,459

Pará 1 273,22 63,42 6,48 0,413Amapá 1 378,57 65,05 7,81 0,472

Tocantins 1 243,58 60,32 6,36 0,369Maranhão 1 156,47 58,04 6,29 0,357

Piauí 1 167,03 60,71 5,89 0,362

FONTE: Adaptado de <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.

A primeira coluna refere-se aos estados da federação e torna clara a diferença entre dados de corte e séries temporais. Essa base tem informações exclusivamente do ano de 1991, para cada estado brasileiro. Dito de outra forma, os dados não variam no tempo, o que caracteriza os dados de corte.

A coluna X1 é formada por números 1 porque, como vimos em 1.7, usamos essa coluna para estimar o intercepto β1 do nosso modelo de regressão. As demais colunas são as variáveis explicativas, exceto a última, que é a variável dependente.

A Figura 1 apresenta os gráficos de dispersão entre a variável dependente IDHM e as demais variáveis explicativas. Como podemos perceber, há uma correção positiva entre as variáveis explicativas individualmente e a variável dependente. O gráfico ilustrado a seguir reforça a hipótese de que podemos esperar que os coeficientes estimados sejam positivos:


111

FIGURA 1 – GRÁFICOS DE DISPERSÃO DO IDHM 1991


O Gretl, através dos seus menus, nos fornece uma série de estatísticas descritivas que vamos deixar para você explorar. Aproveite esse exemplo para aprender mais sobre essa ferramenta que é fundamental no nosso processo de aprendizado.

Vamos rodar a regressão sobre a equação 2.35. Para isso, na barra de menus do Gretl, selecione “Modelo” e na sequência “Mínimos Quadrados Ordinários”. Na janela que será exibida (Figura 2), você deve selecionar as variáveis e colocá-las nos seus respectivos campos.

Esta é outra grande vantagem do Gretl: tanto o seu menu quanto as janelas de opções são totalmente intuitivas. Cada elemento que forma as rotinas prontas do software encontra correspondência nos manuais de econometria.


112

FIGURA 2 – ESPECIFICAÇÃO DO MODELO ECONOMÉTRICO NO GRETL


O Quadro 3 apresenta os resultados da regressão. A primeira análise que fazemos é verificar se os coeficientes estimados têm o sinal que esperávamos encontrar. Veja que todos são positivos, corroborando nossa hipótese inicial, de que renda, saúde e educação são elementos que melhoram o desenvolvimento humano de uma nação.


113

QUADRO 3 – RESULTADO DA ESTIMAÇÃO POR MÍNIMOS QUADRADOS ORDINÁRIOS

Modelo 1: MQO, usando as observações 1-27Variável dependente: IDHM

coeficiente erro padrão razão-t p-valor ------------------------------------------------------------ const 0,00909081 0,103925 0,08747 0,9311 RDPC 0,000216030 3,01665e-05 7,161 2,72e-07 *** ESPVIDA 0,00358231 0,00207447 1,727 0,0976 * EANOSESTUDO 0,0179243 0,00471780 3,799 0,0009 ***

Média var. dependente 0,453926 D.P. var. dependente 0,071943Soma resíd. quadrados 0,005474 E.P. da regressão 0,015427R-quadrado 0,959325 R-quadrado ajustado 0,954019F(3, 23) 180,8175 P-valor(F) 3,94e-16Log da verossimilhança 76,48761 Critério de Akaike −144,9752Critério de Schwarz −139,7919 Critério Hannan-Quinn −143,4339

Obs. *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística.

FONTE: Adaptado de Gretl (2018) e <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.

Analisando o intercepto β1, vemos que o seu valor é extremamente pequeno, 0,0091. Com um erro padrão de 0,1039, obtemos um valor tcalculado =

0,0875, que é obtido por ( )

,t ,,

ˆ

ep ˆβ

β= = =1

1

0 0091 0 08750 1039

.

Estabelecendo um teste de hipótese com H0: β1 = 0 contra a hipótese alternativa de que β1 ≠ 0, podemos verificar se esse coeficiente é estatisticamente significativo ao nível de significância α, de 5%, ou α = 0,05. Procuramos os valores críticos de t em uma tabela de distribuição de probabilidade ou com o auxílio do Gretl, como já vimos.

Considerando n – k graus de liberdade, dado pelo número de observações da amostra menos a quantidade de coeficientes estimados, 27 – 4, chegamos a 23 graus de liberdade. Com o auxílio das tabelas estatísticas do Gretl, em “Ferramentas” e “Tabelas estatísticas”, encontramos um ttabela de 2,06866. Como o tcalculado < ttabela, não podemos rejeitar a hipótese nula de que o coeficiente estimado β1 é estatisticamente igual a zero.

Isso quer dizer que esse valor de 0,0091 obtido para o parâmetro não tem significância do ponto de vista estatístico. Como vimos na Unidade 1, se rejeitarmos a hipótese nula e ela for verdadeira, cometeremos o erro do tipo I, com probabilidade α%.

Para sermos mais precisos, a probabilidade de se rejeitar a hipótese nula e ela ser verdadeira é dada pelo p – valor. Nos resultados apresentados pelo Gretl, esse número está na última coluna e é de 0,9311 para a constante. Isso quer dizer que, do ponto de vista estatístico, não podemos rejeitar a hipótese nula. Se o


114

fizermos, temos 93,11% de chances de cometer um erro do tipo I, motivo pelo qual não podemos considerar esse parâmetro estatisticamente significativo.

Para os demais coeficientes, para sermos mais práticos, vamos nos concentrar no p – valor. Note que tanto β2 quanto β4 são estatisticamente significativos a um nível de significância de 1%, porque o p – valor é menor do que 0,01. Por outro lado, β3 só é estatisticamente significativo a um nível de significância estatística de 10%, pois, o p – valor é 0,0976, maior do que 0,01 e 0,05. Esse resultado nos diz que, em 1991, a variável expectativa de vida não teve uma contribuição muito forte para explicar o valor do IDHM.

Vimos em 2.31 que é possível verificar se, em conjunto, os coeficientes β2, β3 e β4 são estatisticamente significativos. Para isso, usamos o teste F, cujo resultado é apresentado pelo Gretl.

No Quadro 3 temos Fcalculado = 180,8175, que podemos estabelecer um nível de significância α e procurar o seu valor crítico em uma tabela de F, ou ainda, olhar diretamente no p – valor que também é apresentado pelo Gretl, com valor de 3,94e-16. Esse número complicado de se ler é um número científico, como já tivemos a oportunidade de discutir. Ele significa que inicia com zero e, após a vírgula, na posição 16, aparece o número 394. Seu valor real é 0,000000000000000394, que podemos considerar como sendo um número muito pequeno e extremamente próximo de zero.

Em termos práticos, a leitura que fazemos é que, sob a hipótese nula de H0: β2 = β3 = β4 = 0, podemos rejeitá-la com uma probabilidade muito pequena, praticamente zero, de se cometer um erro do tipo I. Com isso, podemos dizer que, apesar de o coeficiente β3 não ser estatisticamente significativo a um nível de 1% ou 5%, consideramos que, em conjunto, os coeficientes estimados são estatisticamente significativos.

Outra estatística que nos ajuda a verificar a qualidade do nosso modelo é o R2, que dá uma ideia da qualidade do ajustamento do modelo aos dados. Em 2.32, e no Quadro 1, vimos que seu valor é obtido por SQER

STQ=2 , e a sua estimativa

é apresentada no Quadro 3.

Outra forma de obter essa estimativa, como vimos no Quadro 1, é através da ANOVA. Para isso, na janela de resultados do modelo estimado, selecione “Análise” e em seguida “ANOVA”. O resultado está na Figura 3.


115

FIGURA 3 – TABELA ANOVA PARA O MODELO DE REGRESSÃO


Com um valor de R2 = 0,9593, podemos dizer que 95,93% das variações no IDHM de 1991 podem ser explicadas pelo nosso modelo de regressão, o que significa que o modelo se ajusta muito bem aos dados e traz um grande poder explicativo.

Essa estimativa foi feita com base nas informações disponíveis de 1991. E se mantivermos a análise de dados de corte e fizermos a mesma estimativa só que com os dados de 2000 e 2010 e com as mesmas variáveis, o que encontraremos?

O Quadro 4 compara o modelo 2.34 referente aos três anos de estudo individualmente. Primeiro cabe ressaltar que o IDHM no Brasil, em 1999, era de 0,493, passou para 0,612 em 2000 e para 0,727 em 2010. O segundo ponto importante é o valor do coeficiente estimado da renda per capita, que é extremamente pequeno. Isso indica que, mantido tudo o mais constante, a renda tem um peso muito pequeno para explicar o IDHM.

A esperança de vida ao nascer, por outro lado, apresentou um aumento no seu valor nos anos seguintes e uma melhora na significância estatística. Podemos interpretar esse resultado de forma positiva, na medida em que essa variável mede o número médio de anos que as pessoas deverão viver a partir do nascimento, se permanecerem constantes ao longo da vida o nível e o padrão de mortalidade por idade, prevalecentes no ano do Censo. Dito de outra forma, a melhora na esperança de vida, consequência da melhora nas condições de saúde da população, tem contribuído mais para a melhora do IDHM.


116

QUADRO 4 – COMPARANDO O MODELO 2.34 PARA TRÊS ANOS DISTINTOS

1991 2000 2010

Constante 0,0091(0,9311)

−0,0509(0,5840)

−0,5379(0,0008)***

RDPC 0,0002(0,0000)***

0,0001(0,0000)***

0,00006(0,0000)***

ESPVIDA 0,0036(0,0976)*

0,0052(0,0041)***

0,0148(0,0000)***

EANOSESTUDO 0,0179(0,0009)***

0,0244(0,0000)***

0,0113(0,0070)***

F 180,8175(0,0000)***

470,1644(0,0000)***

282,6830(0,0000)***

R2 0,9593 0,9839 0,9736R2

ajustado 0,9540 0,9819 0,9701

Obs.: p – valor entre parênteses com *, ** e *** indicando significância estatística ao nível de 10%, 5% e 1% respectivamente.

FONTE: Adaptado de Gretl (2018, s.p.) e <www.atlasbrasil.org.br>. Acesso em: 24 ago. 2018.

Finalmente, olhando a variável educação, a sua importância no modelo aumenta de 1991 para 2000, mas diminui em 2010. Caberia um estudo específico sobre esse tema, investigando as razões pelas quais essa variável oscilou entre esses três anos de amostra. Esse é um belo exemplo da importância da econometria na pesquisa científica. Basta comparar os resultados entre modelos distintos ou aplicados entre períodos distintos para se despertar novos temas e opções de estudo.

Acadêmico! Faltou falar sobre a constante. Você deve ter percebido que apenas no primeiro ano é que esse coeficiente estimado não era estatisticamente significativo. Isso reforça a nossa tese de se ter muito cuidado antes de excluí-lo do modelo. Principalmente porque em 2010 o seu valor, além de ser negativo, apresentou um valor bem alto se comparado aos demais coeficientes estimados.

Esse resultado pode significar que o nosso modelo, de um modo geral, pode ter problemas de especificação. Isso fica claro na medida que observamos a composição da base de dados. O IDHM, por exemplo, é um índice. RDPC é expresso em Reais, ESPVIDA e EANOSESTUDO em anos. Essas unidades de medida distintas tornam confusa a interpretação individual dos parâmetros estimados.

Por exemplo, se pegarmos o coeficiente ESPVIDA para 2010, veremos que o seu valor estimado é de 0,0148. Isso quer dizer que, cada ano adicional na esperança de vida ao nascer eleva o IDHM em 0,0148. Políticas públicas voltadas à melhoria na qualidade de vida, ações de saúde e cidadania, poderiam fazer com que as pessoas vivessem mais, com mais qualidade e saúde, melhorando o IDHM. Porém, essa análise é superficial e, como dissemos anteriormente, merece um estudo mais profundo para se entender melhor o seu impacto na variável dependente.


117

Dando uma olhada no F, percebemos que em conjunto os coeficientes estimados são estatisticamente significativos e que o R2 é bem grande em cada um dos anos do estudo. A propósito disso, acrescentamos outra estatística, o R2

ajustado. Usamos o termo ajustado para designar que ele é ajustado pelo número de graus de liberdade.

( )ajustadonR Rn k−

= − −−

2 2 11 1 2.35

Essa estatística é útil quando formos comparar modelos diversos contendo diferentes quantidades de variáveis explicativas. Por exemplo, um modelo com uma variável explicativa comparada a outro com duas variáveis explicativas. A definição de R2 diz que ele é o grau de ajustamento ou quanto das variações na variável dependente são explicadas pelo modelo. Por isso, quanto mais variáveis explicativas incluirmos no nosso modelo, maior tende a ser o R2 . Como na equação 1.53 há uma punição para o acréscimo de variáveis explicativas pela perda do número de graus de liberdade, essa medida nos fornece uma maneira de comparar modelos diferentes.

4 TESTES ADICIONAIS APLICADOS AOS RESULTADOS DOS MODELOS DE REGRESSÃO

Vamos avançar um pouco na análise de regressão, partindo de um modelo econométrico estimado. Para isso, considere a teoria Keynesiana de preferência por liquidez. Segundo essa teoria, os motivos advindos de transação, precaução e especulação levam a uma função de demanda por moeda que depende da renda e da taxa de juros.

DICAS

Para ver os detalhes dessa teoria, consulte um manual de Economia Monetária, como este escrito por Carvalho et al. (2015):

• CARVALHO, Fernando J. Cardim de et al. Economia monetária e financeira. 3. ed. Rio de Janeiro: Campus, 2015. 423 p.

Para a nossa análise usaremos o modelo 2.36, que descreve a demanda por moeda como uma função linear:


118

2.36Mt = β1 + β2Yt + β3it + εt

Em que Mt representa a demanda por moeda (aqui usamos o M1 como proxy), Yt denota o Produto Interno Bruto a preços de mercado (variável que funciona como uma proxy para a renda), e it representa a taxa de juros do CDI Over, que é a média dos juros que instituições financeiras pagam a outras instituições financeiras que lhe emprestaram dinheiro no mercado interbancário. εt é o termo de erro e supõe-se que ε~N(0, σ2I).

Em 2.36 estamos supondo que demanda por moeda seja positivamente relacionada com a renda e negativamente relacionada à taxa de juros. Os dados são trimestrais e foram obtidos para a economia brasileira no site <www.ipeadata.gov.br>, para o período entre 2002 e 2017, com um total de 64 observações e estão disponíveis no Quadro 5.

Além disso, como no modelo 2.36 estamos interessados em medir a elasticidade renda da demanda por moeda e a elasticidade dos juros em relação à demanda por moeda, as variáveis foram transformadas em logaritmos.

QUADRO 5 – VARIÁVEIS MACROECONÔMICAS PARA ESTIMAÇÃO DA DEMANDA POR MOEDA

Período M Y i P Período M Y i P2002/01 11,2012 12,7434 1,4367 0,3988 2010/01 12,3428 13,6949 0,7048 0,7227 2002/02 11,2856 12,8141 1,4481 0,3646 2010/02 12,3661 13,7580 0,7957 0,0000 2002/03 11,3871 12,8474 1,4869 0,9478 2010/03 12,4242 13,8134 0,9603 -0,6931 2002/04 11,5885 12,8976 1,6074 1,8810 2010/04 12,5492 13,8713 0,9345 0,8020 2003/01 11,3749 12,8923 1,7352 1,6351 2011/01 12,4366 13,8319 0,9726 0,8920 2003/02 11,3577 12,9456 1,7551 0,3577 2011/02 12,4445 13,8987 1,0305 0,3365 2003/03 11,3549 12,9931 1,7247 0,2776 2011/03 12,4492 13,9220 1,1014 0,0583 2003/04 11,6050 13,0441 1,4816 0,1398 2011/04 12,5616 13,9646 0,9811 0,3784 2004/01 11,4899 13,0053 1,3246 0,6152 2012/01 12,4589 13,9373 0,8981 0,1989 2004/02 11,5374 13,0853 1,2994 0,4700 2012/02 12,4887 13,9837 0,7349 0,0770 2004/03 11,6069 13,1328 1,3508 0,6627 2012/03 12,5239 14,0229 0,6477 0,3507 2004/04 11,7594 13,1729 1,3834 0,6931 2012/04 12,6917 14,0559 0,5280 0,6881 2005/01 11,6682 13,1218 1,4297 0,5822 2013/01 12,5889 14,0319 0,4790 0,6627 2005/02 11,6693 13,1911 1,5174 0,2927 2013/02 12,6142 14,0951 0,5812 0,1655 2005/03 11,6735 13,2229 1,5550 -0,2614 2013/03 12,6158 14,1187 0,7507 -0,4780 2005/04 11,8830 13,2750 1,4602 0,5128 2013/04 12,7499 14,1615 0,8380 0,7130 2006/01 11,7656 13,2254 1,3955 0,3646 2014/01 12,6441 14,1420 0,8760 0,7793 2006/02 11,7910 13,2742 1,2747 -2,3026 2014/02 12,6308 14,1678 0,9210 0,4318 2006/03 11,8710 13,3340 1,2561 -0,7985 2014/03 12,6570 14,1954 1,0024 -0,1863 2006/04 12,0688 13,3929 1,1391 0,1133 2014/04 12,7703 14,2266 1,0165 0,5423


119

Obs.: Dados em logaritmos.

FONTE: <www.ipeadata.gov.br>. Acesso em: 24 ago. 2018

2007/01 11,9549 13,3557 1,1075 0,2311 2015/01 12,6615 14,1916 1,0331 1,3429 2007/02 12,0087 13,4160 1,0618 -0,2107 2015/02 12,6313 14,2076 1,1079 0,8154 2007/03 12,0715 13,4471 1,0231 -0,1165 2015/03 12,5975 14,2264 1,2328 0,3293 2007/04 12,3520 13,4958 0,9657 0,3577 2015/04 12,7201 14,2544 1,2123 1,0367 2008/01 12,1219 13,4759 0,9466 0,4187 2016/01 12,6119 14,2194 1,1791 0,9632 2008/02 12,1347 13,5535 1,0086 0,7372 2016/02 12,6146 14,2575 1,2118 0,5596 2008/03 12,1797 13,6080 1,1660 0,0677 2016/03 12,6372 14,2694 1,2435 0,0392 2008/04 12,3169 13,6117 1,1990 0,0862 2016/04 12,7594 14,3050 1,1757 -0,3011 2009/01 12,1666 13,5360 1,0613 0,2070 2017/01 12,6411 14,2761 1,1081 -0,0408 2009/02 12,2171 13,5968 0,8638 0,2776 2017/02 12,6642 14,3047 0,9322 -1,5141 2009/03 12,2532 13,6563 0,7792 -0,4620 2017/03 12,6656 14,3110 0,8122 -0,5276 2009/04 12,4302 13,7327 0,7344 0,0583 2017/04 12,8022 14,3477 0,5644 0,1310

Os resultados da estimação estão no Quadro 6 e, como esperávamos, o sinal dos coeficientes estimados está de acordo com o que foi dito incialmente, ou seja, o coeficiente β2 é positivo e o coeficiente estimado β3 é negativo.

O valor dos coeficientes estimados é lido como elasticidade, ou seja, uma variação de 1% na renda conduz a um aumento na demanda por moeda na ordem de 0,83%. Por outro lado, um aumento na taxa de juros em um ponto percentual reduz a demanda por moeda em 0,27%:

QUADRO 6 – RESULTADO DA ESTIMAÇÃO DE 2.36

Modelo 1: MQO, usando as observações 2002:1-2017:4 (T = 64)Variável dependente: M

coeficiente erro padrão razão-t p-valor ---------------------------------------------------------- const 1,15514 0,436947 2,644 0,0104 ** Y 0,829907 0,0292322 28,39 7,34e-037 *** i −0,270326 0,0464715 −5,817 2,37e-07 ***

Média var. dependente 12,20565 D.P. var. dependente 0,469026Soma resíd. quadrados 0,398430 E.P. da regressão 0,080819R-quadrado 0,971251 R-quadrado ajustado 0,970309F(2, 61) 1030,419 P-valor(F) 9,72e-48Log da verossimilhança 71,71933 Critério de Akaike −137,4387Critério de Schwarz −130,9620 Critério Hannan-Quinn −134,8872rô 0,371141 Durbin-Watson 1,200039

Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1% de significância estatística.

FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 27 ago. 2018.


120

Modelos como o 2.36 são derivados de outras formas funcionais, como a função de produção Cobb-Douglas, muito utilizada na microeconomia. Para entender melhor essa derivação, considere a equação 2.37:

tt tY X eεββ= 2

1 2.37

Aplicando logaritmo nos dois lados da equação, temos:

2.38t t tlnY ln lnXβ β ε= + +1 2

Se fizermos *t tY lnY= , α β=1 1, α β=2 2,

*t tX lnX= e reescrevermos 2.38 para:

* *t t tY Xα α ε= + +1 2 2.39

Temos novamente um modelo de regressão com a aparência que estamos acostumados a estimar, ou seja, um modelo econométrico linear nos parâmetros. Assim, interpretamos o parâmetro α2 como elasticidade de X em relação a Y, ou seja, quantos por cento a variável dependente varia quando a variável explicativa variar 1 ponto percentual.

Há outras possibilidades para a aplicação de logaritmos. Podemos aplicar o logaritmo apenas no lado direito da equação, ou apenas no lado esquerdo. Em ambos os casos a interpretação muda, como podemos ver no Quadro 7, que traz quatro modelos de regressão em que aplicamos logaritmos. A decisão de quando e como usar cada modelo dependerá do que estamos interessados em obter com a nossa estimação, portanto, a decisão é do pesquisador.

Voltando ao Quadro 6, falta verificar ainda se os coeficientes estimados são estatisticamente significativos. A constante β1 apresentou um p – valor de 0,0104, que é acompanhado de dois asteriscos. Isso quer dizer que, ao nível de 1% de significância estatística, não podemos rejeitar a hipótese nula de que este parâmetro é igual a zero. Porém, aos níveis de 5% e 10% de significância estatística, nós rejeitamos H0 em favor da hipótese alternativa e, portanto, podemos dizer que a constante é diferente de zero do ponto de vista da significância estatística.


121

QUADRO 7 – FORMAS FUNCIONAIS ALTERNATIVAS

Modelo Equação Interpretação do coeficiente angular

Linear Yi = β1 + β2XiUma variação de uma unidade em Xi altera a variável dependente, Yi, em β2 unidades.

Log-linear InYi = β1 + β2 InXi Uma variação de um por cento em Xi altera a variável dependente, Yi, em β2% (elasticidade).

Log-lin InYt = β1 + β2t

Estamos falando em um modelo de séries temporais em que t = 1, 2, ..., T , que pode representar dias, meses, trimestres, anos etc. Neste cvaso, β2 x 100 mede a taxa de crescimento médio da variável dependente.

Lin-log Yt = β1 + β2InXt Usamos para medir crescimento, só que desta vez uma variação absoluta. β2 ÷ 100 é quanto, em valores absolutos, Yt varia quando Xt varia 1%.

FONTE: Adaptado de Gujarati e Porter (2011)

Lembre-se da regra geral, quando o p – valor é menor que o nível de significância estabelecido, 1%, 5%, ou 10%, rejeitamos a hipótese nula de que o coeficiente é estatisticamente igual a zero. Se o p – valor é maior que o nível de significância estatística, não podemos rejeitar a hipótese nula.

O p – valor mede a probabilidade exata de cometer um erro do tipo 1, ou seja, rejeitar uma hipótese quando ela é verdadeira. No caso da constante estimada, do Quadro 6, a probabilidade de rejeitarmos a hipótese de que esse parâmetro é igual a zero e ele de fato ser igual a zero é de 1,04%. Trata-se de um valor baixo e, portanto, se estabelecermos um nível de significância estatística em 1%, 5% ou 10%, rejeitar a H0, ou não, será uma decisão do pesquisador e dependerá do grau de rigorosidade com que ele está tratando a sua pesquisa.

Todos os demais coeficientes estimados são individual e estatisticamente significativos aos níveis de 1%, 5% e 10%. Se olharmos a estatística F, veremos que o seu valor calculado é de F2,61 = 1030,419, e se analisarmos o p – valor associado a essa estatística, veremos que é igual a 0,0000. Isso significa que rejeitamos H0 de que β2 = β3 = 0, e concluímos que, em conjunto, os coeficientes estimados são estatisticamente significativos.

Finalmente, o R2 indica que 97,12% das variações de Mt são explicados pelo modelo 2.36, o que indica um alto poder de explicação do modelo, mas será que não estamos deixando alguma variável de fora? Talvez tenhamos incluído variáveis em excesso! Ou será que o modelo foi especificado de forma correta?

Vamos começar verificando se a especificação do modelo 2.36 está correta. Primeiro testaremos se podemos deixar alguma variável de fora, ou seja, se não temos variáveis em excesso no modelo.

Retornamos ao modelo 2.36, expresso agora em 2.40:


122

2.40t t t tM Y iβ β β ε= + + +1 2 3

Vamos testar se a variável it pode ser eliminada do modelo e assim melhoramos o resultado da nossa estimação. Para isso, a partir da janela do resultado do modelo estimado, reproduzida no Quadro 6, selecione o menu “Testes” e, na sequência, escolha “Omitir variáveis”. Preencha a janela de testes conforme a Figura 4 e clique em “Ok” para ver o resultado do teste:

FIGURA 4 – OMITIR VARIÁVEIS NO MODELO 2.40


O resultado do teste foi sintetizado no Quadro 8. A hipótese nula do teste é que o coeficiente estimado relacionado à variável it é estatisticamente igual a zero. O Gretl emprega um teste F e reporta essa estatística juntamente ao p – valor, para facilitar a nossa decisão de omitir ou não a variável. Ele também informa quantos critérios de informação melhoraram com a omissão da variável que está sendo testada.


123

QUADRO 8 – RESULTADO DO TESTE PARA OMITIR VARIÁVEIS DO MODELO

Teste no Modelo 1

Hipótese nula: o parâmetro de regressão é igual a zero para i Estatística de teste: F(1, 61) = 33,8377, p-valor 2,36729e-007 A exclusão de variáveis melhorou 0 de 3 critérios de informação.

FONTE: O autor

O primeiro passo para entender o resultado é verificar que o p – valor é igual a 0,0000. Isso significa que você deve rejeitar a hipótese nula, ou seja, o parâmetro associado à variável it é relevante, ou estatisticamente diferente de zero. Na mesma linha, o Gretl nos informa que dos três critérios de informação levados em consideração, Akaike, Schwarz e Hannan-Quinn, nenhum deles melhorou com a exclusão dessa variável.

Esses critérios de informação são definidos da seguinte forma:

Critério de informação Equação

Akaike ( )AIC l ˆ kθ= − +2 2 2.41

Schwarz ( ) ˆBIC l k lnnθ= − +2 2.42

Hannan-Quinn ( )HQC l k lnlnnθ= − +2 2 2.43

Em que ( )l θ representa o log de máxima verossimilhança como uma função do vetor de parâmetros estimados ( )θ e k é o número de parâmetros estimados no modelo de regressão. A regra geral dos critérios de informação é que, quando comparamos modelos diferentes, devemos sempre selecionar aqueles que apresentem o menor critério de informação.

DICAS

Para conhecer mais detalhes, leia Cottrell e Lucchetti (2018, p. 221).

• COTTRELL, Allin; LUCCHETTI, Riccardo “jack”. Gretl User’s Guide: Gnu Regression, Econometrics and Time-series Library. 2018. 394 p.

Também pode ser obtido através do Gretl, no menu “Ajuda” e “Guia do usuário”. Clicando nessas opções, o Gretl abre esse manual no formato PDF.


124

Portanto, como rejeitamos a hipótese nula relativa à exclusão da variável it e como o modelo estimado sem essa variável não melhora nenhum dos três critérios de informação citados, concluímos que it não deve ser excluída do modelo de regressão.

Isso nos possibilita fazer outro questionamento. Será que não estamos deixando uma variável relevante de fora do nosso modelo? Digamos que queremos verificar se outra variável, digamos Pt, deve entrar no modelo. Neste caso, 2.40 deveria ser:

2.44t t t t tM Y i Pβ β β β ε= + + + +1 2 3 4

Para fazer o teste, voltamos à janela do modelo 2.40 estimado pelo Gretl, selecionamos o menu “Testes” e depois escolhemos “Acrescentar variáveis”. Será apresentada uma janela para você preencher as informações, como a da Figura 5. Você deve selecionar a variável que quer testar e clicar em “Ok”.

FIGURA 5 – TESTE DE ACRÉSCIMO DE VARIÁVEIS AO MODELO 2.40

FONTE: O autor


125

O resultado do teste está no Quadro 9. Novamente estamos suprimindo parte do que o Gretl reporta para facilitar a compreensão. Perceba que a hipótese nula, H0, é de que o parâmetro de regressão dessa nova variável é igual a zero, ou seja, ele não tem significância estatística e, portanto, não deve ser incluído no modelo. Perceba também que o Gretl reporta o p – valor do teste – que, neste caso, é de 0,0838. A pergunta que fica é: Com base no resultado apresentado, podemos rejeitar a hipótese nula de que não devemos incluir essa nova variável no modelo de regressão?

QUADRO 9 – RESULTADO DO TESTE DE INCLUSÃO DE VARIÁVEIS AO MODELO

Teste no Modelo 1

Hipótese nula: o parâmetro de regressão é igual a zero para P Estatística de teste: F(1, 60) = 3,091, p-valor 0,0838263 O acréscimo de variáveis melhorou 2 de 3 critérios de informação.

FONTE: O autor

A resposta correta a essa pergunta é “depende”! O pesquisador deve, nessa situação, avaliar o quão rigoroso ele é em relação a sua pesquisa. Perceba que aos níveis de 1% e 5% não podemos rejeitar a hipótese nula de que o parâmetro de regressão é igual a zero para a variável Pt. No entanto, ao nível de 10% de significância estatística, podemos rejeitar a hipótese nula e, portanto, incluir essa variável no modelo 2.40.

Agora que conhecemos os critérios de informação, podemos ver que dois dos três critérios melhoram com a inclusão dessa variável. Seja qual for a sua decisão, pondere bem antes de incluir ou excluir uma variável. Em outras palavras, considere a teoria econômica subjacente ao modelo estimado e verifique se faz sentido esse acréscimo ou não.

Costumamos usar a expressão “parcimonioso” para definir o melhor modelo de regressão. Para fins de ilustração, vamos acrescentar a variável Pt ao modelo e estimar a regressão 2.44. O resultado pode ser visto no Quadro 10:


126

QUADRO 10 – RESULTADO DA ESTIMAÇÃO DO MODELO 2.44

Modelo 3: MQO, usando as observações 2002:1-2017:4 (T = 64)Variável dependente: M

coeficiente erro padrão razão-t p-valor ---------------------------------------------------------- const 1,14960 0,429657 2,676 0,0096 *** Y 0,830509 0,0287457 28,89 6,60e-037 *** i −0,279869 0,0460162 −6,082 8,96e-08 *** P 0,0280719 0,0159670 1,758 0,0838 *

Média var. dependente 12,20565 D.P. var. dependente 0,469026Soma resíd. quadrados 0,378910 E.P. da regressão 0,079468R-quadrado 0,972660 R-quadrado ajustado 0,971293F(3, 60) 711,5241 P-valor(F) 7,85e-47Log da verossimilhança 73,32680 Critério de Akaike −138,6536Critério de Schwarz −130,0181 Critério Hannan-Quinn −135,2516rô 0,391675 Durbin-Watson 1,157380



Perceba que o coeficiente estimado da variável Pt só é estatisticamente significativo ao nível de 10% de significância estatística. Porém, note que o R2 se elevou em comparação a 2.40, passando de 0,9712 para 0,9726, ainda assim permanecendo alto. Por outro lado, sabemos que o R2 não deve ser usado para comparar modelos de regressão, mas sim o R2

ajustado, que no caso do modelo 2.40 era de 0,9703, e no modelo 2.44 passou para 0,9712.

E quanto aos critérios de informação? Como temos menos de 100 observações, o melhor critério a ser analisado é o Akaike, cujas razões são discutidas em Diebold (2007, p. 85). Se tivéssemos mais de 100 observações, preferiríamos o Schwarz. No entanto, o critério de Hannan-Quinn é assintoticamente melhor do que o de Schwarz. Um resumo dos critérios de informação está no Quadro 11:

QUADRO 11 – COMPARANDO OS CRITÉRIOS DE INFORMAÇÃO

Critério Modelo 2.40 Modelo 2.44Akaike −137,4387 −138,6536

Schwarz −130,9620 −130,0181Hannan-Quinn −134,8872 −135,2516

FONTE: O autor


127

Dois pontos a serem destacados no Quadro 11:

1. Os valores são negativos, portanto, -138 é menor do que -137.2. O critério de Schwarz é o único que teve o seu valor aumentado, enquanto os

demais diminuíram.

Com base no Quadro 11, percebemos que o modelo 2.44 é o que deve ser escolhido, porque a inclusão da nova variável torna este modelo mais parcimonioso, ou seja, melhora a capacidade de previsão do modelo (visto pelo R2) e, de modo geral, os coeficientes estimados são todos estatisticamente significativos, contanto que você considere 10% de significância estatística.

Há ainda um teste a ser aplicado, o RESET, que é um acrônimo de Regression Specification Error Test. Ele é baseado na distribuição F e traz na hipótese nula, H0, a informação de que a forma funcional é adequada, enquanto a alternativa é que existe outra forma funcional que se ajusta melhor aos dados utilizados.

Novamente, a implementação do teste é facilitada com o uso do Gretl, porque ele já tem no seu pacote uma rotina pronta. Para acessá-la, a partir da janela do modelo estimado, apresentado no Quadro 6, selecione o menu “Testes” e depois “RESET de Ramsey”. Na janela que abrir, você deverá informar a especificação alternativa a ser testada. Essa forma funcional é utilizada para fins de comparação com o modelo originalmente estimado. Os resultados do teste estão no Quadro 12.

Como você pode perceber, a tela apresentada no Quadro 12 é o resultado da estimação de uma regressão auxiliar. Essa regressão é construída a partir da estimação do modelo 2.40, quando você deve salvar a série da variável dependente estimada e incluir essa série na regressão auxiliar na forma de quadrados e cubos (no quadro representado por yhat^2 e yhat^3).

QUADRO 12 – RESULTADO DO TESTE RESET APLICADO AO MODELO 2.40

Regressão auxiliar para o teste de especificação RESETMQO, usando as observações 2002:1-2017:4 (T = 64)Variável dependente: M

coeficiente erro padrão razão-t p-valor -------------------------------------------------------- const 206,630 157,046 1,316 0,1934 Y −62,6990 45,3887 −1,381 0,1724 i 20,5102 14,7860 1,387 0,1706 yhat^2 6,61986 4,52447 1,463 0,1487 yhat^3 −0,190175 0,124680 −1,525 0,1325

Aviso: matriz de dados quase singular!

Estatística de teste: F = 15,511588,com p-valor = P(F(2,59) > 15,5116) = 3,86e-006

FONTE: O autor


128

As duas últimas linhas do quadro são as que mais nos interessam. A primeira apresenta a estatística Fcalculada, e a segunda o p – valor desse teste F. Como podemos ver, o número reportado é extremamente pequeno e menor do que os usuais níveis de significância estatística que utilizamos, ou seja, 0,01, 0,05 e 0,10. Com isso, podemos rejeitar a hipótese nula de que o modelo original está corretamente especificado e concluir que devemos revisar o modelo como um todo.

Nem sempre o resultado do teste significa que devemos mudar a forma funcional de linear para logarítmica, ou de logarítmica para quadrática, cúbica ou recíproca. Muitas vezes, como teremos a oportunidade de ver na Unidade 3, pode haver outros problemas relacionados ao banco de dados, variáveis proxy erroneamente especificadas, colinearidade entre variáveis explicativas, correlação serial dos resíduos ou heteroscedasticidade, entre outros.

No caso do nosso exemplo, o mais provável é que ignoramos o fato de estarmos lidando com séries temporais e omitimos uma série de testes que antecedem a estimação desse tipo de dado. Esses testes serão objeto de estudo da Econometria II e, por enquanto, não iremos abordá-los.

129

RESUMO DO TÓPICO 2


• É possível estimar os parâmetros de MQO e as principais estatísticas de teste usando álgebra matricial.

• Usar a álgebra matricial para estimar um modelo de regressão com múltiplas variáveis explicativas torna o seu entendimento mais intuitivo.

• Pode-se realizar testes adicionais aplicados aos resultados do modelo de regressão, tais como os testes de omissão e inclusão de variáveis e o teste RESET, além de outras formas funcionais aplicando logaritmos às variáveis.

• Existem os critérios de informação – Akaike, Schwarz e Hannan-Quinn – empregados para selecionar modelos que melhor se ajustam aos dados a serem empregados na estimação.

130

AUTOATIVIDADE

Vamos revisar os principais conceitos vistos no Tópico 2. Para isso, utilize os dados do Quadro 13, que apresenta a quantidade de veículos produzidos no Brasil entre janeiro de 2015 e fevereiro de 2018, o rendimento real médio de todos os trabalhadores efetivos e a taxa média de juros das operações de crédito com recursos livres para pessoas físicas na linha de aquisição de veículos.

QUADRO 13 – DADOS SOBRE PRODUÇÃO DE AUTOMÓVEIS, SALÁRIO E JUROS

Período Auto Salário Juros Período Auto Salário Jurosjaneiro/2015 165.383 2.269 23,84 agosto/2016 149.414 2.124 26,17fevereiro/2015 165.270 2.275 24,76 setembro/2016 141.286 2.116 26,13março/2015 203.826 2.259 24,67 outubro/2016 151.948 2.112 25,75abril/2015 177.807 2.174 24,55 novembro/2016 185.640 2.109 25,85maio/2015 178.335 2.159 24,81 dezembro/2016 166.216 2.205 25,7junho/2015 158.494 2.167 24,71 janeiro/2017 149.289 2.408 26,18julho/2015 191.375 2.152 24,5 fevereiro/2017 170.349 2.427 25,71agosto/2015 186.323 2.137 24,79 março/2017 200.123 2.377 24,8setembro/2015 147.031 2.130 25,57 abril/2017 157.755 2.176 24,39outubro/2015 165.763 2.125 25,89 maio/2017 208.110 2.160 24,25novembro/2015 143.934 2.122 26,18 junho/2017 173.609 2.151 24,03dezembro/2015 123.699 2.192 26,01 julho/2017 187.771 2.157 23,79janeiro/2016 132.206 2.397 27,48 agosto/2017 219.927 2.163 23,22fevereiro/2016 118.574 2.394 27,56 setembro/2017 203.103 2.169 22,96março/2016 165.544 2.345 27,01 outubro/2017 209.989 2.167 22,51abril/2016 142.067 2.125 26,77 novembro/2017 208.540 2.166 22,14maio/2016 146.224 2.120 26,33 dezembro/2017 180.665 2.243 22,23junho/2016 147.480 2.099 25,97 janeiro/2018 180.925 2.446 22,74julho/2016 152.295 2.105 25,99 fevereiro/2018 176.807 2.468 22,47

FONTE: <www.ipeadata.gov.br> e <www.bcb.gov.br>. Acesso em: 27 ago. 2018.

Para essa atividade, a variável dependente é a quantidade de automóveis produzidas e as variáveis explicativas são a renda e a taxa de juros. O seguinte modelo de regressão foi montado:

t t t tAuto Salario Jurosβ β β ε= + + +1 2 3 2.45

131

No entanto, como nosso interesse era obter a elasticidade da produção de automóveis em razão dos rendimentos e da taxa de juros, transformamos os dados do Quadro 13 aplicando logaritmos às variáveis e redefinimos o modelo 2.45 como:

2.46t t t tln Auto lnSalario ln Juros uα α α= + + +1 2 3

Com isso, ao estimarmos o modelo 2.46, α2 nos dirá quanto de aumento na produção de automóveis teremos, em percentual, quando a renda real aumentar 1%. Em relação à variável juros, o coeficiente estimado α3 medirá qual o percentual de aumento ou redução da produção de automóveis teremos se os juros para o financiamento de veículos para pessoa física reduzir ou aumentar em 1%. O resultado do modelo 2.46 estimado é o seguinte:

2.47

( ) ( ) ( )t t tln Auto , , lnSalario , ln Juros

, * * * , , * * *= − −20 1326 0 2450 1 9336

0 0000 0 4764 0 0000

Entre parênteses temos o p – valor e os asteriscos *, ** e ***, respectivamente, que indicam significância estatística aos níveis de 10%, 5% e 1%.

Com base no resultado da regressão, assinale V para as sentenças verdadeiras e F para as falsas:

a) ( ) Apenas α2 não é estatisticamente significativo, quando testamos a hipótese nula, H0: α2 = 0, contra a hipótese alternativa de que H1: α2 ≠ 0.

b) ( ) O modelo 2.46 apresentou R2 = 0,5740. Se estimássemos o modelo 2.45, teríamos um R2 = 0,5781. Como o R2 é usado para comprar modelos e nos auxilia na escolha entre eles, devemos escolher o modelo 2.45, porque apresentou o R2 mais alto.

c) ( ) A estatística F(2,35) = 23,5788 do modelo 2.46, tem p – valor = 0,0000. Isso significa que rejeitamos a hipótese nula, H0: α2 = α3 = 0, contra a hipótese alternativa de que pelo menos um dos coeficientes estimados é estatisticamente diferente de zero.

d) ( ) Como a amostra contém apenas 38 observações, o melhor critério para decidir entre o modelo 2.45 e 2.46 é o critério de informação de Akaike. Como no modelo 2.45 AIC = 850,8035 e no modelo 2.46 AIC = –62,80213, escolhemos o modelo 2.46 como sendo o mais parcimonioso, apesar do R2 ser menor nesse modelo.

e) ( ) Empregamos o teste RESET aplicado no modelo 2.46, sob a hipótese nula de que a especificação daquele modelo é adequada, apresentou p – valor = 0,2893. Isso significa que não devemos usar logaritmos para estimar 2.46.

133

TÓPICO 3

USANDO VARIÁVEIS EXPLICATIVAS

QUALITATIVAS

UNIDADE 2

1 INTRODUÇÃO

Até agora, as variáveis explicativas que entraram nos nossos modelos de regressão eram quantitativas: anos de estudo, esperança de vida ao nascer em anos, renda per capita em R$ e assim por diante.

E se quisermos saber, por exemplo, se existe diferença na renda recebida por homens e mulheres? E se quisermos saber se a renda per capita tem influência maior sobre o IDH na região Norte e Nordeste do Brasil do que no restante do país? Como faremos para incluir essas variáveis, haja vista que elas não são mensuráveis quantitativamente?

Gênero, região geográfica, religião, classe social, entre outras, são categorias ditas qualitativas e podem entrar nos modelos de regressão, tanto como uma variável dependente – como nos modelos Logit e Probit – quanto na forma de variável explicativa, que é o tema desse tópico.

Para fazer isso, empregamos as variáveis binárias, chamadas de dummy, que assumem apenas dois valores possíveis, zero ou um. Assim, ao estudar a diferença salarial entre homens e mulheres, podemos inserir uma dummy com valor igual a zero quando aquela observação se refere a homens, e valor igual a um, quando se referir a mulheres. Com esse procedimento simples podemos estimar a diferença média de salários e verificar se essa diferença é significante do ponto de vista estatístico.

Veremos também que a dummy pode ser empregada para testar quebras estruturais, identificando se ao longo do tempo os parâmetros de regressão mudaram em resposta a algum evento importante, como uma guerra, recessão, quebra na safra agrícola, entre outros.

É possível também usar essa variável para extrair a sazonalidade em uma série temporal, o que é muito útil quando queremos saber a tendência do comportamento de alguma variável, mas sabemos que ela tem comportamento sazonal, como as vendas de fertilizantes, o preço dos hortifrútis, as vendas do comércio, entre tantos outros exemplos.

A facilidade no emprego dessas variáveis e a sua fácil interpretação tornam a dummy uma aliada extremamente importante para o econometrista. Entender como e quando usar essa técnica abrirá o caminho para você ampliar ainda mais o campo de utilização da econometria no seu dia a dia.

134


2 ESTIMANDO UM MODELO DE REGRESSÃO COM VARIÁVEIS QUALITATIVAS

A título de exemplo, vamos verificar qual a diferença média da renda per capita no Brasil, para o ano de 1991. Para isso, vamos usar os dados fornecidos pelo <www.atlasbrasil.org.br>, estimando o seguinte modelo de regressão:

i i i i iRDPC D D Dβ β β β ε= + + + +1 2 3 42 3 4 3.1

Em que RDPCi é a renda per capita média, calculada como a razão entre o somatório da renda de todos os indivíduos residentes em domicílios particulares permanentes e o número total desses indivíduos. As variáveis que recebem os nomes D acompanhadas por algarismos são dummies regionais, em que D2 = Sul , assumindo valor igual a 1 para os estados dessa região e 0 para os demais, D3 = Sudeste , tem valor igual a 1 para os estados dessa região e 0 para os demais, e D4 = Centro – Oeste com valor igual a 1 para os estados dessa região e 0 para os demais.

Perceba que deixamos duas regiões de fora, Norte e Nordeste. O nosso objetivo é saber se as pessoas que moram nas regiões Norte e Nordeste têm renda per capita menor do que as que moram nas demais regiões do país. Essa renda será obtida pela estimação da constante β1. Com isso, temos quatro regiões e três variáveis dummy.

Por que não temos quatro regiões e quatro variáveis dummy? A regra geral para usarmos variáveis dummy nos modelos de regressão é sempre ter uma variável a menos do que a quantidade de categorias estudada. Por exemplo, se o objetivo é estudar a diferença salarial entre homens e mulheres, teremos duas categorias, gênero masculino e gênero feminino. Nesse caso, trabalhamos com uma única variável dummy, que assumirá valor igual a “um” para um dos gêneros e “zero” para o outro.

Se quisermos usar uma dummy para cada categoria, por exemplo, gênero masculino e gênero feminino, é indispensável estimar o modelo de regressão sem o intercepto β1. Lembre-se sempre dessa regra prática, pois se você estimar a regressão e mantiver a constante, provocará a chamada “armadilha das variáveis binárias”, causando colinearidade perfeita (GUJARATI; PORTER, 2011, p. 292).

Como sabemos qual das variáveis atribuiremos o valor 1 e qual assumirá valor igual a zero? Essa decisão cabe ao pesquisador escolher. No nosso exemplo, como queremos saber se os residentes das regiões Norte e Nordeste têm renda menor ou maior do que os das demais regiões, a nossa variável de controle será aquelas regiões, Norte e Nordeste.

TÓPICO 3 | USANDO VARIÁVEIS EXPLICATIVAS QUALITATIVAS

135

O Quadro 14 apresenta os dados que usamos no nosso exemplo. Veja como é construída a base de dados quando inserimos variáveis qualitativas. Para o primeiro indivíduo, consta estado de Rondônia, que pertence à região Norte, D2 = 0, D3 = 0 e D4 = 0. Isso acontece para os demais estados que pertencem a essa região e para os do Nordeste. Veja também, que no caso dos estados do Sul, D2 = 1, D3 = 0 e D4 = 0, enquanto que os do Sudeste, D2 = 0, D3 = 1 e D4 = 0.

Evidentemente, os estados da região Centro-Oeste recebem valores D2 = 0, D3 = 0 e D4 = 1. O fato de omitirmos a constante no modelo de regressão fará com que ele capture a renda média per capita das regiões Norte e Nordeste, que são as regiões ou categorias de base para o nosso exercício.

QUADRO 14 – RENDA PER CAPITA POR UNIDADE DA FEDERAÇÃO – BRASIL, 1991


Rodando o modelo 3.1 por mínimos quadrados ordinários obtemos o resultado apresentado no Quadro 15:

Unidade Federação RDPC D2 D3 D4 Unidade Federação RDPC D2 D3 D4Rondônia 304,90 0 0 0 Sergipe 247,78 0 0 0

Acre 284,96 0 0 0 Bahia 234,57 0 0 0Amazonas 345,82 0 0 0 Minas Gerais 373,85 0 1 0Roraima 437,24 0 0 0 Espírito Santo 377,38 0 1 0

Pará 273,22 0 0 0 Rio de Janeiro 608,80 0 1 0Amapá 378,57 0 0 0 São Paulo 746,22 0 1 0

Tocantins 243,58 0 0 0 Paraná 439,09 1 0 0Maranhão 156,47 0 0 0 Santa Catarina 449,78 1 0 0

Piauí 167,03 0 0 0 Rio Grande do Sul 507,61 1 0 0Ceará 219,83 0 0 0 Mato Grosso do Sul 433,21 0 0 1

Rio Grande do Norte 240,33 0 0 0 Mato Grosso 395,34 0 0 1Paraíba 196,59 0 0 0 Goiás 410,55 0 0 1

Pernambuco 275,49 0 0 0 Distrito Federal 916,00 0 0 1Alagoas 211,98 0 0 0

136


A constante β1 revela que a renda per capita média das regiões Norte e Nordeste é de R$ 263,647. Pelo p – valor constatamos que essa média é estatisticamente significativa (por quê?). Se você retornar aos números do Quadro 14 e calcular a média da região Norte e Nordeste chegará ao mesmo valor do β1.

E como interpretamos os demais coeficientes estimados? Eles representam a diferença média de salário para a nossa variável de controle, ou seja, para a região Norte e Nordeste. Podemos ver, pelo sinal dos coeficientes estimados, que a renda média per capita na região Sul é R$ 201,846 maior do que a das regiões Norte e Nordeste. Esse resultado é estatisticamente significativo quando trabalhamos com um nível de 5% de significância estatística. Porém, se considerarmos um nível de significância de 1%, não podemos rejeitar uma hipótese nula de que este coeficiente é estatisticamente igual a zero, pois o p – valor = 0,0199 informa a probabilidade de rejeitar a hipótese nula e ela ser verdadeira é de 1,99%. Entretanto, cabe ao pesquisador definir o grau de rigorosidade que ele quer trazer para a sua pesquisa e consequentemente a decisão de aceitar ou rejeitar a hipótese nula.

Perceba que a maior diferença está na região Centro-Oeste. Isso se dá porque o Distrito Federal tem uma renda per capita que é mais do que o dobro dos demais estados, fazendo a média da região aumentar em relação às demais. O resultado dessa região também é estatisticamente significativo, assim como o da região Sudeste.

Sabemos que a renda per capita média das regiões Norte e Nordeste é de R$ 263,647. Mas, se quisermos saber qual a renda média per capita da região Sul,

QUADRO 15 – RESULTADO DA ESTIMAÇÃO DO MODELO 3.1 POR MÍNIMOSQUADRADOS ORDINÁRIOS

Modelo 1: MQO, usando as observações 1-27Variável dependente: RDPC

coeficiente erro padrão razão-t p-valor --------------------------------------------------------- const 263,647 32,0580 8,224 2,66e-08 *** D2 201,846 80,6774 2,502 0,0199 ** D3 262,915 71,6838 3,668 0,0013 *** D4 275,128 71,6838 3,838 0,0008 ***

Média var. dependente 365,7848 D.P. var. dependente 175,1962Soma resíd. quadrados 378198,3 E.P. da regressão 128,2318R-quadrado 0,526089 R-quadrado ajustado 0,464274F(3, 23) 8,510771 P-valor(F) 0,000553Log da verossimilhança −167,2004 Critério de Akaike 342,4008Critério de Schwarz 347,5841 Critério Hannan-Quinn 343,9421

Obs.: *, ** e *** indicam significância estatística aos níveis de 10%, 5% e 1%.



137

como fazemos? Neste caso, basta somar os coeficientes estimados β1 e β2. Assim, chegaremos ao valor de 263,647 + 201,846 = 495,493. Calcule essa média usando os valores do Quadro 14 para se certificar de que você chega ao mesmo resultado.

Pelo teste F, verificamos que em conjunto os coeficientes estimados são estatisticamente significativos, com F3,23 = 8,5108 e P – valor(F) = 0,0005, e o R2 = 0,5261 mostra que o modelo tem uma boa qualidade de ajustamento aos dados empregados no exercício.

Para encerrar, apresentamos no Quadro 16 a estimação dos parâmetros do modelo 3.1 para os anos de 1991, 2000 e 2010, para fins de comparação:

QUADRO 16 – COMPARANDO O MODELO 3.1 PARA 1991, 2000 E 2010

1991 2000 2010

Constante 263,647(0,0000)***

342,563(0,0000)***

512,965(0,0000)***

D2 201,846(0,0199)**

337,507(0,0008)***

431,712(0,0014)***

D3 262,915(0,0013)***

365,307(0,0001)***

409,255(0,0008)***

D4 275,128(0,0008)***

389,907(0,0000)***

509,020(0,0000)

F(3,23)8,5108

(0,0006)***15,04973

(0,0000)***12,5734

(0,0000)***R2 0,5261 0,6625 0,6212

Obs.: p – valor entre parênteses com *, ** e *** indicando significância estatística ao nível de 10%, 5% e 1%, respectivamente.


Podemos ver que todos os coeficientes estimados nos três modelos são estatisticamente significativos e apresentam sinal positivo, indicando que a renda per capita média nas regiões Sul, Sudeste e Centro-Oeste é maior do que a renda média per capita das regiões Norte e Nordeste.

O bom de se comparar esses três anos é poder verificar a evolução histórica tanto da renda média quanto da diferença na renda entre as regiões. Dito de outra forma, podemos verificar se há um aumento ou redução na desigualdade entre essas regiões ao longo do tempo.

Começando com nossa variável de controle, regiões Norte e Nordeste, de 1991 até 2010 temos um aumento significativo na renda média. Ela passa de R$ 263,647 em 1991 para R$ 342,563 em 2000, saltando para R$ 512,965 em 2010. É um aumento considerável. A dúvida que fica é: A desigualdade de renda reduziu nesse período comparativamente às demais regiões ou ela aumentou?

138


Quando comparamos os anos 1999 com 2000, vemos que aumentou a renda média das regiões Norte e Nordeste, mas as demais regiões também tiveram elevação na renda média, em percentual superior ao aumento na renda da região de controle. Porém, quando comparamos 2000 com 2010, vemos que há um aumento na renda média da região Norte e Nordeste que é superada apenas pelo aumento da renda per capita da região Sul. As demais regiões tiveram aumento na renda, mas em proporção inferior ao observado na região Norte e Nordeste.

Aqui caberia uma investigação mais aprofundada sobre esse tema. Poderíamos tentar explicar o que levou a esse aumento na renda per capita, o que ocasionou o aumento da desigualdade entre 1999 e 2000 e o que levou à redução dessa desigualdade entre 2000 e 2010, bem como quais fatores influenciaram, quais as razões, entre outras questões, é papel do pesquisador investigar e tentar responder a partir do resultado obtido pela sua pesquisa.

Como você pode ver, apesar de alguns considerarem a econometria um ramo da ciência econômica que tem aplicação apenas no mercado financeiro, a aplicação em questões sociais e voltadas à avaliação de políticas públicas é fundamental. Esse é mais um motivo para você se dedicar cada vez mais ao estudo desse conjunto de técnicas que estamos lhe apresentando.

3 OUTRAS APLICAÇÕES COM VARIÁVEIS QUALITATIVAS

As variáveis dummies são extremamente versáteis e têm uma aplicação muito ampla dentro da econometria. Além de estimarmos diferenças entre categorias diversas, por exemplo, entre regiões geográficas, entre gêneros, ou entre vendedores, podemos empregá-las para verificar se há mudanças estruturais nos parâmetros de uma regressão ao longo do tempo.

No exemplo apresentado no tópico anterior, usamos dados de corte para estimar a relação entre a renda média per capita entre as regiões geográficas do Brasil. Vimos que há mudanças nos parâmetros estimados, até mesmo porque as dummies eram as únicas variáveis explicativas.

E se tivéssemos um estudo sobre o consumo e a renda e quiséssemos saber se um determinado evento foi capaz de alterar a estrutura dos parâmetros estimados pela nossa regressão? Nesse caso, teríamos um modelo de regressão com variáveis explicativas diversas e incluiríamos uma dummy para capturar o efeito desse evento extraordinário que ocorreu.

Para essa análise, propomos a conhecida relação consumo versus renda, para o período entre 1997 e 2017, com dados trimestrais obtidos no site do Banco Central do Brasil, séries 22109 – PIB trimestral – Dados dessazonalizados – Produto Interno Bruto a preços de mercado e 22110 – PIB trimestral – Dados


139

dessazonalizados – Consumo das famílias. Dessa vez, ao invés de usarmos valores expressos em R$, estamos usando uma série formada por números-índices, tendo como base 100 o ano de 1995.

Queremos desafiá-lo a entrar no site do BCB e obter essas séries de dados e assim montar o seu arquivo do Gretl. Acreditamos que você consiga chegar aos mesmos resultados que nós chegamos, com a estimação dos próximos modelos de regressão.

A figura a seguir mostra os gráficos de consumo e renda do Brasil para o período entre 1997 e 2017. Notem que há uma mudança brusca na renda em 2008. O que teria provocado essa mudança repentina? Será que esse evento foi capaz de alterar a relação consumo versus renda a partir desse período?

GRÁFICO 1 – DADOS SOBRE CONSUMO E RENDA NO BRASIL, 1997 A 2017

FONTE: O autor

Para fazer esse teste, vamos estimar o modelo 3.2, relacionando apenas consumo como uma função da renda. Para isso, vamos desconsiderar alguns aspectos técnicos que serão abordados apenas quando você estudar os modelos de regressão de séries temporais. Por enquanto, vamos dar atenção apenas aos aspectos que você já estudou.

140


t t tConsumo Rendaβ β ε= + +1 2 3.2

O resultado da estimação é apresentado de forma resumida a seguir, com p – valor entre parênteses:

3.3

( ) ( )t tConsumo , , Renda

, ,= − +17 6680 1 1312

0 0000 0 0000

R ,=2 0 9800 ajustadoR ,=2 0 9798 ( ),F , * * *=1 85 4166 513

Note que os coeficientes estimados são estatisticamente significativos. Você deve estar achando estranho que o β2 > 1, certo? Como explicamos anteriormente, os dados se referem a números-índice e não aos valores em Reais. Isso significa que, um aumento de 1 ponto-base na renda faz com que o consumo aumente 1,1312 pontos-base. Para uma renda de 100 pontos-base, esperamos que o consumo seja de –17,6680 + 1,1312 * 100 = 95,452.

Em agosto de 2007, o mundo se viu às voltas de uma crise financeira que iniciou nos Estados Unidos e afetou todas as economias do mundo, tendo o seu auge no terceiro trimestre de 2008.

DICAS

Para mais detalhes sobre a crise do subprime, leia Borça Junior e Torres Filho (2008).

• BORÇA JUNIOR, Gilberto Rodrigues; TORRES FILHO, Ernani Teixeira. Analisando a Crise do Subprime. Revista do Bndes, Rio de Janeiro, v. 30, n. 15, p. 129-159, dez. 2008.

Para o nosso exercício, vamos iniciar a partir do resultado da regressão 3.3 e aplicar o teste desenvolvido por Chow (1960). Trata-se de um teste baseado na estatística F, que testa a estabilidade dos parâmetros de regressão ao longo do tempo. A hipótese nula, H0, é que não existe quebra estrutural.

Para implementar o teste você deve, a partir da janela da regressão estimada, de onde obtivemos os dados da equação 3.3, clicar em “Testes” e na sequência escolher “Teste de Chow”. Você deve preencher os campos como na Figura 6:


141

FIGURA 6 – ESTIMANDO O TESTE DE CHOW


O resultado é apresentado na Figura 7, porém, ao retornar à janela do modelo estimado, o Gretl nos apresenta o resultado do teste de forma mais fácil de se entender, como mostramos:

FIGURA 7 – RESULTADO DO TESTE DE CHOW NA JANELA DE REGRESSÃO


Como a hipótese nula é a de que não há quebra estrutural, e o p – valor é muito baixo, menor do que 0,01 (ou 1% de significância estatística), rejeitamos H0 e concluímos que existe quebra estrutural, o que significa dizer que, a partir do quarto trimestre de 2008, as relações entre consumo e renda no Brasil sofreram alterações significativas.

142


QUADRO 17 – RESULTADO DO TESTE DE CHOW

Regressão aumentada para o teste de ChowMQO, usando as observações 1996:1-2017:3 (T = 87)Variável dependente: Consumo

coeficiente erro padrão razão-t p-valor ---------------------------------------------------------- const 15,6480 2,97096 5,267 1,07e-06 *** Renda 0,842115 0,0247916 33,97 1,85e-050 *** splitdum −47,9868 8,40690 −5,708 1,72e-07 *** sd_Renda 0,387381 0,0536757 7,217 2,30e-010 ***

Média var. dependente 138,4844 D.P. var. dependente 29,40045Soma resíd. quadrados 497,8662 E.P. da regressão 2,449161R-quadrado 0,993303 R-quadrado ajustado 0,993061F(3, 83) 4103,289 P-valor(F) 4,36e-90Log da verossimilhança −199,3301 Critério de Akaike 406,6601Critério de Schwarz 416,5238 Critério Hannan-Quinn 410,6319rô 0,766458 Durbin-Watson 0,472046

Teste de Chow para a falha estrutural na observação 2008:4 F(2, 83) = 82,3846 com p-valor 0,0000



O problema do teste de Chow é que ele não especifica em qual parâmetro ocorreu a quebra estrutural. Pode ter ocorrido na constante, no coeficiente angular ou em ambos. Podemos resolver esse problema empregando as variáveis dummies.

Começamos estimando o modelo 3.4, em que adicionamos uma variável dummy com valor igual a zero de 1996 até o terceiro trimestre de 2008 e assume valor igual a 1 a partir do quarto trimestre de 2008.

3.4t t t tConsumo D Rendaβ β β ε= + + + +1 3 2

Para adicionar a dummy no Gretl, basta selecionar no menu “Acrescentar” a opção “Dummy para o intervalo de observações”. Na janela que abre, você deve dar um nome à nova variável e indicar quando a dummy deve começar e quando ela deve terminar.

O resultado dessa estimação é apresentado a seguir:


143

3.5

ajustadoR ,=2 0 9798

( ) ( ) ( )t t tConsumo , , D , Renda

, * , * * * , * * *= + +5 8108 12 1238 0 9248

0 0863 0 0000 0 0000

R ,=2 0 9891 , F , * * *=2 84 3811 102

Acadêmico, queremos que você compare esse resultado com 3.3 e perceba as estatísticas apresentadas na parte de baixo das duas equações. Perceba que o R2 é maior em 3.5 do que em 3.3. Como vimos, a inclusão de uma variável explicativa faz com que o modelo se ajuste melhor aos dados, porém, como não estamos interessados em analisar qual dos dois modelos é o melhor, partiremos para a interpretação direta dos resultados.

A pergunta que nos interessa é se o modelo 3.5 resolveu o nosso problema, ou seja, se ele identificou a quebra estrutural do resultado obtido em 3.3. Como o coeficiente estimado β3 é estatisticamente significativo, podemos concluir que sim, que há uma quebra estrutural no intercepto do modelo de regressão estimado nesse período. Assim, podemos reescrever 3.3 como:

3.6t tConsumo , , Renda= +5 8108 0 92481T 1996 até 3T 2008

3.74T 2008 até 3t 2017 t tConsumo , , Renda= +17 9346 0 9248

Em que o intercepto de 3.7 é dado por β1 + β3. O Gráfico 2 apresenta esse deslocamento consolidado em 3.7:

^ ^

144


GRÁFICO 2 – QUEBRA ESTRUTURAL COM DESLOCAMENTO NO INTERCEPTO

FONTE: O autor

E se a mudança econômica ocorrida em 2008 tivesse alterado também a resposta do consumo à mudança na renda? Nesse caso, o coeficiente β3 no modelo 3.8 tem que ser estatisticamente significativo.

3.8Consumot = β1 + β2Rendat + β3 (Dt x Rendat) + εt

Agora a variável dummy é multiplicada pela renda e, com isso, caso seja estatisticamente significativo, o coeficiente estimado β2, que é a inclinação do modelo 3.8, será dado por β2 + β3 .

Para acrescentar a variável Dt x Rendat no Gretl, nós selecionamos a no menu “Acrescentar” e na sequência “Definir nova variável”. A Figura 8 ilustra esse procedimento. O Gretl reconhece os mesmos operadores usados nas fórmulas que você usa no Excel, em que * indica multiplicação, / indica divisão, e os operadores de + e – indicam adição e subtração.


145

FIGURA 8 – ACRESCENTANDO NOVA VARIÁVEL AO MODELO


Agora que criamos a nova variável, em que multiplicamos a dummy pela renda, podemos estimar o modelo 3.8, incluindo como variáveis explicativas a Renda e a nova variável D_Renda. O resultado é apresentado em 3.9:

( )( ) ( ) ( )

t t tConsumo , , Renda , D _ Renda , * * * , * * * , * * *

= + +9 6550 0 8918 0 08380 0040 0 0000 0 0000

( )ajustado , R , R , F , * * *= = =2 22 840 9907 0 9904 4461 316

3.9

A significância estatística do β3 nos mostra que houve quebra estrutural na inclinação da reta de regressão, passando a β2 + β3 = 0,8918 + 0,0838 = 0,9756 , como mostra 3.10 e 3.11, e ilustrado no Gráfico 3:

3.101T 1996 até 3T 2008 t tConsumo , , Renda= +9 6550 0 8918


A diferença da equação 3.10 para 3.11 está na inclinação. É como se o evento de 2008 tivesse sido capaz de mudar as relações de consumo como função da renda e, com isso, o acréscimo de uma unidade na renda faz com que o consumo aumente, mas não na mesma proporção que aumentava no modelo 3.10.

146


Como não incluímos a dummy da constante no modelo estimado, as duas regressões partem da mesma origem e vão se afastando ao longo do tempo, nunca se encontrando. Diferentemente do caso anterior, em que o intercepto mudava e as curvas de regressão eram paralelas, podemos dizer que no caso de a mudança ocorrer apenas na inclinação, que temos regressões concorrentes. Obviamente, se não houvesse quebra estrutural, nem intercepto e nem inclinação, ou seja, se os coeficientes estimados das dummies não fossem estatisticamente significativos, teríamos regressões coincidindo a origem e a inclinação.

GRÁFICO 3 – QUEBRA ESTRUTURAL COM MUDANÇA NA INCLINAÇÃO

FONTE: O autor

E se juntássemos as duas variações? Podemos testar se houve quebra estrutural tanto no intercepto quanto na inclinação da reta de regressão? Para verificar isso, estimamos o modelo 3.12:

3.12Consumot = β1 + β3Dt + β2Rendat + β4(Dt x Rendat) + εt

O resultado do modelo 3.12 está expresso em 3.13:

3.13 ( )

( ) ( ) ( ) ( )t t t t tConsumo , , D , Renda , D Renda

, * * * * , * * * * , * * * , * * *= − + + ×15 6480 47 9868 0 8421 0 3874

0 0000 0 0000 0 0000 0 0000

( )ajustado , R , R , F , * * *= = =2 23 830 9933 0 993061 4103 289


147

Veja que todos os coeficientes estimados são estatisticamente significativos. Portanto, a conclusão final é que a mudança ocorreu tanto no intercepto quanto na inclinação da reta de regressão. Com isso, reescrevemos as regressões como em 3.14 e 3.15:


3.154T 2008 até 3T 2017 t tConsumo , , Renda= − +32 3388 1 2295

O Gráfico 4 nos ajuda a compreender melhor esse resultado. Perceba que agora os dois modelos têm pontos de partida distintos e inclinação distintas também. Em outras palavras, as regressões são dissemelhantes, indicando que após o terceiro trimestre de 2008, as relações entre consumo e renda se alteraram de forma significativa.

GRÁFICO 4 – QUEBRA ESTRUTURAL COM MUDANÇA TANTO NO INTERCEPTO QUANTO NA INCLINAÇÃO

FONTE: O autor

Mas se todos os modelos estimados apresentaram consistência, qual é o modelo que devemos escolher? Afinal de contas, o evento que ocorreu na economia no último trimestre de 2008 alterou estruturalmente as relações consumo versus renda e, consequentemente, os parâmetros estimados do modelo de regressão.

148


A resposta é muito simples. O que você precisa fazer é estimar um único modelo, ou seja, o modelo 3.12, e verificar se os coeficientes estimados das dummies são estatisticamente significativos. Se isso ocorrer, concluímos que há uma quebra estrutural provocada pelo evento em estudo, a partir do período marcado pela dummy com valor igual a 1.

Vamos a mais um exemplo prático, desta vez extraído de Wooldridge (2016). Usaremos o arquivo Wage1, que você pode baixar no site do Gretl, instalar no seu computador e utilizá-lo a partir do menu “Arquivo de exemplos”. Para isso, proceda da seguinte forma:

1. Acesse <http://gretl.sourceforge.net/pt.html>.2. No menu à esquerda, selecione dados para Gretl.3. Em “Conjuntos de Dados de livros de texto”, busque pelo nome

“Wooldridge”.4. Baixe o arquivo wooldridge_data.exe.5. Execute o arquivo para instalar no Gretl a base de dados utilizada no livro

Introdução à Econometria: uma abordagem moderna.

Após a instalação, você deve abrir o Gretl e selecionar o menu “Arquivo”, depois “Abrir dados” e escolher “Arquivos de exemplo”. Na tela seguinte, você seleciona a aba correspondente ao Wooldridge e busca o arquivo Wage1. Basta dar duplo clique para abrir o arquivo de dados do exemplo que desenvolveremos aqui.

Esse arquivo traz as informações referentes a salário e outras características da população americana, no ano de 1976, contendo um total de 526 observações (WOOLDRIDGE, 2016, p. 7). As variáveis que usaremos são:

1. wage = salário-hora.2. educ = anos de educação formal.3. exper = anos de experiência no mercado de trabalho.4. female = indicador do gênero feminino.

Começaremos com um modelo de regressão em que o salário-hora é explicado pelos anos de educação formal educi e pelos anos de experiência no mercado de trabalho experi, em que i representa cada trabalhador individual entrevistado para se obter essa base de dados.

3.14wagei = β1 + β2educi + β3experi + εi

Em que β1, β2 e β3 são os parâmetros a serem estimados e εi é o termo de erro o qual supomos ter distribuição normal com média zero e variância constante εi~N(0, σ2).


149

O modelo estimado é apresentado em 3.15:

( ) ( ) ( )i i iwage , , educ , exper

, * * * , * * * , * * *= − + +3 3905 0 6443 0 0701

0 0000 0 0000 0 0000

( )ajustado , R , R , F , * * *= = =2 22 5230 2252 0 2222 75 9899

3.15

Entre parênteses, temos os p – valor e os três asteriscos indicam significância estatística ao nível de 1%. Claramente o modelo apresentado diz que você deve estudar mais se quiser ganhar mais! Ele também reconhece que a experiência profissional pode garantir um salário maior se comparado com as pessoas que têm menos experiência no mercado de trabalho.

A pergunta que queremos responder é: Em 1976, nos Estados Unidos, havia discriminação salarial entre homens e mulheres? Para verificar isso, precisamos de uma dummy, com valor igual a 1, quando a pessoa entrevistada for mulher, e igual a zero, quando for homem. A hipótese com a qual trabalhamos é que haja essa diferença de salário e que o coeficiente estimado tenha valor negativo e estatisticamente significativo. O modelo a ser estimado é mostrado em 3.16:

3.16wagei = β1 + β2educi + β3experi + β4femalei + εi

Aqui, novamente temos os parâmetros a serem estimados representados pelos βk e o termo de erro εi~N(0, σ2). Os resultados estimados estão em 3.17:

3.17

( ) ( ) ( ) ( )i i i iwage , , educ , exper , female

, * * , * * * , * * * , * * *= − + + −1 7345 0 6026 0 0642 2 1555

0 0218 0 0000 0 0000 0 0000

( )ajustado , R , R , F , * * *= = =2 22 5230 3093 0 3053 77 9197

Perceba que os resultados corroboram a nossa hipótese inicial. Neste caso, o fato de ser mulher fazia com que o salário-hora fosse US$ 2,15 menor do que se o empregado fosse homem. As demais variáveis apresentaram valores próximos do modelo estimado 3.15, e mantiveram a significância estatística, pelo menos ao nível de 5% (para o caso da constante com p – valor = 0,218).

Obviamente o resultado deve ser analisado muito mais sob o ponto de vista histórico do que sob o ponto de vista numérico. Nos anos 1970, a mulher estava conquistando cada vez mais espaço no mercado de trabalho, deixando de ser coadjuvante nas finanças domésticas e passando a ter as chamadas jornadas duplas, que num primeiro momento eram profissionais empregadas e no segundo momento eram donas de casa.

150


DICAS

Para uma leitura geral sobre o mercado de trabalho com o enfoque histórico, leia o artigo A evolução da mulher no mercado de trabalho, publicado no RH Portal, disponível no link <http://www.rhportal.com.br/artigos-rh/a-evoluo-da-mulher-no-mercado-de-trabalho/>.

Outra aplicação interessante usando variáveis dummies é a dessazonalização de uma série de dados temporais. Sabemos que ao longo do ano os agricultores adquirem certa quantidade de fertilizantes para usar nas suas lavouras. Sabemos também que essa quantidade é maior ou menor, dependendo da época do ano.

Em períodos de plantio das principais culturas, como milho, soja, trigo, por exemplo, esperamos que haja aumento na venda de fertilizantes e, em períodos de colheita, uma redução. Por isso, um gráfico de venda de fertilizantes deve apresentar subidas e descidas muito bem-comportadas, como podemos observar a seguir:

FIGURA 9 – VENDA DE FERTILIZANTES EM TONELADAS, COM FREQUÊNCIA MENSAL, ENTRE JANEIRO DE 1998 E NOVEMBRO DE 2017

FONTE: Adaptado de <www.ipeadata.gov.br>. Acesso em: 29 ago. 2018


151

Quando estudamos a venda de fertilizantes, queremos analisar a tendência de longo prazo dessa variável que é extremamente importante na estimação da produtividade agrícola. Por isso é natural querer retirar a sazonalidade para podermos nos concentrar naquilo que realmente interessa, ou seja, a tendência temporal.

Podemos observar, através da nossa base de dados, que as vendas de fertilizantes aumentam consideravelmente nos meses de julho, agosto, setembro e outubro. Também podemos perceber que a venda é sensivelmente menor nos meses de março e abril.

Para o nosso experimento, vamos atribuir uma dummy para cada mês do ano e assim, teremos 12 variáveis dummies. Parece ser trabalhoso fazer isso, correto? Só parece, pois o procedimento é bem simples quando você usa o Gretl.

Com a sua base de dados montada no Gretl, selecione o menu “Acrescentar” e na sequência escolha “Dummies sazonais”. Automaticamente o Gretl criará uma variável dummy para cada mês do ano, com valores iguais a 1 para o mês em questão e zero para os demais. Assim, a variável dm1t terá valor igual a 1 quando for janeiro de 1998, janeiro de 1999, e assim por diante, e zero quando for fevereiro de 1998, março de 1998 etc.

Para retirar a sazonalidade da série, estimaremos o modelo de regressão 3.18:

3.18fertilt = β1dmt1t + β2dm2t + β3dm3t + β4dm4t + β5dm5t + β6dm6t + β7dm7t + β8dm8t + β9dm9t + β10dm10t + β11dm11t + β12dm12t + εt

Atente-se a duas coisas importantes a serem ditas. Primeiro, o modelo 3.18 não tem intercepto. Isso se deve ao fato de estarmos usando todas as 12 variáveis dummies, uma para cada mês do ano. O segundo ponto que precisa ser ressaltado é que podemos alterar 3.18 a fim de conter o intercepto. Se fizermos isso, teremos que deixar uma das variáveis dummies de fora. Provavelmente suprimiríamos o mês de janeiro e o usaríamos como base ou variável de controle.

O resultado estimado está no Quadro 18. Perceba que o Gretl nos reportou um número bem estranho para os coeficientes estimados. Como já citamos, trata-se de um número científico. A letra “e” está inserida nesse número para indicar que tudo o que vem antes dela é multiplicada por 10 elevado à potência que aparece após o sinal. Assim, podemos reescrever o número 1,51079e+06 para 1,51079 x 106 = 1.510.790 , com estimação do modelo 3.18:

152


QUADRO 18 – RETIRANDO A SAZONALIDADE DE UMA SÉRIE DE DADOS TEMPORAIS

coeficiente erro padrão razão-t p-valor ---------------------------------------------------------- dm1 1,51079e+06 131238 11,51 1,87e-024 *** dm2 1,40592e+06 131238 10,71 6,14e-022 *** dm3 1,27685e+06 131238 9,729 6,37e-019 *** dm4 1,12789e+06 131238 8,594 1,37e-015 *** dm5 1,60075e+06 131238 12,20 1,19e-026 *** dm6 1,89665e+06 131238 14,45 5,30e-034 *** dm7 2,33512e+06 131238 17,79 6,24e-045 *** dm8 2,79483e+06 131238 21,30 4,93e-056 *** dm9 3,02133e+06 131238 23,02 2,70e-061 *** dm10 3,09189e+06 131238 23,56 6,67e-063 *** dm11 2,38564e+06 131238 18,18 3,56e-046 *** dm12 1,52336e+06 134647 11,31 7,94e-024 ***



E o que fazemos com o modelo estimado? Não precisaremos interpretar esse resultado, se essa era a sua preocupação. Como só queremos extrair a sazonalidade, para isso basta fazermos

t tfertil fertil− , que o resultado será a série livre de sazonalidade.

Você já deve ter entendido que estamos falando dos resíduos da regressão, ou seja,

t t tfertilˆ fertilε = − . A obtenção dessa série é muito simples, e a partir da janela do modelo estimado pelo Gretl, selecione o menu “Salvar” e depois escolha “Resíduos”. O Gretl dará um nome padrão de uhat1 para a série de resíduos salvos, o qual poderá ser alterado da maneira que você quiser.

O Gretl também gera uma tabela com os valores efetivos, previstos e os resíduos a partir da janela do modelo estimado. Basta selecionar o menu “Análise” e na sequência escolher “Mostrar efetivo, ajustado, resíduos”. Reproduzimos na Figura 10 a tela gerada com esses dados:


153

FIGURA 10 – VALORES EFETIVOS, AJUSTADOS E RESÍDUOS DA VENDA DE FERTILIZANTES


A Figura 11 apresenta os gráficos dos valores efetivos da variável fertilt e seus valores dessazonalizados para fins de comparação e análise. Perceba como a série dessazonalizada “Fertil ajustado” apresenta um padrão crescente, porém sem as oscilações sazonais tão acentuadas quanto a série original.

Você terá a oportunidade de estudar as séries temporais em Econometria II, e verá que as séries de tempo são caracterizadas por um componente sazonal, cíclico, tendência e estritamente aleatório.

Em linhas gerais, o estudo das séries temporais requer um vocabulário totalmente diferente daquele que usamos em Econometria I, apesar de a intuição por trás da estimação permanecer a mesma. Dito de outra forma, também testamos hipóteses, testamos a hipótese nula do coeficiente estimado ser igual a zero, e fazemos uma série de testes estatísticos, como teremos a oportunidade de estudar em breve.

ESTUDOS FUTUROS

Um dos testes mais importantes é o da existência de correlação serial nos resíduos, como veremos na Unidade 3. Abriremos um tópico destinado exclusivamente ao estudo desse problema e veremos, além da sua natureza, as formas de superá-lo.

154



Conheça a fórmula matemática que explica o sucesso de um político

Luís Artur Nogueira

Dizer que a economia explica o desempenho de um político nas urnas não é novidade, mas ainda faltam modelos matemáticos mais elaborados que concluam quais elementos têm maior peso na popularidade de um governante.

Com o objetivo de dar uma contribuição a esse debate, a Tendências Consultoria está desenvolvendo um modelo econométrico que tem a renda e o emprego como suas principais variáveis.

Aos olhos leigos, a fórmula é complexa, mas o raciocínio parece ser simples: renda em elevação e desemprego em baixa significam popularidade nas alturas. Portanto, brincar com a inflação pode derrubar a avaliação de um governante, já que os preços altos corroem o poder de compra da população.

Para elaborar o estudo, os analistas da Tendências utilizaram as pesquisas DataFolha no período de março de 1995 a novembro de 2010 (governos FHC e Lula). A taxa de aprovação é a soma das avaliações “ótimo” e “bom” dadas pelos entrevistados.

FIGURA 11 – DADOS EFETIVOS E DESSAZONALIZADOS DA VARIÁVEL fertilt



155

A primeira constatação é de que a influência das variáveis econômicas sobre a avaliação presidencial é dada gradativamente ao longo do tempo, sem oscilações bruscas.

“Estimamos uma regressão que associa a taxa de aprovação a seus valores passados (aprovt-1 no modelo explicitado abaixo) e aos determinantes econômicos defasados (taxa de desemprego – ut-1 – e da renda real – rendat-4 –), levando em consideração que a aprovação do governo é feita de maneira retrospectiva. Incluímos ainda uma dummy que assume o valor 1 durante o governo Lula e 0 durante o FHC”, diz relatório da consultoria assinado por Rafael Cortez e Rafael Bacciotti.

As estimativas encontradas foram as seguintes:

FONTE: <https://abrilexame.files.wordpress.com/2016/09/original_formula-popularidade-590.jpg?quality=70&strip=all&strip=info>. Acesso em: 14 jun. 2018.

O modelo conclui que o aumento de 1 ponto percentual na taxa de desemprego reduz a aprovação em 1,51 ponto, enquanto que o aumento de 1% na renda eleva a aprovação em 0,42 ponto percentual.

“Isso é uma evidência de que os indivíduos punem os governos devido ao desemprego em um espaço curto de tempo (a melhor defasagem foi de um período), e os aprovam com a sensação do aumento de seu poder de compra em período de tempo mais longo (defasagem de quatro períodos)”.

Segue o relatório: “O modelo mostrou que a preservação da renda real e o mercado de trabalho são, de fato, os melhores preditores da avaliação de um presidente. Isto significa que, no curto prazo, apenas um choque, seja na inflação, seja no mercado de trabalho, poderia afetar a avaliação de Dilma”.

A Fórmula da Popularidade

aprovt = -1,70 + 0,70*aprovt-1 - 1,51*ut-1 + 0,42*log(renda)t-4 + 0,10*DLULA

aprovt: aprovação de um político

aprovt - 1: aprovação no período anterior

ut-1: taxa de desemprego defasada em um período

rendat-4: renda real defasada em quatro períodos

DLULA: dummy com valor 1 no governo Lula e 0 no FHC

156


Em entrevista a EXAME.com, Bacciotti explica que a renda tem um peso um pouco maior que o emprego, pois é muito mais fácil a renda variar 1% do que o desemprego subir ou cair 1 ponto. “Daí a importância de não se brincar com a inflação, que tira poder de compra da população”, diz o economista.

Não havendo vínculos ideológicos por parte do eleitor, a decisão dele será racional e com base no seu bolso. Se a avaliação é positiva, há grandes chances de ele optar pela continuidade.

Passada a fase mais aguda de preços altos nos primeiros meses do ano, a tendência segue favorável para a popularidade da presidente Dilma. A Tendências Consultoria projeta que a taxa de desemprego ainda permanecerá em níveis baixos (na média, 6,4% em 2011 ante 6,7% em 2010) e a renda real, embora em desaceleração, possui trajetória positiva.

O modelo ainda está sendo aperfeiçoado e a equipe da Tendências promete novidades em breve. Um fato, no entanto, é certo. A velha frase “É a economia, estúpido”, dita por um assessor de Bill Clinton em 1992, em plena eleição presidencial americana, continua valendo e cada vez mais pode ser explicada matematicamente.

FONTE: <https://exame.abril.com.br/ciencia/conheca-a-formula-matematica-que-explica-o-sucesso-de-um-politico/>. Acesso em: 14 jun. 2018.

157

RESUMO DO TÓPICO 3


• As variáveis dummies são um artifício importante usado pelos econometristas para uma série de aplicações práticas.

• Pode-se calcular a diferença média da renda per capita entre as regiões com o uso das dummies.

• É possível usar as dummies para testar a existência de quebra estrutural na relação entre as variáveis dependentes e explicativa, como uma alternativa ao teste de Chow.

• As dummies podem ser usadas para estimar a diferença salarial entre homens e mulheres, como no exemplo dos Estados Unidos em 1976, em que concluímos haver diferença salarial entre homens e mulheres.

• É possível remover o componente sazonal de uma série temporal usando as variáveis dummies, o que permite ao econometrista se concentrar nos outros elementos que afetam o comportamento dessas séries.

158

Para esta autoatividade, você vai precisar dos dados do Quadro 19. Trata-se de um levantamento anual produzido pela The Heritage Foundation, intitulado Index of Economic Freedom. A amostra contém os 80 melhores ranqueados no índice de 2018, de onde foram extraídos dados sobre investimentos externos diretos e o score do próprio índice. Além disso, foram acrescentadas quatro variáveis dummy, uma para cada região abrangida pela amostra.

AUTOATIVIDADE

QUADRO 19 – INVESTIMENTO EXTERNO DIRETO E LIBERDADE ECONÔMICA PARA PAÍSES SELECIONADOS, 2018

País Região IED Score D1Américas

D2Ásia

D3Europa

D4África

Canada América 33.721,14 77,70 1 0 0 0United States América 391.104,00 75,70 1 0 0 0

Chile América 11.265,71 75,20 1 0 0 0Uruguay América 953,13 69,20 1 0 0 0Jamaica América 855,87 69,10 1 0 0 0

Colombia América 13.592,65 68,90 1 0 0 0Peru América 6.862,89 68,70 1 0 0 0

Saint Vincent and the Grenadines América 103,51 67,70 1 0 0 0

Saint Lucia América 94,59 67,60 1 0 0 0Panama América 5.209,30 67,00 1 0 0 0

Costa Rica América 2.762,14 65,60 1 0 0 0Mexico América 26.738,61 64,80 1 0 0 0

Dominica América 31,37 64,50 1 0 0 0Guatemala América 1.180,80 63,40 1 0 0 0Bahamas América 521,85 63,30 1 0 0 0

El Salvador América 373,45 63,20 1 0 0 0Hong Kong Ásia 108.125,99 90,20 0 1 0 0Singapore Ásia 61.596,68 88,80 0 1 0 0

New Zealand Ásia 2.291,63 84,20 0 1 0 0Australia Ásia 48.190,25 80,90 0 1 0 0Taiwan Ásia 8.333,00 76,60 0 1 0 0

Malaysia Ásia 9.925,95 74,50 0 1 0 0Korea, South Ásia 10.826,60 73,80 0 1 0 0

Japan Ásia 11.388,41 72,30 0 1 0 0Macau Ásia 3.026,70 70,90 0 1 0 0

Vanuatu Ásia 32,39 69,50 0 1 0 0Kazakhstan Ásia 9.069,31 69,10 0 1 0 0

Thailand Ásia 1.554,16 67,10 0 1 0 0

159

Philippines Ásia 7.912,20 65,00 0 1 0 0Azerbaijan Ásia 4.500,00 64,30 0 1 0 0Indonesia Ásia 2.658,09 64,20 0 1 0 0

Brunei Darussalam Ásia -149,64 64,20 0 1 0 0Tonga Ásia 8,86 63,10 0 1 0 0

Kyrgyz Republic Ásia 466,78 62,80 0 1 0 0Switzerland Europa -26.340,20 81,70 0 0 1 0

Ireland Europa 22.304,45 80,40 0 0 1 0Estonia Europa 870,45 78,80 0 0 1 0

United Kingdom Europa 253.825,78 78,00 0 0 1 0Iceland Europa -484,41 77,00 0 0 1 0

Denmark Europa 950,72 76,60 0 0 1 0Luxembourg Europa 26.857,37 76,40 0 0 1 0

Sweden Europa 19.583,88 76,30 0 0 1 0Georgia Europa 1.661,42 76,20 0 0 1 0

Netherlands Europa 91.956,17 76,20 0 0 1 0Lithuania Europa -207,87 75,30 0 0 1 0Norway Europa -5.532,74 74,30 0 0 1 0

Czech Republic Europa 6.751,87 74,20 0 0 1 0Germany Europa 9.528,28 74,20 0 0 1 0Finland Europa 42,03 74,10 0 0 1 0Latvia Europa 126,10 73,60 0 0 1 0Austria Europa -6.088,53 71,80 0 0 1 0

Macedonia Europa 396,51 71,30 0 0 1 0Romania Europa 4.573,02 69,40 0 0 1 0Armenia Europa 338,03 68,70 0 0 1 0

Malta Europa 3.575,02 68,50 0 0 1 0Poland Europa 11.357,85 68,50 0 0 1 0

Bulgaria Europa 776,19 68,30 0 0 1 0Cyprus Europa 4.137,76 67,80 0 0 1 0Belgium Europa 33.102,70 67,50 0 0 1 0Hungary Europa -5.313,59 66,70 0 0 1 0Kosovo Europa 249,00 66,60 0 0 1 0Turkey Europa 11.987,00 65,40 0 0 1 0

Slovakia Europa -295,35 65,30 0 0 1 0Spain Europa 18.658,86 65,10 0 0 1 0

Slovenia Europa 919,21 64,80 0 0 1 0Albania Europa 1.124,35 64,50 0 0 1 0

Montenegro Europa 226,26 64,30 0 0 1 0France Europa 28.351,62 63,90 0 0 1 0

Portugal Europa 6.064,56 63,40 0 0 1 0

160

Italy Europa 28.954,82 62,50 0 0 1 0Serbia Europa 2.298,78 62,50 0 0 1 0

United Arab Emirates África 8.985,71 77,60 0 0 0 1Qatar África 773,90 72,60 0 0 0 1Israel África 12.323,70 72,20 0 0 0 1

Bahrain África 281,91 67,70 0 0 0 1Jordan África 1.538,87 64,90 0 0 0 1

Mauritius África 349,42 75,10 0 0 0 1Botswana África 10,46 69,90 0 0 0 1Rwanda África 409,79 69,10 0 0 0 1

South Africa África 2.270,42 63,00 0 0 0 1

FONTE: Adaptado de <https://www.heritage.org/index/>. Acesso em: 29 ago. 2018.

1 Com base nos dados apresentados no Quadro 19, estimamos o seguinte modelo de regressão por mínimos quadrados ordinários:

3.19IEDi = β1 + β2Scorei + ui

Em que IED é o investimento externo direto, em milhões de US$, Score é o índice de liberdade econômica, cuja metodologia para construção do índice pode ser obtida em <https://www.heritage.org/index/pdf/2018/book/methodology.pdf>, e ui é o termo de erro o qual supomos que tenha distribuição normal, com média zero e variância constante.

Os resultados estão abaixo com p – valor entre parênteses:

( ) ( )i iIED . . , Score

, ,= − +163 061 2 551 54

0 0164 0 00813.20

R ,=2 0 0865 , F ,=1 78 7 3878 ( )p valor F ,− = 0 0081

Com base nos resultados reportados em 3.20, informe qual ou quais coeficientes estimados é/são estatisticamente significativos e em qual nível de significância.

2 Suponha que queiramos estimar o valor do IED médio por região geográfica. Neste caso, construa um modelo econométrico capaz de obter tal medida.

3 Decidimos ampliar o nosso estudo e verificar se os países teriam preferência no destino do fluxo de investimentos externos diretos apenas pelo fato de pertencerem ao continente americano. Para isso, alteramos o modelo 3.19 para incluir a Dummy D2i, que assume valores iguais a 1 quando se tratar de um país localizado nas Américas e zero caso esteja localizado em outro país.

161

3.21IEDi = β1 + δ1D1i + β2Scorei + ui

Os resultados estão logo abaixo com p – valor entre parênteses:

3.22

( ) ( ) ( )i i iIED . . , D . , Score

, , ,= − + +190 629 25 857 0 1 2 868 93

0 0060 0 0798 0 0032

R ,=2 0 1224 , F ,=1 77 5 3720 ( )p valor F ,− = 0 0065

Com base nesses resultados, responda:

a) Informe se os coeficientes estimados são estatisticamente significativos e em qual nível de significância estatística.

b) Como você interpreta o coeficiente estimado da dummy?

c) Com base nos resultados obtidos em 3.22, os países localizados nas Américas tiveram preferência pela destinação dos investimentos externos diretos?

4 Estimamos um último modelo de regressão, incluindo as demais variáveis dummy com o objetivo de verificar se a região geográfica é determinante para o direcionamento dos investimentos externos diretos. O modelo estimado foi:

3.23i i i i i iIED D D D Score uβ δ δ δ= + + + + +1 1 2 31 2 3

O resultado da estimação encontra-se abaixo, com p – valor entre parênteses:

( ) ( ) ( ) ( ) ( )i i i i iIED . . , D . , D . , D . , Score

, , , , ,= − + + + +197 970 33 713 5 1 7 174 44 2 10 137 6 3 2 861 37

0 0057 0 1235 0 7362 0 5998 0 0039

R ,=2 0 1257 , F ,=1 75 2 6967 ( )p valor F ,− = 0 0370

Em relação aos resultados obtidos, responda:

a) Por que usamos apenas três dummies se tínhamos a nossa disposição quatro variáveis dummy?

b) Os coeficientes estimados apresentaram p – valor alto para as três dummies, indicando que nenhum dos coeficientes é estatisticamente significativo aos usuais níveis de 1%, 5% e 10% de significância estatística. O que esse resultado representa em relação ao objetivo de verificar se a região geográfica é determinante para o direcionamento dos investimentos externos diretos?

163

UNIDADE 3

MODELOS DE REGRESSÃO GENERALIZADOS


PLANO DE ESTUDOS

A partir do estudo desta unidade, você será capaz de:

• identificar a natureza dos problemas existentes quando as premissas bási-cas do modelo clássico de regressão linear são relaxadas;

• examinar suas consequências em relação à validade dos modelos estima-dos nas outras unidades;

• utilizar métodos específicos para detecção dos problemas e apresentar medidas corretivas que possam gerar estimadores com as propriedades estatísticas desejáveis.

Esta unidade está dividida em três tópicos. No decorrer da unidade você en-contrará autoatividades com o objetivo de reforçar o conteúdo apresentado.

TÓPICO 1 – MULTICOLINEARIDADE

TÓPICO 2 – HETEROSCEDASTICIDADE

TÓPICO 3 – AUTOCORRELAÇÃO

165

TÓPICO 1

MULTICOLINEARIDADE

UNIDADE 3

1 INTRODUÇÃO

Na Unidade 1 fomos apresentados ao modelo clássico de regressão linear, em que estudamos o método de mínimos quadrados ordinários, que é a base de toda análise econométrica. Aprendemos os conceitos básicos e construímos modelos de regressão simples. Na Unidade 2 ampliamos esses modelos, introduzindo múltiplas variáveis explicativas, melhorando a sua capacidade de previsão e explicação da variável dependente, trazendo os modelos mais próximos da realidade.

Em todos os exemplos que trabalhamos até agora supomos que as hipóteses, apresentadas na Unidade 1 e revistas na Unidade 2, estavam presentes e eram válidas, o que nos permitiu estimar parâmetros que carregam as propriedades estatísticas desejáveis de consistência, eficiência e ausência de tendenciosidade.

Para relembrar, listamos as hipóteses do modelo clássico de regressão linear:

• Hipótese 1 – O modelo de regressão é linear nos parâmetros y = Xβ + ε.• Hipótese 2 – A média condicional do termo de erro é zero E[εi | xj1,xj2,...,xjk] = 0.• Hipótese 3 – Não há correlação ou colinearidade perfeita entre as variáveis

explicativas X (full rank).• Hipótese 4 – Os erros são homoscedásticos e não são correlacionados

(disturbâncias esféricas) Var[εi|X] = σ2I e Cov[εi,εj|X] = 0 para todo i = 1, 2, ..., n e i ≠ j• Hipótese 5 – A matriz X é não estocástica: em amostras repetidas, os valores de

X são fixados.• Hipótese 6 – O vetor de erros ε tem distribuição normal, com média zero e

variância constante: ε|X~N[0, σ2I].

Sabemos que em um mundo perfeito, todas as hipóteses se confirmariam. Porém, no mundo real, enfrentamos diariamente uma série de problemas para construir modelos econométricos que sejam capazes de nos revelar a verdade sobre os fatos que estamos estudando, sem que para isso precisemos torturar as informações. Em outras palavras, nem sempre as hipóteses vistas nas unidades 1 e 2 serão confirmadas.

UNIDADE 3 | MODELOS DE REGRESSÃO GENERALIZADOS

166

O objetivo da Unidade 3 é relacionar duas importantes hipóteses do modelo de regressão linear clássico, a ausência de colinearidade entre as variáveis explicativas (no caso do modelo de regressão múltipla), homoscedasticidade e ausência de correlação serial entre os resíduos de um modelo de regressão com dados de séries temporais, ou seja, as hipóteses 3 e 4 listadas anteriormente.

No primeiro tópico veremos o relaxamento da hipótese de ausência de colinearidade, por isso o chamaremos de “o problema da multicolinearidade”. No tópico dois veremos a situação em que os resíduos não têm a mesma variância, ou seja, eles são heteroscedásticos. No último tópico abordaremos o caso em que os resíduos passados carregam informações suficientes para influenciar os resíduos presentes, ou seja, são autocorrelacionados.

2 CONCEITO DE MULTICOLINEARIDADE

A colinearidade entre variáveis explicativas não é uma questão que nos incomoda quando estimamos um modelo de regressão simples, com apenas uma variável explicativa. O problema ocorre quando precisamos estimar um modelo com múltiplas variáveis exógenas. Nesse caso, se duas ou mais dessas variáveis tiverem alguma inter-relação, estaremos violando uma das hipóteses do modelo clássico de regressão linear.

Maddala (2003, p. 143) define a multicolinearidade como sendo “a situação na qual as variáveis explicativas são altamente intercorrelacionadas ...”. O termo colinearidade tem origem com Ragnar Frisch (1934).

Para entender como isso funciona na prática, suponha o seguinte modelo de regressão representado por 1.1:

1.1Yi = β1X1i + β2X2i + β3X3i + εi

Em que X1i = 1 para todo i, X3i = 2X1i + 3X2i e εi~N(0, σ2). Através desse exemplo adaptado de Maddala (2003, p. 143), podemos obter certas combinações dos parâmetros βk, tais como β1 + 2β3, e β2 + 3β3. Porém, não conseguimos obter os valores individuais dos parâmetros β1, β2 e β3, caracterizando assim a multicolinearidade perfeita.

O Quadro 1 apresenta uma simulação de dados com colinearidade baseado na equação 1.1. Você pode importar esses dados para o Gretl e tentar estimar a regressão, porém o Gretl omitirá a variável X3i em razão da colinearidade perfeita que existe entre ela e X2i.

TÓPICO 1 | MULTICOLINEARIDADE

167

QUADRO 1 – EXEMPLO DE COLINEARIDADE

Obs. Yi X1 X2 X3

1 3 1 2 82 5 1 4 143 7 1 6 204 9 1 8 266 12 1 10 327 15 1 12 388 18 1 14 449 21 1 16 5010 23 1 18 56

FONTE: O autor

Alternativamente, você poderá querer estimar de forma manual os coeficientes da regressão. Para fazer isso, lembre-se de que estamos lidando com matrizes de dados. Portanto, temos no Quadro 1 o vetor coluna da variável Yi e a matriz de variáveis Xi. Vimos na Unidade 2 que os parâmetros beta são gerados através da equação β = (X'X)–1X'y. Para resolver essa equação, primeiro invertemos a matriz (X'X) e depois pós multiplicamos o resultado pela pós multiplicação de X'y.

O grande problema é que só conseguiremos inverter a matriz (X'X) se ela for não singular, ou seja, se tiver determinante diferente de zero. Procure retornar ao material da Unidade 2 e veja como obter a multiplicação e posteriormente o determinante dessa matriz. Compare o seu cálculo com o resultado a seguir:

1.2( ) ′ =

9 90 28890 1140 3600288 3600 11376

X X

O determinante da matriz 1.2 é igual a zero, e consequentemente não conseguimos obter a sua inversa. Como resultado prático, não é possível estimar o vetor de parâmetros β em 1.1.

O caso em 1.1 não é regra geral, mas uma exceção. Na prática, encontraremos situações em que as variáveis explicativas possuem algum tipo de intercorrelação. Isso é perfeitamente natural quando usamos dados coletados em bancos de dados. Quando estivermos fazendo um estudo com dados controlados, gerados de forma artificial, dificilmente nos depararemos com a multicolinearidade.

Gujarati e Porter (2011, p. 331) descrevem a existência de quatro tipos de colinearidade através de um diagrama de Ballentine. São elas: a) baixa colinearidade; b) colinearidade moderada; c) colinearidade alta; e d) colinearidade muito alta.


168

Devemos nos preocupar com as opções “c” e “d”, pois, muitas vezes, a baixa colinearidade e colinearidade moderada podem ser resultantes de um banco de dados mal construído. Dito de outra forma, podemos estar diante do problema da micronumerosidade, situação em que a quantidade de informações coletadas é muito pequena para estimarmos o modelo econométrico.

Outra situação que gera colinearidade entre variáveis explicativas é a sua construção. Elas podem ser mal especificadas, gerando colinearidade entre elas. De qualquer forma, vale salientar que, caso tenhamos colinearidade perfeita ou muito alta, os coeficientes estimados das variáveis Xi são indeterminados e terão desvios padrão muito altos. Do mesmo modo, a situação em que a multicolinearidade não é perfeita pode gerar erros padrão grandes, o que resulta em coeficientes estimados menos precisos (GUJARATI; PORTER, 2011, p. 332).

Por esses motivos, iremos considerar apenas a existência ou não da colinearidade, sem nos aprofundarmos em calcular o seu tamanho ou grau. Em termos práticos, representando o modelo de regressão na forma matricial, sabemos que:

1.3y = Xβ + ε

Em que β = (X'X)–1X'y e ε|X~N[0,σ2I].

O problema da multicolinearidade é justamente o fato de não conseguirmos inverter a matriz (X'X). Como há colunas que são expressas em termos de outra, ou outras, a matriz formada por esta combinação não possui posto de coluna completo, ou seja, não é full rank.

Portanto, quanto mais correlacionadas forem as variáveis explicativas, maior será essa variância, e em uma situação extrema, uma variável explicativa Xi poderá ser escrita como uma combinação linear das demais variáveis explicativas (GREENE, 2012, p. 130).

Se houver uma combinação perfeita entre duas variáveis, dizemos que a colinearidade é perfeita. Com isso, os coeficientes de regressão das variáveis X são indeterminados e seus erros padrão, infinitos. Por outro lado, se a colinearidade não for perfeita, será possível obter os estimadores para os parâmetros beta, porém, os coeficientes de regressão terão erros padrão muito grandes e, como consequência, perdemos a precisão da nossa estimativa (GUJARATI; PORTER 2011, p.332).


169

1.4Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t

3 DETECÇÃO DA MULTICOLINEARIDADE

Queremos apresentar a você alguns procedimentos práticos para detectar a presença da multicolinearidade. Para isso, vamos adaptar o trabalho de Longley (1967) à economia brasileira, com dados do período entre 1992 e 2014, e com algumas modificações nas variáveis. Nesse artigo, Longley comparou a programação computacional usada para estimar os modelos de mínimos quadrados ordinários, com as calculadoras de mesa, estimando regressões com dados macroeconômicos como os que usaremos a seguir. O nosso objetivo é verificar a existência de multicolinearidade em um modelo próximo ao dele e com variáveis parecidas.

Basicamente, queremos estimar o seguinte modelo de regressão:

Em que Yt é o número de pessoas ocupadas, em milhões de pessoas; X2t é o deflator implícito do PIB em percentual; X3t é o PIB, em US$ milhões correntes; X4t é a população desocupada, em milhões de pessoas; X5t é a população em idade ativa, em milhões de pessoas; e X6t é uma variável de tendência temporal, assumindo valor igual a 1 para 1992, igual a 2 para 1993 e assim por diante.

Propositalmente, essas variáveis são intercorrelacionadas. Por exemplo, o deflator do PIB, X2t, nada mais é do que a razão entre o PIB nominal e o PIB real. Como temos X3t representando o PIB, essas duas variáveis são colineares. As variáveis X4t e X5t também são colineares, uma vez que a população desocupada faz parte da população em idade ativa.

A base de dados foi obtida no site do Ipeadata e no do Banco Central do Brasil, e pode ser vista no Quadro 2:

QUADRO 2 – ADAPTAÇÃO DOS DADOS DE LONGLEY (1967) PARA A ECONOMIA BRASILEIRA

Ano Y X2 X3 X4 X5 X61992 61.229,43 969,01 387.294,94 4.747,77 113.295,18 11993 62.390,58 1.996,15 429.685,27 4.554,01 115.658,04 21994 2.240,17 543.086,59 31995 65.386,63 770.733,14 4.668,84 120.600,21 41996 64.299,69 18,46 851.019,12 5.283,79 123.377,66 51997 65.576,72 7,73 883.281,56 6.057,90 125.081,92 61998 66.139,77 4,92 863.872,29 7.144,59 127.732,73 71999 69.181,06 8,01 599.289,51 8.062,11 133.172,80 82000 5,61 655.707,37 92001 73.068,66 8,23 559.562,59 8.174,78 140.421,76 10


170

2002 75.563,62 9,80 508.101,18 8.280,25 143.133,84 112003 76.421,21 14,09 559.465,40 8.950,36 145.761,09 122004 79.103,30 7,75 669.339,54 8.524,17 148.010,17 132005 80.945,16 7,43 892.033,25 9.202,79 150.859,82 142006 82.744,29 6,77 1.107.131,34 8.411,57 153.801,64 152007 84.119,03 6,44 1.396.797,40 8.245,22 156.439,29 162008 86.632,36 8,78 1.693.147,00 7.316,40 159.219,53 172009 87.409,36 7,31 1.672.624,76 8.699,57 161.606,53 182010 8,42 2.209.750,92 192011 88.689,31 8,32 2.614.482,35 6.977,32 166.210,05 202012 90.213,01 7,94 2.463.548,92 6.507,01 168.070,91 212013 90.385,60 7,50 2.468.456,41 6.957,62 170.001,90 222014 92.869,85 7,85 2.454.846,01 7.571,69 172.180,43 23

FONTE: Adaptado de <www.ipeadata.gov.br> e <www.bcb.com.br>. Acesso em: 30 ago. 2018

Digamos que, ao construir o modelo, não sabemos se as variáveis são correlacionadas entre si. Por isso, analisaremos a matriz de correlação antes de estimar o modelo econométrico. Caso encontremos correlações de valor superior a |0,80|, podemos supor que essas variáveis apresentam colinearidade. Se a correlação for menor que |0,50|, aparentemente não teremos que nos preocupar com colinearidade.

Na tela principal do Gretl, vá até o menu e selecione “Ver”, na sequência escolha “Matriz de correlação” e selecione as variáveis Xkt, clicando em “ok” para confirmar. Reproduzimos no Quadro 3 o resultado dessa análise:

QUADRO 3 – MATRIZ DE CORRELAÇÃO DOS DADOS DO MODELO 1.4

Coeficientes de Correlação, usando as observações 1992 – 2014(valores ausentes ignorados) X2 X3 X4 X5 X6 1,0000 -0,3638 -0,6516 -0,5537 -0,5811 X2 1,0000 0,0775 0,8229 0,8676 X3 1,0000 0,5898 0,5461 X4 1,0000 0,9968 X5

1,0000 X6

FONTE: O autor

A matriz de correlação apresentada no Quadro 3 deve ser analisada com cautela. Ela até pode indicar a existência de colinearidade entre duas variáveis, caso o coeficiente de correlação seja maior do que |0,80|, porém, podemos ter colinearidade entre variáveis, mesmo na presença de coeficientes de correlação baixos, como no caso em estudo. Mas, só saberemos isso se tivermos em mãos as informações a priori, obtidas diretamente da teoria subjacente ao modelo de regressão.


171

Sabemos que X2t e X3t são colineares, assim como X4t e X5t. Apesar disso, a correlação entre X2t e X3t é de -0,3638. Além disso, X2t tem correlação acima de |0,50| comparativamente a X4t, X5t e X6t. A variável X3t tem correlação acima de |0,80|em comparação a X5t e X6t Por sua vez, X4t tem correlação acima de |0,50| se comparada a X2t, X5t e X6t. E ainda, a variável X5t tem correlação maior que |0,50| quando comparada às demais variáveis, sendo maior que |0,80| quando comparada a X3t e X6t. O mesmo pode ser visto quanto a X6t, que apresenta correlação acima de |0,50| em relação a todas as variáveis e acima de |0,80| quando comparada a X3t e X5t.

Os resultados da análise da matriz de correlação levantam a suspeita da existência de colinearidade entre algumas variáveis. Como veremos adiante, o problema que estamos enfrentando pode ter origem em uma amostra muito pequena, ou uma quantidade muito grande de parâmetros a serem estimados comparativamente ao tamanho da amostra.

Supondo que deixemos a matriz de correlação de lado, apesar da suspeita de multicolinearidade, passemos a estimar o modelo de regressão. Os resultados da estimação do modelo 1.4 estão no Quadro 4.

Podemos perceber que as informações ausentes no Quadro 2 foram devidamente tratadas pelo Gretl. Devemos lembrar da regra que apresentamos na Unidade 1, em que falamos que precisamos ter pelo menos 20 graus de liberdade ao estimarmos um modelo de regressão. Como nosso modelo tem 23 observações, sendo quatro delas eliminadas pela existência de “buracos” na nossa base de dados, ficamos com um total de 19 observações úteis. Assim, nos restou apenas 13 graus de liberdade.

Os coeficientes estimados mostraram pouca significância estatística quando analisados individualmente. Apenas a variável X5t é estatisticamente significativa ao nível de 1%, e a variável X2t só é significativa a 10%. Por outro lado, o R2 é igual a 99,49%, indicando que os dados aderem perfeitamente ao modelo de regressão, ou seja, 99,49% das mudanças em Yt, população ocupada, são explicadas pelo modelo 1.4.

Aqui fica claro que, na presença de colinearidade entre variáveis explicativas, os erros padrão são muito grandes quando comparados aos valores dos coeficientes estimados. Por esse motivo, perceba que as estatísticas t são muito pequenas, gerando p – valor alto, o que não nos permite rejeitar a H0: βk = 0. Apesar de termos desvios padrão grandes, e consequentemente variâncias grandes, continuaremos usando Mínimos Quadrados Ordinários, porque eles ainda são os melhores estimadores lineares não tendenciosos, mesmo na presença de colinearidade (GUJARATI; PORTER, 2011, p. 334).

As razões t muito baixas são ótima pista da existência de multicolinearidade. A implicação direta, como discutimos no parágrafo anterior, é que as variáveis explicativas têm pouca significância estatística. Mesmo assim, o R2 é alto e a


172

estatística F nos diz que podemos rejeitar a hipótese nula de que, em conjunto, os coeficientes são estatisticamente iguais a zero. Isso é uma tremenda contradição, não é mesmo?

A própria construção equivocada do nosso modelo já indicava que teríamos um resultado ruim. Por isso, precisamos prestar muita atenção tanto na especificação do modelo quanto na das variáveis. Não basta colocá-las em uma tabela, importar os dados para o Gretl e estimar a regressão achando que teremos resultados consistentes pelo simples fato de estarmos empregando o método de mínimos quadrados ordinários. A consistência depende muito mais da técnica do que de qualquer outra coisa.

QUADRO 4 – RESULTADO DA ESTIMAÇÃO DO MODELO 1.4

Modelo 1: MQO, usando as observações 1992-2014 (T = 19)Observações ausentes ou incompletas foram ignoradas: 4Variável dependente: Y

coeficiente erro padrão razão-t p-valor ---------------------------------------------------------------- const −29423,6 23807,9 −1,236 0,2384 X2 1,31718 0,669248 1,968 0,0708 * X3 −0,000186111 0,00149242 −0,1247 0,9027 X4 −0,310180 0,493459 −0,6286 0,5405 X5 0,798048 0,215887 3,697 0,0027 *** X6 −557,120 688,356 −0,8093 0,4329

Média var. dependente 77735,90 D.P. var. dependente 10508,29Soma resíd. quadrados 10158809 E.P. da regressão 883,9948R-quadrado 0,994889 R-quadrado ajustado 0,992923F(5, 13) 506,1060 P-valor(F) 2,05e-14Log da verossimilhança −152,2593 Critério de Akaike 316,5185Critério de Schwarz 322,1851 Critério Hannan-Quinn 317,4775

Excluindo a constante, a variável com maior p-valor foi 3 (X3)


FONTE: O autor

Continuando a nossa análise, e por suspeitar que existe a presença de multicolinearidade, podemos aplicar alguns procedimentos estatísticos mais robustos para confirmar se existe ou não esse problema.

Uma das coisas que podemos fazer é estimar uma regressão colocando cada variável Xkt como variável dependente, contra as demais variáveis Xkt como variáveis explicativas. Do resultado dessas regressões, que chamaremos de “auxiliares”, salvaremos os R2, que servirão para construir um teste F, com k – 2 e n – k + 1 graus de liberdade.


173

A equação 1.5 apresenta a estatística F, a qual segue Gujarati e Porter (2011, p. 346):

1.5( )

( ) ( )i k

i k

x .x x xi

x .x x x

R / kF

R / n k…

…

−=

− − +2 3

2 3

2

2

2

1 1

Em que n é o tamanho da amostra, k o número de variáveis explicativas incluindo o intercepto e R2xj.x2x3...xk é o coeficiente de determinação da variável Xi em relação às demais variáveis explicativas.

A estimação de cada regressão auxiliar fica para você fazer como exercício e os resultados compilados são apresentados no Quadro 5. Neste exemplo, k = 5, k – 2 = 3 e n – k + 1 = 19 – 5 + 1 = 15:

QUADRO 5 – COEFICIENTES DE DETERMINAÇÃO DAS REGRESSÕES AUXILIARES

Variável dependente R2 Fi

X2t 0,6048 ( )X, / ,F ,

,, /= = =

−2

0 6048 3 0 2016 7 66540 02631 0 6048 15

X3t 0,9679 ( )X, / ,F ,

,, /= = =

−3

0 9679 3 0 3226 153 6190 00211 0 9679 15

X4t 0,9078 ( )X, / ,F ,

,, /= = =

−4

0 9078 3 0 3026 49 60660 00611 0 9078 15

X5t 0,9973 ( )X, / ,F

,, /= = =

−5

0 9973 3 0 3324 16620 00021 0 9973 15

X6t 0,9979 ( )X, / ,F

,, /= = =

−6

0 9979 3 0 3326 33260 00011 0 9979 15

FONTE: O autor

Recorrendo à tabela de distribuição F(3,15), encontramos o valor crítico ou tabelado de 4,1528, ao nível de significância de 5%. Se o Fcalculado > Ftabela, rejeitamos a hipótese nula de que não há colinearidade entre a variável Xit e as demais variáveis Xit, ao nível de significância estabelecido (5%, como no nosso exemplo). Dito de outra forma, Fcalculado > Ftabela quer dizer que a colinearidade existe.

Podemos ver, com base nos resultados do Quadro 5, que todas as estatísticas F calculadas são maiores que as da tabela de distribuição, revelando através desse procedimento que a multicolinearidade existe entre as variáveis explicativas inseridas no modelo. É como se todas elas fossem endógenas, quando no modelo clássico supomos a existência apenas de uma variável endógena, que é a variável dependente.


174

Gujarati e Porter (2011, p. 347) apresentam outra regra prática para analisar o Quadro 5. Trata-se da regra prática de Klein, a qual diz que devemos nos preocupar com a colinearidade somente se o R2 de todas as regressões auxiliares for maior do que o R2 do modelo de regressão original. Seguindo isso, vimos no Quadro 4 que o R2 = 0,9949. Apenas as regressões auxiliares de X5t e X6t apresentam R2 maior do que da regressão original.

Essa regra prática contradiz um pouco o que vimos anteriormente. Por esse motivo, devemos evitar os atalhos e nos ater às técnicas devidamente comprovadas, como veremos a seguir.

Uma das medidas de multicolinearidade mais comuns na literatura é o Fator de Inflação da Variância – FIV –, que mede a velocidade do aumento da variância e covariância. A partir dessa estatística é possível estimar a tolerância, denominada TOL (GUJARATI; PORTER, 2011, p. 337). O cálculo é feito por:

1.6JJ

FIVr

=− 2

11

1.7j

TOLFIV

=1

Em que J se refere à Jésima variável X. Assim, FIVJ e rj2 são, respectivamente,

o Fator de Inflação da Variância e o coeficiente de determinação da Jésima variável X. Caso o FIVj > 10, podemos dizer que há uma alta colinearidade entre a vaiável Xjt e as demais.

Para aplicar o teste, partimos do modelo de regressão estimado (Quadro 4), em que selecionamos o menu “Análise” e escolhemos a opção “Colinearidade”. Os resultados estão no Quadro 6.


175

QUADRO 6 – TESTES DE COLINEARIDADE

Fatores de Inflação da Variância (FIV)Valor mínimo possível = 1,0Valores > 10,0 podem indicar um problema de colinearidade

X2 2,531 X3 31,114 X4 10,843 X5 372,769 X6 485,148

VIF(j) = 1/(1 - R(j)^2), em que R(j) é o coeficiente de correlação múltipla entre a variável j e a outra variável independente

Diagnósticos de colinearidade de Belsley-Kuh-Welsch:

--- proporções de variância --- lambda cond const X2 X3 X4 X5 X6 4,750 1,000 0,000 0,001 0,000 0,000 0,000 0,000 1,011 2,168 0,000 0,323 0,000 0,000 0,000 0,000 0,211 4,748 0,000 0,077 0,021 0,003 0,000 0,000 0,027 13,361 0,001 0,255 0,060 0,008 0,000 0,008 0,002 55,296 0,005 0,316 0,707 0,989 0,004 0,033 0,000 438,119 0,994 0,027 0,211 0,000 0,996 0,958

lambda = autovalores de X'X, maior para o menor cond = índice condicional nota: as colunas de proporção da variância somam 1

FONTE: O autor

Perceba que, no Quadro 6, a variável X2t não apresenta problema de colinearidade com as demais. A variável X4t é levemente colinear, pois apresenta FIVX4t = 10,843 e nossa regra diz que, quando o FIVj > 10, temos problemas de colinearidade. As demais possuem valores extremamente altos para a estatística FIVJ.

A TOL pode ser facilmente obtida e seus resultados são apresentados no Quadro 7, corroborando a conclusão que chegamos até o momento. Valores próximos de zero indicam a presença de colinearidade. Esperaríamos uma TOL perto de 1 para dizer que não existe colinearidade perfeita entre as variáveis.

Finalmente, outra estatística de teste que pode ser implementada é o índice condicional ou número de condição. Para ver esse teste, teremos que voltar para o Quadro 6. O Gretl reporta o resultado desse teste automaticamente e é derivado de Belsley, Kuh e Welsch (1980, p. 96), cujas definições algébricas fogem em muito ao escopo desse livro de estudos. Por esse motivo nos limitaremos à interpretação dos resultados obtidos.


176

QUADRO 7 – ESTIMATIVA DA TOLERÂNCIA (TOL) – COM OS DADOS DO QUADRO 1.6 E EQUAÇÃO 1.7

Variável dependente FIVJ=

1

j

TOLFIV

X2t 2,531 0,3951X3t 31,114 0,0321X4t 10,843 0,0922X5t 372,769 0,0027X6t 485,148 0,0021

FONTE: O autor

A interpretação desse teste é bem simples. Se o índice condicional for alto, digamos, acima de 30, e a proporção da variância for alta (maior do que 0,5) para dois ou mais coeficientes estimados, podemos concluir que a variável em questão apresenta problemas de colinearidade (BELSLEY; KUH; WELSCH, 1980, p. 112).

A título de exemplo, estamos reproduzindo o diagnóstico de colinearidade do Quadro 6 no Quadro 8 para destacar essa análise. Note que as variáveis X5t e X6t apresentam índice condicional de 55,296 e 438,119, respectivamente. Concomitantemente, a proporção da variância para X5t é alta quando comparada às variáveis X3 e X4. Da mesma forma, a proporção da variância de X6t é alta quando comparada a X5t e o próprio X6t .

QUADRO 8 – DIAGNÓSTICO DE COLINEARIDADE (A PARTIR DO QUADRO 6)


--- proporções de variância --- lambda cond const X2 X3 X4 X5 X6 4,750 1,000 0,000 0,001 0,000 0,000 0,000 0,000 1,011 2,168 0,000 0,323 0,000 0,000 0,000 0,000 0,211 4,748 0,000 0,077 0,021 0,003 0,000 0,000 0,027 13,361 0,001 0,255 0,060 0,008 0,000 0,008 0,002 55,296 0,005 0,316 0,707 0,989 0,004 0,033 0,000 438,119 0,994 0,027 0,211 0,000 0,996 0,958


FONTE: O autor


177

4 O QUE FAZER NA PRESENÇA DE MULTICOLINEARIDADE?

Do que vimos até agora, resta a grande dúvida: O que fazer se detectarmos a presença de colinearidade entre as variáveis explicativas? De longe não há um consenso na literatura econométrica sobre esse assunto, motivo pelo qual são poucos os manuais de econometria que destacam um capítulo inteiro para analisar essa questão.

Para entendermos bem o que devemos fazer na presença de multicolinearidade é necessário compreender melhor o que acontece com os estimadores de mínimos quadrados. Gujarati e Porter (2011, p. 334) nos dizem que “[...] mesmo se a multicolinearidade for muito alta, como no caso da quase multicolinearidade, os estimadores de MQO ainda conservarão a propriedade de melhores estimadores lineares não viesados”. Aqui o autor está se referindo a uma situação em que a colinearidade não é perfeita, mas quase.

A superação desse problema passa por diversas técnicas, dentre as quais, não fazer nada também é uma delas. Isso se justifica se levarmos em consideração a preservação da propriedade de melhor estimador linear não tendencioso. Porém, você pode não se sentir confortável não fazendo nada, porque sabe que os estimadores perdem a eficiência em razão de ter uma variância muito alta, gerando intervalos de confiança amplos, nos induzindo a cometer um erro do tipo II.

Normalmente, o problema surge quando temos uma amostra muito pequena ou quando o número de graus de liberdade é baixo. Nesses casos, podemos resolver a questão simplesmente aumentando o número de observações. No exemplo que desenvolvemos na seção anterior, tínhamos apenas 19 observações válidas, resultando em 13 graus de liberdade em razão dos 6 parâmetros estimados. Isso ocorreu porque tínhamos uma base de dados anual (23 anos), em que quatro observações não estavam disponíveis para todas as variáveis. Nesse caso optamos por deixar o Gretl resolver o problema para nós, e o que ele fez foi excluir da regressão a linha inteira em que haviam dados ausentes, reduzindo a nossa base.

Uma medida alternativa seria fazer uma média móvel para tapar esses buracos. Com isso talvez não resolvêssemos a questão da multicolinearidade, mas não perderíamos os graus de liberdade, que são tão importantes para dar um sentido empírico ao estudo. Outra saída seria obter dados trimestrais em vez de dados anuais, para o mesmo período de análise. Isso nos daria um total de 92 observações. Assim, lembrando das propriedades assintóticas dos estimadores, sabemos que em amostras grandes, ( )k kE β β≅ . Trata-se de procedimento simples, porém depende da existência de dados nessa frequência, o que nem sempre é possível de encontrar.

Outra forma de ampliar o tamanho da amostra é trabalhar com a combinação de dados de corte e séries temporais. Temos aí o chamado painel de dados, que permite fazer uma análise cruzada das informações. Essa técnica é discutida na disciplina de Econometria II, a qual ampliará ainda mais o leque de conhecimento


178

e consolidará tudo o que aprendemos em Econometria I, apresentando a você uma série de modelos econométricos que lhe ampliará as possibilidades de aplicação. Por ora, basta sabermos que esta é uma das saídas possíveis.

Redefinir as variáveis também é uma opção. Maddala (2003, p. 147) nos alerta que “as intercorrelações podem mudar com a redefinição das variáveis explicativas”. No exemplo citado no seu livro, ele trabalha com a renda corrente, renda permanente e renda transitória como variáveis explicativas. Claramente a renda corrente é uma soma da renda permanente com a transitória, gerando o problema da colinearidade entre essas variáveis. Em uma transformação em que você combina duas variáveis é possível estimar uma combinação de parâmetros e, a partir do resultado, obter o parâmetro da equação original.

Além disso, talvez queiramos excluir uma das variáveis explicativas, o que pode ser feito se não estivermos interessados na estimação de todos os parâmetros do modelo. Porém, essa solução pode gerar um problema ainda maior, o do viés ou erro de especificação (GUJARATI; PORTER, 2011, p. 351). Se na teoria econômica o consumo depende da renda corrente, renda permanente e renda transitória, ao excluirmos uma dessas variáveis estaremos especificando um modelo de forma incorreta.

Para finalizar a questão da multicolinearidade, vamos estimar novamente no nosso modelo, redefinindo-o a fim de tentarmos corrigir o problema. Para isso, vamos reescrever o modelo 1.4 da seguinte forma:

1.8Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t + εt

1.9Yt = β1 + β2X2t + β3X3t + β4X4t + β6X6t + εt

1.10Yt = β1 + β2X2t + β3X3t + β4X4t + β5X5t + εt

1.11Yt = β1 + β2X2t + β3X3t + β4X4t + εt

A fim de solucionar o problema de multicolinearidade, usaremos o modelo 1.8 como comparação, porque é o nosso modelo original, usaremos os modelos 1.9 eliminando a variável X5t, 1.10 eliminando X6t, mas mantendo X5t e 1.11 eliminando X5t e X6t.

Escolhemos essas formas funcionais porque nos quadros 6 e 8 detectamos que as variáveis X5t e X6t apresentam problemas de multicolinearidade mais forte do que as demais variáveis incluídas no modelo.


179

No Quadro 9 apresentamos os resultados dos modelos estimados. Adicionalmente transcrevemos algumas estatísticas úteis aos resultados obtidos. Temos agora a soma dos quadrados dos resíduos, pois o método de mínimos quadrados requer exatamente isso, ou seja, escolher parâmetros de regressão que sejam capazes de minimizar essa soma. Esperaríamos que o melhor modelo fosse aquele que apresentasse o menor número dessa estatística.

O R2, você já está habituado a ver nos nossos resultados e o R2 ajustado também.

Sabemos que ao analisar dois modelos de regressão que não têm o mesmo número de variáveis explicativas, devemos comparar o R2

ajustado , pois sabemos que a inclusão de variáveis explicativas melhora a qualidade do ajustamento, medido pelo R2 . Assim, pela definição do R2

ajustado , que penaliza essa inclusão, podemos escolher o melhor modelo.

A título de comparação entre modelos, estamos também adicionando os critérios de informação de Akaike e de Schwarz, definidos na Unidade 2 como:

1.12

1.13

Critério de informação

Akaike

Schwarz

Equação

( )AIC l ˆ kθ= − +2 2

( ) nˆBIC l k lnθ= − +2

Retorne à Unidade 2 para revisar a explicação que demos a respeito dessas duas estatísticas. Ambos os critérios punem a inclusão de variáveis explicativas, mas em termos técnicos, são estatísticas mais robustas para a escolha de modelos de regressão do que o R2

ajustado. A regra aqui é selecionar o modelo de regressão que apresenta o menor valor para essas duas estatísticas.

O teste F também é reportado no Quadro 9, e como sabemos, ele testa a hipótese de que, em conjunto, todos os coeficientes estimados são estatisticamente iguais a zero, contra a hipótese alternativa de que pelo menos um dos coeficientes é estatisticamente diferente de zero. E como falamos em graus de liberdade, esse número também está reportado.


180

QUADRO 9 – REFORMULANDO O MODELO PARA RESOLVER O PROBLEMA DA MULTICOLINEARIDADE

Coeficiente estimado Modelo 1.8 Modelo 1.9 Modelo 1.10 Modelo 1.11

Constante −29.423,6(0,2384)

57.777,8(0,0000)***

−10.404,5(0,0154)**

28.442,2(0,0000)***

X2t1,3172

(0,0708)*1,8125

(0,0649)*1,3738

(0,0554)*4,3362

(0,0372)**

X3t −0,0002(0,9027)

−0,0024(0,2144)

−0,0009(0,4288)

0,0119(0,0000)***

X4t −0,3102(0,5405)

−0,2051(0,7674)

−0,380577(0,4408)

4,63809(0,0000)***

X5t 0,7980

(0,0027)***0,6291

(0,0000)***

X6t −557,120(0,4329)

1.902,93(0,0000)***

R2 0,9949 0,9895 0,9946 0,9435R2

ajustado 0,9929 0,9865 0,9931 0,9322Soma dos resíduos

quadrados10.158.809 20.837.187 10.670.691 112.000.000

Akaike 316,5185 328,1681 315,4525 358,1619Schwarz 322,1851 332,8903 320,1747 361,9397

F 506,1060*** 330,3606*** 648,4462*** 83,5450***Graus de liberdade 13 14 14 15

Obs.: p – valor entre parênteses e *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%.

FONTE: O autor

Já tínhamos visto os resultados do modelo 1.8 no Quadro 4, e vimos através dos diversos testes apresentados nessa seção que há a presença de multicolinearidade entre as variáveis. Lembrando que a variável dependente é a quantidade de pessoas ocupadas, e queremos saber se essa variável pode ser explicada pelo deflator implícito do PIB, pelo próprio PIB, pela população desocupada e a população em idade ativa.

Incluímos ainda uma variável de tempo para capturar a tendência determinística da série temporal, como você terá a oportunidade de estudar em Econometria II. Por estarmos trabalhando com séries variantes no tempo, algumas técnicas precisam ser empregadas para evitar erros de especificação, porém optamos por manter o exemplo o mais simples possível, a fim de que você possa compreender a teoria e aplicar na prática aquilo que aprendeu até este momento. Deixaremos as discussões envolvendo técnicas de séries temporais para o futuro.


181

No modelo 1.8, temos poucos coeficientes estimados estatisticamente significativos. Pelos testes de multicolinearidade, verificamos que pode haver esse problema entre as variáveis (veja os quadros 5, 6 e 7). Como não sabemos a natureza desse problema, suspeitamos que seja a especificação incorreta das variáveis do modelo, e com isso o próprio modelo pode estar especificado de forma incorreta.

Para testar a especificação do modelo, ou melhor dizendo, se ao menos a forma funcional está corretamente especificada, podemos empregar o teste RESET de Ramsey, visto na Unidade 2. Basicamente ele consiste em um processo de várias etapas, com a inclusão da variável dependente estimada na forma quadrática e cúbica como variável explicativa.

Com isso podemos testar a hipótese nula de que o modelo está corretamente especificado, contra a hipótese alternativa de que o modelo não está. Dito de outra forma, fazemos:

1.14H0: E(Yt|X2t, X3t, X4t, X5t, X6t) = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t

H1: E(Yt|X2t, X3t, X4t, X5t, X6t) = β1 + β2X2t + β3X3t + β4X4t + β5X5t + β6X6t

Para rodar o teste estimamos um modelo de regressão como em 1.8, salvamos o R2 e depois estimamos outros modelos com a inclusão da variável dependente estimada na forma quadrática e cúbica e também salvamos o R2 . Com esses resultados implementamos um teste F da seguinte forma:

1.15( )

( ) ( )novo velho

calculadonovo

R R /F

R / n

−=

− −

2 2

2

número de novos regressores

1 número de parâmetros do novo modelo

Esse teste segue uma distribuição F com grau de liberdade no numerador, sendo o número de novos regressores, e o denominador é dado por n – número de parâmetros do novo modelo.

O resultado para o modelo 1.8 está descrito no Quadro 10 e é facilmente implementado a partir da tela do modelo estimado no Gretl, selecionando o menu “Testes”, na sequência “RESET de Ramsey”, e na janela que abrir você pode marcar “Todas as variantes”:


182

QUADRO 10 – TESTE DE ESPECIFICAÇÃO DE RESET PARA O MODELO 1.8

Teste RESET para especificação (quadrados e cubos)Estatística de teste: F = 11,344045,com p-valor = P(F(2,11) > 11,344) = 0,00212

Teste RESET para especificação (apenas quadrados)Estatística de teste: F = 1,381340,com p-valor = P(F(1,12) > 1,38134) = 0,263

Teste RESET para especificação (apenas cubos)Estatística de teste: F = 0,951401,com p-valor = P(F(1,12) > 0,951401) = 0,349

FONTE: O autor

Conforme o Quadro 10, podemos rejeitar a hipótese nula de que o modelo 1.8 está corretamente especificado se considerarmos quadrados e cubos. Há, portanto, uma pista para o problema da multicolinearidade. Talvez não tenhamos esse problema afinal, mas especificamos incorretamente o nosso modelo.

Voltemos ao Quadro 9 e vamos analisar o resultado do modelo 1.9. Perceba que a exclusão de X5t, ou seja, a população em idade ativa, não traz nenhuma melhora significativa nos critérios de seleção. O R2

ajustado diminuiu, enquanto a soma dos quadrados dos resíduos, o Akaike e o Schwarz aumentaram. Portanto, apesar de aumentarmos o número de graus de liberdade com a exclusão de uma variável explicativa, os resultados não estão melhores do que estariam se a mantivéssemos no modelo. O teste RESET para quadrados e cubos para o modelo 1.9 apresentou um F = 19,7932 com p – valor = 0,0002, indicando que este modelo não está corretamente especificado.

Dessa forma, podemos partir para o próximo modelo, 1.10, o qual inclui novamente X5t e exclui X6t. Aqui temos uma ligeira melhora nos critérios de seleção quando comparados com os modelos precedentes. Porém, o que tem nos incomodado é o fato de que os coeficientes estimados individualmente continuam com baixa significância estatística e R2 alto, indicando que o problema pode não ter sido solucionado. O teste RESET para quadrados e cubos nos faz rejeitar a hipótese nula de que o modelo está corretamente especificado, com um F = 8,4952 e um p – valor = 0,0050. Em resumo, 1.10 ainda não é o modelo que queremos para avançar nos nossos estudos.

Finalmente estimamos o modelo 1.11, em que excluímos tanto a variável X5t quanto X6t. Agora os coeficientes estimados são todos estatisticamente significativos. Apesar disso, todos os critérios de seleção tiveram piora nos seus resultados, mas o teste RESET com F = 2,4287 e p – valor = 0,127 indica que não podemos rejeitar a hipótese nula de que o modelo está corretamente especificado.

E agora, o que devemos fazer? A resposta para essa dúvida é crucial para o desenrolar do nosso estudo. Por esse resultado, a exclusão da população em idade


183

ativa e a tendência temporal melhoraram a qualidade dos coeficientes estimados das outras variáveis explicativas. Além disso, o fato de o modelo estar corretamente especificado, nos faz querer escolher 1.11 em detrimento dos demais.

Afinal, será que esse modelo é capaz de resolver o problema da multicolinearidade? Veja o Quadro 11, nele apresentamos o teste de colinearidade para o modelo 1.11. Ao que tudo indica, com essa nova especificação, o problema foi superado. E quanto aos demais modelos, eles resolvem o problema da colinearidade? Vamos deixar você verificar essa dúvida com os dados disponíveis. Você concluirá que, entre os quatro modelos apresentados, o único que não tem multicolinearidade é 1.11.

QUADRO 11 – TESTES DE COLINEARIDADE PARA O MODELO 1.11

Fatores de Inflação da Variância (FIV)Valor mínimo possível = 1,0Valores > 10,0 podem indicar um problema de colinearidade

X2 2,121 X3 1,222 X4 1,877

VIF(j) = 1/(1 - R(j)^2), em que R(j) é o coeficiente de correlação múltiplaentre a variável j e a outra variável independente


--- proporções de variância --- lambda cond const X2 X3 X4 2,854 1,000 0,002 0,006 0,023 0,002 0,953 1,730 0,000 0,413 0,014 0,000 0,185 3,924 0,008 0,048 0,803 0,021 0,008 19,254 0,991 0,533 0,160 0,976


FONTE: O autor

Isso certamente nos faz questionar a validade dos critérios de seleção que apresentamos nessa seção. Na verdade, ao escolher o modelo de regressão, devemos ser parcimoniosos, ou seja, escolher aquele que apresenta o conjunto mais equilibrado de estatísticas, com a menor quantidade de problemas e a melhor qualidade de ajuste.

Além disso, um resultado ruim pode ser bom do ponto de vista empírico! Apesar de contraditório, se a teoria econômica por traz do estudo do desemprego disser que é obrigatório usar as variáveis X5t e X6t, o nosso resultado refutaria essa teoria e a partir dela poderíamos lançar uma proposição alternativa a essa teoria.


184

A única coisa que temos que evitar são as estimações ad hoc, ou seja, por tentativa e erro.

Ao selecionar o modelo 1.11, partimos dos quadros 5, 6 e 7, que já nos indicavam que estas duas variáveis estavam prejudicando os resultados do nosso modelo de regressão. Da mesma forma, o teste RESET confirmou que a escolha por 1.11 é a melhor escolha, considerando que dessa forma o modelo está corretamente especificado.


Métodos Quantitativos em Contabilidade: A Contabilometria

Carlos Cesar D'Arienzo

O raciocínio do Prof. Iudícibus segue a série de cuidados (estatísticos e econômicos) nomeados por Barbancho (1970, p. 34) quanto ao uso inapropriado da Econometria para todos os fins nos campos das Ciências Econômicas e apesar de todos os seus avanços como técnica, ao enumerá-los:

Ordem Estatística: dificuldade de dar tratamento a alguns tipos de modelos não lineares; autocorrelação observada entre os termos residuais; erros de observações nas variáveis; amostras pequenas e ou não representativas; intercorrelação entre as variáveis explicativas, impedindo o pleno conhecimento da verdadeira relação (multicolinearidade).Ordem Econômica: dificuldade de incorporar aos modelos fatores subjetivos como atitudes, opiniões, expectativas, intenções; problema de classificação de variáveis em endógenas e exógenas, ou seja, dificuldade de estabelecer a direção do efeito das variáveis; problema de especificação da teoria e dos erros (grifo do autor).

Contudo, deve-se entender que o profissional de Contabilidade, disposto a trabalhar com elementos de Contabilometria, necessita desenvolver conhecimentos de Elementos de Técnicas Computacionais, Economia e Administração, além de conhecimentos específicos de Matemática e Estatística, tais como: funções, derivadas, máximos e mínimos de funções, limites, integrais, determinantes, matrizes, séries, medidas de tendência central e de dispersão, amostragem, probabilidade, teste de hipótese, correlação, análise de regressão e análise de variância.

O Prof. Iudícibus adverte quanto ao uso puro e simples da Econometria como suporte à Contabilometria em sua fase nascente, notadamente em relação às diferenças (às vezes sutis) entre as Teorias Econômicas e Contábeis, sobre, por exemplo, a natureza dos Custos de Produção.

As advertências expostas pelo Professor Iudícibus (1982), referentes à comparação entre Teorias Contábeis e as Econômicas, são compartilhadas por Vasconcellos e Oliveira (2000, p. 149).


185

O Prof. Iudícibus (1982, p. 45) prossegue em suas observações quanto às limitações da analogia envolvendo Econometria e as especulações sobre a nascente Contabilometria:

[...] precisamos verificar se a definição de Econometria dada linhas acima poderia ser transplantada para a Contabilidade. Assim, Contabilometria seria: a análise, quantitativa de 'fenômenos contábeis' reais baseada no desenvolvimento concomitante da teoria e da observação, relacionados através de métodos apropriados de inferência. Bem, temos, aparentemente, um problema aqui. A rigor, deveríamos ter 'fenômenos contábeis reais' para sermos exatamente simétricos com a definição de Econometria. Talvez nem tivéssemos Contabilidade se dependêssemos apenas de genuínos fenômenos contábeis reais, pois a maior parte dos 'fatos contábeis' decorre de fenômenos econômicos (transações) reais ou, na apreciação de relatórios periódicos, da agregação de vários fatos ocorridos em vários momentos de tempo. É preciso ressaltar, todavia, que os dois conjuntos (fenômenos econômicos e fatos contábeis) não são isomórficos.

Nesse sentido, Barre (1964, p. 27) adverte sobre a tentativa de isolarem-se ramos da Ciência: "[...] Autonomia não significa independência e implica colaboração e convergência de esforços". Afinal, é a organização do Conhecimento e a avaliação das precedências das teorias e técnicas, que fornecem a base para o trabalho científico, mesmo de disciplinas nascentes ou ainda incipientes, caso da Contabilometria.

FONTE: <http://www.administradores.com.br/artigos/economia-e-financas/metodos-quantitativos-em-contabilidade-a-contabilometria-7/60532/>. Acesso em: 17 jun. 2018.

186


• Ao estimar um modelo de regressão múltiplo, se violarmos a hipótese 3 do modelo clássico de regressão linear, nos deparamos com o problema da colinearidade ou multicolinearidade, ou seja, as colunas da matriz de variáveis explicativas, X, são correlacionadas, deixando de ser independentes.

• O problema da colinearidade está relacionado ao banco de dados, e pode ser gerado pelo próprio pesquisador, e mesmo assim os estimadores de mínimos quadrados mantêm a propriedade desejável de melhores estimadores lineares não tendenciosos.

• Para detectar o problema de colinearidade estimamos do Fator de Inflação da Variância e adotamos o procedimento proposto por Belsley, Kuh e Welsch (1980), que gera um resultado mais preciso.

• Para superar o problema, devemos ampliar a base de dados e/ou testar formas funcionais alternativas, usando os critérios de informação já discutidos na Unidade 2 como base para a escolha do modelo mais parcimonioso.

RESUMO DO TÓPICO 1

187

Para esta atividade, vamos usar os dados originais de Longley (1967). Para isso, abra o Gretl e acesse o menu “Arquivo”, “Abrir dados”, “Arquivo de exemplos...”. Selecione a aba “Gretl” e procure por “longley”, dando um duplo clique. Através deste arquivo, temos dados anuais para o período entre 1947 e 1962 e se referem a:

AUTOATIVIDADE

Variável: Descrição.employt: Número de pessoas empregadas, em milhares.prdeflt: Deflator implícito do PNB.gnpt: Produto Nacional Bruto (PNB).

unempt: Número de pessoas desempregadas, em milhares.armfrct: Número de pessoas nas forças armadas.

popt: Número de pessoas com mais de 14 anos de idade.

yeart: Variável que assume valor igual a 1947 para o primeiro ano da série, 1947, e assim sucessivamente até 1962.

1 Plote a matriz de correlação dos dados, a partir da tela inicial do Gretl, no menu “Ver”, “Matriz de correlação”, selecionando apenas as variáveis explicativas. Com base na informação apresentada, você diria que existe problema de colinearidade entre algumas variáveis? Quais são as variáveis que aparentam ter colinearidade?

2 Com base nos dados e nas informações do quadro apresentado, estime o seguinte modelo de regressão, apresentando os resultados dos coeficientes estimados, os erros padrão e os p – valor, indicando para quais variáveis os estimadores são estatisticamente significativos:

employt = β1 + β2prdeflt + β3gnpt + β4unempt + β5armfrct + β6popt + β7yeart + ut

3 Volte à tela do modelo estimado e faça a análise de colinearidade a partir do menu “Análise” e depois “Colinearidade”, plotando os resultados. Esses resultados confirmam a suspeita de colinearidade apresentada pela matriz de correlação da Questão 1? Quais variáveis são colineares?

4 Estime os seguintes modelos de regressão e avalie se a multicolinearidade persiste:

employt = β1 + β2unempt + β3armfrct + β4yeart + ut (1)employt = β1 + β2unempt + β3armfrct + ut (2)

189

TÓPICO 2

HETEROSCEDASTICIDADE

UNIDADE 3

1 INTRODUÇÃO

Neste tópico, veremos o que acontece com os parâmetros do modelo de mínimos quadrados ordinários quando violamos a hipótese de homoscedasticidade dos resíduos. Veremos quais as implicações desse problema, estudaremos formas de detectá-lo e como superá-lo.

A homoscedasticidade pressupõe que Var[εi|X] = σ2, para i = 1, 2, ..., n é um número finito e constante para cada termo de erro. Por sua vez, os erros heteroscedásticos apresentam Var[εi|X] = σi

2 , para cada i = 1, 2, ..., n.

Para entender esse conceito de forma prática, imagine que você coletou dados sobre consumo e renda em vários bairros da sua cidade. Nessa coleta, você entrevistou famílias das mais variadas rendas e padrões de consumo. Há famílias que praticamente gastam toda a sua renda, enquanto outras gastam uma pequena parcela. Isso ocorre porque há uma variabilidade muito grande de padrões de vida na cidade.

GRÁFICO 1 – DISTRIBUIÇÃO CONDICIONAL DOS TERMOS DE ERRO

FONTE: O autor

190


Se tirarmos a média do consumo para cada faixa de renda, E(Y|Xi), e conectarmos essas médias traçando uma reta, teremos a chamada reta de regressão, ou curva de regressão, vista na Unidade 1. No Gráfico 1 representamos essa reta de regressão associada à equação Yi = β1 + β2Xi.

Analogamente, se analisarmos empresas de diferentes tamanhos e calcularmos a renda média de cada uma delas, e se além da renda média obtivermos uma medida de dispersão, por exemplo, o desvio padrão, veremos que a dispersão em torno do valor médio aumenta conforme o tamanho da empresa aumenta. Esperamos que empresas com quatro funcionários tenham uma dispersão em torno do valor médio muito menor do que aquelas com mais de 300 empregados.

Isso ocorre porque, ao trabalharmos com dados de corte, temos que ter em mente que estamos lidando com indivíduos, ou seja, com agentes econômicos individuais. Esses agentes podem ser pessoas, empresas, países, municípios etc., e cada um deles tem características próprias, ou seja, são heterogêneos.

Se todos os agentes fossem iguais, teríamos sempre um desenho semelhante ao do Gráfico 1. Dito de outra forma, a dispersão em torno do valor médio na população seria a mesma para cada indivíduo. É exatamente essa homogeneidade que caracteriza a homoscedasticidade, cuja origem vem do grego e tem um sentido de espalhamento homogêneo em torno do valor médio.

Mas, por estarmos lidando com indivíduos heterogêneos, esperamos que desenhos como o do Gráfico 1 sejam mais exceção do que regra. Por esse motivo, e como uma das hipóteses do modelo clássico de regressão linear supõe que os erros sejam homoscedásticos, tomaremos o máximo de cuidado para que a estimação do nosso modelo de regressão não viole essa hipótese do modelo clássico. Caso seja violada, adotaremos medidas corretivas adequadas para cada situação.

2 A NATUREZA DA HETEROSCEDASTICIDADE

Na construção dos nossos modelos econométricos, partimos de casos simples, como:

2.1Yi = β1 + β2Xi + εi

Em que Yi é a variável dependente, Xi é a variável explicativa, β1 o intercepto dessa equação linear (normalmente sem significado econométrico importante), β2 o coeficiente angular (ou quanto varia Yi se Xi variar uma unidade) e εi é o termo de erro aleatório, com função densidade de distribuição normal, E(εi|Xi) = 0, Var(εi|Xi) = E(εi

2|Xi) = σ2 e Cov(εi, εi–j|Xi, Xi–j) = 0.

TÓPICO 2 | HETEROSCEDASTICIDADE

191

2.2y = Xβ + ε

Se usarmos o método de mínimos quadrados ordinários em 2.1, obteremos os melhores estimadores lineares não tendenciosos dentro da classe dos estimadores lineares não tendenciosos. Em outras palavras, os estimadores serão BLUE (ver as hipóteses do modelo clássico na Unidade 1 e o teorema de Gauss-Markov).

Isso se aplica tanto ao modelo 2.1, estudado na Unidade 1, quanto ao modelo 2.2, que trata do caso geral ou do modelo de regressão múltiplo, visto na Unidade 2:

No caso de 2.2, aplicando as hipóteses do modelo clássico, ( )X X X' yβ−

′=1

, E(ε|X) = 0 e E[εε'|X] = σ2I. Porém, se violarmos a hipótese de homoscedasticidade dos resíduos, ou seja, na presença de heteroscedasticidade, Var[εi|X] = E[εε'|X] = σi

2, para cada i = 1, 2, ..., n. Neste caso, ainda estamos supondo que os erros são não correlacionados, mas, no Tópico 3, essa hipótese será revista. Em termos de matrizes, podemos escrever:

2.3

n n

E |X

ω σω σ

εε σ σ

ω σ

… … = Ω = =

′

21 1

22 2 2 2

2

0 0 0 0 0 00 0 0 0 0 0

0 0 0 0 0 0

Em que n é o número de observações e E[εε'|X] = σ2Ω. Para o modelo clássico, a homoscedasticidade implica que a matriz Ω tem valor igual a 1 na diagonal principal, ou seja, ω1 = 1, i = 1, 2, ..., n, e nesse caso, fazemos E[εε'|X] = σ2I. Caso os erros sejam heteroscedásticos, a matriz Ω tem valores diferentes para cada posição da sua diagonal principal, e assim escrevemos E[εε'|X] = σ2ωi = σi

2.

O Gráfico 2 nos ajuda a ter uma ideia visual da heteroscedasticidade. Perceba que, à medida que as variáveis dependente e explicativa se tornam cada vez maiores, fica mais difícil prever uma em função da outra, porque a variabilidade ou dispersão se torna cada vez maior.

192


GRÁFICO 2 – EXEMPLO DE HETEROSCEDASTICIDADE

FONTE: O autor

Teremos a oportunidade de verificar isso na prática através de um exemplo com dados reais da economia brasileira. Dessa forma, procuraremos apresentar não apenas técnicas para detectar a sua presença, mas também alternativas para superá-la.

3 DETECTANDO O PROBLEMA DA HETEROSCEDASTICIDADE

Na Unidade 2, nós usamos o arquivo Wage1, fornecido por Wooldridge (2016) para verificar se havia discriminação em relação ao gênero feminino em 1976. Vamos voltar agora a esse exemplo, estimando um modelo com apenas uma variável explicativa, representado a seguir:

2.4wagei = β1 + β2educi + εi

Em que β1 e β2 são os parâmetros a serem estimados, εi é o termo de erro, o qual supomos ter distribuição normal com média zero e variância constante, εi~N(0, σ2), wagei é o salário-hora recebido pelos trabalhadores e educi os anos de educação formal de cada trabalhador.

Vamos começar a nossa análise com o gráfico de dispersão entre as variáveis dependente e explicativa, conforme o Gráfico 3:


193

GRÁFICO 3 – GRÁFICO DE DISPERSÃO ENTRE wagei e educ

i

FONTE: O autor

À medida que a renda e o tempo de educação formal aumentam, a dispersão em torno do valor médio também aumenta. Notou? Sabemos que os indivíduos são heterogêneos e já esperávamos um comportamento parecido com esse.

Estimando o modelo de regressão 2.4 por mínimos quadrados ordinários, obtivemos os resultados do Quadro 12.

QUADRO 12 – RESULTADO DA ESTIMAÇÃO DE 2.4 POR MÍNIMOS QUADRADOS ORDINÁRIOS

Modelo 1: MQO, usando as observações 1-526Variável dependente: wage

coeficiente erro padrão razão-t p-valor ---------------------------------------------------------- const −0,904852 0,684968 −1,321 0,1871 educ 0,541359 0,0532480 10,17 2,78e-022 ***


Obs.: *, ** e *** representam significância estatística ao nível de 10%, 5% e 1%, respectivamente.

FONTE: O autor

194


Perceba que a constante não é estatisticamente significativa, enquanto β2 é estatisticamente diferente de zero. O R2 é baixo, mas, se não conhecêssemos um pouco de econometria, olharíamos o Quadro 12 e acreditaríamos que de um modo geral, o resultado encontrado é bom.

Precisamos verificar se não há problemas de heteroscedasticidade, ou seja, devemos investigar se os resíduos estimados são homoscedásticos. Como vimos anteriormente, em 2.3, precisamos verificar se a matriz E[εε'|X] = σ2ωi. Se ωi = 1 para cada i = 1, 2, ..., n, não temos com o que nos preocupar, porque neste caso os erros são homoscedásticos.

O problema é que só teremos acesso a σ2ωi, se tivermos a nossa disposição toda a população de dados. Como estamos usando apenas uma amostra, não podemos examinar essa matriz diretamente. Por isso, aplicaremos alguns testes, tanto formais quanto informais, tendo em mente que o estimador de βk é um estimador consistente, mesmo na presença de heteroscedasticidade.

Para fazer isso, usaremos os resíduos estimados, porque na presença de heteroscedasticidade, o método de mínimos quadrados ordinários gera resíduos que imitarão, mesmo que de forma imprecisa por causa da variabilidade amostral, a heteroscedasticidade dos verdadeiros erros populacionais (GREENE, 2012, p. 315).

Vimos no Gráfico 3 que a renda aumenta à medida que os anos de educação formal aumentam. Por isso, agora que estimamos o modelo por mínimos quadrados ordinários, o próximo passo é plotar um gráfico dos resíduos quadrados contra a variável explicativa e ver se detectamos algum padrão de comportamento. Se os resíduos são homoscedásticos, não devemos observar nenhum padrão de comportamento, mas a aleatoriedade dos dados.

GRÁFICO 4 – GRÁFICO DE DISPERSÃO ENTRE iu2 e educi

FONTE: O autor


195

O Gráfico 4 apresenta o gráfico de dispersão dos resíduos quadrados contra a variável educi. Para obter a série de iu2, você deve selecionar o menu “Salvar”, na janela do modelo estimado, e na sequência escolher “Resíduos quadrados”. Na tela inicial do Gretl, você deve selecionar o menu “Ver”, depois escolher “Gráfico das variáveis” e depois “X-Y em dispersão”. Você informa a variável educi no eixo X e iu2 no eixo Y.

O que essa figura nos revela? Se o gráfico de dispersão apresentasse um comportamento parecido com o que vemos até os sete anos de educação formal, poderíamos supor que não há problemas de heteroscedasticidade, porque aquele comportamento é totalmente aleatório. Porém, à medida que os anos de educação aumentam, temos um aumento da dispersão, o que levanta a suspeita de que os resíduos não são homoscedásticos.

O problema de usar esse método é que ele não é muito preciso e deixa margem para interpretação. A pergunta que fica é: Qual é o padrão que deveríamos encontrar? A resposta é simples e pode ser vista no Gráfico 5. Como podemos ver, esperamos encontrar resíduos bem-comportados, sem um padrão definido. Caso tenhamos qualquer coisa diferente disso, podemos suspeitar da presença de heteroscedasticidade.

GRÁFICO 5 – PADRÃO DE RESÍDUOS HOMOSCEDÁSTICOS

FONTE: O autor

A visualização gráfica é um método informal, de fácil e rápida implementação, mas que pode nos induzir ao erro. Há outros métodos mais eficientes e, com o uso do software, devem ser escolhidos em detrimento de qualquer conclusão tomada com a simples observação gráfica.

Dentre os testes formais que podem ser implementados, os manuais de econometria geralmente apresentam o teste de Park, Glejser, coeficiente de correlação de Spearman, Goldfeld-Quandt, Breusch-Pagan-Godfrey, teste geral de heteroscedasticidade de White, além de outros.

196


FIGURA 1 – EDITOR DE SCRIPTS DO GRETL


Nesse Livro de Estudos trabalharemos com os três mais empregados na literatura, começando com o teste de Goldfeld-Quandt. O problema é que para esse teste não temos rotina pronta no Gretl. Um pouco de esforço manual será requerido para executar o teste.

O teste de Goldfeld-Quandt requer um procedimento em etapas, que pode ser visto em Hill, Griffiths e Judge (2010, p. 284) e que resumiremos a seguir:

1. Ordene os dados em ordem crescente de acordo com os valores de educi, e então divida a amostra em duas partes iguais.

2. Estime um modelo de regressão para cada uma das subamostras, e obtenha σ 21

e σ 22 a partir dos erros estimados.

3. Testamos a hipótese nula, H ˆ: σ σ=2 20 1 2, resíduos homoscedásticos, contra a

hipótese alternativa, H ˆ: σ σ≠2 21 1 2, resíduos heteroscedásticos. Para aplicar

o teste de hipótese, calculamos GQˆˆσσ

=2122

, que segue uma distribuição F com

N1 – K1 graus de liberdade no numerador e N2 – K2 graus de liberdade no denominador, em que T1 e T2 é o tamanho das subamostras e K1 e K2 é a quantidade de parâmetros beta estimados em cada regressão.

Para evitar cometer erros nesses procedimentos, podemos abrir o “Editor de Scripts” do Gretl e digitar os comandos do Quadro 13:


197

No script do Quadro 13, temos as linhas de comando necessárias para testar a hipótese de que os resíduos são homoscedásticos, seguindo os passos descritos. Começamos obtendo uma subamostra, estimamos uma regressão por MQO e salvando o σ 1. Note que não salvamos a variância da primeira subamostra, mas o desvio padrão. O resultado obtido é o mesmo se usássemos a variância, e implementar o teste dessa forma é mais prático, motivo pelo qual estamos procedendo dessa maneira.

Depois repetimos o procedimento para a segunda subamostra e finalizamos calculando a estatística de Goldfeld-Quandt, gerando inclusive o p – valor, para facilitar a nossa interpretação. Para executar o comando, selecione o botão executar (Figura 2, adiante) ou digite CTRL + R.

QUADRO 13 – TESTE DE GOLDFELD-QUANDT

# TOMAR A PRIMEIRA SUB AMOSTRAsmpl educ > median(educ) --restrict# ESTIMAR A PRIMEIRA SUB AMOSTRA POR MQOols wage const educ# SALVAR O ERRO PADRÃO DA PRIMEIRA SUB AMOSTRAscalar stdL = $sigma# SALVAR O NÚMERO DE GRAUS DE LIBERDADE DA PRIMEIRA SUB AMOSTRAscalar df_L = $df# RESTAURAR A AMOSTRA COMPLETAsmpl full# TOMAR A SEGUNDA SUB AMOSTRAsmpl educ < median(educ) --restrict# ESTIMAR A SEGUNDA SUB AMOSTRA POR MQOols wage const educ# SALVAR O ERRO PADRÃO DA SEGUNDA SUB AMOSTRAscalar stdS = $sigma# SALVAR O NÚMERO DE GRAUS DE LIBERDADE DA SEGUNDA SUB AMOSTRAscalar df_S = $df# CALCULAR A ESTATÍSTICA DE GQscalar fstatistic = stdL^2/stdS^2# OBTER O P-VALOR DA ESTATÍSTICApvalue F df_L df_S fstatistic# RESTAURAR A AMOSTRA COMPLETAsmpl full

FONTE: O autor

198


# CALCULAR A ESTATÍSTICA DE GQ? scalar fstatistic = stdL^2/stdS^2Escalar fstatistic substituído = 3,98399# OBTER O P-VALOR DA ESTATÍSTICA? pvalue F df_L df_S fstatisticF(210, 114): área à direita de 3,98399 = 1,28023e-014

(à esquerda: 1)

Sob a hipótese nula de que erros homoscedásticos, com p – valor = 1,28023e – 014, ou seja, 0,0000, podemos rejeitar H0 em favor da hipótese alternativa e concluir que temos problema de heteroscedasticidade nos resíduos da regressão.

Em termos práticos, isso significa que o resultado obtido a partir da estimação do modelo 2.4 por mínimos quadrados ordinários não pode ser usado para previsão e controle. Afinal, na presença de heteroscedasticidade, as estatísticas de teste, que usamos para verificar se os betas estimados são estatisticamente significativos, podem ser enganosas (HILL; GRIFFITHS; JUDGE, 2010, p. 284).

FIGURA 2 – EXECUTANDO O SCRIPT PARA O TESTE DE GOLDFELD-QUANDT


O Gretl abrirá uma janela com o resultado de cada uma das linhas digitadas nesse Script. O que nos interessa são as linhas destacadas abaixo:


199

O outro teste formal que podemos usar é o teste de Breusch-Pagan, e para tal considere o seguinte modelo de regressão:

2.5Yi = β1 + β2Xi + εi

2.6σi2 = f(γ + δZi)

Em que a variância do erro heteroscedástico é σi2, dada por:

Em que Zi pode ser a variável explanatória Xi ou quaisquer outras variáveis explanatórias diferentes de Xi. A implementação do teste é simples, e a partir da estimação de 2.5 por mínimos quadrados ordinários, obtemos os resíduos,

elevando-os ao quadrado para estimar i

Nˆ

ˆ εσ

∑=

22 , que é o estimador de máxima

verossimilhança da variância populacional, σ2.

Feito isso, estimamos a regressão:

2.7ii i

ˆˆ

Zε

γ δ υσ

= + +2

2

Como define Pindyck e Rubinfeld (2004, p. 177), se εi em 2.5 tem distribuição normal, obtemos a soma dos quadrados explicada pela regressão dividida por dois, SQE

2, e comparamos a uma tabela de distribuição Qui-Quadrado com o

número de graus de liberdade igual ao número de variáveis explicativas Zi em 2.7, sob a hipótese nula de que os resíduos são homoscedásticos.

No Gretl é fácil implementar o teste. A partir da janela do modelo estimado, vista no Quadro 11, selecionamos o menu “Testes”, na sequência escolhemos “Heteroscedasticidade” e depois “Breusch-Pagan”. O resultado é mostrado no Quadro 14.

200


QUADRO 14 – RESULTADO DO TESTE BREUSCH-PAGAN PARA O MODELO 2.4

Teste de Breusch-Pagan para a heteroscedasticidadeMQO, usando as observações 1-526Variável dependente: 'uhat^2' escalada

coeficiente erro padrão razão-t p-valor --------------------------------------------------------- const −1,01959 0,521836 −1,954 0,0513 * educ 0,160760 0,0405665 3,963 8,43e-05 ***

Soma dos quadrados explicada = 104,032

Estatística de teste: LM = 52,016231,com p-valor = P(Qui-quadrado(1) > 52,016231) = 0,000000


FONTE: O autor

Como a hipótese nula é da existência de homoscedasticidade, percebemos que com um p – valor = 0,000000, podemos rejeitá-la a favor da hipótese alternativa de que os erros são heteroscedásticos.

Lembrando que o teste de Breusch-Pagan supõe que os resíduos de 2.4 têm distribuição normal. Deixaremos para você confirmar essa hipótese, e que essa é uma restrição forte, portanto, caso não tenha distribuição normal, não podemos empregar esse teste.

Caso os resíduos em 2.4 não tenham distribuição normal, devemos empregar o teste de White, que é mais robusto do que o teste de Breusch-Pagan, ao mesmo tempo em que se assemelha a ele.

Para entender o teste de White, partimos do modelo 2.5, e em vez de estimarmos a regressão 2.7, estimaremos a regressão 2.8:

2.8i i iˆ Zε γ δ υ= + +2

A partir do resultado dessa regressão, obtemos o R2 e o multiplicamos pelo tamanho da amostra, para compará-lo à tabela Qui-Quadrado com o número de graus de liberdade igual à quantidade de variáveis explicativas Zi em 2.8. A hipótese nula desse teste é que os erros são homoscedásticos.

O resultado do teste aplicado ao modelo 2.4 está no Quadro 14 e foi obtido a partir do menu “Testes”, “Heteroscedasticidade” e “Teste de White”, na janela do modelo estimado (Quadro 11).


201

QUADRO 15 – RESULTADO DO TESTE DE WHITE

Teste de White para a heteroscedasticidadeMQO, usando as observações 1-526Variável dependente: uhat^2

coeficiente erro padrão razão-t p-valor -------------------------------------------------------- const 21,1175 12,8198 1,647 0,1001 educ −4,12530 2,12211 −1,944 0,0524 * sq_educ 0,254284 0,0885068 2,873 0,0042 ***

R-quadrado não-ajustado = 0,044184

Estatística de teste: TR^2 = 23,240557,com p-valor = P(Qui-quadrado(2) > 23,240557) = 0,000009


FONTE: O autor

Podemos ver no Quadro 15 que a hipótese de homoscedasticidade é rejeitada (leia o p – valor). Com isso, empregamos três testes estatísticos e chegamos à mesma conclusão. Os resíduos do modelo 2.4 são heteroscedásticos. Na prática, poderíamos empregar apenas o teste de White, que além de ser o mais empregado em verificações empíricas, é também o mais robusto.

Há uma série de outros testes que podem ser empregados para verificar a existência de homoscedasticidade. Pindyck e Rubinfeld (2004), Gujarati e Porter (2011), Maddala (2003), entre outros, apresentam os testes de Goldfeld-Quandt, Park, Glejser e Koenker-Bassett. Porém, optamos por seguir Greene (2012, p. 315), apresentando os testes de White e Breucsh-Pagan, e acrescentando o teste de Goldfeld-Quandt.

4 RESOLVENDO O PROBLEMA DA HETEROSCEDASTICIDADE – O MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS

Agora que sabemos que o nosso modelo estimado tem problema de heteroscedasticidade, precisamos saber o que fazer para gerar estimadores não tendenciosos, consistentes e eficientes. Antes de apresentar as técnicas empregadas para superar o problema da heteroscedasticidade, é importante sabermos por quê devemos nos preocupar com a sua existência. Vimos na Unidade 2 que:

2.9y = Xβ + u

202


Em 2.9 aplicamos o método de mínimos quadrados ordinários e obtemos a estimativa do vetor de parâmetros β:

2.10( ) 'X X X yβ−

′=1

Vimos também na Unidade 2 que, o estimador em 2.10 é obtido por amostragem e deve ser não tendencioso. Dito de outra forma, à medida que obtemos diversas amostras, em média o valor estimado do parâmetro tende ao verdadeiro valor encontrado na população:

2.11E β β =

Além de não viesado, ele também é eficiente, ou seja, tem variância mínima:

2.12( )Var X Xβ σ− = ′

12

Também vimos que, pelas propriedades dos estimadores de mínimos quadrados, a matriz de variância e covariância é dada por:

2.13E |X Iεε σ = ′ 2

E pode ser escrita como:

2.14E |Xεε σ = Ω′2

Em que a matriz Ω tem em sua diagonal principal ωi, e supondo que os erros são homoscedásticos, ωi = 1, para cada i = 1, 2, ..., n, ou seja, é a mesma matriz identidade que geralmente representamos por I, quando assume valor de 1 para cada elemento da diagonal principal.

Já sabemos que se a hipótese da homoscedasticidade não se confirmar, dizemos que estamos diante do problema da heteroscedasticidade, ou seja, a variância dos erros não é um número finito e constante, como gostaríamos, e essa violação de uma das hipóteses básicas do modelo de regressão traz as seguintes implicações, conforme Hill, Judge e Griffiths (2010, p. 276):


203

2.10( ) 'X X X yβ−

′=1

Sabemos por definição que y = Xβ + ε, podemos fazer a substituição em 2.10 para obter:

2.15( ) ( )ˆ X X X Xβ β ε−

′ ′= +1

2.16( ) ( )Xˆ X X X X X Xβ β ε− −

= ′ ′+′ ′1 1

Por definição, (X'X)–1 X'X = I, logo,

2.17( )Xˆ X Xβ β ε−

′= ′+1

1. Os estimadores do vetor de parâmetros β permanecem não tendenciosos, porém agora são ineficientes (deixam de ser os melhores estimadores lineares não tendenciosos).

2. Como as variâncias estimadas dos parâmetros são tendenciosas, os erros padrão são incorretos, nos levando a estimar intervalos de confiança e fazer testes de hipótese enganosos.

A ineficiência pode ser vista facilmente a partir de 2.10:

Assim,

2.18( )Xˆ X Xβ β ε−

′− ′=1

Podemos obter a variância de β1 como:

2.19( ) ( )''

Var E E Xˆ X Xˆ ˆ X X Xβ β β β β ε ε− − = − − = ′

′ ′

′

1 1

E finalmente,

2.20( ) ( )'Var E[ X X ]ˆ X 'X X Xβ εε− − = ′ ′

1 1

204


Em termos de 2.14, escrevemos E[εε'] = Ω, e, portanto:

2.21( ) ( )Var X X ' X X Xˆ Xβ− − ′= Ω ′

1 1

Em 2.11 e 2.17, vemos claramente que, na presença de heteroscedasticidade, se ε tem distribuição normal:

2.22( ) ( )~ N , X X X X Xˆ Xβ β− − Ω

′ ′ ′1 1

Se os erros forem homoscedásticos, sabemos que em 2.21, (X'X)–1X'X = I, portanto, ( )Var X Xβ

− = Ω ′1, com Ω = σ2I. Mas, se os erros forem heteroscedásticos,

a variância é dada por 2.21, com Ω tendo na sua diagonal principal ωi assumindo valores diferentes de 1. Claramente, o resultado em 2.21 é bem diferente daquele que obteríamos na presença de erros homoscedásticos, ou seja, ( )Var X Xβ σ

− = ′12 .

Feitas essas considerações iniciais, devemos agora corrigir esse problema, e assim, estimaremos β, usando o método de mínimos quadrados ponderados. O primeiro passo é identificar a sua origem, mas, para isso, precisamos conhecer σi

2, ou seja, os valores de ωi na matriz Ω.

Supondo que conhecemos σi2, podemos aplicar o método de mínimos

quadrados ponderados seguindo os seguintes procedimentos:

2.23Yi = β1 + β2X2i + εi

2.24Yi = β1X1i + β2X2i + εi

Cujos erros εi são heteroscedásticos, apresentando Var(εi) = σi2. Seguindo

Gujarati e Porter (2011, p. 376), podemos reescrever 2.23 como:

Em que X1i = 1 para cada i = 1, 2, ..., n. Devemos dividir 2.24 pela raiz quadrada de σi

2 (ou seja, o seu desvio padrão) para obter:

2.25ε

β βσ σ σ σ

= + +

1 2

2i i i i

i i i i

Y X X


205

Para melhor visualizarmos, podemos reescrever como:

2.26β β ε= + +1 1 2 2* * * * * *i i i iY X X

Estimar 2.26 por mínimos quadrados ordinários é o que chamamos de estimação por mínimos quadrados ponderados. Isso significa que ponderamos as variáveis pelo desvio padrão σi. Porém, isso só é possível se realmente tivermos acesso a toda a população, ou seja, se soubermos o valor de σi .

Como na prática não temos esse acesso, podemos usar outros ponderadores. Caso o desenho do gráfico de dispersão dos resíduos e da variável explicativa revelar que a variância de εi seja algum padrão, por exemplo, ε σ =

2i iVar X ,

ε σ = 2 2

i iVar X ou ε σ = 2

i iVar X , fazemos a transformação dos dados de forma que o novo termo de erro tenha variância constante.

Isso é fácil de se observar porque:

2.27ε

ε σ σ = → =

2 2 ii i

i

VarVar X

X

2.28ε

ε σ σ = → =

2 2 22

ii i

i

VarVar X

X

2.29ε

ε σ σ = → =

2 2 ii i

i

VarVar X

X

Para saber qual o padrão da variância heteroscedástico, você pode plotar os resíduos quadrados contra a variável explicativa, Xi.

Como aplicação prática, vamos retomar o nosso modelo 2.4:

2.4β β ε= + +1 2i i iwage educ

Primeiramente rodamos o modelo por mínimos quadrados ordinários e salvamos os resíduos quadrados, como fizemos no Gráfico 4. Podemos notar que é difícil identificar um padrão bem definido e, portanto, como exercício, tentaremos a opção 2.29, escolhendo educi como peso para o modelo 2.4.

206


2.30β β ε= + +1 21 1i i

ii i i i

wage educ

educ educ educ educ

Ou, de forma mais simples:

2.31β β ε= + +1 2* * * *i i iwage educ

Em que β β ε ε= = = =1 11 1* * * *i i

i i i ii i i i

wage educwage , , educ e

educ educ educ educ.

A estimação é feita através do menu “Modelo”, “Outros modelos lineares” e “Mínimos quadrados ponderados”. A Figura 3 apresenta a tela com a especificação do modelo 2.31.

Você deve ter em mente que o Gretl tem uma rotina pronta para estimar pelo método de mínimos quadrados ponderados. Ele usa como padrão a raiz quadrada do peso que você escolher, ou seja, se o peso for Xi, o Gretl usará

= 1 iW / X . Infelizmente o programa não tem uma rotina pronta para você montar os pesos da forma como quiser. Porém, ainda assim é possível fazer isso através da digitação de script específico no console do Gretl.

Começamos pela tela inicial do Gretl, em que você deve escolher o menu “Acrescentar” e depois selecionar “Definir nova variável”. Escreva na janela que abriu a expressão W = 1/educ.

Depois de definido o peso, podemos estimar a equação 2.30:


207

FIGURA 3 – ESPECIFICAÇÃO DO MODELO POR MÍNIMOS QUADRADOS PONDERADOS


Preencha as informações conforme a Figura 3 e clique em “Ok” para estimar o modelo. Os resultados são apresentados no Quadro 16, os quais você deve comparar com o Quadro 12. Perceba que agora a constante é positiva, diferente do resultado obtido anteriormente, porém, permanece estatisticamente não significativo ao nível de 10%.

Em termos numéricos, o coeficiente estimado da variável educi sofreu pequena redução e permanece estatisticamente significativo ao nível de 1%. Vamos deixar para você comparar os critérios de informação de Akaike e Schwarz.

208


QUADRO 16 – SEQUÊNCIA DE COMANDOS PARA ESTIMAÇÃO POR MÍNIMOS QUADRADOS PONDERADOS

Modelo 2: WLS, usando as observações 1-526 (n = 524)Observações ausentes ou incompletas foram ignoradas: 2Variável dependente: wageVariável usada como peso: W

coeficiente erro padrão razão-t p-valor ---------------------------------------------------------- const 0,300476 0,556291 0,5401 0,5893 educ 0,444437 0,0455620 9,755 9,21e-021 ***

Estatísticas baseadas nos dados ponderados:

Soma resíd. quadrados 448,2860 E.P. da regressão 0,926707R-quadrado 0,154179 R-quadrado ajustado 0,152558F(1, 522) 95,15159 P-valor(F) 9,21e-21Log da verossimilhança −702,6360 Critério de Akaike 1409,272Critério de Schwarz 1417,795 Critério Hannan-Quinn 1412,610

Estatísticas baseadas nos dados originais:

Média var. dependente 5,905134 D.P. var. dependente 3,697024Soma resíd. quadrados 5996,897 E.P. da regressão 3,389441


FONTE: O autor

A dúvida que fica é se esse procedimento resolveu o problema da heteroscedasticidade. Podemos aplicar novamente o teste de White para verificar isso, porém, na tela do modelo de mínimos quadrados ponderados não será possível rodar uma rotina pronta com o teste. Teremos que fazer isso de forma manual.

Para fazer isso, volte à tela do modelo 2.31, selecione o menu “Salvar” e depois “Resíduos quadrados”. Na tela inicial do Gretl, selecione o menu “Acrescentar” e na sequência escolha “Definir nova variável”. Na tela que abrir, você escreve a fórmula educ_b = educ/sqrt(educ). Essa variável educ_b é a variável educi*, a qual não foi preciso criar antes porque o Gretl fez de forma automática para rodar o modelo 2.31.

Agora você deve clicar sobre essa variável e selecionar o menu “Acrescentar” e depois “Quadrados das variáveis selecionadas”. Feito isso, rode o modelo 2.8, redefinido conforme 2.32, pelo método de mínimos quadrados ordinários:


209

2.32ε γ δ δ υ= + + +2 21 2

* *i i i iˆ educ educ

Os resultados estão no Quadro 17:

QUADRO 17 – TESTE DE WHITE PARA O MODELO DE MÍNIMOS QUADRADOS PONDERADOS

Modelo 3: MQO, usando as observações 1-526 (n = 524)Observações ausentes ou incompletas foram ignoradas: 2Variável dependente: usq2

coeficiente erro padrão razão-t p-valor --------------------------------------------------------- const 75,2348 46,9679 1,602 0,1098 educ_b −55,3531 27,9810 −1,978 0,0484 ** sq_educ_b 10,4315 4,16927 2,502 0,0127 **



FONTE: O autor

Para testar a hipótese nula de que os erros são homoscedásticos, multiplicamos o R2 pelo tamanho da amostra e comparamos o resultado com uma tabela Qui-Quadrado, com dois graus de liberdade (número de regressores menos a constante). O resultado está em 2.33:

2.33= =2 524 0 045035 23 59834n.R * , ,

Recorrendo a uma tabela de distribuição Qui-Quadrado ou ao menu “Ferramentas” e “Tabelas estatísticas” do Gretl, vemos que o valor crítico para 1% de significância estatística é 10,5966. Portanto, rejeitamos a hipótese nula de homoscedasticidade, ou seja, o nosso procedimento não foi suficiente para resolver o nosso problema.

Gujarati e Porter (2011, p. 399) sugerem uma transformação logarítmica para resolver o problema de heteroscedasticidade. A vantagem de se usar logaritmos é o fato de que essa técnica comprime as escalas e isso pode ser suficiente para resolver o nosso problema. A questão é que não pode haver valores negativos ou zeros. Nesse caso, o Gretl gera valores ausentes. Felizmente, o próprio Gretl desconsidera esses valores na hora de rodar a regressão, portanto, contanto que

210


tenhamos uma base suficientemente grande, pode valer a pena perder alguns graus de liberdade, mas corrigir o problema da heteroscedasticidade.

Na tela inicial, selecione as variáveis wage e educ. No menu, escolha “Acrescentar” e depois “Logaritmo das variáveis selecionadas”. Rode o modelo 2.34 por mínimos quadrados ordinários:

β β ε= + +1 2i i ilnwage lneduc 2.34

O resultado está no Quadro 18, já com o teste de White. Veja que os coeficientes estimados são ambos estatisticamente significativos ao nível de 5% de significância estatística. O coeficiente β2

ˆ mede a elasticidade do salário em relação aos anos de educação, ou seja, um aumento de 1% no tempo de educação proporciona uma renda 0,82% maior.

QUADRO 18 – ESTIMAÇÃO DO MODELO LOGARÍTMICO POR MÍNIMOS QUADRADOS ORDINÁRIOS

Modelo 4: MQO, usando as observações 1-526 (n = 524)Observações ausentes ou incompletas foram ignoradas: 2Variável dependente: l_wage

coeficiente erro padrão razão-t p-valor ---------------------------------------------------------- const −0,444677 0,217849 −2,041 0,0417 ** l_educ 0,825207 0,0864488 9,546 5,19e-020 ***


Teste de White para a heteroscedasticidade - Hipótese nula: sem heteroscedasticidade Estatística de teste: LM = 8,134 com p-valor = P(Qui-quadrado(2) > 8,134) = 0,0171287


FONTE: O autor

Pelo teste de White, não podemos rejeitar a hipótese nula de que os resíduos são homoscedásticos ao nível de 1% de significância estatística. Com isso, superamos o problema da heteroscedasticidade para o modelo usado nesse tópico.

211


• A heteroscedasticidade é um fenômeno comum dos dados de corte por causa da heterogeneidade dos indivíduos, ou seja, pessoas, famílias, firmas, estados etc.

• Na presença de heteroscedasticidade, os estimadores obtidos por mínimos quadrados ordinários, apesar de serem lineares, não tendenciosos e consistentes, deixam de ser os melhores estimadores lineares não tendenciosos e deixam de ter variância mínima.

• Para detectar a presença de heteroscedasticidade foram desenvolvidos métodos informais (visualização através de gráficos) e formais (através de testes estatísticos).

• Plotando um gráfico de dispersão dos quadrados dos resíduos contra a variável explicativa, devemos procurar a existência de algum padrão de comportamento. Se os resíduos forem homoscedásticos, o gráfico de dispersão terá os pontos totalmente aleatórios, enquanto na presença de heteroscedasticidade esses pontos seguirão algum padrão de comportamento.

• Dentre os testes formais que podem ser implementados para verificar a existência de resíduos heteroscedásticos podemos destacar os testes de Goldfeld-Quandt, Breusch-Pagan-Godfrey e o teste geral de heteroscedasticidade de White.

• A hipótese nula desses testes é que os resíduos são homoscedásticos.

• Ao detectar a presença de heteroscedasticidade teremos que usar outro método econométrico para estimar os parâmetros da regressão. Nesse caso, usamos o método dos mínimos quadrados generalizados.

RESUMO DO TÓPICO 2

212

AUTOATIVIDADE

Para essa autoatividade, você voltará aos dados do arquivo Wage1.gdt, usado no Tópico 2. Vamos modificar o modelo 2.4, incluindo a variável exper junto à variável educ como variáveis explicativas do modelo:

Estimamos o modelo de regressão 2.35, e obtivemos os seguintes resultados:

2.35β β β ε= + + +1 2 3i i i iwage educ exper

Modelo 1: MQO, usando as observações 1-526Variável dependente: wage

coeficiente erro padrão razão-t p-valor ---------------------------------------------------------- const −3,39054 0,766566 −4,423 1,18e-05 *** educ 0,644272 0,0538061 11,97 2,28e-029 *** exper 0,0700954 0,0109776 6,385 3,78e-010 ***



1 Salve os resíduos quadrados, gerados por essa regressão e plote um gráfico de dispersão, colocando no eixo Y os resíduos quadrados e no eixo X a variável wage.

2 Volte ao modelo estimado e rode o teste de Breusch-Pagan para a heteroscedasticidade. Com base no resultado desse teste, informe se os resíduos são homoscedásticos ou heteroscedásticos.

3 Rode agora o teste de White. O resultado desse teste é o mesmo encontrado no teste de Breusch-Pagan?

4 Faça uma última modificação no modelo, incluindo a Dummy female como variável explicativa, transformando os dados variável dependente, wage, em logaritmos. Rode a regressão e o teste de White. Qual o resultado do teste de heteroscedasticidade após essa transformação?

213

TÓPICO 3

AUTOCORRELAÇÃO

UNIDADE 3

1 INTRODUÇÃO

Na Unidade 3 estamos relaxando três premissas do modelo clássico de regressão linear, tornando-o mais próximo daquilo que o econometrista enfrenta diariamente. Começamos estudando a multicolinearidade, depois vimos a heteroscedasticidade e agora falaremos de correlação serial ou autocorrelação.

A multicolinearidade pode ocorrer tanto em dados de corte quanto em séries temporais. Em função da heterogeneidade dos dados de corte, a heteroscedasticidade ocorre com mais frequência neste tipo de dados, mas isso não significa que não ocorra também em séries temporais. A correlação serial, por sua vez, ocorre exclusivamente em séries de tempo e ocorre com frequência, motivo pelo qual devemos dar uma atenção especial a isso.

A ideia por trás da autocorrelação é o fato de que as séries temporais sofrem determinados choques que alteram a sua trajetória. Em modelos de regressão, esses choques são capturados pelos resíduos e sua influência pode ser carregada por vários períodos. Assim, um choque nos preços em janeiro, por exemplo, afeta em partes a inflação medida naquele mês. No entanto, no mês seguinte os agentes econômicos revisam o seu preço com base na inflação passada e sua expectativa para o futuro. Com isso, o choque de janeiro também irá influenciar a inflação de fevereiro, e de forma cumulativa a de março, e assim sucessivamente.

Essa característica é comum das séries macroeconômicas e ainda mais nas séries financeiras, tais como retorno de ações, taxa de câmbio, juros, inflação, entre outros. A saída neste caso é aplicar o método dos mínimos quadrados generalizados que vimos no tópico anterior.

Queremos alertá-lo novamente que em Econometria I não estamos sendo tão rigorosos com as séries temporais como estamos sendo com os dados de corte. O estudo de séries temporais é uma área muito específica dentro da econometria, dado a natureza particular dessas séries. Por esse motivo, você estudará esse tema com muito mais rigor em Econometria II, e então terá a oportunidade de revisar tudo o que aprendeu em Econometria I, porque o conhecimento nesse ramo da ciência econômica é cumulativo e sempre utilizado.


214

2 A NATUREZA DA CORRELAÇÃO SERIAL

Suponha o seguinte modelo de regressão linear:

3.1β β ε= + +1 2 2t t tY X

Em que Yt é a variável dependente, β1 e β2 são os parâmetros do modelo, X2t a variável explicativa e εt o termo de erro (que em séries temporais chamamos de inovações), o qual pelas hipóteses do modelo clássico, E[εt|X] = 0, Var[εt|X] = σ2 e a cov[εt, εt–1] = 0 para todo t ≠ 0.

A autocorrelação ocorre quando relaxamos a hipótese de covariância igual a zero. Neste caso, precisamos descobrir qual o processo gerador da série de erros. Como exemplo, podemos supor que os erros foram gerados por um processo autorregressivo de primeira ordem, AR(1), como em 3.2.

3.2ε ρε υ−= +1t t t

Perceba que, neste caso, o termo de erro, εt, depende do seu valor no período anterior, mais um componente aleatório com distribuição normal, média zero, variância constante e não autocorrelacionado. Em séries temporais, quando vt tem variância igual a 1, nós dizemos que vt é um ruído branco, ou white noise, e essa condição nos permite suprimir |X das nossas equações, porque neste caso, E[ε|X] = E[ε].

Vamos voltar a 3.2 e recuar um período no tempo:

3.3ε ρε υ− − −= +1 2 1t t t

Substituindo 3.3 em 3.2 temos:

3.4( )ε ρ ρε υ υ− −= + +2 1t t t t

3.5ε ρ ε ρυ υ− −= + +22 1t t t t

Podemos continuar avançando no passado e substituindo recursivamente as equações. No final, veremos que o termo de erro da equação 3.1 tem uma certa persistência ou inércia, medida por ρ das equações 3.2 a 3.5. Conforme Hill, Judge e Griffiths (2010, p. 303), chamamos ρ de “[...] parâmetro autorregressivo que determina quão rapidamente o efeito de um choque se dissipa”.

TÓPICO 3 | AUTOCORRELAÇÃO

215

É importante impor uma restrição a esse parâmetro. Como teremos a oportunidade de estudar em Econometria II, um processo autorregressivo, como 3.2, para não se tornar um processo explosivo, ρ deve ser menor do que 1 em módulo. Dito de outra forma, –1 < ρ < 1, ou, .

Outra característica importante é que, apesar de serem autocorrelacionados, os erros continuam com média zero. Porém,

3.6( ) υε

σε σ

ρ= =

−

22

21tVar

Veja que a variância dos resíduos da equação 3.2, σ 2v, está relacionada

à variância dos resíduos da equação 3.1, εσ2. Como em 3.2 os erros tv são

homoscedásticos, em 3.1 os erros também serão, como pode ser visto em 3.6.

A covariância em 3.1, na presença de correlação serial, será dada por:

3.7εε ε σ ρ− = 2 k

t t kCov ,

Em que k representa a distância de tempo entre os erros.

A autocovariância é melhor representada com o auxílio da álgebra matricial. Conforme Greene (2012, p. 949), podemos representar 3.7 por E[εε'] = σ2Ω. Como Ω é uma função de |t – k|, podemos definir a autocovariância como:

3.8t t k t k t t ,t k k kCov , Cov ,ε ε ε ε σ γ γ− + − − = = Ω = = 2

Se σ2Ωt,t = Υ0, a correlação entre εt e εt – k é a autocorrelação de εt, dada por:

3.9ε ε γ

ε ε ρ ργε ε

−− −

−

= = = = 0

t t k kt t k k k

t t k

Cov ,Corr ,

Var Var

Por simplificação, reescrevemos 3.9 como:

3.10εε γ σ = Γ = = Ω′2

0E R


216

Assim, Γ é a matriz de autocovariância, R é a matriz de autocorrelação e

o coeficiente de autocorrelação é dado por γ

ργ−

=0

t ktk , que decai gradualmente ao

longo do tempo. Agora podemos representar a matriz de variância e covariância como:

3.11υ

ρ ρ ρ ρρ ρ ρ ρ

σεε σ ρ ρ ρ ρ

ρρ

ρ ρ ρ ρ

−

−

−

− − −

…

… = = Ω = … −

… …

′

2 3 1

2 22

2 2 32

1 2 3

11

11

1

T

T

T

T T T

E

Perceba que na diagonal principal continuamos com números 1, garantindo a variância constante e homoscedástica. As demais posições deveriam ser preenchidas por zeros, mas agora temos valores representando a correlação entre períodos, ou seja, as autocorrelações.

O que quisemos apresentar a você é o caso simples em que o termo de erro na equação 3.1 segue um padrão autorregressivo de primeira ordem, AR(1). Porém, como você terá a oportunidade de estudar em Econometria II, esse processo pode seguir outros padrões, por exemplo, AR(2) , AR(3) , AR(p) . Mas também poderia ser um processo de média móvel, representada por MA(1) para o caso de ordem 1, ou MA(q) no caso de ordem q. Poderia, ainda, ser um processo ARMA(p, q), cujas matrizes seriam diferentes de 3.11, porém estamos omitindo nesse Livro de Estudos para não nos alongarmos desnecessariamente.

Para finalizar nossa análise, lembre-se de que, no Tópico 2, representamos a regressão pelo modelo 2.9, e a estimativa do vetor dos parâmetros por 2.10. Vimos também que os estimadores β permaneciam não tendenciosos na presença de heteroscedasticidade, porém ineficientes, como visto na equação 2.21:

2.21( ) ( )β− − = Ω ′ ′

1 1Var Xˆ X X' X X X

No caso de correlação serial, o problema permanece por causa de Ω. Assim, as consequências da heteroscedasticidade e da correlação serial são as mesmas, ou seja, geram parâmetros não viesados, mas ineficientes e com variâncias viesadas. Por esse motivo não estimamos os parâmetros do modelo de regressão por Mínimos Quadrados Ordinários, mas por Mínimos Quadrados Generalizados.


217

E por que os erros são autocorrelacionados? Muitos são os motivos que levam o modelo a gerar séries de erros correlacionados, dentre os quais podemos citar a inércia, muito comum em séries financeiras, e os ciclos econômicos, comuns em séries macroeconômicas. Porém, não podemos descartar a possibilidade do nosso modelo estar especificado de forma incorreta, quer seja pela sua forma funcional, ou pela omissão de uma variável estritamente relevante ou a inclusão de uma variável irrelevante como variável explicativa.

3 DETECTANDO O PROBLEMA DA CORRELAÇÃO SERIAL

Existem alguns testes estatísticos que podemos empregar para fins de verificação da existência de autocorrelação. Esses testes são baseados na hipótese de que se os termos de erro populacional são correlacionados, então podemos detectá-los quando estimamos por mínimos quadrados ordinários (GREENE, 2012, p. 962).

Para ver como funcionam esses testes, começaremos com o modelo 3.12:

3.12β β β ε−= + + +1 2 1 3t t t tArea Pr eco Time

Em que Areat se refere à área colhida de milho no ano t, em hectares, Precot – 1 se refere à cotação internacional do milho em US$/tonelada no ano imediatamente anterior, t – 1, Timet é uma variável de tendência temporal, β1, β2 e β3 são os parâmetros do modelo e εt é o termo de erro, o qual esperamos que tenha distribuição normal, com média zero e variância constante.

Os dados anuais foram obtidos no IpeaData e estão disponíveis no Quadro 19, referente ao período de 1957 até 2015:

QUADRO 19 – DADOS SOBRE COTAÇÃO INTERNACIONAL DO MILHO E ÁREA PLANTADA NO BRASIL

Data Preço Área Time Data Preço Área Time1957 55,8683 6.095.085 1 1987 75,5225 13.503.431 311958 49,7358 5.790.350 2 1988 106,9500 13.169.003 321959 50,7842 6.189.107 3 1989 111,3690 12.931.784 331960 49,5717 6.681.165 4 1990 109,2810 12.023.771 341961 47,7008 6.885.740 5 1991 107,4730 13.580.647 351962 48,6533 7.347.881 6 1992 104,2120 13.886.814 361963 53,7708 7.957.633 7 1993 102,0410 12.876.384 371964 54,7217 8.105.894 8 1994 107,7800 14.522.806 381965 55,2475 8.771.318 9 1995 123,4530 14.182.486 39


218

1966 58,0025 8.703.169 10 1996 164,5230 12.505.585 401967 54,1642 9.274.327 11 1997 117,1720 12.825.504 411968 47,5058 9.584.754 12 1998 101,6170 11.234.423 421969 51,9658 9.653.757 13 1999 90,2942 12.418.490 431970 58,2642 9.858.108 14 2000 88,2192 12.648.005 441971 58,2975 10.550.489 15 2001 89,6092 12.912.390 451972 55,7375 10.538.943 16 2002 99,3342 12.304.986 461973 97,4692 9.923.570 17 2003 105,1870 13.343.992 471974 132,3770 10.672.450 18 2004 111,7780 12.864.838 481975 119,5480 10.854.687 19 2005 98,4057 12.249.101 491976 112,2640 11.117.570 20 2006 121,5890 12.997.372 501977 95,3692 11.797.411 21 2007 163,2590 14.010.838 511978 100,7490 11.124.827 22 2008 223,2480 14.747.249 521979 115,5780 17.378.885 23 2009 165,5420 14.144.321 531980 125,7160 11.451.297 24 2010 186,0070 12.963.080 541981 130,6030 11.520.336 25 2011 291,7810 13.605.369 551982 108,0990 12.619.531 26 2012 298,4100 15.065.288 561983 135,9830 10.705.979 27 2013 258,9570 15.708.367 571984 135,8200 12.018.446 28 2014 192,8810 15.843.121 581985 112,3310 11.798.349 29 2015 169,7850 15.406.010 591986 87,7917 12.465.836 30


A estimação do modelo 3.12 está no Quadro 20, adiante. Perceba que fizemos a estimação com uma base de dados contendo 59 observações, porém, usando a variável Preço defasada um período, nossa base reduz de 59 para 58 observações. Mesmo assim, como temos uma base grande, reduzimos as chances de termos uma regressão espúria por conta da micronumerosidade, ou seja, por termos uma amostra com poucos graus de liberdade.

Para estimar 3.12 usando uma variável explicativa defasada, no menu principal do Gretl selecione “Modelo”, e na sequência “Mínimos Quadrados Ordinários”. Na tela que abrir, informe a variável Area como dependente e escolha as variáveis Preco e Time como variáveis explicativas. Após elencar todas as variáveis, na parte de baixo da tela de especificação do modelo, selecione “defasagens”, e na tela que abrir, para a variável Preco informe 1, como na Figura 4, que o Gretl se encarregará de transformar a sua variável Precot na variável Precot – 1.


219

FIGURA 4 – ESPECIFICAÇÃO DO MODELO COM DEFASAGEM

FONTE: O autor

Volte sua atenção ao Quadro 20 novamente. Observe que no modelo estimado, o coeficiente ˆ , que mede a mudança na área plantada quando a cotação internacional do milho no ano anterior sofre variação, não é estatisticamente significativo. Esperávamos uma correlação positiva e estatisticamente significativa entre a variável Área e Preço, indicando que os produtores brasileiros modificam suas estratégias de plantio em função da cotação internacional do grão na safra anterior. Dito de outra forma, quanto maior o preço no ano anterior, maior será o incentivo ao produtor aumentar a sua área plantada, visando a um lucro maior (sofisma da composição).


220

QUADRO 20 – ESTIMAÇÃO DO MODELO 3.12 POR MÍNIMOS QUADRADOS ORDINÁRIOS

Modelo 1: MQO, usando as observações 1958-2015 (T = 58)Variável dependente: Area

coeficiente erro padrão razão-t p-valor --------------------------------------------------------------- const 7.679.350 400.854 19,16 0,0000 *** Preco_1 6.641,16 4.796,75 1,385 0,1718 time 109.708 16.137,1 6,798 0,0000 ***

Média var. dependente 11755470 D.P. var. dependente 2528447Soma resíd. quadrados 1,01e+14 E.P. da regressão 1352490R-quadrado 0,723912 R-quadrado ajustado 0,713872F(2, 55) 72,10579 P-valor(F) 4,25e-16Log da verossimilhança −899,5708 Critério de Akaike 1805,142Critério de Schwarz 1811,323 Critério Hannan-Quinn 1807,549rô 0,441231 Durbin-Watson 1,056431

Obs.: *, ** e *** indicam significância estatística ao nível de 10%, 5% e 1%.


Por outro lado, as outras duas variáveis são estatisticamente significativas. Isso levanta a suspeita de que talvez o modelo não esteja corretamente especificado, ou que podemos ter algum outro problema, porque intuitivamente, esperaríamos uma relação positiva e estatisticamente significativa entre o preço e a área colhida dessa commodity.

Podemos começar a nossa análise comparando os resíduos com o tempo. Para isso, na tela do modelo estimado escolha “Gráficos”, na sequência selecione “Gráfico dos resíduos” e depois escolha “Comparado com o tempo”. O resultado é apresentado no Gráfico 6.

Veja no gráfico o comportamento dos resíduos no tempo. Os valores começam com uma série negativa e com tendência de alta. Em determinado momento, 1967, os valores se tornam positivos e “andam de lado”, porém isso dura até 1978 e em 1979 temos um dado bem discrepante. Se olharmos a tabela, veremos que há um saldo na área colhida de 11 milhões de hectares em 1978 para 17 milhões de hectares em 1979. Trata-se de um dado discrepante, motivado provavelmente por um erro de medição ou informação incorretamente compilada.


221

GRÁFICO 6 – GRÁFICO DOS RESÍDUOS COMPARADOS COM O TEMPO

FONTE: O autor

Podemos começar então o nosso trabalho, resolvendo esse problema de dado discrepante. Para isso, substitua o valor da área plantada de 1979 pela média dos anos 1978 e 1980. Esse valor é obtido por:

3.13( )+=

11 124 827 11 451 29711 288 062

2. . . .

. .

Com a base corrigida, estimamos novamente o modelo de regressão. O resultado está no Quadro 21.

O Gráfico 7 apresenta o gráfico dos resíduos contra o tempo. Agora que eliminamos o problema dos dados discrepantes, podemos ver que nos anos iniciais da nossa amostra os resíduos são negativos, crescendo e se tornando positivos a partir de 1967. A partir de 1996 se tornam negativos novamente, mudando o padrão apresentado no período anterior.


222

QUADRO 21 – ESTIMAÇÃO DO MODELO 3.12 POR MÍNIMOS QUADRADOS ORDINÁRIOS COM DADOS DISCREPANTES CORRIGIDOS


coeficiente erro padrão razão-t p-valor --------------------------------------------------------------- const 7,51320e+06 303372 24,77 1,66e-031 *** Preco_1 5887,42 3630,24 1,622 0,1106 time 114429 12212,8 9,370 5,45e-013 ***

Média var. dependente 11650456 D.P. var. dependente 2414719Soma resíd. quadrados 5,76e+13 E.P. da regressão 1023582R-quadrado 0,826620 R-quadrado ajustado 0,820315F(2, 55) 131,1108 P-valor(F) 1,18e-21Log da verossimilhança −883,4098 Critério de Akaike 1772,820Critério de Schwarz 1779,001 Critério Hannan-Quinn 1775,227rô 0,681523 Durbin-Watson 0,546694



GRÁFICO 7 – GRÁFICO DOS RESÍDUOS COMPARADOS COM O TEMPO

FONTE: O autor

Esse gráfico mostra claramente um comportamento compatível com resíduos autocorrelacionados de forma positiva. Se não o fossem, teríamos algo semelhante ao que vimos no Gráfico 5, ou seja, um comportamento aleatório, sem padrão definido. A diferença é que no Gráfico 5 você plotou os resíduos quadrados contra a variável explicativa, enquanto que no Gráfico 7 você plotou os resíduos contra o tempo.


223

Para nos certificarmos da existência ou não de correlação serial, aplicaremos primeiro o teste de Durbin-Watson, que é o mais famoso dos testes de autocorrelação, e é gerado automaticamente pela maioria dos programas econométricos. Para entender a intuição desse teste, considere o seguinte modelo de regressão:

3.14β β ε= + +1 2t t tY X

Vamos considerar que os erros, ao invés de serem bem-comportados, seguem um processo autorregressivo de primeira ordem:

3.15ε ρε υ−= +1t t t

Em 3.15, υt tem distribuição normal, condição indispensável para obtermos a estatística de Durbin-Watson. Esse termo de erro υt também carrega as características desejadas de média zero e variância constante υσ

2.

Você deve perceber que a autocorrelação significa que os resíduos ε do período t são correlacionados com os resíduos ε do período anterior, t – 1. Isso quer dizer que, se ρ for estatisticamente significativo, os resíduos do modelo 3.14 são correlacionados. Por outro lado, se ρ não for estatisticamente significativo, ρε − =1 0t e, portanto, εt = υt, não temos problema de correlação serial.

Intuitivamente você já deve ter pensado em salvar os resíduos e fazer a estimação de 3.15 por mínimos quadrados ordinários. Neste caso, você trabalharia com a hipótese nula ρ =0 0H : , caso os resíduos em 3.14 não fossem correlacionados. A hipótese alternativa seria ρ ≠1 0H : , indicando que os resíduos de 3.14 apresentam problemas de autocorrelação.

O problema é que não podemos usar o teste t tradicional para averiguar se o coeficiente estimado ρ tem significância estatística (e consequentemente problema de correlação serial). A saída dada por Durbin e Watson (1951, p. 168) é estimar 3.14, obter os resíduos e estimar 3.15, comparando o resultado com uma tabela criada pelos autores, baseada na estatística d:

3.16( )ε ε

ε

−=

=

−= ∑

∑

2

12

21

T

t ttT

tt

ˆ ˆ

ˆd

A estatística d está dentro de uma faixa numérica entre 0 e 4. Valores próximos de 2 indicam que não há presença de correlação serial de primeira ordem. Ela permite também sabermos se a correlação serial é positiva, caso em que d < 2, ou se a correlação serial é negativa, quando d > 2 .


224

O teste possui algumas especificidades, por exemplo, o fato de não poder ser empregado quando a variável dependente defasada estiver figurando como variável explicativa, o modelo de regressão deve incluir o intercepto e os erros em 3.4 devem ter distribuição normal.

Durbin e Watson (1951) construíram sua própria tabela estatística, com um limite superior, dl, e um limite inferior, du, que pode ser consultada em qualquer livro de econometria, estatística ou na própria internet.

Para o nosso bem, o Gretl fornece tanto a estatística d de 3.16 quanto o valor de ρ de 3.15. Retorne ao Quadro 21 e veja a última linha daquele quadro. Ali temos rô = 0,681523 e temos Durbin – Watson = 0,546694. Vamos comparar o valor de d com a tabela de Durbin-Watson, cuja reprodução parcial está na Figura 5.

Na parte superior da tabela estão os graus de liberdade do numerador, que se refere à quantidade de coeficientes estimados em 3.16, excluindo a constante. Como temos a constante mais dois coeficientes β , k' = 2. Na lateral esquerda está o tamanho da amostra, que no nosso caso é 58 (porque estamos trabalhando com a variável Precot – 1, ou seja, defasada um período).

FIGURA 5 – REPRODUÇÃO DA TABELA DE DURBIN-WATSON PARA 5% DE SIGNIFICÂNCIA ESTATÍSTICA

FONTE: Adaptado de Durbin e Watson (1959, p. 173)

nk' = 1 k' = 2 k' = 3 k' = 4

dL dU dL dU dL dU dL dU

15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.9716 1.10 1.37 0.98 1.54 0.86 1.73 0.74 1.9317 1.13 1.38 1.02 1.54 0.90 1.71 0.78 1.9018 1.16 1.39 1.05 1.53 0.93 1.69 0.82 1.8719 1.18 1.40 1.08 1.53 0.97 1.68 0.86 1.8520 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.8355 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.7260 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.7365 1.57 1.63 1.54 1.66 1.50 1.70 1.47 1.7370 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.7475 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.7480 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.7485 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.7590 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.7595 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76


225

Como podemos ver, não existe um valor tabelado para d quando o tamanho da amostra é de 58 observações. Nesse caso, podemos obter um valor próximo, como n = 60, e verificamos que dl = 1,51 e du = 1,65. Se você preferir, pode obter o valor exato para 58 observações através do Gretl. Basta procurar no menu “Ferramentas” e depois “Tabelas estatísticas”. A tabela está representada por “DW”, e você informa primeiro o tamanho da amostra e depois o número de regressores (exceto a constante). O resultado neste caso é dl = 1,5052 e du = 1,6475.

As regras de decisão funcionam da seguinte forma:

1. Se 0 < d < dl, rejeitamos a H0: ausência de autocorrelação positiva.2. Se 4 – dl < d < 4 , rejeitamos a H0: ausência de autocorrelação negativa.3. Se du < d < 4 – du, não rejeitamos a H0: ausência de autocorrelação.

Há ainda dois casos em que não há decisão a tomar, ou seja, não sabemos se tem ou não autocorrelação de primeira ordem, quando dl ≤ d ≤ du e quando 4 – du ≤ d ≤ 4 – dl.

Como no nosso caso a estatística d = 0,546694, e dl = 1,5052, ou seja, 0 < d < dl, rejeitamos a hipótese nula de ausência de autocorrelação positiva em favor da hipótese alternativa, H1, ou seja, o resultado da estimação do nosso modelo apresenta correlação serial positiva.

O Gráfico 8 apresenta esse padrão de comportamento em que há autocorrelação serial positiva. Trata-se de uma adaptação do gráfico de dispersão gerado pelo Gretl, em que acrescentamos alguns elementos para fins didáticos. Os dados dos resíduos foram obtidos a partir da tela de resultado (Quadro 21) selecionando o menu “Salvar” e depois “Resíduos”. A série de resíduos defasada foi obtida a partir da janela principal do Gretl, clicando sobre a variável “uhat1”, selecionando o menu “Acrescentar” e depois “Defasagens das variáveis selecionadas”.


226

GRÁFICO 8 – GRÁFICO DE DISPERSÃO DE RESÍDUOS AUTOCORRELACIONADOS

FONTE: O autor

Perceba que os dados estão dispersos da direita para a esquerda e de forma ascendente. Dito de outra maneira, eles partem do quadrante IV, crescendo para o quadrante II. Através desse gráfico fica clara a dependência linear entre os resíduos presentes e os resíduos defasados. É exatamente esse o comportamento que se espera encontrar quando se tem em mãos uma série de resíduos autocorrelacionados.

Há várias críticas ao uso do teste de Durbin-Watson, por exemplo, o fato de que só é válido quando não incluirmos no modelo de regressão a variável dependente defasada. Suponha que chegássemos à conclusão que a área colhida no ano anterior seria um dos componentes capazes de explicar a área colhida na safra atual. Neste caso, teríamos que reescrever o modelo 3.12 da seguinte forma:

3.17Areat = β1 + β2Precot – 1 + β3Timet + β4Areat – 1 + εt

Estimando 3.17, não poderíamos empregar o teste de Durbin-Watson para fins de verificação da existência de correlação serial. Nesse caso, o Gretl reporta outra estatística de teste, derivada da estatística d, trata-se da estatística h de Durbin, dada por:


227

3.14Yt = β1 + β2Xt + εt

3.18( ) ( )ρ

β=

− 41nhVar

ˆˆn

Essa estatística segue uma distribuição normal padrão, e tem como hipótese nula a ausência de autocorrelação. Porém, ela mantém a limitação de só testar autocorrelação de primeira ordem que a estatística de Durbin-Watson carrega.

Outro problema ocorre quando dl ≤ d ≤ du ou quando 4 – du ≤ d ≤ 4 – dl. Nesse caso, o resultado cai em uma zona de indecisão, em que não podemos concluir se existe ou não problema de autocorrelação de primeira ordem.

E, finalmente, se supusermos que 3.15 tivesse duas defasagens da variável εt, digamos ε ρε ρε υ− −= + +1 2t t t t, ou mais defasagens ainda, digamos p defasagens caracterizando um processo autorregressivo de ordem p, AR(p), o teste Durbin-Watson não poderia ser aplicado. Modelos com processos geradores dos resíduos mais complexos exigem outros tipos de testes baseados em Multiplicador de Lagrange, como o teste de Breusch-Godfrey (BG), que veremos a seguir.

Voltemos novamente ao modelo de regressão 3.14:

Agora vamos supor que o termo de erro segue um processo autorregressivo de ordem p, AR(p):

3.19ε ρ ε ρ ε ρ ε υ− − −= + +…+ +1 1 2 2t t t p t p t

Em que υt é um ruído branco, ou seja, E(υt) = 0, ( )υ =2 1tE e E(υt, υt – j) = 0. Aqui devemos estimar 3.19 e testar a hipótese nula de que ρ ρ ρ= =…= =0 1 2 0pH :, ou seja, de que não há correlação serial. O teste tem uma estatística χ2 2

pn.R ~ , em que n é o tamanho da amostra, p é o número de defasagens em 3.19. Se o valor calculado for maior do que o valor da tabela com p graus de liberdade, rejeitamos a hipótese nula, ou seja, pelo menos um dos ρp em 3.19 é estatisticamente diferente de zero.

Vamos aplicar esse teste no nosso exemplo. Primeiro estimamos 3.17, cujos resultados estão disponíveis no Quadro 22. Perceba que o coeficiente estimado β4

ˆ é estatisticamente significativo, ou seja, a área plantada e colhida na safra anterior influencia a área plantada a ser colhida na safra atual.


228

DICAS

Como dissemos antes, o teste d de Durbin-Watson não serve para verificar a existência de autocorrelação, porém o Gretl nos forneceu o resultado da estatística h de Durbin. Como esse teste não é tão poderoso quanto o teste BG que estamos estudando agora, nós o deixaremos de lado. Caso queira, você poderá encontrar facilmente na literatura econométrica informações sobre esse teste, para isso, leia Gujarati e Porter (2011, p. 438).

• GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. Porto Alegre: AMGH, 2011. 924 p. Tradução: Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. – Edição do Kindle.

QUADRO 22 – RESULTADO DA ESTIMAÇÃO DE 3.17 POR MÍNIMOS QUADRADOS ORDINÁRIOS


coeficiente erro padrão razão-t p-valor ----------------------------------------------------------------- const 2.431.260 701.109 3,468 0,0010 *** Preco_1 3.888,42 2.558,99 1,520 0,1345 time 28.173,3 14.209,3 1,983 0,0525 * Area_1 0,690385 0,0907566 7,607 0,0000 ***

Média var. dependente 11650456 D.P. var. dependente 2414719Soma resíd. quadrados 2,78e+13 E.P. da regressão 717718,5R-quadrado 0,916306 R-quadrado ajustado 0,911656F(3, 54) 197,0694 P-valor(F) 4,66e-29Log da verossimilhança −862,2884 Critério de Akaike 1732,577Critério de Schwarz 1740,819 Critério Hannan-Quinn 1735,787rô −0,131252 h de Durbin −1,383168



Para fazer o teste BG, na tela do modelo estimado você deve ir em “Testes” e na sequência escolher “Autocorrelação”. Escolha a ordem de defasagem, que por padrão o Gretl apresentará uma defasagem, mas você poderá testar defasagens superiores a esta.

O resultado do teste apresentado no Quadro 23 pode lhe causar um pouco de confusão porque você está apenas começando a sua jornada no mundo da econometria. Felizmente o Gretl, para facilitar a nossa vida, grava na janela do modelo estimado o resultado desse teste em forma mais fácil de compreender:


229

Teste LM para autocorrelação até a ordem 1 -Hipótese nula: sem autocorrelaçãoEstatística de teste: LMF = 1,70334com p-valor = P(F(1, 53) > 1,70334) = 0,197489

Perceba que o teste LM relatado nada mais é do que o teste Breusch-Godfrey, pois esse teste utiliza a técnica de Multiplicador de Lagrange na sua estrutura. É apresentada a hipótese nula de ausência de autocorrelação, e podemos ver pelo p – valor que não podemos rejeitar H0: sem autocorrelação. Isso nos leva a concluir novamente que devemos investir um tempo considerável na especificação correta dos nossos modelos econométricos, assim como na correta definição e tratamento adequado das variáveis, pois assim evitamos problemas estatísticos de outra natureza, tais como heteroscedasticidade, multicolinearidade e autocorrelação.

Além disso, queremos lembrá-lo de que fizemos o teste BG para autocorrelação de primeira ordem. Fizemos isso porque o teste de Durbin-Watson, na presença da variável dependente defasada, não é aplicável. Vamos deixar para você averiguar, como exercício, se existe presença de autocorrelação de segunda e/ou de terceira ordem.

QUADRO 23 – TESTE DE BREUSCH-GODFREY PARA O MODELO 3.17

Teste de Breusch-Godfrey para autocorrelação de primeira-ordemMQO, usando as observações 1958-2015 (T = 58)Variável dependente: uhat

coeficiente erro padrão razão-t p-valor ------------------------------------------------------------- const −783919 919789 −0,8523 0,3979 Preco_1 −365,680 2557,88 −0,1430 0,8869 time −12970,4 17264,8 −0,7513 0,4558 Area2_1 0,106289 0,121504 0,8748 0,3856 uhat_1 −0,238444 0,182698 −1,305 0,1975

R-quadrado não-ajustado = 0,031138

Estatística de teste: LMF = 1,703344,com p-valor = P(F(1,53) > 1,70334) = 0,197

Estatística alternativa: TR^2 = 1,805995,com p-valor = P(Qui-quadrado(1) > 1,806) = 0,179

Ljung-Box Q' = 1,04114,com p-valor = P(Qui-quadrado(1) > 1,04114) = 0,308

FONTE: O autor


230

4 RESOLVENDO O PROBLEMA DA CORRELAÇÃO SERIAL – MÉTODO DOS MÍNIMOS QUADRADOS GENERALIZADOS

Para superar o problema da autocorrelação nós empregamos o método dos mínimos quadrados generalizados. Através desse método, produzimos “[...] intervalos de confiança menores, mais informativos do que os intervalos de mínimos quadrados” (HILL; GRIFFITHS; JUDGE, 2010, p. 307).

Quando falamos em método dos mínimos quadrados generalizados, estamos nos referindo a uma série de técnicas econométricas que podem ser empregadas, ou seja, um conjunto amplo de modelos de regressão capaz de estimar coeficientes com as características desejáveis, tais como a ausência de autocorrelação.

Por isso, podemos partir de uma simples transformação de variáveis, e aqui “simples” é apenas um eufemismo, até o emprego de técnicas avançadas, como as estimativas por máxima verossimilhança. Tudo dependerá da natureza da autocorrelação e do nosso conhecimento relativo à matriz Ω, ou seja, de ρ.

Como vimos, o primeiro e indispensável passo para evitar esse problema passa, necessariamente, pela correta especificação do modelo. Por isso, ao identificar a presença de autocorrelação, devemos focar nossa atenção na especificação das variáveis (especialmente nas variáveis proxy), na assertividade dos dados coletados para evitar o problema da discrepância, no tamanho da amostra e, finalmente, se o modelo está corretamente especificado.

Digamos que já tenhamos verificado tudo isso e mesmo assim detectamos a presença de autocorrelação, como no modelo 3.20, com os erros de 3.21:

3.20β β ε= + +1 2 2t t tY X

Em que εt é o termo de erro autocorrelacionado, dado por:

3.21ε ρε υ−= +1t t t

Com υt~N(0, σ2).

Substituindo 3.21 em 3.20 obtemos:

3.22β β ρε υ−= + + +1 2 2 1t t t tY X


231

Agora, em 3.22, εt não está mais presente, ao invés disso temos ela própria defasada um período, εt – 1, e outro termo de erro, dado por υt. Sabemos que, por definição, podemos escrever εt = Yt – β1 – β2X2t. Dessa forma, podemos resolver 3.20 como:

3.23t t tY Xε β β= − −1 2 2

Defasando um período, temos:

3.25( )t t t t tY X Y Xβ β ρ β β υ− −= + + − − +1 2 2 1 1 2 2 1

3.26t t t t tY X Y Xβ β ρ ρβ ρβ υ− −= + + − − +1 2 2 1 1 2 2 1

3.24t t tY Xε β β− − −= − −1 1 1 2 2 1

Substituindo 3.24 em 3.22, teremos:

Podemos reorganizar 3.26 para:

3.27t t t t tY Y X Xρ β ρβ β ρβ υ− −− = − + − +1 1 1 2 2 2 2 1

3.28( ) ( )t t t t tY Y X Xρ β ρ β ρ υ− −− = − + − +1 1 2 2 2 11

Para facilitar nosso entendimento, podemos reescrever 3.28 como:

3.29* * *t t tY Xβ β υ= + +1 2 2

Em que *t t tY Y Yρ −= − 1, ( )*β β ρ= −1 1 1 e ( )*

t t tX X Xρ −= −2 2 2 1 .

Como podemos observar nas equações anteriores, é necessário sabermos o valor exato de ρ para podermos estimar 3.29. Como isso não é possível, pois teríamos que ter acesso a toda a população de dados, procuramos estimar ρ através de:


232

3.30

T

t ttT

tt

ˆ ˆˆ

ˆ

ε ερ

ε

−=

=

×= ∑

∑12

22

Conforme Cochrane e Orcutt (1949, p. 35), se rodarmos a regressão de 3.29 por mínimos quadrados ordinários, obteremos estimadores BLUE. Para fazer isso, precisamos seguir um procedimento iterativo conforme os passos descritos na sequência:

1. Estimamos o modelo 3.20 por mínimos quadrados ordinários.2. Salvamos os resíduos gerados e então obtemos ρ pela equação 3.30.3. Introduzimos esse resultado em 3.29 e rodamos a regressão por mínimos

quadrados ordinários.4. Com os resultados obtidos no passo 3, repetimos os passos 2 e 3 até que as

mudanças em ρ seja um valor próximo de zero (COCHRANE; ORCUTT, 1949, p. 53).

Esse procedimento pode ser feito com o uso do Gretl. Para tanto, voltaremos ao nosso exemplo dado por 3.12 e dados do Quadro 19. A diferença é que agora estimaremos o modelo usando outro caminho dentro do Gretl. No menu inicial selecione “Modelo”, depois “Série temporal”, na sequência escolha “Erros AR (GLS)” e depois “AR(1)”. Preencha as informações conforme a Figura 6, clicando em “ok” para confirmar.


233

FIGURA 6 – ESTIMAÇÃO DO MODELO DE REGRESSÃO POR COCHRANE-ORCUTT


Os resultados são vistos no Quadro 24. Note que, ao superar o problema de correlação serial de primeira ordem, o coeficiente estimado β2 é estatisticamente significativo ao nível de 5% de significância estatística.


234

QUADRO 24 – RESULTADO DA ESTIMAÇÃO DO MODELO 3.12 POR COCHRANE-ORCUTT

Executando cálculo iterado de rô...

ITER RÔ SQR 1 0,68152 2,49100e+013 2 0,68777 2,49073e+013 3 0,68829 2,49073e+013 4 0,68833 2,49073e+013 5 0,68834 2,49073e+013

Modelo 1: Cochrane-Orcutt, usando as observações 1959-2015 (T = 57)Variável dependente: Arearho = 0,688338

coeficiente erro padrão razão-t p-valor -------------------------------------------------------------- const 8.008.610 657.575 12,18 0,0000 *** Preco_1 9.205,20 3.657,39 2,517 0,0148 ** time 91.776,40 20.113,00 4,563 0,0000 ***

Estatísticas baseadas nos dados rô-diferenciados:

Média var. dependente 11753265 D.P. var. dependente 2304561Soma resíd. quadrados 2,49e+13 E.P. da regressão 679151,2R-quadrado 0,916255 R-quadrado ajustado 0,913153F(2, 54) 25,22715 P-valor(F) 1,83e-08rô −0,095691 Durbin-Watson 2,178760



Há outros métodos iterativos, tais como Prais e Winsten (1954) e Hildreth e Lu (1960), os quais possuem rotinas prontas no Gretl, como pudemos ver na Figura 6. Deixaremos para você a tarefa de estimar por estes dois métodos e comparar os resultados com os do Quadro 24. Esses métodos de estimação são chamados na literatura econométrica como Mínimos Quadrados Generalizados Factíveis, ou em inglês, FGLS (Feasible Generalized Least Squares).

235


• As consequências da heteroscedasticidade e da correlação serial são as mesmas, ou seja, geram parâmetros não viesados, mas ineficientes e com variâncias viesadas. Por esse motivo não estimamos os parâmetros do modelo de regressão por Mínimos Quadrados Ordinários, mas por Mínimos Quadrados Generalizados.

• São os motivos que levam o modelo a gerar séries de erros correlacionados, dentre os quais podemos citar a inércia, os ciclos econômicos, o modelo especificado de forma incorreta, quer seja pela sua forma funcional, ou pela omissão de uma variável estritamente relevante ou a inclusão de uma variável irrelevante como variável explicativa.

• A detecção da autocorrelação se dá através de métodos informais, como o gráfico de dispersão dos resíduos contra os resíduos defasados, ou o gráfico dos resíduos contra o tempo, e métodos formais, como os testes de Durbin-Watson e Breush-Godfrey, ambos sob a hipótese nula de que não há autocorrelação.

• A estatística de Durbin-Watson tem algumas limitações, tais como só detectar a presença de correlação serial de primeira ordem, não poder ser empregado quando a variável dependente defasada estiver figurando como variável explicativa, o modelo de regressão deve incluir o intercepto e os erros devem ter distribuição normal.

• Para modelos com processos geradores dos resíduos mais complexos do que AR(1), devemos empregar testes baseados em Multiplicador de Lagrange, como o teste de Breusch-Godfrey (BG).

• Para superar o problema da autocorrelação nós empregamos o método dos mínimos quadrados generalizados ou o processo iterativo proposto por Cochrane e Orcutt (1949).

RESUMO DO TÓPICO 3

236

AUTOATIVIDADE

Para essa autoatividade, considere os dados do Quadro 24. Trata-se de uma adaptação da tabela B-16, do Economic Report of the President, que relaciona o salário-hora e a produtividade dos Estados Unidos para o período de 1969 até 2017. Nesse quadro, o salário-hora se refere à remuneração por hora, dividida pelo índice de preços ao consumidor. Os dados se referem aos números índices com 2009 = 100.

QUADRO 24 – RELAÇÃO ENTRE SALÁRIO-HORA E PRODUTIVIDADE

Ano Salário-Hora Produtividade Ano Salário-Hora Produtividade1969 64,1 29,6 1994 80,8 66,21970 65,1 29,5 1995 80,9 68,31971 66,2 30,7 1996 81,6 71,51972 68,1 32,7 1997 83,1 75,31973 69,2 34,9 1998 86,8 79,21974 68,2 34,4 1999 89,1 83,61975 69,1 34,0 2000 92,1 87,31976 70,6 36,3 2001 93,6 87,91977 71,6 38,4 2002 94,2 89,51978 72,5 40,8 2003 95,6 92,31979 72,7 42,3 2004 97,5 96,51980 72,4 41,9 2005 97,7 100,11981 72,4 43,1 2006 98,3 103,31982 73,3 41,8 2007 99,8 105,51983 73,4 44,1 2008 98,7 104,21984 73,6 48,0 2009 100,0 100,01985 74,8 50,2 2010 100,2 103,21986 77,7 52,0 2011 99,2 105,31987 77,9 53,9 2012 99,8 108,41988 79,2 56,2 2013 99,7 110,81989 78,2 58,3 2014 100,8 114,41990 79,1 59,3 2015 103,7 118,41991 79,9 58,9 2016 103,4 120,31992 82,7 61,4 2017 102,8 123,51993 81,9 63,2

FONTE: <https://www.gpo.gov/fdsys/pkg/ERP-2018/xls/ERP-2018-table16.xls>. Acesso em: 30 jun. 2018.

237

1 Com base no Quadro 24, estime o seguinte modelo de regressão por mínimos quadrados ordinários, interpretando o significado da estatística de Durbin-Watson:

(1)t t tSalarioh Pr odutividade uβ β= + +1 2

2 Plote um gráfico de dispersão colocando no eixo Y os resíduos e no eixo X os resíduos defasados um período. Como você interpreta esse gráfico?

3 Faça o teste de Breusch-Godfrey para verificar a existência de autocorrelação de segunda ordem nos resíduos. O resultado do teste confirma a existência de resíduos autocorrelacionados de segunda ordem?

4 Caso o resultado do teste de Breusch-Godfrey da equação anterior indique a existência de autocorrelação, aplique o procedimento de Cochrane-Orcutt para resolver o problema.

239

REFERÊNCIAS

ANDRADE, Carlos Henrique C. Manual de Introdução ao Pacote Econométrico Gretl. 2013. Disponível em: <https://www.ufrgs.br/ppge/textos-para-discussao/>. Acesso em: 15 abr. 2018.

ATLAS BRASIL. Atlas do Desenvolvimento Humano no Brasil. 2018. Disponível em: <www.atlasbrasil.org.br>. Acesso em: 29 ago. 2018.

BCB – Banco Central do Brasil. 2018. Disponível em: <www.bcb.gov.br>. Acesso em: 29 ago. 2018.

BELSLEY, Davi A.; KUH, Edwin; WELSCH, Roy E. Regression diagnostics. Identifying influential data and sources of collinearity. Wiley-Interscience, 1980. 300 p.

BORÇA JUNIOR, Gilberto Rodrigues; TORRES FILHO, Ernani Teixeira. Analisando a Crise do Subprime. Revista do Bndes, Rio de Janeiro, v. 30, n. 15, p. 129-159, dez. 2008.

CARVALHO, Fernando J. Cardim de et al. Economia monetária e financeira. 3. ed. Rio de Janeiro: Campus, 2015. 423 p.

CHOW, Gregory C. Tests of Equality Between Sets of Coefficients in Two Linear Regressions. Econometrica 28, n. 3, p. 591-605. 1960.

COCHRANE, D.; ORCUTT, G. H. Applications of least-squares regressions to relationships containing autocorrelated error terms. Journal of American Statistical Association, v. 44, p. 32-61, 1949.

COTTRELL, Allin; LUCCHETTI, Riccardo “jack”. Gretl User’s Guide: Gnu Regression, Econometrics and Time-series Library. 2018. 394 p.

D'ARIENZO, Carlos Cesar. Métodos quantitativos em contabilidade: a Contabilometria. 2011. Disponível em: <http://www.administradores.com.br/artigos/economia-e-financas/metodos-quantitativos-em-contabilidade-a-contabilometria-7/60532/>. Acesso em: 17 jun. 2018.

DIEBOLD, Francis X. Elements of forecasting. 4. ed. Mason: Thomson, 2007. 366 p.

DURBIN, J.; WATSON, G. S. Testing for serial correlation in least-squares regression. Biometrika, v. 38, p. 159-171, 1951.

240

ERP – Economic report of the president. ERP Tabela 16. 2018. Disponível em: <https://www.gpo.gov/fdsys/pkg/ERP-2018/xls/ERP-2018-table16.xls>. Acesso em: 30 jun. 2018.

FRISCH, Ragnar. Statistical confluence analysis by means of complete regression systems. Institute of Economics, Oslo University, n. 5, 1934.

GALTON, Francis. Family likeness in stature. Londres: Proceedings of Royal Society, v. 40, p. 42-72, 1886.

GREENE, William H. Econometric analysis: International edition. 7. ed. London: Pearson Education Limited, 2012. 1241 p.

GRETL – Gnu Regression, Econometrics and Time-series Library. 2018. Disponível em: <http://gretl.sourceforge.net/pt.html>. Acesso em: 22 ago. 2018.

GUJARATI, Damodar N.; PORTER, Dawn C. Econometria básica [recurso eletrônico]. 5. ed. Porto Alegre: AMGH, 2011. 924 p. Tradução de: Denise Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. – Edição do Kindle.

HILL, R. Carter; GRIFFITHS, William E.; JUDGE, George G. Econometria. 3. ed. São Paulo: Saraiva, 2010. 471 p.

HOFFMANN, Rodolfo. Estatística para economistas. 3. ed. São Paulo: Pioneira Thomson, 2002. 430 p.

KEYNES, John Maynard. A teoria geral do emprego, do juro e da moeda. São Paulo: Editora Nova Cultural, 1996. 352 p.

KRUGMAN, Paul; WELLS, Robin. Introdução à economia. Rio de Janeiro: Elsevier, 2007. 823 p.

LONGLEY, J. An appraisal of least-squares programs from the point of the user. Journal of the American Statistical Association, v. 62, p. 819-841, 1967.

MADDALA, Gangadharrao Soundalyarao. Introdução à econometria. 3. ed. Rio de Janeiro: LTC, 2003. 345 p.

MARSHALL, Alfred. Princípios de economia: Tratado introdutório. São Paulo: Editora Nova Cultural, 1996. 368 p.

ROOS, Charles F. Constitution of the Econometric Society. Econometrica 1, n. 1, 1933, p. 106-08. Disponível em: <http://www.jstor.org/stable/1912239>. Acesso em: 22 ago. 2018.

SARTORIS, Alexandre. Estatística e introdução à econometria [recurso eletrônico]. 2. ed. São Paulo: Saraiva, 2013.

241

SCHUMPETER, JOSEPH. The Common Sense of Econometrics. Econometrica, v. 1, n. 1, p. 5-12, jan. 1933. JSTOR. Disponível em: <http://dx.doi.org/10.2307/1912225>. Acesso em: 22 ago. 2018.

SHEWHART, W. A. The Rôle of Statistical Method in Economic Standardization. Econometrica 1, n. 1, 1933, p. 23-35.

TAYLOR, John B. Princípios de macroeconomia. São Paulo: Ática, 2007. 512 p.

PINDYCK, Robert S.; RUBINFELD, Daniel L. Econometria. Modelos e aplicações. 4. ed. Rio de Janeiro: Elsevier, 2004. 726 p.

PROBST, Elisiana Renata. A evolução da mulher no marcado do trabalho. RH Portal. 2015. Disponível em: <http://www.rhportal.com.br/artigos-rh/a-evoluo-da-mulher-no-mercado-de-trabalho/>. Acesso em: 29 maio 2018.

THE HERITAGE FOUNDATION. Index of Economic Freedom. 2018. Disponível em: <https://www.heritage.org>. Acesso em: 29 maio 2018.

WHITE, Halbert. A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity. Econometrica, v. 48, n. 4, p. 817-838, 1980.

WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. 6. ed. São Paulo: Cengage Learning, 2016. 848 p.

EconomEtria i - UNIASSELVI

Documents

Transcript of EconomEtria i - UNIASSELVI