Apostila estatistica economica ufrgs 2015

80
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE ESTATÍSTICA APOSTILA: MAT02207 - ESTATÍSTICA ECONÔMICA Prof. Vanessa B. Leotti Torman ([email protected])

description

Apostila estatistica economica ufrgs 2015

Transcript of Apostila estatistica economica ufrgs 2015

  • UNIVERSIDADE FEDERAL DO RIO GRANDE DO SULINSTITUTO DE MATEMTICA

    DEPARTAMENTO DE ESTATSTICA

    APOSTILA:

    MAT02207 -ESTATSTICA ECONMICA

    Prof. Vanessa B. Leotti Torman([email protected])

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Maro de 2012.

    2

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    NDICE

    1 MODELO DE REGRESSO LINEAR SIMPLES (MRLS) .................................................................... 5

    1.1 INTRODUO REGRESSO.....................................................................................................................51.1.1 RELAES ESTATSTICAS VERSUS DETERMINSTICAS...............................................................................51.2 MODELO DE REGRESSO LINEAR SIMPLES (MRLS)...............................................................................51.2.1 FUNO LINEAR DE REGRESSO POPULACIONAL.....................................................................................51.2.2 FUNO LINEAR DE REGRESSO AMOSTRAL............................................................................................61.2.3 PREMISSAS CLSSICAS.............................................................................................................................71.3 ESTIMAO DOS PARMETROS DO MODELO: MTODO DE MNIMOS QUADRADOS ORDINRIOS (MQO)................................................................................................................................................................81.3.1 SIGNIFICADO DE E ..................................................................................................................................91.3.2 PRECISO OU ERRO-PADRO DAS ESTIMATIVAS DE MQO......................................................................101.3.3 PROPRIEDADES DOS ESTIMADORES DE MQO.........................................................................................101.4 COEFICIENTE DE CORRELAO LINEAR DE PEARSON - R......................................................................131.5 COEFICIENTE DE DETERMINAO - R2...................................................................................................141.6 A PREMISSA DE NORMALIDADE DOS RESDUOS......................................................................................161.7 ESTIMAO POR INTERVALO..................................................................................................................161.7.1 INTERVALOS DE CONFIANA PARA OS COEFICIENTES DE REGRESSO.....................................................161.7.2 INTERVALO DE CONFIANA PARA A VARINCIA RESIDUAL....................................................................181.8 TESTES DE HIPTESES.............................................................................................................................191.8.1 ABORDAGEM DO INTERVALO DE CONFIANA.........................................................................................191.8.2 ABORDAGEM DO TESTE DE SIGNIFICNCIA.............................................................................................201.9 PREVISO.................................................................................................................................................221.9.1 INTERVALO DE CONFIANA PARA A ESTIMATIVA MDIA DE Y, DADO X = X0.......................................221.9.2 INTERVALO DE CONFIANA PARA A ESTIMATIVA INDIVIDUAL DE Y, DADO X = X0...............................231.10 ANLISE DE VARINCIA ANOVA......................................................................................................241.10.1 TESTE DE SIGNIFICNCIA PARA O COEFICIENTE DE DETERMINAO....................................................251.11 REGRESSO PELA ORIGEM....................................................................................................................261.12 FORMAS FUNCIONAIS DOS MODELOS DE REGRESSO...........................................................................271.12.1 MODELO LOG-LINEAR OU LOG-LOG....................................................................................................271.12.2 MODELOS SEMILOGARTMICOS LOG-LIN E LIN-LOG............................................................................271.12.3 MODELOS RECPROCOS (INVERSOS).....................................................................................................28

    2 MODELO DE REGRESSO LINEAR MLTIPLA (MRLM) ............................................................ 31

    2.1 SIGNIFICADO DOS PARMETROS DO MODELO........................................................................................312.2 NOTAO MATRICIAL DO MRLM..........................................................................................................312.3 PREMISSAS DO MRLM............................................................................................................................322.4 MTODO DOS MNIMOS QUADRADOS ORDINRIOS (MQO)...................................................................322.4.1 VARINCIAS DOS ESTIMADORES DE MQO.............................................................................................332.5 COEFICIENTE MLTIPLO DE DETERMINAO: R2.................................................................................352.6 COEFICIENTE MLTIPLO DE DETERMINAO AJUSTADO: ....................................................................352.7 COEFICIENTE DE CORRELAO PARCIAL...............................................................................................362.8 COEFICIENTE DE DETERMINAO PARCIAL...........................................................................................372.9 INTERVALO DE CONFIANA E TESTE DE SIGNIFICNCIA INDIVIDUAL PARA OS COEFICIENTES DE REGRESSO....................................................................................................................................................372.10 INTERVALO DE CONFIANA PARA A VARINCIA RESIDUAL.................................................................382.11 TESTE DA SIGNIFICNCIA GERAL DA REGRESSO (ANOVA)..............................................................392.12 CONTRIBUIO MARGINAL OU INCREMENTAL DE UMA VARIVEL EXPLICATIVA..............................412.13 PREVISO NO MRLM............................................................................................................................442.14 MODELO DE REGRESSO POLINOMIAL.................................................................................................452.15 VARIVEIS DUMMIES.............................................................................................................................46

    3

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    2.15.1 REGRESSO SOMENTE COM VARIVEIS DUMMIES (MODELOS ANOVA)..............................................462.15.2 REGRESSO COM VARIVEIS QUANTITATIVAS E DUMMIES (MODELOS ANCOVA).............................492.15.3 EFEITOS DE INTERAO COM O USO DE VARIVEIS BINRIAS..............................................................502.15.4 O EMPREGO DE VARIVEIS BINRIAS EM ANLISES SAZONAIS.............................................................522.15.5 MODELOS LOG-LIN E VARIVEIS DUMMIES........................................................................................52

    3 VIOLAES DAS PREMISSAS DO MODELO DE REGRESSO ................................................... 54

    3.1 NO-NORMALIDADE DOS RESDUOS........................................................................................................543.1.1 DETECO..............................................................................................................................................543.1.2 CONSEQNCIAS....................................................................................................................................553.1.3 MEDIDAS CORRETIVAS...........................................................................................................................553.2 MULTICOLINEARIDADE...........................................................................................................................573.2.1 CONSEQNCIAS....................................................................................................................................583.2.2 DETECO..............................................................................................................................................603.2.3 MEDIDAS CORRETIVAS...........................................................................................................................643.3 HETEROCEDASTICIDADE.........................................................................................................................663.3.1 MTODO DOS MNIMOS QUADRADOS GENERALIZADOS (MQG)............................................................673.3.2 CONSEQNCIAS....................................................................................................................................673.3.3 DETECO..............................................................................................................................................683.3.4 MEDIDAS CORRETIVAS...........................................................................................................................733.4 AUTOCORRELAO.................................................................................................................................753.4.1 CONSEQNCIAS....................................................................................................................................773.4.2 DETECO..............................................................................................................................................773.4.3 MEDIDAS CORRETIVAS...........................................................................................................................80

    4

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1 MODELO DE REGRESSO LINEAR SIMPLES (MRLS)

    1.1 Introduo Regresso

    A anlise de regresso estuda a dependncia de uma varivel, chamada de varivel dependente, em relao a uma ou mais variveis, denominadas de variveis independentes, com o objetivo de estimar e/ou prever o valor mdio da primeira em termos de valores conhecidos ou fixados das segundas.

    Pressupe-se implicitamente que as relaes causais, se as houver, entre a varivel dependente e as explanatrias s se do em uma direo: das variveis explanatrias para a dependente.

    Exemplo: Poderia-se estudar a relao de dependncia do rendimento das lavouras em relao temperatura, pluviosidade, luz solar ou fertilizante, por exemplo.

    1.1.1 Relaes estatsticas versus determinsticas

    Na anlise de regresso, estamos preocupados com o que conhecido como dependncia estatstica, e no funcional ou determinstica, entre as variveis. Nas relaes estatsticas entre variveis, lidamos essencialmente com variveis aleatrias ou estocsticas, isto , variveis que tm distribuies probabilsticas. Na dependncia funcional ou determinstica, por outro lado, tambm lidamos com variveis, mas estas no so aleatrias ou estocsticas.

    O exemplo anterior uma dependncia estatstica. J um exemplo de dependncia determinstica a frmula: lucro bruto = preo x unidades vendidas.

    1.2 Modelo de Regresso Linear Simples (MRLS)

    Mtodo de ajustamento de uma reta para anlise da relao entre uma varivel independente (explicativa ou regressora) e uma varivel dependente (explicada ou resposta). Ambas as variveis so quantitativas. Este modelo tambm conhecido como modelo de duas variveis.

    1.2.1 Funo linear de regresso populacional

    Denotaremos por iY o valor da varivel dependente para a i-sima observao e iX o valor da varivel independente para a i-sima observao.

    Como dito anteriormente, o objetivo da regresso estimar um valor mdio da varivel dependente com base nos valores conhecidos da varivel explanatria.

    Desenho (fertilizante x produtividade):

    5

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Podemos expressar isso matematicamente escrevendo:

    ( ) ii XXYE 21| +=onde 1 e 2 so chamados de coeficientes de regresso, ou respectivamente, intercepto e coeficiente angular, e o subscrito i indica os pares de observaes, i = 1, 2, ..., n.

    A expresso acima conhecida como funo linear de regresso populacional.Nem todos os valores de Y caem sobre a reta, existe um desvio em torno de seu valor

    esperado, que pode ser denotado por:( )iii XYEYe |=

    Ou( ) iii eXYEY += |

    O que implica queieXY iii ++= ,21

    O desvio e, tambm conhecido como perturbao aleatria, resduo aleatrio, ou distrbio aleatrio, um substituto ou representante de todas as variveis que podem afetar Y, mas no foram includas no modelo de regresso; dos elementos no-previsveis de aleatoriedade e dos erros de mensurao em Y.

    1.2.2 Funo linear de regresso amostral

    1 e 2 so parmetros conhecidos apenas se toda a populao fosse pesquisada, ou seja, se um censo fosse realizado. Entretanto, na prtica, amostras so utilizadas para estimar a funo de regresso. Assim, temos a funo linear de regresso amostral:

    ii XY 21 +=

    iY um estimador de ( )iXYE | , assim como a distncia iii YYe = estima o resduo e. Assim, pode-se escrever a funo de regresso amostral como:

    iiiii eYeXY 21 +=++=

    A figura abaixo ilustra as diferenas entre a FRP e FRA:

    6

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Assim, temos duas questes para responder:- Como obter 1 e 2 ?- Aps 1 e 2 terem sido obtidos, como podemos fazer inferncias sobre os verdadeiros

    parmetros 1 e 2 ?

    1.2.3 Premissas clssicas

    Para realizarmos inferncias sobre 1 e 2 , precisamos fazer algumas suposies sobre a maneira com que X e e influenciam em Y.

    [1]: ieXY iii ++= ,21 Estabelece que, para cada observao i, existe uma relao linear de dependncia entre uma

    varivel explicada observvel, Y, uma varivel explicativa observvel, X e um termo de perturbao aleatrio no observvel, e.

    Ou seja, o modelo linear nos parmetros e nas variveis.Um exemplo de modelo no linear nas variveis iii eXY ++= 221 , e veremos que

    alguns casos desse tipo podem ser resolvidos atravs do modelo acima.Tipos de no-linearidade nas variveis:

    Um exemplo de modelo no linear nos parmetros ( ) iii eXY ++= 221 e no veremos esse tipo de modelo.

    [2]: Os valores de X so fixados em amostragem repetida;A idia que os valores de X so fixos e se observa os valores de Y correspondentes. Isso

    implica que X no uma varivel aleatria.

    [3]: ( ) iXeE ii = ,0| O valor mdio do termo de erro zero. Isso significa que fatores no includos no modelo e,

    portanto, agrupados em e, no afetam sistematicamente o valor mdio de Y.

    [4]: ( ) iXeVar ii = ,| 2A varincia do resduo aleatrio constante (homoscedasticidade: varincias iguais;

    heteroscedasticidade: varincias diferentes).Desenho da heteroscedasticidade:

    7

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    [5]: ( )ji eeCov , = 0, jiji ,, nula a covarincia entre os resduos aleatrios (ausncia de autocorrelao).Intuitivamente, a importncia dessa hiptese pode ser explicada do seguinte modo: seja

    nossa FRP ttt uXY ++= 21 , onde tu e 1tu apresentam correlao. Ento, tY no depende apenas de tX mas tambm de 1tu , que em alguma medida, influencia em tu .

    [6]: Cov(Xi, ei) = 0;A covarincia entre o termo de erro e a varivel explicativa nula. Assim, presumimos que

    X e e exercem influncias separadas em Y. Isso ocorre automaticamente se X no aleatrio.Por isso, mesmo se X no for aleatrio, mas for no correlacionado com e, o modelo

    vlido. [7]: O nmero de observaes (n) deve ser maior que o nmero de parmetros a serem estimados;Ou seja, so necessrios no mnimo 2 pares de observaes para ajustar o modelo postulado em 1.

    [8]: A varivel explicativa X assume, no conjunto das observaes, valores no todos iguais, ou seja, a varivel X no constante na amostra.

    [9]: O modelo est corretamente especificado (no h vis ou erro de especificao);Exemplo de erro de especificao: ajustar uma reta a dados que tem comportamento quadrtico.

    Resulta destas hipteses que Y uma varivel aleatria que tem, para todo i, mdia dada por:E(Yi |Xi) = 1 + 2Xi (Implica de 3)

    E varincia:Var(Yi|Xi) = 2 (Implica de 4)

    Assim, 1, 2 e 2 so os parmetros, geralmente desconhecidos, da distribuio de Y.

    1.3 Estimao dos parmetros do modelo: Mtodo de Mnimos Quadrados Ordinrios (MQO)

    Dentre os diversos mtodos existentes para estimar os verdadeiros parmetros de funes estatsticas, no contexto da anlise de regresso, o mtodo dos mnimos quadrados ordinrios (MQO) um dos mais populares. Para entender esse mtodo ser visto brevemente o princpio dos mnimos quadrados.

    Primeiro, devemos lembrar da definio do resduo estimado, isto : iii YYe = . Ou seja, os resduos so a distncia entre o ponto observado de Y e a reta estimada.

    Queremos determinar a FRA de tal modo que seja to prxima quanto possvel do Y observado. Para tanto, podemos adotar o seguinte critrio: escolher a FRA para que a soma dos resduos, ( ) = iii YYe ,seja a menor possvel. Contudo, esse mtodo pode conduzir a resultados incuos e dessa forma, prefervel adotar o critrio da minimizao dos quadrados dos resduos, isto :

    ( )22 = iii YYe .8

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Grfico: Critrio dos mnimos quadrados

    Assim, atravs do clculo diferencial (ver demonstrao em Gujarati) o mtodo de MQO nos fornece as estimativas nicas de 1 e 2 que resultam no menor valor possvel de 2ie . O processo de diferenciao resulta na resoluo do seguinte sistema de equaes normais:

    +=

    +=

    221

    21

    iiii

    ii

    XXYX

    XnY

    onde, n o tamanho da amostra. Resolvendo as equaes normais simultaneamente, obtemos:

    ( )( )( )

    =

    = 222

    xxy

    XX

    YYXX

    i

    ii

    e, XY 21 = ,

    onde X e Y so as mdias amostrais de X e Y, ou seja, nX

    X = e nY

    Y = ;e x e y so as variveis em formato desvio, ou seja, XXx ii = e YYy ii = .

    1.3.1 Significado de 1 e 2

    1 : valor estimado para Y quando X = 02 : acrscimo (ou decrscimo) em Y quando X aumenta 1 unidade. Seu sinal indica se a relao

    entre X e Y positiva ou negativa.

    9

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1.3.2 Preciso ou erro-padro das estimativas de MQO

    As estimativas de MQO so uma funo dos dados amostrais. Mas, como os dados tendem a mudar de amostra para amostra, as estimativas tambm mudaro. Portanto, necessria alguma medida da confiabilidade ou preciso dos estimadores 1 e 2 . Em estatstica, a preciso de uma estimativa medida pelo seu erro-padro, que nada mais do que a raiz quadrada da varincia.

    Pode ser mostrado que as varincias e os erros-padro dos estimadores de MQO podem ser obtidos por:

    ( ) ( ) +==

    +== 2

    2

    12

    22

    12

    1111 x

    Xn

    Epx

    Xn

    Var

    ( ) ( ) ==== 2222

    22

    22 x

    Epx

    Var

    onde 2 a varincia de ei, segundo a premissa 4, que pode ser estimada atravs da frmula:

    2

    2

    2

    =n

    e , onde

    ( ) == 2

    2222

    222

    xxy

    yxye .

    Assim, a partir de uma amostra, podemos estimar as varincias e erros-padro dos estimadores de MQO apenas substituindo 2 por 2 nas expresses acima:

    ( ) ( ) +==

    +== 2

    2

    12

    22

    12

    1111 x

    Xn

    epx

    Xn

    var

    ( ) ( ) ==== 2222

    22

    22 x

    epx

    var

    1.3.3 Propriedades dos estimadores de MQO

    1. A reta de regresso sempre passa pelas mdias amostrais de Y e X:XYXY 2121 +==

    2. A soma dos resduos estimados igual a zero: ( ) 0 == iii YYe .3. Dadas as premissas do MRLS, os estimadores de MQO so os melhores estimadores lineares no-tendenciosos de seus respectivos parmetros. Isto significa que:

    a. Linear: funo linear de Yb. No-tendencioso: esperana do estimador igual ao verdadeiro valor do parmetro.c. Tm varincia mnima dentre todos os estimadores lineares no-tendenciosos.

    4. So consistentes, pois quanto maior o n, menor sua varincia, ou seja, maior sua preciso.

    Exemplo 1. Utilize o mtodo dos mnimos quadrados para estimar a reta de regresso entre nmero de pizzarias (Y) e renda (X) per capita, baseado numa amostra observada de cinco cidades.

    10

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Interprete os valores do intercepto e coeficiente angular. Estime tambm as varincias e erros-padro dos estimadores.

    i X Y x y x y xy1 8 402 4 303 6 284 12 465 15 59

    Total

    25

    30

    35

    40

    45

    50

    55

    60

    4 6 8 10 12 14

    Y

    X

    Y versus X (com ajustamento por mnimos quadrados)

    Y = 16,1 + 2,73X

    11

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exerccio 1. A tabela a seguir informa quantas semanas (X) seis pessoas trabalharam em um posto de inspeo de automveis e quantos automveis (Y) cada pessoa inspecionou entre 12hs e 14hs, em determinado dia. a) Ajuste o modelo de regresso linear para esses dados, interpretando as estimativas obtidas;b) Estime as varincias e erros-padro dos estimadores.

    X Y2 137 199 201 135 1612 21

    12

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1.4 Coeficiente de correlao linear de Pearson - r

    Supondo que exista algum tipo de relao linear entre as variveis X e Y na populao, uma medida utilizada para verificar o grau de correlao entre elas o coeficiente de correlao linear de Pearson, cujo valor amostral dado por:

    =22 yx

    xyr

    Este coeficiente tem a propriedade de que: 11 r .

    Grfico: Tipos de correlao

    Obs: o verdadeiro valor da correlao linear (populacional, em geral, desconhecido) representado pela letra (r).

    Exemplo 2. Calcular e interpretar o coeficiente de correlao linear de Pearson para os dados do Exemplo 1.

    Exerccio 2. Calcular e interpretar o coeficiente de correlao linear de Pearson para os dados do Exerccio 1.

    13

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1.5 Coeficiente de determinao - r2

    Apesar de ser diretamente ligado ao coeficiente de correlao, o coeficiente de determinao possui uma interpretao bastante distinta. uma medida para verificar a qualidade do ajuste de uma regresso, ou seja, o quo bem a reta de regresso se ajusta aos dados. Quando ajustamos uma reta, esperamos que os resduos em torno da linha sejam os menores possveis. Ento, quanto mais prximos da reta os pontos estiverem, melhor ser o grau de ajuste e essa a informao que o coeficiente de determinao sintetiza.

    Lembrando da FRA iii eYY += , subtraindo-se a mdia de Y dos dois lados, tem-se:( )iiii YYYYYY +=Elevando ao quadrado ambos os lados e somando ao longo da amostra, obtemos:

    ( ) ( ) ( ) += 222 iiii YYYYYYSQT = SQE + SQR

    onde SQT a soma de quadrados total, SQE a soma de quadrados explicados pela regresso e SQR a soma de quadrados de resduos. Ou seja, a variao total dos valores observados de Y em torno de sua mdia pode ser divida em duas partes: uma atribuvel linha de regresso e a outra, a foras aleatrias porque nem todas as observaes de Y se situam sobre a linha.

    Grfico. Decomposio da soma de quadrados total

    Definimos agora r2 como:

    SQTSQEr =2 ou alternativamente, SQT

    SQRr =12

    Assim, o r2 determina a proporo (percentual) da variao total de Y explicada pela variao de X (ou pelo modelo de regresso). Seus limites so: 10 2 r .

    Frmulas alternativas:14

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    ( )

    =

    = 22

    2

    2

    222

    2 yx

    xyyx

    r

    A relao entre o coeficiente de correlao e o de determinao dada por:2rr = .

    Exemplo 3. Calcule e interprete o coeficiente de determinao para os dados do Exemplo 1.

    Exerccio 3. Calcule e interprete o coeficiente de determinao para os dados do Exerccio 1.

    15

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1.6 A premissa de normalidade dos resduos

    Para poder fazer inferncias sobre os parmetros do modelo de regresso, devemos fazer alguma pressuposio sobre a distribuio de probabilidades dos resduos ei. Geralmente se supe que:

    [11]: ),0(~ 2NIDeiIsso implica que: ( )211

    1,~ N ;( )222

    2,~ N ;

    ( ) ( )2 222

    ~

    2

    nn e

    ( )221 ,~ ii XNY + .

    1.7 Estimao por intervalo

    Vimos anteriormente a estimao pontual dos coeficientes de regresso por MQO. Podemos nos perguntar: at que ponto essas estimativas so confiveis? Em decorrncia de variaes amostrais, uma nica estimativa possivelmente ser diferente do verdadeiro valor, embora se espere que, em amostras repetidas, seu valor mdio seja igual ao verdadeiro valor. Agora, na estatstica, a confiabilidade de um estimador medida por seu erro-padro. Portanto, em vez de nos embasar apenas na estimativa pontual, podemos construir um intervalo em torno do estimador pontual, digamos, de dois ou trs erros-padro de cada lado, de tal modo que esse intervalo tenha, digamos, 95% de probabilidade de incluir o verdadeiro valor do parmetro. Essa a idia que est por trs dos intervalos de confiana.

    No podemos dizer que o verdadeiro valor do parmetro possui tal probabilidade de estar contido no intervalo. Ele um nmero fixo, ento ou est ou no est no intervalo (probabilidade 0 ou 1).

    Depois de observarmos a amostra e calcularmos o intervalo para ela, ele deixa de ser aleatrio e passa a ser fixo, e ento no podemos mais falar em probabilidade. Trocamos ento a palavra probabilidade por confiana. Assim, dizemos que tal intervalo possui x de confiana de conter o verdadeiro valor do parmetro.

    1.7.1 Intervalos de confiana para os coeficientes de regresso

    Pode-se demonstrar que, se 2 conhecida, os coeficientes do modelo distribuem-se normalmente. E assim, tem-se:

    ( )1,0~

    NZi

    ii

    = onde 2,1=i .

    Contudo, sabemos que a varincia raramente conhecida e devemos estim-la a partir da amostra. Assim devemos usar a aproximao da normal pela distribuio t de Student com n-2 graus de liberdade, ento:

    ( )2

    ~

    = nii tt

    i

    16

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Podemos estabelecer um intervalo de confiana tal que: =

    12

    ;22

    ;2 nntttP

    Substituindo-se em t, temos

    =

    1

    2;22

    ;2 n

    ii

    nttP

    i

    e, com algumas manipulaes, chega-se a =

    +

    1 2

    ;2

    2;2 ii niini

    ttP

    o qual o intervalo de confiana para i, e pode ser escrito mais concisamente como:( )

    iniitparaIC

    2;2

    :%1100 .

    Exemplo 4. Intervalos de 95% de confiana para os coeficientes da regresso do Exemplo 1.

    Exerccio 4. Calcule e interprete os IC com 90% e 99% para os coeficientes de regresso para os dados do Exerccio 1.

    17

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1.7.2 Intervalo de confiana para a varincia residual

    Vimos que a varivel( )

    ( )2222

    2 ~2

    = nnq

    .

    Podemos usar essa varivel para estabelecer um intervalo de confiana para a varincia residual da seguinte forma:

    =

    122

    ;2

    22

    21;2 nn

    qP

    Substituindo-se em q2 e fazendo-se algumas manipulaes, temos:

    ( ) ( )

    =

    1

    2

    2 22

    1;2

    22

    2

    2;2

    2

    nn

    nnP

    Ou ( ) ( ) ( )

    2

    21;2

    2

    2

    2;2

    22 2;

    2:%1100

    nn

    nnparaIC .

    Exemplo 5. Supondo que temos uma amostra de 10 observaes de duas variveis X e Y, a varincia residual estimada foi 42,1591. O IC de 95% para a verdadeira varincia residual :

    Exerccio 5. Calcule e interprete os IC com 90% e 99% para a varincia residual do Exerccio 1.

    18

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1.8 Testes de hipteses

    O problema do teste estatstico de hipteses pode ser resumido assim: uma dada observao ou resultado compatvel com alguma hiptese feita ou no? Assim temos a hiptese nula (H0) que testada contra a hiptese alternativa (H1), e decidimos sobre a veracidade ou a falsidade da hiptese nula atravs dos resultados amostrais. Ou seja, a teoria do teste de hipteses cuida da formulao de regras ou procedimentos a serem adotados para decidir se a hiptese nula deve ser rejeitada ou no rejeitada. H duas abordagens complementares para a elaborao dessas regras: o intervalo de confiana e o teste de significncia.

    - Teste bilateral ou bicaudalAs hipteses deste teste so:

    =

    *1

    *0

    :

    :

    ii

    ii

    HH

    onde 2,1=i e *i um valor constante de interesse do pesquisador.

    Por exemplo, poderamos estar interessados em testar as seguintes hipteses:1. O intercepto do modelo (coeficiente linear) nulo? Ou, a regresso passa pela origem do sistema coordenado?

    =

    0:0:

    11

    10

    HH

    2. A inclinao do modelo (coeficiente angular) nula? Ou, no existe relao linear entre X e Y?

    =

    0:0:

    21

    20

    HH

    Em ambos os casos acima, 0* =i .

    - Teste unilateral ou unicaudals vezes, temos uma forte expectativa a priori ou terica de que a hiptese alternativa seja

    unilateral. Um exemplo de teste unilateral :

    >

    0:0:

    21

    20

    HH

    .

    Veremos a seguir que um teste de hiptese pode ser realizado atravs de duas abordagens: a do intervalo de confiana e a do teste de significncia. Por questes de facilidade, veremos testes unilaterais apenas atravs da abordagem dos testes de significncia.

    1.8.1 Abordagem do intervalo de confiana

    19

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Regra de deciso: para um nvel de significncia , estabelea um intervalo de confiana de ( )%1100 para i . Se *i cair dentro do intervalo de confiana, no rejeite H0, caso contrrio, rejeite.

    Em estatstica, quando rejeitamos a hiptese nula, dizemos que nossos resultados foram estatisticamente significativos.Exemplo 6: Usando um nvel de significncia de 5%, teste, atravs dos intervalos de confiana, as hipteses de que o intercepto e o coeficiente angular so diferentes de zero para os dados do Exemplo 1.

    Exerccio 6: Usando um nvel de significncia de 10%, teste, atravs dos intervalos de confiana, as hipteses de que o intercepto e o coeficiente angular so significativamente diferentes de zero para os dados do Exerccio 1.

    1.8.2 Abordagem do teste de significncia

    A rotina de procedimentos para os testes de significncia pode ser resumida da seguinte maneira:

    a) Escolhe-se o nvel de significncia , em geral 1%, 5% ou 10%;b) Estabelecer as hipteses e verificar a forma do teste, isto , unilateral ou bilateral;

    c) Verificar o valor crtico (valor tabelado), que ser 2;2

    n

    t para um teste bilateral e ;2nt para um teste unilateral;

    d) Calcular o valor amostral da estatstica de teste:

    i

    iit

    *

    =

    e) Decidir conforme a tabela abaixo:

    Tipo de hiptese H0 H1 Deciso: rejeitar H0 20

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    seBicaudal *0 : iiH = *1 : iiH

    2;2

    >n

    tt

    Cauda direita *0 : iiH *1 : iiH > ;2> nttCauda esquerda *0 : iiH *1 : iiH < ;2< ntt

    Exemplo 7: Usando um nvel de significncia de 5%, teste, atravs dos testes de significncia, as hipteses de que o intercepto e o coeficiente angular so diferentes de zero para os dados do Exemplo 1.

    Exemplo 8: Para os dados do exemplo 1, usando um nvel de significncia de 5%, teste a hiptese de que o coeficiente angular maior que 1.

    Exerccio 7: Considere os dados do Exemplo 1. Em um censo realizado em uma outra regio, obteve-se 5,151 = e 34,22 = . Existe diferena significativa entre as estimativas obtidas no Exemplo 1 e os valores da outra regio, a 5% de nvel de significncia?

    21

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exerccio 8: Considere os dados do Exerccio 1. A um nvel de significncia de 1%, teste as hipteses de que o intercepto e o coeficiente angular so maiores que zero.

    - O valor-p: definido como o menor nvel de significncia ao qual a hiptese nula pode ser rejeitada. S pode ser calculado exatamente atravs de mtodos computacionais.

    A relao entre o valor-p e o nvel de significncia : se valor-p < , rejeita-se H0, caso contrrio no se rejeita.

    1.9 Previso

    Um dos principais objetivos da anlise de regresso prever valores de Y com base em valores conhecidos de X. H dois tipos de previso:

    1. Previso para a estimativa mdia de Y dado X=X0: Exemplo: Estimar o consumo mdio de pizza para cidades com renda igual a 7.

    ( ) 02100 | XXXYEdeestimadorY +===

    2. Previso para a estimativa individual de Y dado X=X0: Exemplo: Estimar o consumo de pizza para uma cidade com renda igual a 7.

    ( ) 02100 | XXXYdeestimadorY +===

    1.9.1 Intervalo de confiana para a estimativa mdia de Y, dado X = X0

    ( ) ( )

    =

    mntYXXYEIC :| para %1100

    2;200 e

    += 22

    022 )(1xXX

    nm

    Exemplo 9. Calcular um intervalo com 95% de confiana para o valor mdio de Y, quando X = 100, para a regresso XY 5091,04525,24 += , obtida de uma amostra de 10 observaes, com

    170=X , 000.332 =x e 159,42 2 = .

    22

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1.9.2 Intervalo de confiana para a estimativa individual de Y, dado X = X0

    ( ) ( )

    =

    intYXXYIC :| para %1100

    2;200 e

    ++= 22

    022 )(11xXX

    ni

    Exemplo 10. Calcular um intervalo com 95% de confiana para o valor individual de Y, quando X = 100, para a regresso do Exemplo 9.

    Alguns cuidados em relao previso:1. Quanto mais afastados da mdia dos valores observados na amostra for a estimativa,

    menos preciso haver.

    2. Ao extrapolar as estimativas para valores fora do intervalo dos dados amostrais, no existem garantias de que a relao entre as variveis manter o mesmo padro observado na amostra.

    Exerccio 9. Calcular os intervalos com 90% de confiana para a estimativa mdia e individual de Y dado que X = 10 para os dados do Exerccio 1.

    23

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1.10 Anlise de Varincia ANOVA

    Um mtodo complementar para o estudo da anlise de regresso a anlise de varincia. A ANOVA verifica se o modelo estimado possui algum grau de explicao sobre a varivel resposta. No caso de apenas duas variveis (ou seja, MRLS), esse mtodo equivalente ao teste t para testar se o coeficiente angular do modelo nulo, isto :

    =

    0:0:

    21

    20

    HH

    Como j mencionado, possvel particionar as somas de quadrados da seguinte forma:( ) ( ) ( ) += 222 iiii YYYYYY

    SQT = SQE + SQR

    Ou seja:SQT: soma de quadrados total, com (n-1) g.l.;SQE: soma de quadrados explicada pela regresso, com 1 g.l.;SQR: soma de quadrados dos resduos, com (n-2) g.l..

    As somas de quadrados tambm podem ser calculadas atravs das seguintes expresses:( ) == 22 ii yYYSQT( ) == 2222 ii xYYSQE ( ) ( )

    ==== 22

    2222

    222 xxy

    yxyeYYSQR iii

    A ANOVA utiliza essa relao entre as somas de quadrados geralmente resumida e analisada atravs da seguinte tabela:

    ANOVACausas de Variao GL SQ QM F

    Devida regresso 1 222 ix1

    222

    =ixQME

    QMRQME

    Devido aos resduos n-2 2ie 22 2

    =

    =n

    eQMR i

    Total n-1 2iy

    O valor da estatstica F tem 1 g.l. no numerador e n-2 g.l. no denominador, ou seja: F ~ F(1;n-2)

    Regra de deciso: Se ( )2;1; > nFF , rejeita-se H0, caso contrrio no se rejeita.

    No caso de apenas duas variveis, deve-se observar que a relao entre as estatsticas t e f ft =2 .

    Exemplo 11. Utilizando os dados do Exemplo 1, construa a tabela da anlise de varincia e analise os resultados, considerando um nvel de significncia de 5%.

    24

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    1.10.1 Teste de significncia para o coeficiente de determinao

    Alternativamente, pode-se observar que o teste F para testar a significncia global do modelo tambm pode ser visto como um teste de significncia para o coeficiente de determinao r2, isto , se o coeficiente de determinao nulo ou no:

    20

    21

    : 0

    : 0

    HH

    =

    Atravs de manipulaes algbricas, a tabela ANOVA pode ser re-escrita em termos desse coeficiente da seguinte forma:

    ANOVACV GL SQ QM F

    Regresso 1 ( ) 22 iyr ( ) 122 iyr ( )( )22

    12r

    rn

    Resduos n-2 ( )( ) 221 iyr ( )( ) ( )21 22 nyr iTotal n-1 2iy

    Exemplo 12. Refazer a tabela de anlise de varincia do exemplo 11 em termos do coeficiente de determinao.

    25

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exerccio 10. a) Faa a ANOVA para os dados do Exerccio 1 e analise os resultados.b) Refaa a ANOVA em termos do coeficiente de determinao e compare os resultados com o item a).

    1.11 Regresso pela origem

    Em algumas situaes, a FRP de duas variveis assume a seguinte forma:iii eXY += 2

    Nesse modelo, o termo do intercepto est ausente ou nulo. Aplicando ento o mtodo de MQO, obtemos as seguintes frmulas para 2 e sua varincia:

    = 22

    XXY , = 2

    22

    2 X

    , 1

    2

    2

    =n

    e ,

    ( ) = 2

    222

    XXY

    Ye

    A primeira diferena entre o modelo de regresso pela origem e o modelo com intercepto que as frmulas para o primeiro envolvem somas brutas das variveis, e no no formato desvio.

    A segunda diferena so os graus de liberdade, que passam a ser n 1.Outra diferena que, no modelo com intercepto 0 = ie , j na regresso pela origem,

    isto nem sempre acontece.Alm disso, o r2 conforme definido anteriormente pode ser negativo nos modelos com

    intercepto ausente. Portanto, ele no pode ser usado diretamente nesse caso e tambm necessrio ajustar os clculos, obtendo o que se chama de r2 bruto, definido como:

    ( )

    = 22

    22

    YXXY

    rbruto .

    O r2 bruto est sempre entre 0 e 1, mas no pode ser comparado diretamente ao valor do r2 convencional.

    Em decorrncia das caractersticas especiais deste modelo, preciso ter grande cautela ao empreg-lo. A menos que exista uma expectativa a priori muito forte, seria prefervel ater-se ao modelo com intercepto.

    Exemplo 13. Ajustar o modelo de regresso pela origem aos dados do Exemplo 1, calcular o r2 bruto e testar a hiptese de que existe influncia linear de X em Y, para uma significncia de 5%.

    26

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exerccio 11. Ajustar o modelo de regresso pela origem aos dados do Exerccio 1, calcular o r2 bruto e testar a hiptese de que existe influncia linear de X em Y, para uma significncia de 5%.

    1.12 Formas funcionais dos modelos de regresso

    Trabalhamos at agora com um modelo linear nos parmetros e nas variveis. Entretanto, alguns modelos de regresso bastante usados no so lineares nas variveis, mas o so nos parmetros. Esses modelos podem ser tornados lineares por meio de transformaes nas variveis.

    1.12.1 Modelo Log-Linear ou Log-LogModelo de Regresso Exponencial:

    ( )iii eXY exp21 =Este modelo pode ser expresso como:

    ( ) ( ) ( ) iii eXY ++= lnlnln 21 Se escrevermos ( )1ln = , temos o modelo log-linear, que linear nos parmetros mas no

    nas variveis:( ) ( ) iii eXY ++= lnln 2

    Se fizermos, ( )ii YY ln* = e ( )ii XX ln* = , teremos o MRLS iii eXY ++= *2* , que pode ser estimado por MQO.

    A utilidade desse modelo que 2 mede a elasticidade de Y em relao a X, isto , a variao percentual de Y correspondente a variao de 1% em X. Assim, se Y representa a quantidade demandada de um bem e X seu preo unitrio, 2 mede a elasticidade preo da demanda.

    Desenhos:

    No modelo de 2 variveis, para verificar se o modelo log-linear se ajusta aos dados, traa-se o diagrama de disperso de ( )iYln contra ( )iXln e verifica-se se os pontos se aproximam de uma reta.

    1.12.2 Modelos semilogartmicos Log-Lin e Lin-Log

    - Modelo Log-LinMuitas vezes interessante conhecer a taxa de crescimento de algumas variveis como

    populao, PNB, etc. Imagine que desejamos conhecer a taxa de crescimento de uma populao no perodo t. Denotemos por tY a populao no final do perodo e 0Y no incio do perodo.

    27

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Recordando a frmula de juros compostos, temos que:( ) tt rYY += 10

    Onde r a taxa de crescimento de Y. Aplicando-se o logaritmo natural nos 2 lados da equao temos que:

    ( ) ( ) ( )rtYYt ++= 1lnlnln 0Agora, fazendo ( )01 ln Y= e ( )r+= 1ln2 , temos:

    ( ) tYt 21ln += .Incluindo o termo de erro temos o modelo log-lin:

    ( ) tt etY ++= 21ln que pode ser analisado por MQO fazendo-se ( )tt YY ln* = .

    Se multiplicarmos 2 por 100 temos a taxa de crescimento de Y.- Modelo Lin-Log:

    No modelo anterior (Log-lin) queremos conhecer o crescimento percentual de Y para uma variao absoluta em X. O modelo Lin-log serve para conhecermos a variao absoluta em Y para uma variao percentual em X. Assim,

    ( ) iii eXY ++= ln21 que pode ser analisado por MQO fazendo-se ( )ii XX ln* = .

    Dividindo-se 2 por 100 tem-se a variao absoluta de Y dada uma variao de 1% em X.Uma das aplicaes deste modelo so os modelos de despesas de Engel, que verificou que

    o total de despesas com alimentao tende a aumentar em PA enquanto as despesas totais aumentam em PG.

    1.12.3 Modelos Recprocos (Inversos)So do tipo:

    ii

    i eXY +

    +=1

    21

    Se fizermos

    =

    ii X

    X 1* , podemos utilizar MQO.

    Este modelo pode assumir formas como (desenhos):

    28

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Como ilustrao pode-se pensar em ajustar um modelo onde a varivel dependente mortalidade infantil de vrios pases, e a varivel independente o PNB per capita de cada um. Espera-se que, quanto maior o PNB per capita, menor a mortalidade, mas esta relao no uma linha reta. Quando PNB aumenta, no incio h uma reduo substancial da mortalidade, mas depois a queda ameniza.

    Uma das aplicaes deste modelo a curva de Phillips, da macroeconomia.

    Exemplo 14: Na tabela a seguir, tem-se parte de um conjunto de dados que mostra as despesas com servios por trimestre, no perodo de 1993 at o 3 trimestre de 1998.

    Ano-trimestre t Desp. Serv. (Y) Y*=ln(Y)1993-I 1 2445,3 7,8021993-II 2 2455,9 7,8061993-III 3 2480,0 7,8161993-IV 4 2494,4 7,822

    ... ... ... ...1998-I 2

    12829,3

    7,9481998-II 2

    22866,8

    7,9611998-III 2

    32904,8

    7,974

    Ajustar um modelo log-lin onde a varivel independente t, e a varivel dependente Y o mesmo que ajustar um MRLS onde a varivel independente t e a varivel dependente Y*.

    Fazendo isso se obtm a equao tYt 00743,07890,7 * += , isso indica que em um perodo que vai do 1 trimestre de 1993 at o 3 trimestre de 1998, as despesas com servios aumentaram a uma taxa trimestral de 0,743%.

    Exerccio 15. Os dados a seguir mostram as despesas com propaganda (X), expressas em percentagem das despesas totais, e o lucro operacional lquido (Y), expresso em percentagem do total de vendas, em uma amostra de seis drogarias.

    X Y1,5

    3,6

    1,0

    2,8

    2,8

    5,4

    0,4

    1,9

    1,3

    2,9

    2,0

    4,3

    a) Ajuste a reta de mnimos quadrados que permita predizer o lucro operacional lquido em termos das despesas com propaganda.

    29

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    b) Calcule o coeficiente de correlao e interprete.c) Qual o grau de ajuste do modelo? Interprete.d) Teste a hiptese nula 2 1,6 contra a hiptese 2 < 1,6, ao nvel de 0,01 de significncia.e) Construa um intervalo de 99% de confiana para 2.f) Construa um intervalo de 90% de confiana para a varincia residual.g) Construa um intervalo de 95% de confiana para o lucro operacional lquido mdio quando as despesas com propaganda so de 2,5% da despesa total.h) possvel utilizar o modelo ajustado para prever o lucro quando as despesas so iguais a 5%? i) Ajuste um modelo de regresso que passe pela origem do sistema coordenado.

    30

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    2 MODELO DE REGRESSO LINEAR MLTIPLA (MRLM)

    A teoria econmica raramente simples a ponto de explicar o comportamento da varivel de interesse com base na informao de apenas uma outra varivel explicativa. Dessa forma, ampliaremos o que j foi discutido para o caso de mais de uma varivel independente. O mais simples caso de regresso mltipla possui trs variveis, sendo duas explicativas e uma resposta, de forma que a FRP do modelo de trs variveis dada por:

    1 2 2 3 3i i i iY X X e = + + +

    Generalizando quando temos k variveis:

    ikikiii eXXXY +++++= 33221 , com i = 1, 2, ..., n.

    Nesse modelo:- As k-1 variveis explicativas so X2, X3, ..., Xk, e Y a varivel dependente ou explicada;- Os ei so os erros aleatrios (resduos) que seguem as hipteses clssicas;- 1 o intercepto;- Os coeficientes parciais de regresso, desconhecidos, so 2, 3, ..., k.

    2.1 Significado dos parmetros do modelo- 1 o valor mdio de Y quando X2 = X3 = ... = Xk = 0- 2, 3, ..., k: i mede a variao de Y, por uma unidade de variao em Xi, mantendo-se as demais variveis constantes (ceteris paribus).

    2.2 Notao matricial do MRLMA grande vantagem da lgebra matricial sobre a lgebra escalar que ela oferece um mtodo

    compacto para lidar com modelos de regresso envolvendo qualquer nmero de variveis; uma vez formulado o modelo, a soluo se aplica a uma, duas ou qualquer nmero de variveis.

    Seja a FRP para o modelo de k variveis. Essa equao uma expresso abreviada do seguinte conjunto de n equaes:

    1131321211 eXXXY kk +++++= 2232322212 eXXXY kk +++++=

    ...nknknnn eXXXY +++++= 33221

    Em notao matricial, esse conjunto pode ser escrito como:

    eXY

    +

    =

    nkknn

    k

    k

    n e

    ee

    XX

    XXXX

    Y

    YY

    2

    1

    2

    1

    2

    222

    121

    2

    1

    1

    11

    Assim, a FRP sob a forma matricial ento representada por:

    31

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    eXY +=

    onde:Y: o vetor coluna de dimenso (n x 1) de valores observados;X: a matriz (n x k) de valores observados para as variveis explicativas; : o vetor (k x 1) de parmetros desconhecidos;e : representa o vetor (n x 1) de perturbaes (erros) aleatrias.Obs: as notaes negrito representam formas matriciais.

    2.3 Premissas do MRLM[1]: eXY += ;[2]: 0)( =eE ;[3]: nIee

    2)'( =E , sendo In a matriz identidade de ordem n (hiptese de ausncia de heteroscedasticidade ou autocorrelao serial);

    )'(eeE a chamada matriz de varincias e covarincias dos resduos aleatrios. Os elementos na diagonal principal dessa matriz so as varincias, e os elementos fora da diagonal principal so as covarincias.[4]: a matriz X no aleatria, isto , consiste em um conjunto de nmeros fixos;[5]: a raiz caracterstica, ou posto de X k < n (hiptese de ausncia de multicolinearidade);

    Isto significa que as colunas da matriz X so linearmente independentes, ou seja, no h uma relao linear exata entre as variveis X.[6]: para realizarmos inferncias, necessrio supor que ( )nIe 2;0~ N .2.4 Mtodo dos mnimos quadrados ordinrios (MQO)

    Seja a FRA de k variveis:iiikikiii eYeXXXY 33221 +=+++++= ,

    que pode ser escrita em notao matricial como:eYeXY +=+= .

    Da mesma forma que no modelo de duas variveis, os estimadores de MQO podem ser obtidos atravs da minimizao da soma dos quadrados dos resduos, isto :

    ( ) = 2332212 kikiiii XXXYe .Em notao matricial, isto equivale a minimizar e'e , pois:

    [ ] =+++=

    =

    2222

    in21

    n

    2

    1

    n21 eeee

    e

    ee

    eee

    e'e

    A aplicao desse mtodo conduz ao vetor de estimadores de mnimos quadrados dos coeficientes de regresso:

    32

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    ( ) YXXX '' 1=

    As matrizes XX' e YX' so dadas por:

    =

    232

    323323

    232222

    32

    kikiikiiki

    kiiiiii

    kiiiiii

    kiii

    XXXXXX

    XXXXXXXXXXXX

    XXXn

    XX' e

    =

    iki

    ii

    ii

    i

    YX

    YXYX

    Y

    3

    2

    'YX .

    Obs: Mtodos para inverter uma matriz1) Cofatores

    Queremos determinar a inversa da matriz A, ou seja, A-1. Para isso devemos fazer:1. Achar o det(A);2. Obter a matriz de cofatores C, lembrando que: ( ) ijjiij Mc += 1 , onde Mij o menor do

    elemento da linha i e coluna j, obtido suprimindo-se a linha i e coluna j.3. Fazer a transposta da matriz de cofatores, C;4. Dividir cada elemento de C por det(A).

    Em resumo: 'Cdet(A)1A 1 = .

    2) EscalonamentoEscreve-se a matriz identidade do lado da matriz que se quer inverter. Fazem-se operaes

    lineares nas linhas at que a primeira matriz se torne a identidade.

    2.4.1 Varincias dos estimadores de MQODemonstra-se que ( ) ( ) 12 = XX' Var ,

    que a matriz de varincias e covarincias dos estimadores de MQO, que s e conhecida se 2 for conhecido.

    Entretanto, a varincia residual pode ser estimada por:

    knkn

    =

    =

    YX''YY'e'e 2 ,

    onde = 2iYYY' .Assim, as varincias estimadas dos estimadores de MQO so:

    iiai22

    = ,onde iia o elemento da linha i, coluna i, da matriz ( ) 1XX' .

    Demonstra-se que o vetor um estimador linear, no-tendencioso e de varincia mnima.

    33

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exemplo 1. Uma empresa de tele-entrega quer estimar o tempo que seus funcionrios devem levar at que retornem com uma lista de tarefas concluda. Assim, coletou o tempo de viagem (Y), a quantidade de km percorridos (X2) e o nmero de entregas (X3) de cinco de seus moto-boys. Com os dados a seguir, estime o modelo de regresso linear mltipla, bem como os erros-padro dos estimadores.

    i Y X2 X3 Y X2 X3 X2Y X3Y X2X31 9,3 100 42 4,8 50 33 8,9 100 44 6,5 100 25 4,2 50 2

    Total

    34

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exerccio 1. Seja a amostra abaixo. Estime o MRLM de trs variveis, bem como as varincias e erros-padro dos estimadores.

    Y X2 X35 1 16 2 17 3 28 4 28 5 2

    2.5 Coeficiente mltiplo de determinao: R2No modelo de k variveis, o coeficiente de determinao mede a proporo da variao em

    Y explicada conjuntamente por todas as variveis X. Assim, no MRLM o coeficiente mltiplo de determinao R2 definido como:

    SQTSQR

    nSQTSQE

    nnR =

    ==

    = 1'

    1'''

    22

    22

    YYYee'

    YYYYYX

    Obs.: No modelo de duas variveis definimos o coeficiente de correlao (r) como uma medida do grau da relao entre as variveis. No caso de trs ou mais variveis, h um coeficiente anlogo, o coeficiente de correlao mltipla ( 2RR = ), que mede a associao entre Y e todas as variveis explanatrias em conjunto. Embora r possa ser positivo ou negativo, R sempre ser positivo (pois nem todas as variveis explicativas podem ter relao no mesmo sentido com a varivel resposta). Na prtica, porm, R tem pouca importncia. A quantidade mais significativa R2.

    2.6 Coeficiente mltiplo de determinao ajustado: 2RUma propriedade importante do R2 que ele uma funo no-decrescente do nmero de

    variveis explicativas. O R2 quase invariavelmente aumenta e nunca diminui quando o nmero de regressores aumenta.

    Em vista disto, ao comparar dois modelos de regresso com a mesma varivel dependente, mas com nmero diferente de variveis X, deveramos escolher o modelo com o R mais alto. Para comparar dois termos R, preciso levar em conta o nmero de variveis X presentes no modelo. Isto pode ser feito se considerarmos o coeficiente mltiplo de determinao ajustado, que dado por:

    ( )kn

    nR

    nSQT

    knSQR

    R

    =

    =

    111

    1

    1 22

    O 2R pode ser negativo, e neste caso, na prtica, seu valor ser tomado como zero.

    Obs.: o 2R , no a nica forma de correo do R2 e nem a nica medida para julgar a adequao de um modelo de regresso, outras medidas conhecidas so o R2 Modificado, o critrio de Informao de Akaike e os critrios de Predio de Amemiya.

    Exemplo 2. Clculo do R2, 2R para os dados do Exemplo 1.

    35

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exerccio 2. Clculo do R2, 2R para os dados do Exerccio 1.

    2.7 Coeficiente de correlao parcialNa regresso linear mltipla, podemos ter um coeficiente de correlao para cada par de

    variveis do modelo. Por exemplo, no modelo de trs variveis, tm-se r12, r13 e r23. Esses coeficientes so denominados de coeficientes de correlao simples, ou de ordem zero. Eles podem ser calculados conforme a frmula: ( )( )

    ( ) ( ) ]][[ 222222

    ==

    YYnXXn

    YXXYn

    yx

    xyr

    Seja o coeficiente r12. Ele no refletir o verdadeiro grau de associao entre Y e X2 na presena de X3, pelo fato que X3 provavelmente influencia em Y e X2. Para obter um coeficiente de correlao que reflita o verdadeiro grau da relao entre duas variveis na presena das demais, necessrio manter a influncia das demais variveis constante. Assim, no modelo com trs variveis, denota-se:

    r12.3: coeficiente de correlao parcial entre Y e X2, mantendo X3 constante;r13.2: coeficiente de correlao parcial entre Y e X3, mantendo X2 constante;r23.1: coeficiente de correlao parcial entre X2 e X3 mantendo Y constante.

    As frmulas de clculo so:

    ( )( )223213231312

    3.1211 rr

    rrrr

    = ; ( ) ( )13 12 23

    13.22 2

    12 231 1

    r r rrr r

    =

    e ( )( )213212131223

    1.2311 rr

    rrrr

    =

    r12.3, r12.3 e r12.3 so os coeficientes de primeira ordem. Se houvessem mais variveis no modelo, ocorreriam tambm coeficientes de correlao de segunda ordem (r12.34), terceira ordem (r12.345) e assim por diante.

    36

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    2.8 Coeficiente de determinao parcial

    Os coeficientes de determinao parciais expressam o grau de explicao que cada varivel exerce sobre as demais, mantendo constante todos os outros fatores, ou seja:

    23.12r : o coeficiente de determinao parcial entre Y e X2 a proporo da variao em Y

    no explicada pela varivel X3 que foi explicada pela incluso de X2 no modelo.Os coeficientes de determinao parciais so obtidos simplesmente tomando-se o quadrado

    dos coeficientes de correlao parciais correspondentes.Existe as seguintes relaes entre esses coeficientes e R:

    223

    2313122

    132

    122

    12r

    rrrrrR

    +=

    ( ) 2 2.132122122 1 rrrR += ( ) 2 3.122132132 1 rrrR +=Ento, 212

    2 rR > desde que 02 2.13 >r . Ou seja, R2 sempre cresce com a incluso de uma nova varivel, a menos que 02 2.13 =r , onde teramos 212

    2 rR = .

    Exemplo 3. Dados r12 = 0,8822, r13 = 0,8089 e r23 = 0,4564 para o Exemplo 1, calcular e interpretar os coeficientes de determinao parciais.

    Exerccio 3. Ao se ajustar um modelo de trs variveis, encontrou-se r12 = 0,3048, r13 = 0,1391 e r23=-0,7043. Calcule e interprete os coeficientes de determinao parciais.

    2.9 Intervalo de confiana e teste de significncia individual para os coeficientes de regresso

    Para podermos realizar inferncias, supomos que ( )nIe 2;0~ N . Isso implica que, sob as hipteses clssicas, tem distribuio normal multivariada, isto :

    ( )( )12;~ XX' N

    37

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    E cada i tem distribuio marginal tambm normal:( )iiii a;~N 2com aii sendo o elemento da i-sima linha e i-sima coluna de (XX)-1.

    Sendo 2 desconhecido, tem-se que:

    ( )knii tt

    i

    = ~

    *

    com iiai22

    = e iiai2

    = .Assim, o intervalo de confiana para cada coeficiente de regresso dado por:

    ( )

    ikniitparaIC

    2;

    :%1100

    Alm disso, utilizamos o procedimento idntico do teste de hipteses para o modelo de duas variveis para testar a significncia individual dos coeficientes.

    Por exemplo, seja o modelo de 3 variveis. Poderia ser interessante testar as hipteses

    =

    0:0:

    21

    20

    HH

    .Neste caso, estaramos avaliando se X2 tem alguma influncia linear sobre Y, mantendo-se

    X3 constante.A tabela abaixo nos d a rea de rejeio de cada teste:

    Tipo de hiptese H0 H1 Deciso: rejeitar H0 se

    Bicaudal *0 : iiH = *1 : iiH 2;

    kntt

    >

    Cauda direita *0 : iiH *1 : iiH > ;kntt >Cauda esquerda *0 : iiH *1 : iiH < ;kntt ;1; , rejeita-se H0, caso contrrio no se rejeita.

    Pode-se reescrever a tabela de ANOVA em termos do coeficiente mltiplo de determinao, R:

    CV GL SQ QM F

    Regresso k-1 ( )22 ' YnR YY1k

    SQE ( )( )( )2

    2

    11 RkRkn

    Resduos n-k ( )( )22 '1 YnR YYkn

    SQR

    Total n-1 2' YnYY

    39

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Novamente, a ANOVA serve para testar tambm as hipteses:2

    02

    1

    : 0

    : 0

    HH

    =

    onde 2 o coeficiente mltiplo de determinao populacional.

    Exemplo 5. Construir a ANOVA, estabelecer as hipteses e proceder ao teste F, a 5% de significncia, para os dados do Exemplo 1.

    Exerccio 5. Construir a ANOVA, estabelecer as hipteses e proceder ao teste F, a 5% de significncia, para os dados do Exerccio 1.

    40

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    2.12 Contribuio marginal ou incremental de uma varivel explicativa

    Seja um modelo de trs variveis. Imagine que faamos a incluso seqencial de X2 e X3, isto , primeiro fazemos a regresso entre Y e X2 e avaliamos sua significncia e ento acrescentamos X3 ao modelo para verificar se este contribui com algo (obviamente, a ordem de entrada pode ser invertida). Com contribuio, queremos dizer que desejamos saber se a incluso da varivel no modelo aumenta a SQE (e, por conseqncia, R) significativamente em relao SQR. Essa a contribuio marginal ou incremental de uma varivel explicativa.

    A questo da contribuio marginal importante na prtica. Na maioria das pesquisas, o pesquisador pode no estar totalmente convencido de que valha a pena acrescentar uma varivel X ao modelo sabendo que vrias outras variveis X j esto presentes no modelo. No se quer incluir variveis que contribuam muito pouco para a SQE. Contudo, tambm no se quer excluir variveis que aumentem substancialmente a SQE. Mas como decidir se uma varivel X reduz significativamente a SQR? A tcnica da ANOVA pode ser empregada para responder essa pergunta.

    Primeiramente, fazemos a regresso entre Y e X2, produzindo a tabela de ANOVA abaixo:

    CV GL SQ QMRegresso (devido a X2) 1 Q1=SQE QME

    Resduos n-2 SQR QMRTotal n-1 SQT

    Aps, acrescentamos X3, e produzimos outra tabela de ANOVA:

    CV GL SQ QMRegresso (devido a X2 e X3) 2 Q3=SQE QME

    Resduos n-3 Q4=SQR QMRTotal n-1 Q5=SQT

    Combinando estas duas tabelas, obtemos:

    CV GL SQ QM FRegresso (devido a X2) 1 Q1 Q1 /1Regresso (devido a X3) 1 Q2 = Q3 Q1 Q2 /1 (n-3)Q2 /Q4

    Regresso (devido a X2 e X3) 2 Q3 Q3 /2Resduos n-3 Q4 = Q5 Q3 Q4 /(n-3)

    Total n-1 Q5

    A estatstica F segue distribuio F com 1 e n-3 graus de liberdade. Se seu valor for maior que ( )3;1; nF , conclumos que o acrscimo de X3 ao modelo aumenta significativamente a SQE, e portanto, R. Assim, deve-se acrescentar X3 ao modelo.

    Este teste tambm poderia ser reformulado em termos dos valores R:

    ( )( ) ( )modelonovodoparmetrosdennR

    sregressorenovosdenRRFnovo

    velhonovo

    = 2

    22

    1.

    41

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Observao: o mesmo procedimento poderia ser usado para testar a adio de um grupo de variveis simultaneamente, com as devidas correes dos graus de liberdade.

    42

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exemplo 6. Para se estudar o comportamento do consumo pessoal nos EUA em certo perodo, observou-se as variveis despesa de consumo pessoal (Y), renda pessoal disponvel (X2) e tempo medido em anos (X3). Observou-se 15 anos (1956 a 1970).

    Primeiramente, regrediu-se Y contra X2, obtendo-se os seguintes resultados:

    ( ) ( )9977,09978,0

    2982,777259,28812,0762,12 2

    ==

    =

    +=

    RRt

    XY ii

    CV GL SQ QM FRegresso 1 65898,2353 65898,2353 5947,494Resduos 13 144,0340 11,0800

    Total 14 66042,2693

    Ao se incluir X3 no modelo, obteve-se:

    ( ) ( ) ( )9986,09988,0

    2246,39060,140811,47363,27266,01603,53 32

    ==

    =

    ++=

    RRt

    XXY iii

    CV GL SQ QM FRegresso 2 65965,1000 32982,5500 5129,319Resduos 12 77,1693 6,4302

    Total 14 66042,2693

    Testar se vale a pena acrescentar X3 ao modelo, para 5% de nvel de significncia.

    43

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exemplo 7. Seja um conjunto de dados com 20 observaes e 3 variveis independentes (X2, X3 e X4). Em um primeiro momento, ajustou-se a regresso entre Y e X2, obtendo-se R = 0,7111. Aps, ajustou-se o modelo com todas as variveis independentes, obtendo-se R = 0,7913. Testar se o acrscimo de X3 e X4 aumentou significativamente a SQE, a 5%.

    Exerccio 6. Com os dados do Exemplo 1, construa a tabela ANOVA para analisar se a incluso de varivel X3 na regresso que j possui X2 significativa a 5% e interprete o resultado.

    2.13 Previso no MRLM

    No contexto de previso de valores da varivel dependente, temos novamente 2 tipos de previso: mdia e individual.

    Dado o vetor de valores das variveis X para os quais queremos prever Y:[ ]kXXX 00302'0 1 =X ,

    desejamos preverkk XXXY 003302210 ++++=

    que, na forma matricial, o mesmo queX'0 0 =Y .

    Este o valor estimado para Y tanto na previso mdia como individual. A diferena est nas varincias para os dois tipos de previso:

    Previso da mdia: ( ) 00 XXXX 1'22 ' =mPreviso individual: ( )[ ]00 XXXX 1'22 '1 += i

    Conseqentemente, os intervalos de confiana para essas previses, so:

    IC para previso mdia: ( ) ( )

    =

    mkntYXXYEparaIC :|%1100

    2;00

    IC para previso individual: ( )

    =

    ikntYXXYparaIC :|%1100

    2;00

    44

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exemplo 8. No Exemplo 1, a empresa quer saber quanto tempo deveria esperar em mdia para que um moto-boy retorne de uma tarefa com 3 entregas e 80km a percorrer. Calcule o IC 99% para E(Y|X=X0).

    Exerccio 7. Para o Exemplo 1, construa um intervalo com 95% de confiana para o tempo mdio que a empresa deve esperar no caso de um moto-boy sair com 4 entregas e 70km a percorrer.

    2.14 Modelo de regresso polinomial

    Suponha que desejamos relacionar custo marginal de produo (Y) com quantidade produzida (X). Poderamos ajustar uma parbola a esta relao, como abaixo:

    O modelo que expressa essa relao dado por:iiii eXXY +++=

    2210 ,

    que a regresso polinomial de 2 grau, e pode ser ajustada normalmente por MQO.A forma geral da regresso polinomial de k-simo grau :

    ikikiii eXXXY +++++= 2210

    45

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    2.15 Variveis Dummies

    Na anlise de regresso, a varivel dependente, que de natureza quantitativa, influenciada por variveis independentes quantitativas, mas tambm por outras que so de natureza qualitativa, ou nominal, como sexo, raa, cor, religio, nacionalidade, regio geogrfica, etc. Uma maneira de inserir essas variveis no modelo de regresso atravs das variveis dummies.

    As variveis dummies so tambm chamadas de variveis indicadoras, binrias, categricas, qualitativas ou dicotmicas, e seus valores so geralmente codificados como 0 e 1.

    2.15.1 Regresso somente com variveis dummies (Modelos ANOVA)Um modelo de regresso pode conter regressores que sejam de natureza exclusivamente

    binria.Como um exemplo, considere o seguinte modelo:

    iii eDY ++= 221

    Onde: Y: salrio anual de um professor universitrio;

    =

    femininosexodosemasculinosexodose

    D i ,0,1

    2

    Este modelo nos permite saber se o sexo faz alguma diferena no salrio dos professores universitrios, obviamente desconsiderando a influncia de variveis como idade, cursos de ps-graduao e anos de experincia. Fazendo as suposies clssicas sobre os resduos, obtm-se que:

    Salrio mdio professora: ( ) 12 0| ==ii DYESalrio mdio professor: ( ) 212 1| +==ii DYE

    O coeficiente 2 ser a diferena de salrio dos homens em relao s mulheres, por isso chamado de coeficiente diferencial de intercepto, e o teste para verificar se h diferena nos salrios mdios para homens e mulheres :

    =

    0:0:

    21

    20

    HH

    que pode ser verificado pelo teste t usual.

    Exemplo 9. Sejam os dados hipotticos dos salrios de 10 professores universitrios, e o sexo de cada um.

    Y D Y D YD22 1 484 1 2219 0 361 0 018 0 324 0 0

    21,7 1 470,89 1 21,718,5 0 342,25 0 021 1 441 1 21

    20,5 1 420,25 1 20,517 0 289 0 0

    46

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    17,5 0 306,25 0 021,2 1 449,44 1 21,2

    196,4 5 3888,08 5 106,4

    Estimar o modelo, e testar se existe diferena nos salrios mdios entre os sexos, a 5%.

    Para se inserir uma varivel qualitativa com mais de duas categorias, deve-se criar mais de uma varivel dummy. Por exemplo, suponha que se queira verificar se existe diferena entre os salrios dos professores segundo o nvel de ps-graduao (mestrado, doutorado e ps-doutorado). O modelo seria:

    iiii eDDY +++= 33221

    Onde: Y: salrio anual de um professor universitrio;

    =

    ..,0,1

    2 ccdoutoradose

    D i e

    =

    ..,0,1

    3 ccdoutoradopsse

    D i

    Observe que assim, a categoria mestrado j est expressa nas duas variveis dummies, sendo que o valor correspondente a essa categoria o par (0,0), por isso ela chamada de categoria de referncia.

    47

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    48

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Observaes no uso de variveis dummies:- Se uma varivel qualitativa tem m categorias, devemos introduzir no modelo m 1 variveis dummies;- A categoria para o qual no se designa uma varivel binria a categoria de referncia e todas as comparaes so feitas em relao a ela; - O valor do intercepto o valor mdio da categoria de referncia;- Os coeficientes angulares, chamados de coeficientes diferencias de intercepto, do a diferena da categoria que recebe valor 1 em relao a categoria de referncia;- A categoria de referncia arbitrria ao pesquisador, deve-se estar atento na hora das interpretaes.

    Tambm se pode ter mais de uma varivel qualitativa no mesmo modelo.

    Exemplo 10. A partir de uma amostra de 528 americanos, foi calculada uma regresso com os seguintes resultados.

    0006,00182,00000,04462,33688,29528,21

    4854,04642,04015,06729,10997,18148,8 32

    =

    =

    =

    +=

    ptep

    DDY iii

    Onde Y=salrio-hora em $;

    =

    ..,0,1

    2 cccasadose

    D i e

    =

    ..,0,1

    3 ccSulnomorase

    D i . Interpretar os resultados.

    2.15.2 Regresso com variveis quantitativas e dummies (Modelos ANCOVA)De modo geral, na maioria dos estudos econmicos, um modelo de regresso contm

    algumas variveis explanatrias quantitativas e outras qualitativas. Ainda considerando o exemplo dos salrios dos professores universitrios, suponha que

    temos tambm uma varivel quantitativa. Assim:Y: salrio anual de um professor universitrio;X: anos de experincia;

    49

  • 21,0,i

    mulherD

    homem

    = 31,0, .i

    ensino superiorD

    c c

    =

    MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    =

    femininosexodosemasculinosexodose

    Di ,0,1

    .

    Queremos investigar um modelo de regresso do tipo:iiii eXDY +++= 321

    Nesse caso, temos o salrio mdio de professores de ambos os sexos so:Salrio mdio professora: ( ) iiii XDXYE 310,| +==Salrio mdio professor: ( ) ( ) iiii XDXYE 3211,| ++==Graficamente:

    Exemplo 11. Suponha que voc gostaria de regredir despesas anuais com sade (Y), renda anual (X) e nvel de escolaridade (fundamental, mdio e superior). Como seria o modelo? Faa o grfico.

    2.15.3 Efeitos de interao com o uso de variveis binriasConsidere o problema a seguir, onde possumos uma varivel quantitativa e duas

    qualitativas binrias:iiiii eXDDY ++++= 33221

    Y: despesa anual com roupas;X: renda anual;

    50

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Neste modelo, est implcita a premissa de que o efeito diferencial da varivel binria sexo constante nas duas categorias de escolaridade e que o efeito diferencial da varivel binria escolaridade tambm constante entre os dois sexos. Ou seja, se o gasto anual com roupas maior para mulheres que para homens, isso ocorre sejam elas graduados ou no. Do mesmo modo, se pessoas com ensino superior gastam mais com roupas que as que no possuem, isso se verificar tanto para homens quanto para as mulheres.

    Em muitas aplicaes, premissas desse tipo so insustentveis. Uma mulher graduada pode gastar mais com roupas que um homem graduado. Em outras palavras, pode haver uma interao entre as duas variveis qualitativas. Portanto, seu efeito sobre Y pode no ser apenas aditivo, como no modelo acima, mas tambm multiplicativo, como no modelo a seguir:

    Nesse caso, o modelo com a interao das variveis qualitativas representado por:

    iiiiiii eXDDDDY +++++= 32433221onde,

    2 : efeito diferencial de ser mulher;3 : efeito diferencial de ter nvel superior;4 : efeito diferencial de ser mulher com nvel superior.

    Exemplo 12. Regrediu-se salrios-hora (Y), contra anos de escolaridade (X), sexo (D2, 1 se mulher) e raa (D3, 1 se no branco e no hispnico), para 528 americanos. Os resultados esto abaixo:

    05,0)08,0(05,005,005,005,08028,01289,27327,13606,226100,0 3232

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    2.15.4 O emprego de variveis binrias em anlises sazonaisMuitos dados econmicos so formados a partir de dados mensais ou trimestrais que

    apresentam padres sazonais (movimentos oscilatrios regulares). Exemplos disso so as vendas das lojas no Natal e em outras pocas, a demanda por passagem areas, etc. Atravs das variveis binrias, podemos inserir essa informao no modelo.

    Exemplo 13. Estudaram-se as vendas trimestrais de geladeiras (Y), em milhares de unidades, no perodo de 1978 a 1995 nos EUA. Tambm se observou, em cada trimestre, os gastos com bens durveis (X), em bilhes de dlares. Ajustou-se o seguinte modelo:

    05,005,005,005,005,07734,20804,862643,3254976,2422440,456 432

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exerccio 8: (ANPEC 2003) O mtodo dos mnimos quadrados ordinrios foi empregado para estimar o modelo de regresso abaixo, cujo objetivo explicar as variaes de renda entre 526 indivduos:

    ,526,441,0

    ,00058,0029,0080,0297,0417,0)log(

    2

    2

    )00010,0()005,0()007,0()036,0()099,0(

    ==

    +++=

    nR

    uexperexpereducsexorenda

    em que sexo uma varivel dicotmica (valor 1, se for homem e 0, caso contrrio), educ o nmero de anos de escolaridade, exper experincia profissional, tambm medida em anos. Os nmeros entre parnteses so os erros-padro das estimativas )4.,,.,..1,0( =is

    ib . Com base nos resultados acima, responda V ou F.a) um ano a mais de escolaridade, mantidos constantes todos os demais fatores, aumenta em 0,08% a renda de um indivduo;b) a significncia conjunta das variveis educ e exper no pode ser medida por meio da estatstica t. Para isto, o teste F deve ser utilizado;c) o modelo incapaz de captar diferenas nos retornos da educao entre homens e mulheres;d) a renda dos homens 29,7% menor que a renda das mulheres.

    53

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    3 VIOLAES DAS PREMISSAS DO MODELO DE REGRESSO

    3.1 No-normalidade dos resduos

    Vimos que os testes de hipteses e intervalos de confiana que estudamos somente podem ser aplicados supondo-se normalidade aos resduos. Entretanto, essa suposio deve ser verificada, para se avaliar se essas tcnicas de inferncia podem ser realmente aplicadas ou no.

    3.1.1 Deteco

    Para fazer a verificao da normalidade dos resduos, trs tcnicas so mais conhecidas: histograma dos resduos, grfico de probabilidade normal e testes no-paramtricos.

    - Histograma dos resduos: Trata-se de um simples grfico que usado para conhecer algo da forma da funo de densidade de probabilidade de uma varivel aleatria. No eixo horizontal, dividimos os valores da varivel (no caso, dos resduos) em intervalos adequados e, em cada um, traamos retngulos cuja altura dada pelo nmero de observaes (isto , sua freqncia) nesse intervalo de classe. A partir desse grfico, devemos tentar verificar se a forma de sino na Normal se aproxima da forma encontrada no histograma.

    Exemplos de histogramas gerados pelo Gretl:

    0

    0,05

    0,1

    0,15

    0,2

    0,25

    0,3

    0,35

    0,4

    -3 -2 -1 0 1 2 3

    Densi

    dade

    uhat1

    uhat1N(-2,9886e-016 1,025)

    Estatstica de teste para normalidade:

    Qui-quadrado(2) = 0,943 [0,6241]

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    0,7

    -3 -2 -1 0 1 2 3

    Densi

    dade

    uhat2

    uhat2N(-3,5461e-016 0,9135)

    Estatstica de teste para normalidade:

    Qui-quadrado(2) = 68,648 [0,0000]

    - Grfico de probabilidade normal (ou Q-Q Plot): No eixo vertical, marcamos os valores da varivel que nos interessam (no caso, os resduos) e no eixo horizontal representamos o valor esperado para essa varivel caso ela fosse normalmente distribuda. Se a varivel for, de fato, normalmente distribuda, o grfico tomar a forma de uma reta.

    54

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Exemplos de grficos de probabilidade normal gerados pelo Gretl:

    -3

    -2

    -1

    0

    1

    2

    3

    -3 -2 -1 0 1 2 3

    Quantis normais

    Grfico Q-Q para uhat1

    y = x

    -3

    -2

    -1

    0

    1

    2

    3

    4

    -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5

    Quantis normais

    Grfico Q-Q para uhat2

    y = x

    - Testes no-paramtricos: Existem vrios testes utilizados para verificar se um conjunto de dados normalmente distribudo, e esto disponveis na maioria dos programas estatsticos. Alguns deles so: Anderson-Darlin, Qui-quadrado, Jarque-Bera, Kolmogorov-Smirnov, Lilliefors, Doornik-Hansen e Shapiro-Wilk. A hiptese nula desses testes que os dados provm de uma distribuio normal, contra a alternativa de que os dados no provm de uma distribuio normal.

    Ao pedir esses testes no Gretl, devemos observar se o valor-p menor que o nvel de significncia adotado. Se for, a suposio de normalidade no est satisfeita.

    Exemplo dos testes de Normalidade no Gretl:

    Teste da normalidade de uhat1:

    Teste de Doornik-Hansen = 0,942923, com p-valor 0,62409

    Shapiro-Wilk W = 0,99156, com p-valor 0,78854

    Teste de Lilliefors = 0,0550418, com p-valor ~= 0,64

    Teste de Jarque-Bera = 1,01753, com p-valor 0,601239

    Teste da normalidade de uhat2:

    Teste de Doornik-Hansen = 68,6476, com p-valor 1,23983e-015

    Shapiro-Wilk W = 0,83696, com p-valor 4,02623e-009

    Teste de Lilliefors = 0,15247, com p-valor ~= 0

    Teste de Jarque-Bera = 61,2039, com p-valor 5,12548e-014

    3.1.2 Conseqncias

    J vimos que a premissa de normalidade no essencial se o objetivo for apenas estimar o modelo. Alm disso, demonstra-se que os estimadores de MQO so os melhores estimadores lineares no tendenciosos quer os resduos sejam normais quer no.

    Entretanto, se os resduos no forem normais, os testes e intervalos de confiana baseados nas distribuies t, F e Qui-quadrado sero invlidos.

    3.1.3 Medidas corretivas

    Demonstra-se que, mesmo se os resduos no forem normais, mas forem homocedsticos, os estimadores de MQO seguem distribuio assintoticamente normal. Ou seja, se a amostra for grande, os habituais procedimentos de inferncia ainda so vlidos.

    Infelizmente, no se tem um consenso sobre quo grande uma amostra deve ser para que a normalidade assinttica seja vlida. Alguns autores consideram n = 30 como sendo um tamanho de amostra mnimo satisfatrio.

    55

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Quando no se pode aumentar o tamanho da amostra, existe o recurso de proceder transformaes na varivel Y, como tomar o logaritmo ou a raiz quadrada de Y.

    Exemplo 1. Procedeu-se um estudo sobre gastos com pesquisa e desenvolvimento (PD) e as vendas (VENDAS) de 20 setores industriais dos EUA. Ajustou-se o modelo eVENDASPD ++= 21 no Gretl, os resultados esto abaixo.

    Modelo 1: MQO, usando as observaes 1-20Varivel dependente: PD

    Coeficiente Erro Padro razo-t p-valorConst 192,994 913,97 0,2112 0,83513VENDAS 0,0319003 0,00785265 4,0624 0,00073 ***

    0

    5e-005

    0,0001

    0,00015

    0,0002

    0,00025

    -8000 -6000 -4000 -2000 0 2000 4000 6000 8000

    Densi

    dade

    uhat1

    uhat1N(-4,2633e-014 2601,4)

    Estatstica de teste para normalidade:

    Qui-quadrado(2) = 13,983 [0,0009]

    -6000

    -4000

    -2000

    0

    2000

    4000

    6000

    8000

    -5000 -4000 -3000 -2000 -1000 0 1000 2000 3000 4000 5000

    Quantis normais

    Grfico Q-Q para uhat1

    y = x

    Teste da normalidade de uhat1:

    Teste de Doornik-Hansen = 13,9829, com p-valor 0,000919708

    Shapiro-Wilk W = 0,84162, com p-valor 0,00387022

    Teste de Lilliefors = 0,243594, com p-valor ~= 0

    Teste de Jarque-Bera = 10,3461, com p-valor 0,00566732

    Ajustou-se tambm o modelo ( ) eVENDASPD ++= 21ln , obtendo-se os seguintes resultados:

    Modelo 2: MQO, usando as observaes 1-20Varivel dependente: l_PD

    Coeficiente Erro Padro razo-t p-valorConst 5,88152 0,385208 15,2684

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    0

    0,05

    0,1

    0,15

    0,2

    0,25

    0,3

    0,35

    0,4

    -3 -2 -1 0 1 2 3

    Densi

    dade

    uhat2

    uhat2N(4,4409e-017 1,0964)

    Estatstica de teste para normalidade:

    Qui-quadrado(2) = 1,893 [0,3881]

    -2,5

    -2

    -1,5

    -1

    -0,5

    0

    0,5

    1

    1,5

    2

    2,5

    -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5

    Quantis normais

    Grfico Q-Q para uhat2

    y = x

    Teste da normalidade de uhat2:

    Teste de Doornik-Hansen = 1,89276, com p-valor 0,388144

    Shapiro-Wilk W = 0,93767, com p-valor 0,216583

    Teste de Lilliefors = 0,172371, com p-valor ~= 0,12

    Teste de Jarque-Bera = 1,2612, com p-valor 0,532274

    3.2 Multicolinearidade

    Uma das premissas do modelo de regresso que: no existe multicolinearidade perfeita, ou seja, no h relaes lineares perfeitas entre as variveis explicativas. No caso da regresso com k variveis envolvendo as variveis explanatrias kXXX ,,, 21 (onde 11 =X para todas as observaes a fim de levar em conta o intercepto), diz-se que existe uma relao linear exata se a seguinte condio for atendida:

    02211 =+++ kk XXX ,

    onde os i so constantes tais que nem todas so zero simultaneamente.Entretanto, a multicolinearidade no ocorre apenas com relaes perfeitas, e tambm ocorre

    quando as variveis X so intercorrelacionadas, mas de um modo menos que perfeito, como a seguir:

    02211 =++++ ikk XXX , onde i um erro aleatrio.

    Assim, suponha que a varivel X2 possa ser expressa com um alto grau de explicao por uma composio linear das demais variveis, nesse caso teramos:

    0122

    32

    31

    2

    12 == ik

    kiii XXXX

    O que o mesmo que regredir X2 sobre as demais variveis na forma:

    ikikiii uXXXX +++++= 331212 .

    57

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    Como exemplo numrico, vejamos os seguintes dados hipotticos:

    X2 X3 X410 50 5215 75 7518 90 9724 120 12930 150 152

    Observe que ii XX 23 5= , portanto h colinearidade perfeita entre essas duas variveis, e neste caso o coeficiente de correlao simples igual a 1. A varivel X4 foi criada a partir de X3 simplesmente somando a ele os seguintes nmeros: 2, 0, 7, 9, 2. Assim, no h colinearidade perfeita entre X2 e X4, mas essas duas variveis esto estreitamente relacionadas j que o coeficiente de correlao simples entre elas 0,9959.

    Em modelos de regresso do tipo ikikiii eXXXY +++++= 2210 , a relao existente

    entre as variveis independentes no linear e rigorosamente falando, no viola a hiptese de ausncia de multicolinearidade. Entretanto, em geral observada uma alta correlao entre os regressores.

    Vejamos os diagramas que ilustram os diferentes graus de multicolineridade:

    3.2.1 Conseqncias

    1. Se a multicolinearidade perfeita, os coeficientes da regresso so indeterminados e seus erros-padro so infinitos.

    Para exemplificar, seja um modelo de 3 variveis, e as seguintes observaes:

    Y X2 X3= X210 2 215 3 318 4 430 4 4

    Onde uma constante no nula.

    Nesse caso, a matriz

    =

    45451345451313134

    '

    XX tem determinante:

    ( ) 0760581007605760576058100'det =++= XXe por isso a sua inversa no existe, o que nos impede de estimar o modelo.

    H uma razo intuitiva para isto. Lembrando o significado de 2 : ele nos d a taxa de variao de Y quando X2 varia uma unidade, mantendo-se X3 constante. Mas se as duas variveis independentes foram perfeitamente colineares, no h modo de manter X3 constante: quando X2 variar, X3 tambm o far, a uma taxa de . O que quer dizer, ento, que no h forma de isolar as influncias das duas variveis na amostra dada.

    58

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    2. Se a multicolinearidade imperfeita mas alta, os coeficientes podem ser determinados, e os estimadores MQO ainda possuem a propriedade de melhores estimadores lineares no-viesados. Entretanto, os estimadores MQO tm grandes varincias, o que diminui a preciso na estimao.

    Seja um modelo de regresso mltipla de 3 variveis. Alm da forma matricial de clculo das varincias dos estimadores, tambm pode-se ter as seguintes expresses:

    ( ) = 223222

    2 12 rx i

    e

    ( ) = 223232

    2 13 rx i

    .

    Assim, percebe-se que, quando 23r tende (em termos absolutos) a 1, ou seja, quando a colinearidade entre as variveis X aumenta, as varincias dos dois estimadores aumentam at o limite, que o infinito.

    A velocidade com que as varincias aumentam pode ser mensurada atravs do Fator de Inflao de Varincia (FIV), definido por:

    ( )2231

    1FIV

    r=

    Se no h colinearidade, ento FIV = 1, e quanto maior a colinearidade maior o FIV.A figura abaixo mostra o quanto as varincias dos estimadores aumentam medida que a

    correlao entre as variveis independentes aumenta.

    Para um modelo de k variveis, pode-se escrever as varincias dos coeficientes angulares parciais como:

    ( ) = 222

    2 1 jj Rxj

    ,

    onde 2jR o coeficiente mltiplo de determinao da regresso de jX como varivel dependente e os outros k 2 X como variveis independentes.

    Nesse caso, FIV ser:59

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    ( )211

    jj R

    FIV

    = .

    O inverso do FIV conhecido como Tolerncia (TOL):

    jj FIV

    TOL 1= .

    3. Por causa da conseqncia 2, os intervalos de confiana tendem a ser bastante amplos, levando a no rejeio de 0:0 =iH .

    4. Tambm por causa da conseqncia 2, os testes t de um ou mais coeficientes tendem a ser estatisticamente no significativos.

    5. Apesar das conseqncias 3 e 4, o R pode ser bastante alto.Nessas situaes o R pode ser to alto que, com base no teste F, somos levados rejeio

    da hiptese 0: 320 ==== kH . Na verdade, esse um dos indcios de multicolinearidade: valores t insignificantes, mas um alto R e um valor de F significativo.

    6. As estimativas dos coeficientes e dos erros-padro podem ser muito sensveis a pequenas variaes nos dados.

    Considere a pequena variao nos dados das duas tabelas a seguir:

    Y1 X2 X3 Y2

    X2 X3

    1 2 4 1 2 42 0 2 2 0 23 4 12 3 4 04 6 0 4 6 125 8 16 5 8 16

    Da primeira tabela, obtemos

    )9747,0()1371,0()2628,0(:)0851,0()1848,0()7737,0(:

    003,04463,01939,1 321

    pep

    XXY ++=

    Nesse caso temos tambm que R2 = 0,8101, r23 = 0,5523.Da segunda tabela, temos

    )8491,0()2781,0()2469,0(:)1252,0()2721,0()7480,0(:

    0270,04014,02101,1 322

    pep

    XXY ++=

    sendo observados que R2 = 0,8143, r23 = 0,8285.

    3.2.2 Deteco

    Primeiramente, deve-se ter em mente que a multicolinearidade uma questo de grau, e no de tipo. A distino significativa no entre a presena e ausncia de multicolinearidade, mas entre seus vrios graus. Alm disso, ela uma caracterstica da amostra, e no da populao. Portanto, medimos seu grau em uma amostra especfica.

    60

  • MAT02207 Estatstica Econmica Prof. Vanessa Leotti

    No h um mtodo nico para detectar multicolinearidade, e sim algumas regras prticas.

    1. R alto, mas poucas razes t significativas.Consideraremos um R alto se for maior que 0,8. Neste caso, o teste F rejeitar, na maioria

    das vezes, a hiptese de que os coeficientes parciais angulares so simultaneamente iguais a zero, mas os testes t individuais mostraro que nenhum ou muito poucos desses coeficientes so significativamente diferentes de zero. Este um critrio sensato, mas exigente demais.

    2. Altas correlaes entre pares de regressores.No modelo de 3 variveis, olharemos para 23r , j no modelo de 4 variveis, para

    342423 ,, rrr , e analogamente para os demais modelos.Consideraremos a correlao de ordem zero alta se for em mdulo maior que 0,8.Para o modelo de 3 variveis, esse um bom critrio. Porm, para mais variveis a

    correlao alta uma condio suficiente mas no necessria para a multicolinearidade.

    3. Exame das correlaes parciais entre regressores.Seja um modelo de 4 variveis. Se R alto, mas 2 23.142 24.132 34.12 ,, rrr so baixos, isto pode

    sugerir que as variveis independentes so estreitamente intercorrelacionadas. Este exame no infalvel e criticado por vrios autores.

    4. Regresses auxiliares.Como a multicolinearidade decorre do fato de que um ou mais regressores so combinaes

    lineares exatas ou aproximadas de outros regressores, uma forma de verificar qual das variveis X se relaciona a outras X fazer regresses de cada Xi contra os demais X e calcular os respectivos R, que aqui designamos por 2iR . Ento, pode-se calcular a estatstica de teste