Estatística básica 5 correlação e regresão

31

Transcript of Estatística básica 5 correlação e regresão

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 1

    SUMRIO1. CORRELAO .............................................................................................2

    1.1. Introduo................................................................................................................................................... 2

    1.2. Padres de associao ................................................................................................................................ 3

    1.3. Indicadores de associao.......................................................................................................................... 3

    1.4. O coeficiente de correlao........................................................................................................................ 5

    1.5. Hipteses bsicas ........................................................................................................................................ 5

    1.6. Definio...................................................................................................................................................... 6

    1.7. Distribuio amostral de r (quando = 0) ............................................................................................... 61.8. Distribuio amostral de r (quando 0) ............................................................................................... 71.9. Propriedades de r ....................................................................................................................................... 8

    2. REGRESSO................................................................................................92.1. Estimativa dos parmetros de regresso................................................................................................ 11

    2.2. Estimativa da varincia do termo erro................................................................................................... 12

    2.3. Distribuies das estimativas................................................................................................................... 152.3.1. Distribuio do estimador b.............................................................................................................................. 152.3.2. Distribuio do estimador a .............................................................................................................................. 16

    2.4. Decomposio da soma dos quadrados .................................................................................................. 162.4.1. Decomposio dos desvios................................................................................................................................... 162.4.2. Clculo das variaes ........................................................................................................................................... 17

    2.5. Intervalos de confiana ............................................................................................................................ 182.5.1. Intervalo para o coeficiente linear () .................................................................................................................. 182.5.2. Intervalo para o coeficiente angular () ............................................................................................................... 182.5.3. Intervalo para previses ....................................................................................................................................... 18

    2.6. Testes de hipteses.................................................................................................................................... 202.6.1. Teste para a existncia da regresso..................................................................................................................... 202.6.2. Teste para o coeficiente linear.............................................................................................................................. 20

    2.7. Coeficiente de determinao ou de explicao....................................................................................... 21

    3. EXERCCIOS...............................................................................................224. RESPOSTAS...............................................................................................275. REFERNCIAS ...........................................................................................30

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 2

    CORRELAO E REGRESSO1. CORRELAO

    1.1. INTRODUOAo se estudar uma varivel o interesse eram as medidas de tendncia central, disperso,

    assimetria, etc. Com duas ou mais variveis alm destas medidas individuais tambm de interesseconhecer se elas tem algum relacionamento entre si, isto , se valores altos (baixos) de uma dasvariveis implicam em valores altos (ou baixos) da outra varivel. Por exemplo, pode-se verificar seexiste associao entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entreverba investida em propaganda e retorno nas vendas, etc.

    A associao entre duas variveis poder ser de dois tipos: correlacional e experimental. Numarelao experimental os valores de uma das variveis so controlados pela atribuio ao acaso doobjeto sendo estudado e observando o que acontece com os valores da outra varivel. Por exemplo,pode-se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-seatribuir nveis de fertilizante ao acaso e observar as diferenas na produo de uma determinadacultura.

    No relacionamento correlacional, por outro lado, no se tem nenhum controle sobre asvariveis sendo estudadas. Elas so observadas como ocorrem no ambiente natural, sem nenhumainterferncia, isto , as duas variveis so aleatrias. Assim a diferena entre as duas situaes que naexperimental ns atribumos valores ao acaso de uma forma no tendenciosa e na outra a atribuio feita pela natureza.

    Figura 1.1 - Vrios tipos de relacionamento entre as variveis X e YFreqentemente necessrio estudar o relacionamento entre duas ou mais variveis. Ao estudo

    do relacionamento entre duas ou mais variveis denominamos de correlao e regresso. Se o estudotratar apenas de duas variveis tem-se a correlao e a regresso simples, se envolver mais do que duasvariveis, tem-se a correlao e a regresso mltiplas. A regresso e a correlao tratam apenas dorelacionamento do tipo linear entre duas variveis.

    A anlise de correlao fornece um nmero que resume o grau de relacionamento linear entreas duas variveis. J a anlise de regresso fornece uma equao que descreve o comportamento deuma das variveis em funo do comportamento da outra varivel.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 3

    1.2. PADRES DE ASSOCIAOIndependente do tipo (correlacional ou experimental) a relao entre as variveis pode ser

    resumida atravs de uma equao indicando o padro de associao entre as duas variveis. Asrelaes mais comuns encontradas esto ilustradas na figura 1.1.

    Quando no possvel perceber uma relao sistemtica entre as variveis dito que asvariveis so no correlacionadas, so independentes ou ainda que so ortogonais.

    1.3. INDICADORES DE ASSOCIAOSuponha-se que queiramos determinar se duas variveis aleatrias esto de alguma forma

    correlacionadas. Por exemplo, suponha-se que se queira determinar se o desempenho dos empregadosno trabalho est de alguma forma associado ao escore obtido num teste vocacional.

    Tabela de contingncia 2x2. Uma vez que a correlao entre duas variveis aleatrias reflete oquanto os altos escores de uma delas implicam em altos escores da outra e baixos escores de umaimplicam em baixos escores da outra e vice-versa, no caso de uma relao negativa, pode-se comear aanlise identificando, justamente quantos elementos de uma das variveis so altos e quantos sobaixos. Para determinar se um escore ou valor alto ou baixo, pode-se convencionar que qualquervalor acima da mediana alto e qualquer valor abaixo da mediana baixo. Classificando desta formapode-se ter ento, para o exemplo, 4 possveis resultados:

    Tanto o desempenho no trabalho quanto no teste esto acima da mediana (+ +)

    O desempenho no trabalho est acima mas o do teste est abaixo da mediana (+ )

    Tanto o desempenho no trabalho quanto o do teste esto abaixo da mediana ( )

    O desempenho no trabalho est abaixo da mediana mas o teste no ( +)Estas quatro possibilidades podem ser arranjadas em uma tabela de contingncia 2x2, como a

    mostrada abaixo:

    Tabela 1.1 Desempenho no trabalho e no testeEscore no teste vocacionalDesempenho no trabalho

    Abaixo da mediana () Acima da mediana (+)Acima da mediana (+) (, +) 10 empregados (+, +) 40 empregados

    Abaixo da mediana () (, ) 40 empregados (+, ) 10 empregados

    Observese que se no existir relao entre as duas variveis devese esperar nmero idnticode empregados em cada uma das clulas da tabela, isto , se a pessoa o escore da pessoa no testevocacional est acima ou abaixo da mediana no tem nada a ver com o seu escore no desempenho notrabalho estar acima ou abaixo da mediana.

    O que pode ser visto na tabela acima que parece existir uma forte correlao entre as duasvariveis, pois ao invs de igual nmero em cada clula o que se tem um nmero grande de ambas asvariveis acima da mediana e um nmero grande de escores de ambas as variveis abaixo da mediana.Das 50 pessoas com escore acima da mediana no teste, 40 deles (80%) apresentaram escore acima damediana no desempenho do trabalho. Da mesma forma dos 50 que tiverem classificaes abaixo damediana, 40 deles apresentaram escore abaixo da mediana no desempenho do trabalho. Se nohouvesse correlao seria de se esperar que dos 50 que tiveram escores acima da mediana no teste 25tivessem escores acima da mediana no desempenho do trabalho e 25 abaixo.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 4

    A tabela 1.2 mostra outras possveis sadas para este tipo de esquema de classificao cruzada.Novamente 100 elementos so classificados em 4 clulas de acordo com o critrio anterior. A parte (a)da tabela mostra uma associao positiva, a parte (b) uma negativa e a parte (c) que no deve existirassociao entre duas variveis X e Y.

    Tabela 1.2 - Indicativos da presena de associao entre duas variveis X e Y.

    (a) Relao positiva (b) Relao negativa (c) Sem relaoValor de Y Valor de Y Valor de Y

    Valor deX

    Abaixoda

    mediana

    Acima damediana

    Valor deX

    Abaixoda

    mediana

    Acima damediana

    Valor de X Abaixoda

    mediana

    Acima damediana

    Acima damediana

    15 35 Acima damediana

    35 15 Acima damediana

    25 25

    Abaixoda

    mediana

    35 15 Abaixo damediana

    15 35 Abaixo damediana

    25 25

    Diagramas de disperso. As tabelas de contingncia 2x2 fornecem somente a indicaogrosseira da relao entre duas variveis, a no ser o fato de que os valores esto situados acima eabaixo da mediana, qualquer outra informao desperdiada. Vamos considerar um exemplo,envolvendo duas variveis contnuas.

    Um comerciante de temperos est curioso sobre a grande variao nas vendas de loja para lojae acha que as vendas esto associadas com o espao nas prateleiras dedicados a sua linha de produtoem cada ponto de venda. Dez lojas foram selecionadas ao acaso atravs do pas e as duas seguintesvariveis foram mensuradas: (1) total de espao de frente (comprimento x altura em cm2) dedicados asua linha de produtos e (2) total das vendas dos produtos, em reais, no ltimo ms. Os dados soapresentados na tabela 1.3.

    Tabela 1.3 Vendas x espao dedicado aos produtos (em cm2).

    Local Espao Vendas1 340 712 230 653 405 834 325 745 280 676 195 567 265 578 300 789 350 8410 310 65

    Pela observao da tabela no fcil perceber o tipo de relacionamento que possa existir entreas duas variveis. Para ter uma idia melhor, as variveis so colocadas no que denominado dediagrama de disperso. Uma das variveis (X) representada no eixo horizontal e a outra varivel(Y) no eixo vertical, conforme figura 1.2.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor V

    Figura 1.2 Diagrama de disperso das variveis apresentadas na tabela 1.3.

    Uma olhada rpida no diagrama de disperso mostra a existncia de um relacionamento entreas variveis, com altos valores de uma das variveis associados a altos valores da outra varivel. Seno houvesse relacionamento entre elas, os pontos estariam distribudos ao acaso no grfico semmostrarem alguma tendncia.

    1.4. O COEFICIENTE DE CORRELAOApesar do diagrama de disperso nos fornecer uma idia do tipo e extenso do relacionamento

    entre duas variveis X e Y, seria altamente desejvel ter um nmero que medisse esta relao. Estamedida existe e denominada de coeficiente de correlao. Quando se est trabalhando com amostraso coeficiente de correlao indicado pela letra r que , por sua vez, uma estimativa do coeficiente decorrelao populacional: (rho).

    O coeficiente de correlao pode variar de 1,00 a + 1,00, com um coeficiente de +1, indicandouma correlao linear positiva perfeita. Neste caso, as duas variveis sero exatamente iguais emtermos de escores padronizados z, isto , um elemento apresentando um escore padronizado de 1,5 emuma das variveis vai apresentar o mesmo escore padronizado na outra varivel. Um coeficiente decorrelao de 1, indica correlao linear perfeita negativa, com os escores padronizados exatamenteiguais em valores absolutos, diferindo apenas no sinal.

    Uma correlao de +1 ou 1 raramente observado. O mais comum que o coeficiente fiquesituado no intervalo entre estes dois valores. Um coeficiente de correlao 0, significa que no existeum relacionamento linear entre as duas variveis.

    1.5. HIPTESES BSICASA suposio bsica sobre o coeficiente de correlao que o relacionamento entre as duas

    variveis seja linear. Isto , o coeficiente de correlao adequado para avaliar somente orelacionamento linear. As duas variveis podem estar perfeitamente relacionadas, mas se no for deforma linear o valor do coeficiente pode ser zero ou prximo de zero.

    Uma segunda hiptese que as variveis envolvidas sejam aleatrias e que sejam medidas nomnimo em escala de intervalo. Ele no se aplica a variveis em escala nominal ou ordinal ou quandouma da variveis manipulada experimentalmente, pois neste caso, a escolha dos valoresexperim ntais vai influenciar o valor de r obtido.

    Ubivariad

    Vendas x reas de prateleira

    5060708090

    100

    150 200 250 300 350 400 450seiali - [email protected] - http://www.mat.pucrs.br/~lori/ 5

    ma terceira hiptese que as duas variveis tenham uma distribuio conjunta normala. Isto equivalente a dizer que para cada x dado a varivel y normalmente distribuda.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 6

    Suponha-se que existam apenas duas variveis X e Y. Uma amostra da varivel X,assumindo os valores particulares X1, X2, ..., Xn e uma amostra da varivel Y assumindo os valoresparticulares Y1, Y2, ..., Yn so obtidas e suponha-se ainda que o objetivo saber se existe algum tipo derelacionamento linear entre estas duas variveis. Isto poder ser medido pelo coeficiente decorrelao que fornece o grau de relacionamento linear entre duas variveis.

    1.6. DEFINIO

    Na populao o coeficiente de correlao representado por e na amostra por r. Assim dadasduas amostras, uma da varivel X e outra da varivel Y, o coeficiente de correlao amostral poderser calculado atravs da seguinte expresso:

    ( ) ( )( ) ( ) =

    =

    YYi.XXi

    YY.XXr ii22

    ( ) ( )( )[ ] ( )[ ]

    YiYn.XiXn

    Y.XY.Xn

    ii

    iiii2222

    Uma populao que tenha duas variveis no correlacionadas linearmente pode produzir umaamostra com coeficiente de correlao diferente de zero. Para testar se a amostra foi ou no retirada deuma populao de coeficiente de correlao no nulo entre duas variveis, precisamos saber qual adistribuio amostral da estatstica r.

    1.7. DISTRIBUIO AMOSTRAL DE R (QUANDO = 0)

    A distribuio amostral de r depende somente do valor de (coeficiente de correlaopopulacional) e do tamanho da amostra.

    Se for admitido que = 0, a distribuio amostral de r (coeficiente de correlao na amostra)ser simtrica em torno de 0 com variabilidade dada por:

    21 2

    = nr

    r

    Neste caso, pode-se mostrar que o quociente: 2

    1 2

    = nrr/r r tem uma distribuio t com n - 2

    graus de liberdade. Isto : 2

    1 2

    =

    nrrt .

    Exemplo:

    Quer-se testar se existe ou no correlao linear entre X = toneladas de adubo orgnico por ha eY = produo da cultura A por ha. Para tanto realizado um experimento com durao de 5 anos quemostrou os resultados da tabela 1.4. Verificar se existe relacionamento linear entre as duas variveis.

    Tabela 1.4 Valores das variveis X e YAnos X Y1989 2 481990 4 561991 5 641992 6 601993 8 72

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 7

    Para saber se h ou no correlao linear entre estas duas variveis na populao de onde foiretirada esta amostra necessrio realizar um teste de hipteses, ou seja, preciso testar:

    H0: = 0 (No existe relacionamento linear na populao)H1: 0 (Existe relacionamento linear na populao)A tabela 1.5 mostra os clculos necessrios para se obter o coeficiente de correlao para esta

    amostra das variveis X e Y.

    Tabela 1.5 Valores das variveis X e Y e clculos para obter r

    Anos X Y XY X2 Y2

    1989 2 48 96 4 23041990 4 56 224 16 31361991 5 64 320 25 40961992 6 60 360 36 36001993 8 72 576 64 5184Total 25 300 1576 145 18320

    O valor de r ser dado ento por:( ) ( )

    ( )[ ] ( )[ ] =

    =

    YiYn.XiXn

    Y.Xy.Xnrii

    iiii2222

    51576 25 300

    5 145 25 5 18320 3002 2. .

    ( . ).( . )

    = 0,95

    A estatstica teste ser:

    21 2

    =

    nrrt ,

    que neste caso, tem uma distribuio t com n - 2 = 3 graus de liberdade. O valor de t (calculado) :

    2705359501950

    21 22 ,,,n

    rrt =

    =

    =

    O valor tabelado de t com 3 g.l. e a 5% de significncia, considerando um teste bilateral :3,182.

    Com estes valores rejeita-se H0 e pode-se afirmar, com 5% de significncia, que as duasvariveis possuem um relacionamento linear na populao.

    Dado que h fortes evidncias de que as duas variveis possuem um relacionamento linearpode-se ento ajustar uma linha de regresso entre elas.

    1.8. DISTRIBUIO AMOSTRAL DE R (QUANDO 0)Para testar a existncia de um certo grau de correlao entre duas variveis X e Y, isto , para

    testar

    H0: = 0 contraH1: 0

    > 0

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 8

    < 0 necessrio determinar a distribuio de r, quando diferente de zero. A distribuio de r s simtrica quando zero, se isto no ocorre a distribuio ser assimtrica. Esta falta de normalidadeimpede que se use o teste tradicional, o teste t, neste caso.

    Contudo, mediante uma transformao apropriada, r pode ser alterado para uma estatsticaque aproximadamente normal. Esta transformao denominada de transformao Z de Fischer.

    A expresso para realiz-la : r' =

    +

    r1r1ln

    21

    Esta quantidade tem distribuio aproximadamente normal com mdia

    =

    +

    11ln

    21 e varincia 2 = 1 / (n - 3), quando n no for muito pequeno, ou seja, n 20

    Exemplo:

    Suponha que de experincias anteriores pode ser suposto que a correlao entre a idade e apresso sangnea sistlica = 0.85. Para testar a hiptese nula, a 5% de significncia, de que este valor contra a alternativa de que ele diferente deste valor supem-se que foi extrada umaamostra de tamanho n = 30 e que forneceu um r = 0,66. Ento o teste pode ser realizada atravs dosseguintes clculos:

    Soluo:

    r =

    +

    r1r1ln

    21 =

    +

    66,0166,01ln

    21 = 0,7928

    A distribuio de r' dada por:

    =

    +

    11ln

    21 =

    +

    85,0185,01ln

    21 = 1,2561

    z = 0 7928 125611 30 3

    , ,

    = -2,41

    Para um nvel de significncia de 5% o valor tabelado de z -1,96. Rejeita-se, ento a hiptesenula. Isto , pode-se afirmar que o valor da correlao populacional diferente de 0,85.

    1.9. PROPRIEDADES DE RAs propriedades mais importantes do coeficiente de correlao so:

    1. O intervalo de variao vai de -1 a +1.2. O coeficiente de correlao uma medida adimensional, isto , ele independente das

    unidades de medida das variveis X e Y.

    3. Quanto mais prximo de +1 for r, maior o grau de relacionamento linear positivo entre Xe Y, ou seja, se X varia em uma direo Y variar na mesma direo.

    4. Quanto mais prximo de -1 for r, maior o grau de relacionamento linear negativo entre Xe Y, isto , se X varia em um sentido Y variar no sentido inverso.

    5. Quanto mais prximo de zero estiver r menor ser o relacionamento linear entre X e Y.Um valor igual a zero, indicar ausncia apenas de relacionamento linear.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 9

    2. REGRESSO

    Uma vez constatado que existe correlao linear entre duas variveis, pode-se tentar prever ocomportamento de uma delas em funo da variao da outra.

    Para tanto ser suposto que existem apenas duas variveis. A varivel X (denominada varivelcontrolada, explicativa ou independente) com valores observados X1, X2, ..., Xn e a varivel Y(denominada varivel dependente ou explicada) com valores Y1, Y2, ..., Yn. Os valores de Y soaleatrios, pois eles dependem no apenas de X, mas tambm de outras variveis que no esto sendorepresentadas no modelo. Estas variveis so consideradas no modelo atravs de um termo aleatriodenominado erro. A varivel X pode ser aleatria ou ento controlada.

    Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variveis Xe Y seja representado por uma equao do tipo:

    Y = + X + U,onde U o termo erro, isto , U representa as outras influncias na varivel Y alm da exercidapela varivel X.

    Esta equao permite que Y seja maior ou menor do que + X, dependendo de U serpositivo ou negativo. De forma ideal o termo U deve ser pequeno e independente de X, de modo quese possa modificar X, sem modificar U, e determinar o que ocorrer, em mdia, a Y, isto :

    E(Y/X) = + XOs dados {(Xi, Yi), i = 1, 2, ..., n} podem ser representados graficamente marcando-se cada par

    (Xi, Yi) como um ponto de um plano. Os termos Ui so iguais a distncia vertical entre os pontosobservados (Xi, Yi), e os pontos calculados (Xi, + Xi). Isto est ilustrado na figura 2.1.

    Um modelo de regresso consiste em um conjunto de hipteses sobre a distribuio dos termoserro e as relaes entre as variveis X e Y.

    Algumas destas hipteses so:

    (i) E(Ui) = 0;

    (ii) Var(Ui) = 2

    Figura 2.1 O modelo de regresso linear

    Y E(Y/X) = + XErro U

    Y

    X

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 10

    Na hiptese (i) o que se est supondo que os Ui so variveis aleatrias independentes comvalor esperado igual a zero e na (ii) que a varincia de cada Ui a mesma e igual a 2, para todos osvalores de X.

    Supem-se ainda que a varivel independente X, permanea fixa, em observaes sucessivas eque a varivel dependente Y seja funo linear de X. Os valores de Y devem ser independentes um dooutro. Isto ocorre em geral, mas em alguns casos, como, por exemplo, observaes diferentes so feitasno mesmo indivduo em diferentes pontos no tempo est suposio poder no ocorrer.

    Como o valor esperado de Ui zero, o valor esperado da varivel dependente Y, para umdeterminado valor de X, dado pela funo de regresso + X ou seja:

    E(Y/X) = E( + X + U) = + X + E(U) = + X [1]j que + X constante para cada valor de X dado.

    O smbolo E(Y/X) lido valor esperado de Y, dado X. A varincia de Y, para determinadovalor de X, igual a:

    V(Y/X) = V( + X + U) = V(U) = 2 [2]A hiptese de que V(Y/X) a mesma para todos os valores de X, denominada de

    homocedasticidade, til pois permite que se utilize cada uma das observaes sobre X e Y paraestimar 2. O termo homo significa o mesmo e cedasticidade significa disperso.

    De [1] e [2] decorre que, para um dado valor de X, a varivel dependente Y tem funodensidade de probabilidade (condicional) com mdia + X e varincia 2. A figura 2.2, ilustra afuno densidade. Na parte superior da figura ilustrado o caso heterocedstico e na parte inferior ocaso homocedstico.

    A posio da funo densidade f(Y/X) varia em funo da variao do valor de X. Note-se quea mdia da funo densidade se desloca ao longo da funo de regresso + X.

    Figura 2.2 Funo densidade de Y dado X

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 11

    Em resumo, o modelo de regresso proposto consiste nas seguintes hipteses:

    1. Y = + X + U;2. E(Y/X) = + X;3. V(Y/X) = 2;4. Cov(Ui, Uj) = 0, para i j;5. A varivel X permanece fixa em observaes sucessivas;6. Os erros U so normalmente distribudos.

    2.1. ESTIMATIVA DOS PARMETROS DE REGRESSOSe fosse conhecido toda a populao de valores (Xi, Yi) ento seria possvel determinar os

    valores exatos dos parmetros , e 2. Como, em geral, se trabalha com amostras se faz necessrio,ento, estimar estes parmetros com base nos valores da amostra.

    Existem alguns mtodos para ajustar uma linha entre as variveis X e Y o mais utilizado odenominado mtodo dos mnimos quadrados (MMQ). A reta obtida atravs deste mtodo, no necessariamente, o melhor ajustamento possvel, mas possui muitas propriedades estatsticas que sodesejveis.

    Sejam a e b estimadores de e e Ei = Yi - a - bXi o desvio observado em relao a retaajustada, isto , Ei um estimador do termo Ui. O mtodo dos mnimos quadrados exige que osestimadores a e b sejam escolhidos de tal forma que a soma dos quadrados dos desvios dos mesmosem relao reta de regresso ajustada seja mnima, isto :

    = = = =

    ii

    n

    i

    nE Y a bXi i2

    1

    2

    1( ) = mnimo.

    Para tornar mnima esta soma em relao a a e b, necessrio diferenciar a expressoparcialmente em relao aos valores a e b. Aps algumas simplificaes vai-se obter:

    Yi = na + bXi (i)

    XiYi = aXi + b(Xi)2 (ii)

    que so denominadas de equaes normais da regresso, onde n o nmero de pares de observaes.

    Obs.: Para simplificar a notao foram desconsiderados os ndices nos somatrios.Dividindo-se a equao (i) por n e isolando o valor de a vem:

    ay

    nb X

    nY bXi i=

    = ( )

    levando-se este resultado na equao (ii) tem-se:

    b =

    )XX(

    YX

    i2

    )Yi)(Xi( = i i

    i i

    ii

    X YX Y

    n

    XXn

    2

    2( ) = n X Y X Y

    n X Xi i i i

    i i

    2 2( )

    A reta estimada de regresso ser ento:

    bXaY +=

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 12

    com os valores de a e b obtidos atravs das seguintes expresses:

    =

    )Xi(XnYXYXnb 22

    i

    iiii e XbYa =

    Utiliza-se o valor Y , porque o valor de Y, obtido a partir da reta estimada de regresso, paraum dado valor de X, uma estimativa do valor E(Y/X), isto , do valor esperado de Y dado X.

    Exemplo:So fornecidos 5 pares de valores, na tabela abaixo, correspondentes as variveis X e Y. A

    estimativa da reta de regresso entre X e Y, obtida utilizando as expresses de a e b acima e usandoos resultados obtidos na tabela 2.1.

    Tabela 2.1 - Valores para estimar a linha de regresso

    X Y X2 XY1 3 1 32 3 4 64 7 16 285 6 25 308 12 64 9620 31 110 163

    X = 20 / 5 = 4;

    Y = 31/5 = 6,2b = (5.163 - 20.31) / (5.110 - 400) = 1,30

    a = Y - b X = 6,20 - 1,30.4 = 1

    Ento a linha estimada ser:

    Y = 1.3X + 1Esta reta o melhor ajustamento para estes dados e seria diferente para cada amostra das

    variveis X e Y, retiradas desta mesma populao. Esta reta pode ser considerada uma estimativa daverdadeira linha de regresso onde 1,3 seria uma estimativa do valor (parmetro angular) e 1 umaestimativa do valor (parmetro linear), que so os verdadeiros coeficientes de regresso.

    2.2. ESTIMATIVA DA VARINCIA DO TERMO ERROO termo erro, U, uma varivel aleatria, supostamente com mdia zero e varincia constante.

    Ento, intuitivamente parece plausvel usar os resduos da reta de regresso pelos mtodo dos mnimosquadrados para se estimar a varincia 2 dos termos erro. A varincia amostral desses resduos igual a:

    2 =

    2( )E E

    n

    , onde E = E n/ . Observe-se entretanto que:

    E Y a bX Y na b X= = ( ) = 0, pela primeira equao normal (i).

    Portanto, 2 pode ser escrito como:

    2 = 2E n / .

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 13

    Mas 2 , neste caso, um estimador tendencioso. Pode-se obter um estimador no

    tendencioso, multiplicando 2 por n / (n - 2). O novo estimador, no tendencioso, ser representado S2

    e sua raiz quadrada:

    S = 2n

    2

    2n

    2

    2n

    2 )bXaY()YY(E

    =

    =

    denominada de erro-padro da estimativa ou erro-padro amostral da regresso.

    Obs.: A utilizao de n - 2 conseqncia do fato de que se deve estimar dois parmetros, e , antes de obter os resduos E. Como resultado, h somente n - 2 graus de liberdade associados quantidade 2E .

    A expresso acima, para o clculo do erro amostral da regresso, apresenta o inconveniente deexigir o clculo de cada valor previsto de Y, atravs da linha de regresso, tornando sua obtenomuito trabalhosa. Existe, entretanto, uma alternativa para se obter este valor (erro padro daestimativa) sem a necessidade de calcular todos os valores previstos.

    Observe-se que:

    E2 = (Y Y

    )2 (Y a bX)2 = 2[ ( )]Y Y b X bX + = 2( )Y Y 2b ( )( )X X Y Y +22b X X( ) .

    Fazendo:

    ( )Sn

    XX)XX( XX=

    =

    222

    ( )Sn

    YY)YY( YY=

    =

    222

    SnYXXY)YY)(XX( XY=

    =

    Lembrando que:

    b = n X Y X Yn X X

    i i i i

    i i

    2 2( )

    = i i

    i i

    ii

    X YX Y

    n

    XXn

    2

    2( ), segue que b = SXY/SXX e que SXY = bSXX

    Ento vem:

    2E = 2( )Y a bX = SYY - 2b2SXX + b2SXX = SYY - b2SXX.

    Assim:

    S2 = 2 2

    2 2E

    nY a bX

    n

    =

    ( ) = YY XXS b Sn

    2

    2 = YY XYS bS

    n

    2

    Pode-se verificar que S2 definido desta maneira um estimador no-tendencioso de 2, isto ,E(S2) = 2.

    O erro padro da regresso ser dado, ento, por:

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 14

    2nSXYbSYY

    2nSXXb2SYY s

    ====

    ====

    Exemplo:Considerando as variveis X e Y acima e a linha de regresso anterior determinar uma

    estimativa do erro padro da regresso.

    Os clculos necessrios esto na tabela 2.2.

    Tabela 2.2 Determinao do erro padro da regresso

    X Y Yc E = Y -Yc

    E2

    1 3 2,3 0,7 0,492 3 3,6 -0,6 0,364 7 6,2 0,8 0,645 6 7,5 -1,5 2,258 12 11,40 0,6 0,3620 31 31 0 4,10

    O erro padro da regresso ser ento:

    S En

    =

    2

    2 =

    2

    2( )Y a bX

    n

    = 4105 3

    ,

    = 13667, = 1,17

    Este mesmo clculo poder ser efetuado pela expresso definida acima, sem a necessidade dese obter os valores estimados.

    Tabela 2.3 Determinao do erro padro da regresso

    X Y X2 Y2 XY1 3 1 9 32 3 4 9 64 7 16 49 285 6 25 36 308 12 64 144 9620 31 110 247 163

    Neste caso, tem-se:

    ( ) =

    nX 2

    X2SXX = 110 202/5 = 30

    ( ) =

    nY 2

    Y2SYY = 247 - 312/5 = 54,80

    =

    nYXXYSXY = 163 (20.31)/5 = 39

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 15

    O valor de b ser:

    b = SXY/SXX = 39/30 = 1,30

    Portanto o erro padro da regresso ser:

    2nSXYbSYY

    2nSXXb2SYY s

    =

    = = 25

    39.3,180,54

    = 310,4 = 3667,1 = 1,1690 = 1,17

    2.3. DISTRIBUIES DAS ESTIMATIVASObservando-se as expresses dos estimadores a e b da reta estimada, pode-se notar que

    ambos dependem de Y que uma varivel aleatria com distribuio supostamente normal de mdiaf(X) e desvio padro 2. Como os estimadores a e b so funes lineares de uma varivel aleatrianormal, tambm sero variveis aleatrias com distribuio normal. O que precisa ser determinado,ento, a mdia e a varincia de cada um deles. Antes disso vai-se determinar uma estimativa de 2 avarincia da varivel Y, que no modelo suposta a mesma para cada valor de X (homocedasticidade).

    2.3.1. DISTRIBUIO DO ESTIMADOR BTem-se que:

    b = SXY / SXX = ( )( )X X Y Y

    SXX = Y X X Y X X

    SXX( ) ( ) Mas ( )X X = 0, logo:

    b = Y X XSXX( )

    Mas Y = + X + U, ento:b = Y X X

    SXX( ) = ( )( ) + + X U X X

    SXX = ( )X X

    SXX + X(X X

    SXX ) + U X X

    SXX( )

    Como SXX = 2( )X X = ( )( )X X X X = X(X X X X X ) ( ) = X(X X ) , pois ( )X X= 0

    Vem: b = + U X XSXX( )

    Logo a expectncia de b ser:

    E(b) = E() + E( U X XSXX( ) ) = E() + ( )X X

    SXX E(U). Mas E(U) = 0, por hiptese.

    Ento:

    E(b) = E() = , uma vez que a mdia de uma constante a prpria constante.Isto, tambm, mostra que b um estimador no-tendencioso de .Para a varincia, tem-se:

    V(b) = V( + U X XSXX( ) ) = V( U X X

    SXX( ) ) =

    2

    2( )( )

    X X

    SXX

    V(U).

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 16

    Tendo em vista que por hiptese do modelo V(U) = 2 e que 2( )X X = SXX, segue:

    V(b) = XXXX

    S

    S

    .

    ( )

    2

    2 =

    2

    XXS. Portanto, a distribuio da estatstica b N(,

    XXS).

    2.3.2. DISTRIBUIO DO ESTIMADOR AQuanto distribuio da varivel aleatria a, tem-se:

    a = Y - b X . Mas Y = Y / n, ento:

    a = Yn

    bX = ( ) + + X Un

    bX = + + n

    Xn

    Un

    bX = + X + Un

    bX

    Assim:

    E(a) = E() + E( X ) + E Un

    E bX( ) ( ) = + X + E Un

    X( ) , pois E(b) = Ento E(a) = , pois E(U) = 0. V-se que a um estimador no-tendencioso de .

    Quanto varincia, tem-se:

    V(a) = V() + V( X ) + V( Un

    V(bX +) ) = 0 + 0 + 12

    2

    nV(U V(b)X) + = 12

    2 22

    nX SXX

    + = =

    2 2 2 n

    XSXX

    + = 221

    ( )nX

    SXX+ .

    Portanto a distribuio de a : N(, 12

    nX

    SXX+ ).

    2.4. DECOMPOSIO DA SOMA DOS QUADRADOS

    2.4.1. DECOMPOSIO DOS DESVIOS

    Pelo figura 2.3, pode-se perceber que o desvio em relao a Y (desvio total), isto , Y - Y podeser decomposto em dois outros desvios:

    YY - Y

    Y - Y

    YY Y

    - Y

    X XFigura 2.3 Desvios na regresso

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 17

    O desvio explicado pela linha de regresso, isto ,

    Y - Y e

    O desvio no-explicado (resduos) pela linha de regresso, isto , Y -

    Y .

    fcil perceber que a variao total, (Y - Y ), a soma da variao explicada, (

    Y - Y ), e ano-explicada, (Y -

    Y ), pois:

    Y - Y = Y -

    Y +

    Y - Y , ento:

    Aplicando somatrio a ambos os membros vem:

    (Y - Y ) = (Y -

    Y ) + (

    Y - Y )Pode-se verificar tambm que a propriedade aditiva dos desvios extensiva soma dos

    quadrados desses desvios, ou seja:

    (Y - Y )2 = (Y -

    Y )2 + (

    Y - Y )2

    De fato:

    (Y - Y )2 = (Y -

    Y +

    Y - Y )2 = [(Y -

    Y ) + (

    Y - Y )]2 = (Y -

    Y )2 + (

    Y - Y )2 -2(Y -

    Y )(

    Y - Y )Mas

    (Y -

    Y )(

    Y - Y ) = (Y -

    Y )(a + bX - a - b X ) = bX(Y -

    Y )- b X X(Y -

    Y )

    Pelas condies do mtodo dos mnimos quadrados, tem-se:

    (

    Y - Y ) = 0 e X(Y -

    Y ) = 0, em conseqncia

    (Y -

    Y )(

    Y - Y ) = 0, logo, segue que:

    (Y - Y )2 = (Y -

    Y )2 + (

    Y - Y )2,isto , que a soma dos quadrados dos desvios calculados em torno da mdia de Y (variao total = VT) igual soma dos quadrados dos desvios em torno da linha de regresso (variao residual = VR)mais a soma dos quadrados dos desvios da linha de regresso em torno da mdia (variao explicada =VE).

    2.4.2. CLCULO DAS VARIAES

    (a) Variao Total: VT ou S 2Y

    VT = (Y- Y )2 = SYY, onde SYY = Y2 - (Y)2 / n

    (b) Variao Explicada: VE ou S2Y

    VE = (

    Y - Y )2 = (a + bX - Y )2 = ( Y - b X + bX - Y )2 = [(b(X - X )]2 = b2(X - X )2 =b2SXX

    Logo:

    VE = b2SXX ou VE = SSS

    XX

    2

    XX

    XY

    = bSXY

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 18

    (c) Variao Residual: VR ou S2 X/YDe acordo com a propriedade aditiva das variaes, pode-se calcular VR por diferena. Assim:

    VR = (Y -

    Y )2 = VT - VE ou VR = SYY - bSXY

    2.5. INTERVALOS DE CONFIANADa mesma forma que foram obtidos intervalos de confiana para a mdia, varincia e

    proporo de uma populao, pode-se determinar os intervalos de confiana para os parmetros daregresso. Ou seja, pode-se determinar um intervalo de confiana para o coeficiente linear (), umintervalo de confiana para o parmetro angular () e pode-se ainda determinar um intervalo deconfiana para um valor previsto de Y, dado X. Este intervalo pode ser para o valor mdio de Y paraum dado X, isto , E(Y/X) ou, ento, para um valor individual de Y, isto ,

    Y . A estimativa pontualpara os dois ltimos casos a mesma. O que vai mudar o intervalo de confiana correspondente. Istose deve ao fato de que o modelo desenvolvido associado principalmente mdia do grupo do que auma informao individual.

    2.5.1. INTERVALO PARA O COEFICIENTE LINEAR ()

    Considerando que a distribuio do coeficiente linear dado por N(, 12

    nX

    SXX+ ). Ento,

    fixada uma confiana de 1 - , o intervalo ser:

    P(a - tn-2.S1 2

    nX

    SXX+ a + tn-2.S

    1 2

    nX

    SXX+ ) = 1 -

    com tn-2 sendo um valor da distribuio t com n - 2 graus de liberdade e S uma estimativade .

    2.5.2. INTERVALO PARA O COEFICIENTE ANGULAR ()Considerando que a distribuio do coeficiente angular dado por N(b,

    XXS). Ento, fixada

    uma confiana de 1 - , o intervalo ser:

    P(b - tn-2. S

    SXX b + tn-2. S

    SXX) = 1 -

    com tn-2 sendo um valor da distribuio t com n - 2 graus de liberdade e S uma estimativade .

    2.5.3. INTERVALO PARA PREVISES

    (a) Intervalo para o valor mdio de Y

    Tem-se que

    Y = a + bX um estimador de E(Y/X) ou f(X). Para construir um intervalo deconfiana para este valor necessrio conhecer a sua distribuio. Isto , deve-se conhecer a mdia e avarincia de

    Y .

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 19

    E(

    Y ) = E(a + bX) = E(a) + E(bX) = + E(X) = + X = f(X) = E(Y/X), pois, neste caso, X constante para cada valor de Y.

    Tem-se:

    Y = a + bX, mas a = Y - b X , ento:

    Y = Y - b X + bX = Y + b(X - X ). A varincia de

    Y , ser:

    V(

    Y ) = V[ Y - b(X - X )] = V( Y ) + V[b(X - X )] = V ( )Yn + (X - X )2 V(b) = 1

    2nV(Y) +

    (X - X )2 2

    XXS =

    2n+ (X - X )2

    2

    XXS = 2 1

    2

    nX XSXX

    +

    ( ) .

    Portanto:

    Y tem distribuio N( + X, 12

    nX XSXX

    +( ) )

    Conhecida a distribuio de

    Y , ento o intervalo de confiana de 1 - de probabilidade paraf(X) ou E(Y/X) ser:

    P(

    Y - tn-2. S.1

    2

    nX XSXX

    +( ) ) E(Y/x)

    Y + tn-2. S.1

    2

    nX XSXX

    +( ) ) = 1 - , onde tn-2 o valor da

    distribuio t com n - 2 graus de liberdade.

    (b) Intervalo para um valor individual ( Y )

    Uma estimativa do valor individual de Y dado pela reta de regresso

    Y = a + bX, para umdado X e o desvio de previso ser dado por Y -

    Y , cujas propriedades so:Para a mdia:

    E(Y -

    Y ) = E(Y) - E(

    Y ) = f(X) - f(X) = 0Para a varincia, tem-se:

    V(Y -

    Y ) = V(Y) + V(

    Y ) = 2 + 2 12

    nX XSXX

    +

    ( ) = 2 1 12

    + +

    n

    X XSXX

    ( ) .

    Ento:

    Y -

    Y tem distribuio N(0, 1 12

    + +

    nX XSXX

    ( ) )

    Conhecida a distribuio de Yi -

    Y , ento o intervalo de confiana de 1 - de probabilidadepara um valor individual de Y (Yi) para um dado X, ser:

    Y - tn-2. S. 11

    2+ +

    nX XSXX

    ( ) );

    Y + tn-2. S. 11

    2+ +

    nX XSXX

    ( ) , onde tn-2 o valor da distribuio t

    com n - 2 graus de liberdade.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 20

    2.6. TESTES DE HIPTESESConhecidas as distribuies dos estimadores dos coeficientes angular e linear, pode-se realizar

    um teste de hipteses.

    2.6.1. TESTE PARA A EXISTNCIA DA REGRESSO

    Testar a existncia da regresso testar se o parmetro diferente de zero. Desta forma o quese quer testar :

    H0: = 0 contra as alternativas:H1: 0;

    > 0 ou < 0

    Fixado um nvel de significncia a varivel teste ser a t de Student com n - 2 graus deliberdade, pois sabe-se que:

    b tem distribuio Normal com mdia e desvio padro XXS

    , ou seja,

    Z = b

    SXX

    tem distribuio normal padro. Porm como no conhecido necessrio

    estim-lo atravs de S. Ento:

    tn-2 = b

    S

    SXX

    2.6.2. TESTE PARA O COEFICIENTE LINEAR

    Testar o coeficiente linear da regresso testar o valor inicial da regresso, isto , testar ovalor de Y quando X = 0. As hipteses so:

    H0: = 0 contra as alternativas:

    H1: 0;

    > 0 ou

    < 0

    Fixado um nvel de significncia a varivel teste ser a t de Student com n - 2 graus deliberdade, pois sabe-se que o estimador a, tem uma distribuio:

    N(, 221

    ( )nX

    SXX+ ). Ento:

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 21

    Z = a

    nX

    SXX

    +

    1 2

    tem distribuio normal padro. Porm como no conhecido necessrio

    estim-lo atravs de S. Ento: tn-2 = a

    Sn

    XSXX

    +

    1 2

    2.7. COEFICIENTE DE DETERMINAO OU DE EXPLICAOAlm dos testes de hipteses e dos intervalos de confiana, outro indicador que fornece

    elementos para a anlise do modelo adotado o coeficiente de determinao ou de explicao,definido por:

    R2 = VE / VT = b SS

    XY

    YY

    O coeficiente de determinao indica quantos por cento a variao explicada pela regressorepresenta sobre a variao total. Deve-se ter:

    0 R2 1

    Se R2 for igual a 1, isto significa que todos os pontos observados se situam exatamente sobrea reta de regresso. Tendo-se, neste caso, um ajuste perfeito. As variaes da varivel Y so 100%explicadas pelas variaes da varivel X, no ocorrendo desvios em torno da funo estimada.

    Por outro lado, se R2 = 0, isto quer dizer que as variaes de Y so exclusivamente aleatrias eexplicadas pelas variaes de outros fatores que no X.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 22

    3. EXERCCIOS

    (01) Para cada uma das situaes abaixo, diga o que mais adequado: a anlise de regresso ou aanlise de correlao. Por qu?

    (01.1) Uma equipe de pesquisadores deseja determinar se o rendimento na Universidade sugerexito na profisso escolhida.(01.2) Deseja-se estimar o nmero de quilmetros que um pneu radial pode rodar antes de sersubstitudo.(01.3) Deseja-se prever quanto tempo ser necessrio para executar uma determinada tarefa poruma pessoa, com base no tempo de treinamento.(01.4) Deseja-se verificar se o tempo de treinamento importante para avaliar o desempenho naexecuo de uma dada tarefa.(01.5) Um gerente deseja estimar as vendas semanais com base nas vendas das segundas e teras-feiras.

    (02) Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos commercadorias para famlias de 4 pessoas. O estudo se limitou a famlias com renda lquida entre 8 e 20salrios mnimos. Obteve-se a seguinte equao:

    Y = -1,20 + 0,40X, onde

    Y = despesa mensal estimada com mercadorias e X = renda lquidamensal.

    (02.1) Estimar a despesa de uma famlia com renda mensal lquida de 15 s.m.(02.2) Um dois diretores da empresa ficou intrigado com o fato de que a equao sugerir que umafamlia com renda de 3 s.m. lquidos mensais no gaste nada em mercadorias. Qual a explicao?(02.3) Explique por que a equao acima no poderia ser utilizada para estimar

    (a) As despesas com mercadorias de famlias de 5 pessoas.(b) As despesas com mercadorias de famlias com renda de 20 a 40 s.m. lquidos mensais.

    (03) Utilize os valores abaixo para estimar as equaes de regresso:(03.1) X = 200, Y = 300, XY = 6200, X2 = 3600 e n = 20(03.2) X = 7,2, Y = 37, XY = 3100, X2 = 620 e n = 36

    (04) Para cada uma das situaes abaixo, grafe os valores em um diagrama e se uma equao linearparecer apropriada para explicar os dados, determine os seus parmetros.

    (04.1)Tamanho do pedido(X) 25 20 40 45 22 63 70 60 55 50 30

    Custo Total (Y) 2000 3500 1000 800 3000 1300 1500 1100 950 900 1600(04.2)

    Vendas em mil (X) 201 225 305 380 560 600 685 735 510 725 450 370 150Lucro em mil (Y) 17 20 21 23 25 24 27 27 22 30 21 19 15

    (05) Suponha que uma populao se constitua dos seis pontos seguintes:(1, 2), (4, 6), (2, 4), (2, 3), (3, 5) e (5, 10)(05.1) Grafe os pontos em um diagrama de disperso.(05.2) Determine a equao de regresso: Y = + X + u.(05.3) Os termos-erro verificam a condio E(u) = 0?

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 23

    (05.4) Selecione uma amostra de tamanho n = 4, da populao acima e estime a equao deregresso determinada no item 5.2. Grafe o resultado no mesmo diagrama construdo em 5.1.

    (06) Verifique que a reta de regresso

    Y = a + bX, sempre passa pelo ponto ( X , Y ).(07) Os dados abaixo forma colhidos de cinco fbricas diferentes de uma determinada indstria:

    Custo total (Y) 80 44 51 70 61Produo (X) 12 4 6 11 8

    (07.1) Estime uma funo linear da forma

    Y = a + bX para o custo total dessa indstria.(07.2) Qual o significado econmico das estimativas a e b?(07.3) Teste a hiptese de que o custo fixo da produo do artigo em questo seja igual a 5, contraa alternativa de diferente do que 5, utilizando uma significncia de 5%.

    (08) Em uma amostra aleatria de 1990, 50 homens americanos entre 35 e 54 anos de idade acusarama seguinte relao entre renda anual Y (em dlares) e a escolaridade X (em anos).

    Y = 1200 + 800X.A renda mdia foi de 10000 dlares e a escolaridade mdia foi de 11,0 anos. Sabendo, ainda, que X2= 9000 e que o desvio padro residual em relao reta ajustada foi de 7300 dlares, determine:

    (08.1) A renda de uma pessoa que tenha completado 2 anos de educao secundria (x = 10 anos).(08.2) O intervalo de 95% de confiana para o coeficiente angular populacional..(08.3) Se a renda para a escolaridade estatisticamente discernvel ao nvel de 5%.(08.4) Se vlida a afirmao que cada ano de escolaridade custa 800 dlares?

    (09) Uma pesquisa foi realizada com o objetivo de determinar os efeitos da falta de sono sobre acapacidade de as pessoas resolverem problemas simples. Foram testadas 10 pessoas, mantendo-se cadagrupo de 2 pessoas sem dormir por um determinado nmero de horas. Aps cada um destes perodos,cada pessoa teve de resolver um teste com adies simples, anotando-se ento os erros cometidos. Osdados resultantes esto na tabela abaixo:

    Nmero de erros (Y) 6, 8 6, 10 8, 14 12, 14 12, 16Nmero de horas sem dormir (X) 8 12 16 20 24

    (9.1) Determine a estimativa da linha de regresso do nmero de erros em funo do nmero dehoras sem dormir.(9.2) Determine a disperso dos termos erro em torno da linha de regresso.

    (10) Determine um intervalo de 95% de confiana para o coeficiente angular da reta do exerccioacima. Interprete o intervalo obtido.

    (11) Realizou-se uma pesquisa de mercado com o objetivo de estudar a relao entre o temponecessrio para um consumidor tomar uma deciso (sobre o que comprar) e o nmero de embalagensalternativas do mesmo produto apresentadas a esse consumidor. Eliminaram-se as marcas dasembalagens, a fim de reduzir o efeito da preferncia por uma ou outra marca. Os consumidores fizeramsuas escolhas somente com base na descrio do produto, anotada nas embalagens pelos fabricantes. Otempo necessrio, Y, para que cada um tomasse sua deciso foi anotado para 15 participantes,resultando nos seguintes dados:

    Tempo para deciso, Y (em segundos) 5, 7, 8, 8, 9 7, 8, 9, 9, 10 9, 10, 10, 11, 12Nmero de alternativas (X) 2 3 4

    (11.1) Determine a reta dos mnimos quadrados de Y em funo de X.(11.2) Determine o erro padro da estimativa, ou seja, o desvio padro amostral da regresso.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 24

    (11.3) H evidncia suficiente nestes dados de que o tempo de deciso se relaciona linearmente aonmero de alternativas oferecidas a esses consumidores?

    (12) Na fabricao de um antibitico, a produo depende do tempo. Os dados indicados na tabela,mostram que um processo resultou na seguinte produo (em quilogramas) de antibiticos por perodode tempo (dias) indicados:

    Tempo (X = dias) 1 2 3 4 5 6Produo (Y = em kg.) 23 31 40 46 52 63

    (12.1) Por vrias razes conveniente esquematizar a produo em ciclos de 4 dias. Estime ovalor mdio da produo final de antibitico produzido em um perodo de 4 dias. Considere umintervalo de 95% de confiana.(12.2) Suponha que o processo de produo, no futuro, se desenvolver em 4 dias. Determine umintervalo de previso de 95% para a produo. Compare com o intervalo para a produo mdia deum perodo de 4 dias que foi obtido em (12.1).

    (13) Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4 anos e novamentena idade de 18 anos. Os resultados obtidos esto abaixo:

    Na idade de 4 anos 40 43 40 40 42Na idade de 18 anos 68 74 70 68 70

    (13.1) Determine o coeficiente de correlao entre as duas categorias de alturas.(13.2) Teste a hiptese de que existe uma relao linear entre a altura aos 4 anos de idade e aaltura aos 18 anos de idade.(13.3) Se fosse feito o grfico de toda a populao de alturas, calculando-se a correspondente retados mnimos quadrados, qual seria o seu coeficiente angular? Responda com um intervalosuficientemente amplo que permita uma aposta de 95%.(13.4) Repita o item 13.3 s que para o coeficiente linear.

    (14) A equao de regresso estimada abaixo resume um estudo da relao entre o uso do fumo e aincidncia de cncer pulmonar, relacionando o nmero X de anos que uma pessoa fumou com apercentagem Y de incidncia de cncer pulmonar em cada grupo.

    Y = -2 + 1,70.X e r = 0,60.(14.1) Explique o significado das estimativas -2 e 1,70 na equao de regresso.(14.2) Qual a taxa de incidncia de cncer pulmonar para as pessoas que fumam h 20 anos?(14.3) Se r fosse igual a um seria possvel concluir que o fumo a nica causa de cncerpulmonar?(14.4) Suponha-se que a equao estimada tenha sido obtida de uma amostra aleatria de 50fumantes. Teste a hiptese de que o coeficiente de correlao seja igual a zero a uma significnciade 1%.

    (15) Explique se concorda ou no com as seguintes afirmativas:(15.1) Um coeficiente de correlao de +1,0 entre duas variveis X e Y indica que X causa Y, masum coeficiente de correlao de -1,0 significa que X no causa Y.(15.2) Se o coeficiente de regresso zero, o coeficiente de correlao tambm zero.(15.3) Se o coeficiente angular 1 (um), isto significa que existe perfeita correlao entre X e Y.(15.4) possvel que o coeficiente de correlao amostral seja positivo, quando no existe, defato, nenhuma correlao entre as variveis X e Y.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 25

    (15.5) No se pode utilizar a tcnica da regresso pelo mtodo dos mnimos quadrados quando arelao bsica entre X e Y no for linear.

    (16) Um estudo de duas safras forneceu as seguintes informaes:Safra A:

    Y = 200 + 0,8X, r = 0,70 e S = 30 Safra B:

    Y = 50 + 1,20X, r = 0,9 e S = 20, ondeY a produo por alqueire e X a quantidade de chuva (em polegadas) no perodo da safra.(16.1) Se no houvesse chuva, estas duas equaes poderiam ser usadas para predizer a quantidadeproduzida nas duas safras? Por qu?(16.2) Qual das duas safras tira mais proveito do aumento das chuvas? Por qu?(16.3) Para qual das duas safras possvel predizer a produo com melhor aproximao? Porqu?

    (17) Os dados abaixo foram obtidos de cinco fbricas diferentes de uma determinada indstria.

    Custo total (Y = em milhes) 80 44 51 70 61Produo (X = toneladas) 12 4 6 11 8

    (17.1) Determine um intervalo de confiana de 90% para o custo fixo dessa indstria.(17.2) Determine um intervalo de confiana de 95% para o custo marginal dessa indstria.(17.3) Faa uma previso, atravs de um intervalo, para o custo total mdio dessa indstria, parauma produo de 15t, utilizando uma confiana de 95%.(17.4) Faa uma previso, atravs de um intervalo, para o custo total dessa indstria, para umaproduo de 15t, utilizando uma confiana de 95%.(17.5) possvel afirmar, com uma significncia de 1%, que o custo total dessa indstria estlinearmente relacionado ao nvel de produo?(17.6) Testar se o custo fixo pode ser considerado menor do que 30.(17.7) Testar se o custo marginal pode ser considerado menor do que 5.

    (18) Qual o tamanho mnimo da amostra necessria para que se possa concluir que um coeficiente decorrelao de 0,32 difere significativamente de zero ao nvel de 0,05?

    (19) Um coeficiente de correlao, baseado em uma amostra de tamanho n = 18, foi calculado comosendo 0,32. Pode-se concluir aos nveis de significncia (19.1) 0,05 e (19.2) 0,01, que o coeficiente decorrelao, correspondente na populao diferente de zero?

    (20) Se o coeficiente de correlao entre X e Y 0,80, que percentagem da variao total permaneceno-explicada pela equao de regresso?(21) Examine os cinco pares de pontos dados na tabela

    X -2 -1 0 1 2Y 4 1 0 1 4

    (21.1) Qual a relao matemtica entre X e Y?(21.2) Determine o valor de r.(21.3) Mostre que calculando-se a linha de regresso de Y em relao a X tem-se b = 0.(21.4) Por que, aparentemente, no existe relao entre X e Y como esto indicando b e r?

    (22) Os dados abaixo representam o nmero de rendas pessoais tributveis e o registro de automveisde passageiros, em uma determinada regio.

    X = nmero de rendas tributveis (em milhares) 192 80 162 246 310Y = Nmero de carros de passageiros (milhares) 23 11 13 31 91

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 26

    (22.1) Verificar se existe correlao entre as duas variveis.(22.2) Determine a equao de regresso de Y em funo de X, caso o coeficiente de correlaoseja significativamente diferente de zero.(22.3) Faa uma previso do nmero de carros se o nmero de contribuintes tributveis for de 500mil.(22.4) Determine a equao de regresso de X em funo de Y.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 27

    4. RESPOSTAS

    (01) (01.1) Correlao (01.2) Regresso (01.3) Regresso(01.4) Correlao (01.5) Regresso

    (02) (02.1) 4,80 s.m.

    (03) (03.1)

    Y = -5 + 2.X (03.2) Y

    = -35 +5.X

    (04) (04.1) Neste caso, com base no diagrama, uma linha reta no adequada.

    (04.2) Neste caso, uma linha adequada e sua equao est sobre o grfico abaixo.

    (05) (05.3)Populao Amostra

    X Y Yc Erro X Y1 2 1.62 0.38 4 64 6 7.15 -1.15 2 42 4 3.46 0.54 3 52 3 3.46 -0.46 5 103 5 5.31 -0.315 10 9.00 1.0017 30 30.00 0.00

    Custo total X Tamanho do Pedido

    0500

    1000150020002500300035004000

    0 20 40 60 80

    Vendas X Lucro

    y = 0.0178x + 14.675

    0

    5

    10

    15

    20

    25

    30

    35

    0 100 200 300 400 500 600 700 800

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 28

    y = 1.8462x - 0.2308 y = 1.9x - 0.4

    0

    2

    4

    6

    8

    10

    12

    0 1 2 3 4 5 6 7

    (05.1), (05.2) e (05.4)

    (06) Basta mostrar que o ponto ( X , Y ) satisfaz a equao de regresso

    Y = a + bX. Se substituirmosX por X na equao o resultado dever ser Y . Mas a + b.X = a + b. X = Y - b X + b. X = Y .Uma vez que a = Y - b X .

    (07) (07.1)

    Y = 4,2589 + 26,2770.X(07.2) a = Custo fixo b = Custo marginal.(07.3) s = 0,37. O intervalo de confiana de 95% para o "custo fixo" : [3,09; 5,42] que contm ovalor "5". Portanto no se pode afirmar, a 5% de significncia que o custo fixo seja diferente doque 5 unidades.

    (08) (08.1)

    Y = 9200 (08.2) 800 270,02 (08.3) t48 = 2,009 (tc = 5,952) (08.4) No

    (09) (09.1)

    Y = 3 + 0,48X (09.2) 2,24 (09.3) 17,25 4,36(10) [0,19; 0,77]

    (11) (11.1)

    Y = 4,30 + 1,50X (r = 0,73) (11.2) S = 1,24 (11.3) t13 = 3,83(12) (12.1) [44,69; 47,99] (12.1) [42,14; 50,54](13) (13.1) r = 0,87 (13.2) t3 = 3,00

    (13.3) 1,50 1,59 (13.4) 8,50 65,26(14) (14.1) -2 seria a taxa de incidncia de cncer pulmonar que no est relacionada ao hbito de

    fumar, ou de quem nunca fumou. 1,70 a variao na taxa de cncer pulmonar para cada anoque a pessoa fumou.

    (14.2) Y = -2 + 1,70.20 = 32.(14.3) No, pois "r" indica associao na amostra e pode ser o mesmo na populao.(14.4) t48 = 5,20 que significativo a 1%.

    (15) (15.1) Tanto um coeficiente de "+1" quanto um de "-1" indicam correlao perfeita entre asvariveis.

    (15.2) Coeficiente de regresso igual a zero implica em correlao tambm zero.(15.3) No necessariamente, pois neste caso "1" o valor de inclinao da linha e no grau deassociao linear entre as duas variveis.(15.4) Sim possvel.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 29

    (15.5) A tcnica dos mnimos quadrados pode ser utilizado para ajustar vrios tipos de equao.(16) (16.1) Neste caso, a interpretao deve ser mais cuidadosa, pois tanto o excesso de chuvas quanto

    a falta vo distorcer os dados e estas equaes podem no ser mais vlidas.(16.2) A safra B tira mais proveito, provavelmente por ser uma cultura que precisa de maischuvas.(16.3) Para a safra B pois existe uma melhor aderncia dos dados a equao.

    (17) (17.1) 26,28 7,56 (17.2) 4,26 1,17 (17.3) [81,46; 98,86](17.4) [78,45; 101,87] (17.5) t3 = 11,57 (17.6) tc = -1,159 e tt -2,353, Aceito H0.(17.7) ) tc = -2,010 e tt -2,353, Aceito H0.

    (18) n = 36(19) tc = 1,35. Este valor no significativo nem 5% e nem a 1%.

    (20) 2 = 64%, portanto no-explicada ser: 1 - 2 = 36%(21) (21.1)

    (21.2) r = 0(21.3)

    (21.4) Porque a correlao mostra apenas o relacionamento linear e, neste caso, o relacionamento do tipo parbola (equao do segundo grau).

    (22) (22.1) r = 0,8544(22.2)

    Y = -30,4980 + 0,3247X(22.3)

    Y = 132 mil(22.4) X

    = 122,01 + 2,25.Y

    y = x2 - 5x-15

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

    y = 2

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - [email protected] - http://www.mat.pucrs.br/~lori/ 30

    5. REFERNCIAS

    [BUS86] BUSSAB, Wilton O, MORETTIN, Pedro A. Estatstica Bsica. 3a ed. So Paulo, Atual,1986.

    [DOW89] DOWNING, Douglas, CLARK, Jeff. Statistics the Easy Way. Barrons Educational Series,Inc. New York, 1989.

    [FON76] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade, TOLEDO, Geraldo Luciano.Estatstica Aplicada. So Paulo: Editora Atlas, 1976.

    [FON80] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatstica. SoPaulo: Editora Atlas S. A., 1980.

    [HOF80] HOFFMAN, Rodolfo. Estatstica para Economistas. So Paulo. Livraria Pioneira Editora,1980.

    [KLE78] KLEIBAUM, David G., KUPPER, Lawrence L. Applied Regression Analysis and OtherMultivariable Methods. North Scituate, Massachusetts: Duxbury Press, 1978.

    [MAR87] MARKLAND, Robert E., SWEIGART, James R. Quantitative Methods: Applications toManagerial Decision Making. New York: John Wiley & Sons, 1987. 827p.

    [MAS90] MASON, Robert D., DOUGLAS, Lind A. Statistical Techniques in Business AndEconomics. IRWIN, Boston, 1990.

    [MEY78] MEYER, Paul L. Probabilidade: aplicaes Estatstica. Traduo do Prof. Ruy C. B.Loureno Filho. Rio de Janeiro, Livros Tcnicos e Cientficos Editora S.A., 1978.

    [MIL90] MILLER, Charles D., HEEREN, Vern E., HORNSBY Jr., E. John. Mathematical Ideas.USA: Harper Collins Publishers, 1990.

    [REA93] The Statistics Problem Solver. Research and Education Association, Piscataway, NewJersey, 1993.

    [ROT91] ROTHENBERG, Ronald I. Probability and Statistics. Hartcourt Brace Jovanovich,Publishers, Orlando, Florida, 1991.

    [SAL82] SALVATORE, Dominick. Estatstica e Econometria. Traduo Newton Boer, revisotcnica Marco Antnio S. de Vasconcelos. So Paulo: McGraw-Hill do Brasil, 1982.

    CORRELAOINTRODUOPADRES DE ASSOCIAOINDICADORES DE ASSOCIAOO COEFICIENTE DE CORRELAOHIPTESES BSICASDEFINIODISTRIBUIO AMOSTRAL DE R (QUANDO ( = 0)DISTRIBUIO AMOSTRAL DE R (QUANDO ( ( 0)PROPRIEDADES DE R

    REGRESSOESTIMATIVA DOS PARMETROS DE REGRESSOESTIMATIVA DA VARINCIA DO TERMO ERRODISTRIBUIES DAS ESTIMATIVASDistribuio do estimador bDistribuio do estimador a

    DECOMPOSIO DA SOMA DOS QUADRADOSDecomposio dos desviosClculo das variaes

    INTERVALOS DE CONFIANAIntervalo para o coeficiente linear (()Intervalo para o coeficiente angular (()Intervalo para previses(a) Intervalo para o valor mdio de (b) Intervalo para um valor individual ()

    TESTES DE HIPTESESTeste para a existncia da regressoTeste para o coeficiente linear

    COEFICIENTE DE DETERMINAO OU DE EXPLICAO

    EXERCCIOSRESPOSTASREFERNCIAS