Estatística IME (03)

50
 P. 31 3. Inferência estatística As defined n the cartoon above, s  N  would be the formula for the population standard deviation of a finite population of  N  individuals or members, and with a population mean denoted by x-bar (  x with a line on top). We have little or no use for that formula in this course, because our primairy purpose is to learn about statisti cal inference. Statistical inference  means making generalizations about the unknown population based on a random sample from t hat population. We therefore calculate the sample standard deviation, which has a different  formula. The formula for the sample standard deviation has (n - 1) rather than N  in the denominator. The point is, t hat many calculators have both formulas, and if you use the wrong one, you will get the wrong answer . This is one of the reasons you must test your calculator by computing the sample fstandard deviation for some given examples. For example, the sample standard deviation of the sample 3. 2. 1 is s = 1. F: ://..////43800784826 2365924/A3615/.  

Transcript of Estatística IME (03)

  • Pg. 3-1

    3. Inferncia estatstica

    As defined n the cartoon above, sN would be the formula for the population standard deviation of a finite population of N individuals or members, and with a population mean denoted by x-bar (x with a line on top). We have little or no use for that formula in this course, because our primairy purpose is to learn about statistical inference. Statistical inference means making generalizations about the unknown population based on a random sample from that population. We therefore calculate the sample standard deviation, which has a different formula. The formula for the sample standard deviation has (n - 1) rather than N in the denominator. The point is, that many calculators have both formulas, and if you use the wrong one, you will get the wrong answer. This is one of the reasons you must test your calculator by computing the sample fstandard deviation for some given examples. For example, the sample standard deviation of the sample 3. 2. 1 is s = 1.

    Fonte: https://scholar.vt.edu/access/content/group/43c8db00-e78f-4dcd-826c-

    ac236fb59e24/STAT3615/schedule.html

  • Pg. 3-2

    Parte A: a. Estimao de parmetros

    b. Testes de hipteses.

    c. Anlise da Varincia.

    d. Regresso linear simples: parte A

    Parte B: a. Regresso linear simples: parte B

    b. Regresso linear mltipla.

    c. Controle da Qualidade.

    d. Introduo ao planejamento de experimentos.

    Parte A O objetivo da inferncia estatstica auxiliar a tomar decises a respeito da populao com base em uma amostra da mesma.

    Divide-se em:

    a) Estimao: quando nada se sabe a respeito da populao; b) Testes de Hipteses: quando se afirma algo sobre a populao e vai-se

    verificar se verdade. Independentemente de qual enfoque se aplique, as afirmaes feitas sempre devem vir acompanhadas de um grau de confiana, ou grau de certeza; ou seja, o quanto se est certo ao comunicar uma informao, porque toda deciso tem um risco, que probabilidade associada a uma deciso errada.

    H dois tipos de erros (riscos): 1. Rejeitar como falso o que verdadeiro: erro (tambm chamado risco do

    produtor ou fornecedor) 2. Aceitar (no rejeitar) como verdadeiro o que falso: erro (beta),

    tambm chamado risco do consumidor ou cliente

    preciso considerar os dois riscos, e estipul-los nos contratos, considerando a relao custo/benefcio de uma deciso errada. Eles so

  • Pg. 3-3

    inversamente relacionados, ou seja, quando um aumenta o outro diminui, embora no somem 100%.

    O 1. Tipo de erro [de deciso]: erro (alfa), conhecido como nvel de significncia. O 2. Tipo de erro [ de deciso ] o erro . O que mais se emprega (1- ), chamado poder do teste de hipteses.

    3.1 Estimao de parmetros 3.1.1 Conceito de estimao de parmetros (caractersticas) da

    populao Na Estatstica, o nome parmetro refere-se a uma caracterstica da populao; os mais conhecidos so a mdia e o desvio-padro. Quando nada se sabe a respeito dos valores dos parmetros da populao pode-se estimar esses valores a partir de dados de uma amostra, ou seja, fazer uma estimao, que pode ser de dois tipos: pontual e por intervalo. Na estimao pontual, o valor da caracterstica da amostra considerado uma estimativa do valor do parmetro na populao.

    valor do parmetro na populao = valor na amostra Caso se retirasse uma outra amostra, esse valor seria diferente. Dificilmente o valor da amostra ser igual ao da populao, mais ainda por ser desconhecido o valor do parmetro da populao. Para que a estimao fornea uma idia melhor daquela caracterstica, faz-se uma estimao por intervalo, para a qual seja quase certo que o valor da populao esteja nele. Estimativas por intervalos so conhecidas como intervalos de confiana (IC). A idia do intervalo de confiana um refinamento da estimativa pontual. Desse modo, considera-se uma variao em torno do valor amostral e escreve-se que o valor da caracterstica da populao se situa entre dois limites, ou seja, est no intervalo

    Valor na amostra ( a estimativa pontual) [ erro de amostragem ] gerando o intervalo de confiana, no necessariamente simtrico. O conceito de intervalo de confiana ilustrado pela Figura 3.1.

    Figura 3.1 - O conceito de intervalo de confiana.

    Intervalo de confiana

    Valor amostral

    Limite inferiorde confiana

    Limite superiorde confiana

    Intervalo de confiana

    Valor amostral

    Limite inferiorde confiana

    Limite superiorde confiana

  • Pg. 3-4

    O erro de amostragem diretamente proporcional ao grau de certeza de que o intervalo contenha o valor da caracterstica da populao, ou seja, confiana dos resultado. Se queremos um intervalo de confiana para o qual estejamos quase certos que contenha o valor da populao, esse intervalo deve ser tanto maior quanto mais se aumenta a certeza de que ele realmente conter o valor do parmetro da populao.

    O erro de amostragem diretamente proporcional disperso da populao (quanto mais dispersa a populao, maior ser a variao entre as amostras), Finalmente, o erro de amostragem inversamente proporcional ao tamanho da amostra (quanto maior a amostra, mais esta se aproxima da populao e diminui o erro de amostragem). O objetivo do estudo das tcnicas estatsticas de estimao obter o menor intervalo que tenha uma confiana adequada ao tomador de deciso, ou seja, a estimao por intervalo consiste em encontrar um intervalo definido por dois limites, tal que a probabilidade do valor da populao estar contido nele seja igual a (1 ). Em porcentagem, essa probabilidade, chamada nvel ou grau de confiana, denotada por 100 (1 ) %.

    3..1.2 A estimativa por intervalo mais popular: mdia da populao Para a estimao por intervalo da mdia da populao (a mais utilizada e representada pela letra grega ), a partir da estimativa pontual, que a mdia aritmtica amostral, deduziremos como relacionar o tamanho da amostra, a disperso e a confiana (influenciadores no erro de amostragem) em uma expresso matemtica para calcular os limites do intervalo de confiana (IC).

    A amplitude do intervalo de confiana no caso de estimao de mdia da populao igual a duas vezes o erro de amostragem e varia:

    a) diretamente em relao ao grau de certeza, ou seja, confiana; b) diretamente em relao disperso; c) inversamente em relao ao tamanho da amostra.

    Ento, pode-se escrever que:

    Mdia amostral confiana . amostra da tamanho

    disperso

    que fornece o seguinte intervalo:

    Mdia - confiana . amostra da tamanho

    disperso Mdia + confiana .

    amostra da tamanhodisperso

    Usualmente, tem-se uma amostra pequena; obviamente, sabe-se o tamanho n dela e podem ser calculados a mdia amostral ( X ) e o desvio-padro amostral (s).

  • Pg. 3-5

    No caso de se estimar a mdia da populao, usa-se o modelo estatstico denominado distribuio de Student (tambm conhecida como distribuio t de Student). Nesses casos, o intervalo de confiana dado pela seguinte expresso:

    n

    s t

    n

    s t + XX

    Observemos que a estrutura da expresso matemtica igual j vista:

    Mdia - confiana . amostra da tamanho

    disperso Mdia + confiana .

    amostra da tamanhodisperso

    Todavia, com fazer em relao ao erro que se admite cometer, ou seja, confiana que se deseja? A soluo a seguinte: escolhe-se o erro, usualmente 5% (equivalente a dizer que se tem uma confiana de 95%). Surge, agora, mais um problema, como expressar a confiana, como inclu-la na expresso matemtica?

    Ea-1

    Retiraram-se, aleatoriamente, 25 itens de um conjunto para constiturem uma amostra. Anotam-se 25 valores de uma caracterstica, cuja mdia aritmtica e o desvio-padro calculados foram, respectivamente, 50mg/L e 8 mg/L. Determinar, com uma confiana de 95%, o intervalo no qual pode estar o valor verdadeiro da mdia dessa caracterstica.

    RESPOSTA

    n

    s t

    n

    s t + XX

    258

    2,064 05 258

    2,064 05 +

    53,31mg/L 46,69mg/L

    Neste captulo, admite-se que o leitor tenha uma compreenso intuitiva de probabilidade, ou seja, da chance de alguma coisa acontecer.

  • Pg. 3-6

    Os modelos estatsticos relacionam probabilidades com fatores a serem colocados nas expresses matemticas. Para uma mesma probabilidade de acerto de deciso (confiana), h fatores que dependem do modelo estatstico. Entretanto, como se determinou o valor de t, fator associado probabilidade de acerto de deciso? Com o uso do Excel.

    No Excel, em Inserir Funo, escolhe-se a funo INVT, resultando na Figura 3.2.

    Figura 3.2 - A funo INVT Nele, digitam-se, em Probabilidade, o valor do erro que se admite cometer e, em Graus_liberdade, o tamanho da amostra menos 1, conforme Figura 3.3.

    Figura 3.3 - A funo com os dados do Exemplo 17

    Se desejarmos obter apenas o limite superior (ou apenas o limite inferior) do intervalo de confiana, para determinar o valor de t no Excel, em Probabilidade deve ser colocado o dobro do erro.

    Para a distribuio de Student, temos, por exemplo, os seguintes fatores para os tamanhos 25 e 38, e confianas de 90%, 95% e 99% (Tabela 3.1).

    erroerro

    n-1

  • Pg. 3-7

    Tabela 3.1 - Fatores associados a confianas com base na distribuio de Student

    Tamanho da amostra = 25

    Confiana Fator

    90% 1,710882316

    95% 2,063898137

    99% 2,796950866

    Tamanho da amostra = 38

    Confiana Fator

    90% 1,687094482

    95% 2,026190487

    99% 2,715405572

    Os fatores dependem do tamanho da amostra no apenas na distribuio de Student1, mas tambm em outras distribuies de probabilidades.

    Considerem-se os exemplos seguintes.

    SITUAO 5

    Na fase de Projeto Executivo de uma rodovia, explicar como deve ser estimado o valor do

    ndice de Suporte California CBR de um solo a ser utilizado na execuo de um aterro.

    SOLUO

    A Instruo de Servio IS-206 ESTUDOS GEOTCNICOS constante das Diretrizes Bsicas para

    Elaborao de Estudos e Projetos Rodovirios do DNIT Edio 2006 (Publicao IPR-726)

    estabelece os critrios estatsticos a serem empregados no estudo de ocorrncias de materiais

    empregados nos diversos servios de construo rodoviria. Segundo essa instruo, devem

    ser realizados furos de sondagem nos vrtices de um reticulado com malha de 50m de lado,

    nos quais devero ser coletados exemplares de todos os horizontes identificados,

    submetendo-as aos ensaios de caracterizao, compactao e ndice de Suporte California

    1 William Sealy Gosset (1876-1937) foi um qumico e estatstico, sendo mais conhecido pelo

    pseudnimo de Student. Ingls, trabalhou na destilaria Guiness, cujo dono proibiu que seus funcionrios publicassem artigos cientficos, e por essa causa conhece-se a distribuio t de Student e no distribuio de Gosset. No modelo de Gosset, tem-se uma distribuio para cada grau de liberdade. Desse modo, aquilo que se conhece publicado como tabela t de Student , na verdade, o extrato de vrias tabelas, onde cada linha parte da tabela geral, ou seja, cada linha o extrato da tabela para aquele grau de liberdade

  • Pg. 3-8

    CBR. Os valores obtidos nos ensaios so submetidos a tratamento estatstico, calculando-se os

    seguintes valores:

    Onde

    No caso especfico do ndice de Suporte California CBR, para fins de projeto, adotado o

    valor mnimo Xmin.

    Nas expresses acima esto incorporados os intervalos de confiana adotados pelo DNIT que

    so:

    - 80% na estimativa da mdia da populao

    - 50% na estimativa dos valores mximos e mnimos.

    3.2 Testes de hipteses. 3.2.1 A segunda parte da Inferncia Estatstica: testes de

    hipteses Considere-se um novo fornecedor que afirma ser melhor o produto dele: essencial que se compare esse novo produto com um outro, aquele sendo usado. Por exemplo, um produto apresenta, para certa caracterstica, a mdia 70. Uma amostra do novo fornecedor apresenta mdia 65. A diferena entre os valores 65 e 70 estatisticamente significante? Ou seja, essa variao devida ao acaso ou realmente os produtos so diferentes?

    680291

    680291

    ,,

    ,,

    min

    max

    =

    ++=

    NXX

    NXX

    amostradapadrodesviosindividuaivaloresX

    amostradamdiaXexemplaresdenmeroN

    N

    XX

    N

    XX

    i

    N

    ii

    N

    ii

    =

    =

    =

    =

    =

    =

    =

    =

    1

    1

    2

    1

    )(

  • Pg. 3-9

    A hiptese que os resultados dos mtodos podem ser considerados iguais, ou seja, a variabilidade ecistente devida somente natureza.

    O objetivo dos testes de hipteses verificar se uma determinada afirmao a respeito da populao verdade. Por exemplo, um determinado mtodo tem o mesmo comportamento de outro mtodo? Com base nos experimentos com um e com outro, realizam-se alguns clculos, chamados estatsticas de teste, a partir de amostras, e conclui-se a respeito.

    Em todo teste, so feitas duas hipteses: a hiptese de nulidade (usualmente chamada hiptese nula), representada por H0, e uma hiptese alternativa, representada por H1.

    A hiptese de nulidade o que se afirma (normalmente uma igualdade ou o status quo) a respeito do que est sendo testado e considerada verdadeira. Entretanto, tenta-se provar que H0 falsa com base em uma evidncia, ou seja, diz-se que a diferena estatisticamente significante.

    Definir o que vem a ser estatisticamente significante depende do erro que se admite cometer ao decidir-se pela veracidade, ou no, da hiptese de nulidade. O objetivo do teste estatstico tentar provar que tudo o que se afirma no verdade, ou seja, tentar rejeitar afirmao inicial. De modo esquemtico, temos que:

    H0: parmetro da populao = valor numrico

    H1: parmetro da populao valor numrico

    Esse um exemplo de teste bilateral, em que a hiptese alternativa estipulada para identificar afastamentos, em ambos os sentidos, do parmetro sendo testado. A regio englobando esses afastamentos denomina-se regio de no-rejeio (ou regio de aceitao). Graficamente, representa-se uma regio de no-rejeio de 100 (1 ) % de confiana para os testes bilaterais conforme a Figura 3.4, onde o erro que se admite cometer e que se divide em ambas as extremidades. A regio de no-rejeio limitada por valores crticos calculados e, desse modo, preciso determinar dois pontos de corte (os limites) entre as regies alm das quais a hiptese de nulidade ser rejeitada; se a hiptese de nulidade for verdadeira, a probabilidade de se decidir erradamente pequena, comumente 5%.

    Figura 3.4 - Representao da regio de no-rejeio no teste bilateral.

    Regio deno -rejeiorejeio rejei obilateralRegio de

    no-rejeiorejeio rejei oRegio deno-rejeiorejeiorejeio rejeiorejeio

  • Pg. 3-10

    Deve-se lembrar que o objetivo do teste de hipteses sempre tentar rejeitar a hiptese de nulidade com base em uma amostra; caso no se consiga em determinada retirada, conclui-se que aquela amostra no forneceu elementos suficientes para a rejeio desejada.

    Por outro lado, caso haja interesse em se determinar apenas se o parmetro excede determinado valor, as hipteses so formuladas como, por exemplo:

    H0: parmetro da populao = valor numrico

    H1: parmetro da populao > valor numrico

    Esse o caso de teste unilateral superior, em que a hiptese alternativa indica afastamentos do parmetro em relao a um valor no sentido da direita (Figura 3.5). Observamos que todo o erro est concentrado na extremidade superior.

    Figura 3.5 - Representao da regio de no-rejeio no teste unilateral superior.

    De modo semelhante, no teste unilateral inferior (Figura 3.6), o objetivo verificar se o parmetro menor que determinado valor, e as hipteses so formuladas como:

    H0: parmetro da populao = valor numrico

    H1: parmetro da populao < valor numrico

    Figura 3.6 - Representao da regio de no-rejeio no teste unilateral inferior.

    Nesse caso, todo o erro concentra-se na extremidade inferior. A situao que se for estudar definir o tipo de teste a ser selecionado. Por exemplo, em termos de carga mxima suportada por um elevador, o cuidado apenas no ultrapassar com o valor mximo da capacidade, no importando o valor mnimo da carga (teste unilateral superior). Por outro lado, ao se estimar o lucro de uma empresa, a preocupao com o faturamento mnimo e no com o mximo (teste unilateral inferior). Em todos os casos, a estatstica amostral deve ser comparada com um valor crtico para determinar a rejeio, ou no, da hiptese de nulidade. Observemos que, ao contrrio do que usualmente apresentam os livros de Estatstica, no se deve ilustrar as regies de no-rejeio e rejeio como se fosse uma distribuio de deMoivre-Laplace-Gauss, porque os conceitos de regies de no-rejeio e rejeio independem da distribuio estatstica que modela o problema.

    Regio de no-rejei o rejei o

    unilateral superiorRegio de

    no-rejei o rejei ounilateral superior

    Regio de no-rejei o rejei orejei o

    unilateral superior

    Regio de no-rejei orejei o

    unilateral inferiorRegio de

    no-rejei orejei orejei ounilateral inferior

  • Pg. 3-11

    A realizao de um teste de hipteses (modo clssico) da seguinte maneira: 1) estebelecem-se as hipteses de nulidade e alternativa; 2) a partir do modelo estatstico adequado ao problema, determinam-se os limites (no caso

    do teste bilateral) ou o limite (superior ou inferior, no caso de teste unilateral) da regio de no-rejeio;

    3) retira-se uma amostra e, com base nela, verifica-se o limite terico ultrapassado, ou no. Caso seja, rejeita-se a hiptese de nulidade.

    Usualmente, desejamos estudar se h diferenas entre dois conjuntos de resultados, e na ocasio da realizao dos ensaios, h duas situaes:

    a) amostras independentes, quando os dados so coletados de tal maneira que as observaes no so relacionadas umas s outras, e

    b) amostras dependentes (comumente chamadas de pareadas ou em par), quando uma mesma amostra analisada por dois mtodos diferentes.

    No caso de amostras independentes, faz-se, primeiramente o teste F2 para verificar se as varincias das amostras podem ser consideradas iguais; no de amostras dependentes, no necessrio.

    Em quaisquer dessas situaes, os resultados so comparados por meio do teste denominado t (de Student)3.

    3.3.1 Duas amostras Independentes Para comparar duas amostras, faz-se o teste t de Student. No Excel, em Anlise de Dados, h esse teste com o nome de Test-T: duas amostras presumindo varincias equivalentes e Test-T: duas amostras presumindo varincias diferentes

    Figura 3.7 Opes resultantes da abertura da tela Anlise de Dados.

    Desse modo, deve-se fazer, antes, o teste F para igualdade de varincias. O teste F necessrio porque h dois Testes T, cada um adequado a uma situao de varincias (Figura 3.11).

    2 F a letra inicial de Fisher (Ronald Fisher, 1890-1962), estatstico ingls considerado o pai da

    Estatstica moderna. O nome da distribuio foi atribudo por Snedecor (George Snedecor, 1881-1974) em homenagem a ele. 3 Estes dois testes pressupem que os dados possam ser modelados pelo modelo probabilstico

    conhecido como distribuio de Gauss (popularmente conhecida como distribuio normal) de acordo com o Teorema Central do Limite (mais detalhes no Anexo 3).

  • Pg. 3-12

    Fig. 3.11 - Tipos dos testes-T

    Comeando a testar hipteses: teste F para igualdade de varincias

    passo 1: primeiramente, digite em uma coluna os resultados do mtodo 1 e em outra coluna os resultados do mtodo 2.

    passo 2: no menu Ferramentas, escolha a opo Anlise de Dados... e a Ferramenta de Anlise Teste F: duas amostras para varincias (Figura 3.8).

    Figura 3.8 - Anlise de dados: passo 3:

    a) ao dar o OK, surge a tela da Figura 3.8, na qual se digitar, no retngulo Intervalo da varivel 1 (agora com um trao vertical intermitente), as clulas inicial e final dos resultados do mtodo 1, separadas por dois pontos ou, ento, selecionar o conjunto de valores clicando na primeira clula e arrastando o ponteiro do mouse (sem soltar o boto esquerdo) at a ltima clula (no se preocupe com a notao incluindo o sinal $); neste ltimo caso, observar que em Intervalo da varivel 1 aparecem as colunas inicial e final onde foram digitados os valores.

  • Pg. 3-13

    Figura 3.8 - Teste F de igualdade para varincias de duas amostras

    b) Repetir, no Intervalo da varivel 2, com os resultados do mtodo 2. c) Observar que o valor de (Alfa) aparece preenchido com 0,05 (5%), por

    ser o erro mais usual admitido; mantenha esse valor ou altere-o de acordo com suas necessidades.

    d) Indicar a opo de sada: pode ser na mesma planilha onde os dados foram digitados (neste caso, digite a clula que ser a clula superior esquerda e deixe pelo menos sete colunas para a tabela de resumo de sada), em uma nova planilha (para nomear a nova planilha, digite um nome no retngulo) ou mesmo em uma nova pasta de trabalho (para nomear a nova pasta de trabalho, digite um nome no retngulo.).

    passo 4: clique em OK para surgir a tela do resultado do teste de hipteses.

    E3-2

    Dez amostras forem analisadas por um laboratrio, Lab 1, e outras dez amostras do mesmo produto foram analisadas por outro laboratrio, Lab 2.. Com base nos dados da Tabela 3.2 e admitindo-se um erro de deciso de 5%, pode-se considerar equivalentes os dois laboratrios?

    Tabela 3.2 Resultados de dez amostras

    Laboratrio 1 Laboratrio 2

    2,07 2,05

    2,42 2,43

  • Pg. 3-14

    2,81 2,85

    3,03 2,98

    3,30 3,26

    3,34 3,37

    3,55 3,50

    3,79 3,81

    4,05 4,01

    4,42 4,38

    RESPOSTA

    Aps a digitao dos resultados do Lab 1 na coluna A e do Lab 2 na coluna B, desejando-se os resultados na mesma planilha dos dados, o aspecto da tela do Excel o da Figura 3.9.

    Figura 3.9 Dados para o Teste F de igualdade para varincias

    Ao se dar o OK, surge a tela com os resultados, Figura 3.10.

  • Pg. 3-15

    Teste-F: duas amostras para varincias

    Varivel 1 Varivel 2Mdia 3,278 3,264Varincia 0,524062222 0,509826667Observaes 10 10gl 9 9F 1,027922344P(F

  • Pg. 3-16

    Figura 3.13 - Teste T: duas amostras presumindo varincias equivalentes

    b) Fazer o mesmo no Intervalo da varivel 2 com os resultados do Lab 2. c) Observar que o valor de (Alfa) aparece preenchido com 0,05 (5%), por ser o erro mais usual

    admitido; mantenha esse valor ou altere-o de acordo com suas necessidades. d) Indicar a opo de sada: pode ser na mesma planilha onde os dados foram digitados (neste

    caso, digite a clula que ser a clula superior esquerda e deixe pelo menos sete colunas para a tabela de resumo de sada), em uma nova planilha (para nomear a nova planilha, digite um nome no retngulo) ou mesmo uma nova pasta de trabalho (para nomear a nova pasta de trabalho, digite um nome no retngulo.).

    passo 3: clique em OK para surgir a tela da Figura 3.14 com o resultado do teste de hipteses.

    Teste-t: duas amostras presumindo varincias equivalentes

    Varivel 1 Varivel 2Mdia 3,278 3,264Varincia 0,524062222 0,509826667Observaes 10 10Varincia agrupada 0,516944444Hiptese da diferena de mdia 0gl 18Stat t 0,043540268P(T

  • Pg. 3-17

    Se as varincias fossem consideradas diferentes, o raciocnio semelhante, mudando-se apenas o teste para o Teste-T: duas amostras presumindo varincias diferentes.

    passo 1: no menu Ferramentas, escolha a opo Anlise de Dados... e a Ferramenta de anlise TesteT: duas amostras presumindo varincias diferentes" (Figura 3.16)

    Figura 3.16 - Teste T: duas amostras presumindo varincias diferentes

    3.3.2 Um novo conceito

    Enquanto que no teste de hipteses clssico, a probabilidade de erro definida antes do teste, no conceito moderno denomina-se valor-p, que a probabilidade de retirar a amostra em mos SE a hiptese de nulidade verdadeira.

    A regra de deciso a seguinte: rejeitar a hiptese de nulidade SE o valor-p pequeno (usualmente, at 5%). Por exemplo, se o resultado dado pelo aplicativo computacional for o da Figura 3.15, como o valor-p pequeno (menor que 5%), 0,00026 [0,026%], deve-se rejeitar H0. Observamos tambm que o Excel informa o valor crtico (a partir do modelo conceitual) e o valor calculado (determinado a partir da amostra. Como F calculado maior que F crtico, ento tambm pelo enfoque clssico (no qual se estipulou 5% de erro), obviamente tambm se rejeita H0.

  • Pg. 3-18

    Figura 3.15 Resultado do aplicativo computacional

    3.3.2 Amostras Dependentes

    Se a mesma amostra analisada por dois mtodos, faz-se o Teste-T: duas amostras em par para mdias (Figura 3.17).

    Figura 3.17 - Teste T: duas amostras em par para mdias Os demais passos so semelhantes aos Testes T.

    E3-3

    Uma caracterstica de cinco amostras de um minrio foi medida por dois laboratrios, um deles de referncia.

    Amostra Resultados pelo Laboratrio 1

    Resultado pelo Laboratrio

    de referncia A 0,0134 0,0135

    B 0,0144 0,0156

  • Pg. 3-19

    C 0,0126 0,0137

    D 0,0125 0,0137

    E 0,0137 0,0136

    Com uma confiana de 95%, o Laboratrio 1 pode ter seus resultados

    considerados equivalentes com relao a essa caracterstica?

    RESPOSTA

    Aps a digitao dos resultados do Laboratrio 1 na coluna A e do laboratrio de referncia na coluna B, desejando-se os resultados na mesma planilha dos dados, o aspecto da tela do Excel o da Figura 3.18.

    Figura 3.18 Dados para o Teste T: duas amostras em par para mdias

    Ao se dar o OK, surge a tela com os resultados, Figura 3.19.

  • Pg. 3-20

    Teste-t: duas amostras em par para mdias

    Varivel 1 Varivel 2Mdia 0,01332 0,01402Varincia 6,27E-07 0,000000787Observaes 5 5Correlao de Pearson 0,711073Hiptese da diferena de mdia 0gl 4Stat t -2,42974P(T

  • Pg. 3-21

    Porque no usar vrios testes T, dois a dois? Porque a probabilidade de se cometer ao menos

    um erro do tipo I, usando testes t para comparar duas a duas todas as mdias de um

    experimento com k grupos dada na Tabela 3 .3

    Tabela A3.3 - Erros cometidos ao usar o teste de Student dois a dois

    Nmero de mdias

    Nvel de significncia do teste

    0,05 0,01 0,001

    2 0,05 0,01 0,001

    3 0,14 0,03 0,003

    4 0,26 0,06 0,006

    5 0,40 0,10 0,010

    Na Anlise da Varincia, o teste F o modelo usado para se testar a hiptese de que as

    amostras provem de populaes iguais, ou seja, cujas mdias no so significativamente

    diferentes umas das outras. A ANOVA se baseia nas propriedades da mdia e da varincia de

    que, para um conjunto de valores com mdia X , se somarmos uma constante a todos os valores originais, a nova mdia ser igual anterior acrescida dessa constante, mas a varincia

    no se altera. Considere o exemplo a seguir, em que os dados de entrada j induzem a que

    pelo menos uma das mdias diferente. A ANOVA baseia-se no seguinte:

    Variao total dos dados = Variao entre grupos + Variao dentro dos grupos

    Para que haja efeito diferencial entre os grupos, a variao entre deve ser maior que a

    variao dentro do mesmo grupo

    E-14.1

    A hiptese de nulidade (sempre IGUALDADE): que as mdias de A, B e C so

    iguais. Verificar se verdade, podendo-se errar em 5% das vezes.

  • Pg. 3-22

    RESPOSTA

    O resultado apresentado pelo Excel o seguinte:

    Se decidir com F-calculado,

    F-calculado > F-crtico: 17,63 > 3,88 REJEITAR H0

    Se decidir com valor-p,

    valor-p pequeno: 0,00026 0,026% REJEITAR H0

    Concluso: Ao menos uma das mdias diferente

    Anlise da Varincia no Excel

    passo 1: coloque os valores em colunas, cada coluna referindo-se a um grupo;

    passo 2: v a Anlise de Dados..., surgindo a Figura A14.1,

    Figura A14.1 ANOVA em Anlise de dados

    passo 3: clique em OK, surgindo a Figura A14.2, ANOVA: fator nico.

  • Pg. 3-23

    Figura A14.2 - Tela para a entrada de dados da ANOVA: fator nico

    passo 4:

    a) digitar, no retngulo Intervalo de entrada (agora com um trao vertical

    intermitente), a clula superior esquerda e a clula inferior direita,

    separadas por dois pontos ou, ento, selecionar o conjunto de valores

    clicando na primeira clula e arrastando o ponteiro do mouse (sem soltar

    o boto esquerdo) at a ltima clula (no se preocupe com a notao

    incluindo o sinal $); neste ltimo caso, observar que em Intervalo de

    entrada aparecem as colunas inicial e final onde foram digitados os

    valores.

    b) Observar que o valor de (Alfa) aparece preenchido com 0,05 (5%), por

    ser o erro mais usual admitido; mantenha esse valor ou altere-o de acordo

    com suas necessidades.

    c) Indicar a opo de sada: pode ser na mesma planilha onde os dados

    foram digitados (neste caso, digite a clula que ser a clula superior

    esquerda e deixe pelo menos sete colunas para a tabela de resumo de

    sada), em uma nova planilha (para nomear a nova planilha, digite um

    nome no retngulo) ou mesmo em uma nova pasta de trabalho (para

    nomear a nova pasta de trabalho, digite um nome no retngulo.).

    passo 5: clique em OK para surgir tela do resultado da ANOVA; dela somente

    interessam os valores de F e F-crtico.

    Interpretao do resultado

    Se o valor de F for maior que F-crtico, deve-se rejeitar a igualdade dos mtodos, e conclui-se que ao

    menos um deles tem desempenho diferente dos demais, afirmao que tem uma chance de erro de

    5%

  • Pg. 3-24

    EA8-1

    Quatro analistas analisaram uma soluo de concentrao conhecida e

    encontraram os seguintes resultados:

    Analistas Determinaes (%)

    An1 10,2 9,9 10,1 10,4 10,2 10,4

    An2 9,9 10,2 9,5 10,4 10,6 9,4

    An3 10,6 10,5 10,7 10,6 10,8 11,0

    An4 10,1 9,9 10,2 9,9 11,1 10,0

    Pode-se afirmar que o desempenho dos analistas o mesmo, tendo-se

    uma chance mxima de erro de 5%?

    RESPOSTA

    E3-6

    Uma empresa utilizou trs combustveis com diferentes porcentagens de lcool, visando avaliar a alterao no desempenho de um equipamento.

    Grupos (ou tratamentos ou parcelas)

    Equipamentos (ou repeties) G1 G2 G3

    1 19 40 39

    2 31 35 27

    3 15 46 20

    4 30 41 29

    5 33 35

    6 30

    RESPOST

    O resultado apresentado pelo Excel o seguinte:

  • Pg. 3-25

    A Anova: fator nico

    RESUMOGrupo Contagem Soma Mdia Varincia

    Coluna 1 4 95 23,75 63,58333333Coluna 2 5 195 39 26,5Coluna 3 6 180 30 43,2

    ANOVAFonte da variao SQ gl MQ F valor-P F crtico

    Entre grupos 534,5833333 2 267,2916667 6,255485129 0,013769699 3,885293835Dentro dos grupos 512,75 12 42,72916667

    Total 1047,333333 14

    Como F-calculado > F-crtico: 6,255 > 3,88, rejeita-se a hiptese de nulidade e ao menos uma das mdias diferente.

    Entretanto, todos os grupos diferem entre si? Para responder, necessrio realizar a comparao mltipla entre mdias para determinar quais grupos diferem entre si:

    Teste de Tukey Teste de Student-Newman-Keuls (SNK) Correo de Bonferroni

    Nesta publicao, usar-se- o teste de Tukey.

    3.5 Teste de Tukey O teste de Tukey passo-a-passo para o exemplo E3-:

    passo 1. Ordenar as mdias em ordem decrescente, anotando o grupo e o tamanho da amostra correspondente:

    Grupo: G2 G3 G1

    Mdia: 39,00 30,00 23,75

    n: 5 6 4

    passo 2. Calcular as diferenas entre as mdias dos grupos: (39,00-30,00) = 9,00; (39,00-23,75) = 15,25; (30,00-23,75) = 6,25

  • Pg. 3-26

    Passo 3. Estimar o erro-padro (EP) de cada diferena entre mdias, usando a frmula

    EP =

    +

    BnAnQMresduo 11

    2, onde QMresduo a MQ dentro dos

    grupos.

    Desse modo, temos

    EP =

    +

    61

    51

    273,42

    = 2,7989

    EP =

    +

    41

    51

    273,42

    = 3,1007

    EP =

    +

    41

    61

    273,42

    = 2,9836

    Passo 4. Para cada diferena de mdias, calcular a estatstica de teste Q

    EPBA

    calcQ XX

    =

    Desse modo, temos

    7989,200,3000,39

    =calcQ = 3,22

    9836,275,2300,39

    =calcQ = 5,11

  • Pg. 3-27

    1007,375,2300,30

    =calcQ = 2,02

    Passo 5. Verificar o valor de crtico de Q (Anexo 4) Q; nmero de mdias; gl dentro dos grupos Q0,05; 3; 12 = 3,773

    Passo 6. Aplicar a regra de deciso: Se o valor de Qcalc para cada par de mdias for maior que Q0,05; 3; 12 = 3,773, ento os grupos diferem entre si

    Qcalc =3,22 < Q0,05; 3; 12 = 3,773, portanto G3 = G2

    Qcalc =5,11 > Q0,05; 3; 12 = 3,773, portanto G3 G1

    Qcalc =2,02 < Q0,05; 3; 12 = 3,773, portanto G2 = G1

    3.4 Regresso linear simples H diversas maneiras de se utilizar uma equao de regresso, entre as quais aquela em que as duas variveis referem-se ao mesmo elemento sendo estudado, mas uma delas relativamente dispendiosa, ou difcil de lidar, enquanto a outra, no. Por exemplo, a resistncia e a dureza de um metal podem estar inter-relacionadas, de modo que conhecendo-se a dureza, pode-se estimar a resistncia. Se o teste de resistncia destri o metal, enquanto que o teste de dureza no o destri, uma pessoa interessada em estimar a resistncia confia nos resultados do teste de dureza para estimar a resistncia. Assim sendo, a finalidade de uma equao de regresso estimar valores de uma varivel com base em valores conhecidos da outra varivel. Outra utilizao da equao de regresso explicar valores de uma varivel em termos da outra varivel, isto , pode-se suspeitar de uma relao de causa e efeito entre duas variveis. Por exemplo, um psiclogo pode tentar explicar as variaes de comportamento em funo de uma pessoa estar ou no empregada. Entretanto, deve-se notar que a lgica de uma relao causal deve provir de teorias externas ao campo da Estatstica. Ainda uma terceira aplicao da regresso: predizer valores de uma varivel. Por exemplo, costuma-se aplicar testes psicolgicos a empregados ou estudantes, para avaliar o potencial de sucesso no emprego ou na escola. Pode-se presumir que haja um relacionamento matemtico entre o resultado do teste e o potencial futuro. Embora tais relaes possam assumir uma grande diversidade de formas, este tpico se limitar s equaes lineares (cujos grficos so linhas retas) que so importantes porque servem para modelar muitas relaes da vida real, e so relativamente fceis de lidar e de interpretar. A regresso linear compreende a anlise de dados amostrais para saber se e como duas ou mais variveis esto relacionadas uma com a outra de maneira proporcional em uma populao.

    A anlise de regresso linear apresenta como resultado uma equao matemtica que descreve um determinado relacionamento com base em uma linha reta. A equao pode ser usada para estimar, ou predizer, valores de uma varivel quando se conhecem ou se supem conhecidos valores da outra varivel.

  • Pg. 3-28

    A equao que relaciona duas variveis, por exemplo, resposta medida e varivel modificada, :

    Y = a X + b

    onde:

    Y = resposta medida

    X = varivel modificada

    a = coeficiente angular (inclinao) da reta b = interseo da reta com o eixo Y (ou seja, a ordenada quando X = 0)

    O mtodo mais usado para determinar a linha reta que melhor representa um conjunto de pontos conhecido como MMQ, mtodos dos mnimos quadrados. A reta resultante (chamada reta de regresso) tem a propriedade de conter o ponto ( YX , ) onde X a mdia aritmtica dos valores de X, e Y a mdia aritmtica dos valores Y.

    Um modo de apresentar os resultados por meio de um diagrama de disperso, isto , de um grfico em que cada observao representada por um ponto. As coordenadas de cada ponto no eixo horizontal (X) e no eixo vertical (Y) representam os valores dessas variveis. Examinando-se o conjunto de pontos, obtm-se uma impresso visual de como as duas variveis se relacionam.

    Regresso Linear no EXCEL, a partir do grfico de disperso:

    passo 1: primeiramente, digite em uma coluna os valores das concentraes e em outra coluna os resultados da resposta medida.

    passo 2: selecione as duas colunas

    passo 3: clique no cone Assistente de Grfico (Figura 4.6); surge a tela Assistente de Grfico etapa 1 de 4 (Figura 4.7). Escolha o grfico Disperso (X, Y) e clique Avanar, preenchendo, se desejar, o solicitado em cada uma das etapas. Finalize, clicando em Concluir qualquer das etapas.

    Figura 4.6 - Assistente de grfico

  • Pg. 3-29

    Figura 4.7 - Assistente de grfico etapa 1 de 4

    Para compreender melhor o procedimento, observe o exemplo para a determinao da reta no Exemplo E4-2.

  • Pg. 3-30

    E4-2

    Os dados observados durante 5 anos para uma determinada demanda foram os seguintes:

    Ano 1 2 3 4 5

    Demanda 10,4 17,3 27,1 33,8 41,5

    a) Faa um grfico mostrando os dados experimentais. b) Determine a equao da reta dos mnimos quadrados, usando o

    Excel. c) Indique a demanda terica na metade do terceiro ano.

    RESPOSTA

    1. Aps a digitao dos resultados do ano na coluna A e da demanda na coluna B, escolha o grfico Disperso (XY), que resulta na Figura 4.8. .

    05

    1015202530354045

    0 2 4 6Ano

    Dem

    an

    da

    Figura 4.8 Reta relacionando Ano e Demanda

    2. Ao se clicar com o boto direito em qualquer um dos pontos do grfico, abre-se um novo menu (Figura 4.9).

  • Pg. 3-31

    Figura 4.9 Menu para determinar a linha de tendncia

    3. Clicar em Adicionar linha de tendncia..., surgindo a Figura 4.10, onde a tendncia Linear j est selecionada.

    Figura 4.10 Aba Tipo de Adicionar linha de tendncia

    5. Clicar na aba Opes e marcar a quadrcula referente a Exibir equao no grfico e Exibir valor de R-quadrado no grfico (Figura 4.11)

  • Pg. 3-32

    Figura 4.11 Aba Opes de Adicionar linha de tendncia

    O objetivo de se determinar o valor de R2 para verificar o quanto a modelagem adequada, e quanto mais prximo do valor 1, melhor.

    5. Aps dar o OK, surge a tela da Figura 4.12.

    y = 7,87x + 2,41R2 = 0,9968

    05

    1015202530354045

    0 2 4 6Ano

    Dem

    an

    da

    Figura 4.12 Resultado final

  • Pg. 3-33

    As respostas so:

    a) A equao da rota Y = 7,87X + 2,41, onde X = ano e

    Y = demanda

    b) para o tempo de 3,5 anos, a demanda calculada a partir da equao por: Y = 7,87 x 3,5 + 2,41, o que nos fornece o valor de 29,955 para a demanda.

    A anlise de regresso apenas indica qual relacionamento matemtico pode existir, se existir algum. Em outras palavras, a regresso no pode mostrar que uma varivel tenda a causar certos valores de outra varivel, ou seja, no garante que exista relao de causa e efeito.

    Alm do grfico de disperso, pode-se fazer a Regresso Linear no EXCEL com a Ferramenta de Anlise Regresso.

    passo 1: primeiramente, digite em uma coluna os valores do ano e em outra coluna os resultados da demanda.

    passo 2 v ao menu Ferramentas e escolha Anlise de dados...; surge a respectiva tela (Figura 4.13).

    Figura 4.13 - Anlise de dados.

    passo 3: por meio da barra de rolagem da direita, procure, entre as Ferramentas de Anlise, Regresso (Figura 4.14);

  • Pg. 3-34

    Figura 4.14 - Regresso em Ferramentas de Anlise.

    passo 4: clique OK no extremo superior direito do quadro, surgindo a tela Regresso (Figura 4.15);

    Figura 4.15 Tela de Regresso

    passo 5: a) em Intervalo Y de entrada (agora com um trao vertical intermitente),

    digitar as clulas inicial e final das demandas, separadas por dois pontos ou, ento, selecionar o conjunto de valores clicando na primeira clula e arrastando o ponteiro do mouse (sem soltar o boto esquerdo) at a ltima clula (no se preocupe com a notao incluindo o sinal $); neste ltimo caso, observe-se que em Intervalo Y de entrada aparecem as clulas inicial e final onde foram digitados os valores.

    b) Fazer o mesmo com os anos no Intervalo X de entrada. c) Observar que o valor do nvel de confiana aparece preenchido e bloqueado

    com o valor usual (95%); mantenha esse valor ou altere-o de acordo com suas necessidades, clicando na quadrcula esquerda e colocando o valor desejado.

    d) Indicar a opo de sada: pode ser na mesma planilha onde os dados foram digitados (neste caso, digite a clula que ser a clula superior esquerda e deixe pelo menos sete colunas para a tabela de sada), uma nova planilha (para nomear a nova planilha, digite um nome no retngulo) ou mesmo uma nova pasta de trabalho (Para nomear a nova pasta de trabalho, digite um nome no retngulo).

    e) No marque as outras quadrculas. passo 6: dar um OK e observar o resultado.

  • Pg. 3-35

    E4-3

    Os dados observados durante 5 anos para uma determinada demanda foram os seguintes:

    Ano 1 2 3 4 5

    Demanda 10,4 17,3 27,1 33,8 41,5

    Determine a equao da reta dos mnimos quadrados Y = AX + B com a variao dos coeficientes A e B.

    RESPOSTA

    passo 1: primeiramente, digitar em uma coluna os valores do Anoe em outra coluna os resultados da Demanda:

    passo 2: ir ao menu Ferramentas e escolha Anlise de dados...; surgindo a respectiva tela (Figura 4.16).

    Figura 4.16- Anlise de dados.

    passo 3: por meio da barra de rolagem da direita, procurar, entre as Ferramentas de Anlise, Regresso (Figura 4.17);

    Figura 4.17- Regresso em Ferramentas de Anlise.

  • Pg. 3-36

    passo 4 clicar OK no extremo superior direito do quadro, surgindo a tela Regresso.

    passo 5: Digitar ou selecionar os dados, e marcar as quadrculas referentes a resduos (Figura 4.18).

    Figura 4.18 Tela com os dados de entrada e opes de sada passo 6: ao dar OK, aparece parte dos resultados completos (Figura 4.14).

    Coeficientes Erro padro Stat tInterseo 2,41 0,851841143 2,829166Varivel X 1 7,87 0,256839768 30,64167

    Figura 4.19 Parte dos resultados do Exemplo E4-2 Observe-se que tanto para a interseo quanto para a Varivel X1, aparecem os seguintes valores: Coeficientes, Erro padro; Stat t; valor-P; 95% inferiores; 95% superiores; Inferior 95,0% e superior 95,0%. O que realmente nos interessa, no momento, so os valores de 95% inferiores e superiores cujos resultados aparecem duas vezes. Essa repetio porque o EXCEL sempre coloca o resultado para 95% de confiana, alm da confiana escolhida pelo analista. Dessa parte dos resultados, sero vistos apenas os da Figura 4.20.

    Coeficientes 95% inferiores 95% superioresInterseo 2,41 -0,300938699 5,120938699Varivel X 1 7,87 7,052621228 8,687378772

    Figura 4.20 Resultados do Exemplo 4.1 a serem analisados

    A resposta a seguinte: Y = 7,87X + 2,41

    A inclinao A pode variar entre 7,05 e 8,68.

    A ordenada B pode variar entre 0,30 e 5,12.

    Para a varivel X1, no exemplo, tem-se que 95% inferiores = 7,05 e 95% superiores = 8,68, o que significa que o valor de a pode variar entre esses dois resultados. Desse modo, a verdadeira inclinao estimada, com 95% de confiana, como estando entre 7,05 e 8,68. Uma vez que esses valores esto acima de 0, pode-se concluir que existe relao linear significativa em termos estatsticos, ou seja, h 95% de probabilidade de ser verdade haver um

  • Pg. 3-37

    relacionamento entre protenas e as absorbncias. Por outro lado, se o valor 0 (zero) estivesse contido no intervalo, no haveria relao entre protena e concentrao.

    A combinao dessas variaes dos coeficientes a e b resulta no que se denomina corredor de confiana, conforme a Figura 4.21.

    Figura 4.21 Corredor de confiana

    3.4.2 Mtodos dos mnimos quadrados ordinrios (MQO) Este mtodo devido ao matemtico alemo Johann Carl Friedrich Gauss (1777-1855), que o

    descreveu aos dezoito anos (1795). Mais tarde, Adrien-Marie Legendre (1805) introduziu

    contribuies ao mtodo em seu Nouvelles mthodes pour la dtermination des orbites des

    comtes .

    3.4.2.1 Explicao conceitual

    Quando se faz uma regresso linear, os valores observados (xi,yi) esto dispersos ao redor da

    reta de regresso.. Quanto menor for essa disperso, melhor a reta de regresso representa o

    conjunto de valores observados. Em 1809, Carl Friedrich Gauss (1777-1855) demonstrou que a

    melhor maneira de determinar um parmetro desconhecido de uma equao minimizar a

    soma dos quadrados dos resduos, ou seja, diferenas entre os valores reais e os do modelo

    (Figura 3.1)

    Reta de regresso

    Corredor de 99%

    de confiana

    Corredor de 95%

    de confiana

  • Pg. 3-38

    Figura 3.1 Ilustrao do resduo

    Adrien-Marie Legendre (1752-1833) denominou este mtodo de Mnimos Quadrados e, em abril de 1810, Pierre-Simon, marqus de Laplace (1749-1827) generalizou o problema.

    Deseja-se minimizar a seguinte soma:

    ( )=

    =

    n

    iiiS yy

    1

    2 , onde

    valores de y observados

    valor de y estimado pela reta de regresso y=ax+b

    ou seja, mnimos quadrados consiste em minimizar a soma dos quadrados dos resduos,

    Analisando:

    Suponha-se que os valores de y no sejam influenciados pelos valores de x. Se y no depende de x, graficamente, tem-se y constante ( , dado que a=0 e y=b). Ento, est-se admitindo

    que os valores observados yi so flutuaes ao acaso ao redor de um valor mdio y . Tem-se que

    )( YYi : Variao de Y em torno de sua mdia;

    )( YYi : Variao de Y explicada pelas variaes de X: (Yi = b + aXi).

    )( YYi : Mede o grau de disperso entre os valores observados e o estimado (no explicado por X - o resduo). X causa impacto em Y, mas existem impactos causados pelos erros, e a variao dos pontos observados nem sempre pertencem reta de regresso. (Figura 3.2)

  • Pg. 3-39

    Figura 3.2 Ilustrao das diferenas entre o modelo, os dados reais e a mdia das

    observaes y

    Quanto, ento, a reta de regresso (valores ) difere deste valor mdio ? Isto fornecido

    pela soma dos quadrados das distncias entre e ( ), o que corresponde a

    . Tambm se pode medir a disperso dos valores observados em relao

    reta, o que corresponde a , dado pela soma dos quadrados das distncias entre

    e ( ) (Figura 2).

    Por esta razo, diz-se que corresponde o quanto da variao de

    "justificado" pela reta ajustada e a o quanto resta para ser explicado.

    Se o modelo representar adequadamente os dados, as observaes estaro prximas da reta

    de regresso.

    Ou seja,

    Variao Total = Variao Explicada pela Variao de X + Variao Residual

    Matematicamente, como ( ) ( ) ( )yyyy iiyiyi += ento

    , onde

  • Pg. 3-40

    valores de y observados

    valor mdio de y

    valor de y estimado pela reta de regresso y=ax+b

    3.4.2.2 Medida de qualidade do ajuste, o coeficiente de determinao R2

    O objetivo determinar se o modelo representa adequadamente os dados coletados.. Se se fizer

    SQTsSQ

    SQTgSQ

    SQTSQT ReRe

    +=

    ento

    ( )( ) ( )

    +

    = 2

    2

    2

    2

    1YY

    e

    YY

    YY

    i

    i

    i

    i

    Denomine-se a proporo explicada pela varivel X de R2, igual a SQTgSQ Re

    . Da que:

    1 = R2 + SQTsSQ Re

    , ou seja, R2 = 1 - SQTsSQ Re

    Assim, 10 2 R , e indica o percentual de variao de Y explicada pela varivel independente X. O coeficiente de determinao representa a proporo (ou porcentagem) da variao total em Y explicada pelo modelo de regresso. Por exemplo, se R2 = 0,57, ento 57% das variaes de Y so atribudas apenas variao de X.

    R2 uma funo no decrescente do nmero de variveis explicativas do modelo, o que faz

    com que o aumento do nmero de regressores aumente quase invariavelmente o R2. Como:

    22 i

    2i

    eSQ Re g SQ Re sR 1 1SQT SQT y

    = = =

    e 2iy independente do nmero de variveis explicativas, mas

    2ie depende do nmero de

    variveis explicativas presentes no modelo (conforme aumenta o nmero de variveis

    explicativas, provavelmente 2ie ir diminuir, fazendo com que o R

    2 aumente).

    Ao comparar dois modelos de regresso com a mesma varivel dependente e diferente

    nmero de variveis dependentes, a escolha do modelo, pelo R2 mais alto, deve ser feita com

    cautela.

    Para comparar os dois R2, deve-se considerar o nmero de variveis explicativas presentes no

    modelo, por meio do R2 Ajustado( 2R ), dado por

  • Pg. 3-41

    22 i

    2i

    e ( n k )R 1y ( n 1 )

    =

    onde: k o nmero de parmetros do modelo.

    Em sntese, R2 representa uma medida de intensidade da relao linear entre as variveis.

    3.4.2.3 Teste F para regresso linear simples:

    Pode-se tambm verificar se Y relaciona-se com X, por meio de um teste de hipteses

    H0: a=0 versus H1: a0

    A hiptese de nulidade a de que a variao de y no depende de x, portanto rejeitando-se H0

    est-se admitindo que y funo de x. Para esse teste, poder-se-ia usar o teste de Student,

    mas como toda a explicao baseia-se em soma de quadrados, e sabendo-se que t2 = F, ento

    faz-se o teste-F, anlise da varincia, comparando-se a varincia da regresso com a dos

    resduos.

    que, sob H0, uma distribuio F com graus de liberdade (1,n-2). Portanto rejeita-se H0 quando

    MQregresso for significativamente maior que a MQresduos.

    O Quadro 3.1 apresenta a ANOVA com a identificao de cada uma das clulas.

    Quadro 3.1. ANOVA DE UMA REGRESSO SIMPLES

    g.l.SQ MQ F valo r pRegresso 1 SQregresso MQ regresso SQ regresso / MQresd uos Resduos n-2 SQresduos MQ resduos Total n-1 SQt otal

    A SQregressa tem apenas um grau de liberdade porque tanto yi quanto y so fixos para cada xi.

    A SQtotal tem (n-1) graus de liberdade pela definio de varincia amostral.

    A SQresduos tem (n-2) graus de liberdade porque a reta de regresso tem dois parmetros, a e b, que devem ser fixos para cada amostra

  • Pg. 3-42

    EXERCCIOS

    1. Critique o exerccio a seguir:

    Uma pesquisa de trfego realizada em uma determinada rodovia mediu a

    velocidade pontual de 20 veculos, obtendo-se o seguinte resultado:

    - mdia: 35 km/h

    - desvio padro: 5 km/h

    Pede-se: qual o valor da velocidade mdia estimada dos veculos, com um grau de

    confiana de 68% e 95% ?

    Resposta:

    Teoria aplicada a esse exerccio: (Manual de Estudos de Trfego 2006)

  • Pg. 3-43

  • Pg. 3-44

    2. Critique o exemplo a seguir.

    (Fonte: DNIT - Manual de Estudos de Trfego 2006)

  • Pg. 3-45

    Resposta:

  • Pg. 3-46

  • Pg. 3-47

  • Pg. 3-48

  • Pg. 3-49

    3. Explique estatisticamente o critrio a seguir.

    As DIRETRIZES BSICAS PARA ELABORAO DE ESTUDOS E PROJETOS RODOVIRIOS do DNIT - 2006 (Publ IPR-726), no seu item 3.2.3 Estudos de Ocorrncias para Pavimentao, estabelece que:

    a) Nas ocorrncias de materiais granulares, julgadas viveis pelos estudos preliminares, em cada n da malha de 30m de lado sero executados furos de sondagem com coleta

    de amostras para realizao de ensaios de granulometria por peneiramento simples,

    limite de liquidez, limite de plasticidade, de equivalente de areia, e, em furos

    alternados, ensaios de compactao na energia mais adequada ao material, ISC e

    densidade in situ b) Dever ser apresentado o quadro estatstico dos resultados dos ensaios e as curvas

    granulomtricas do material e da faixa da equao para a qual se enquadra,

    representando os valores de Xmx e Xmn

    Comentrios: Embora a referida publicao no defina o significado estatstico de Xmx e Xmn, sabe-se que: Onde X = mdia amostral N = N de exemplares da amostra S = desvio padro amostral Exemplo:

    SN

    SXX 68,029,1max ++= SNSXX 68,029,1min =

    NX

    X i= ( )N

    XXS i

    =

    2

  • Pg. 3-50