diagrama de dispersao corrrelação 2015

23
ESTATÍSTICA Prof. Gilson J Santos CORRELAÇÃO ENTRE VARIÁVEIS Conceitos Básicos a) A maioria dos estudos estatísticos envolve a análise de mais de uma variável o Muitas vezes poderemos estar interessados na relação existente entre duas variáveis. o O entendimento dos tipos de relações existentes entre as variáveis associadas a um processo, contribui para aumentar a eficiência dos métodos de controle do processo em questão. o Permite também a detecção de possíveis problemas e facilita o planejamento de ações de melhorias a serem adotadas. b) A maneira mais eficiente de demonstrar a relação existente entre duas variáveis quantitativas é através do Diagrama de Dispersão - Questões pertinentes: o Queremos simplesmente explorar a natureza da relação? o Algumas variáveis explicam ou modificam outras? o Algumas variáveis são variáveis respostas e outras são variáveis explanatórias? Uma variável resposta mede o resultado de um processo, enquanto que uma variável explanatória procura explicar os resultados observados. c) Exemplo de variável resposta e variável explanatória: o O álcool tem vários efeitos sobre o corpo humano. Um destes efeitos é a queda da temperatura do corpo. Para estudar este efeito, os pesquisadores dão a ratos várias dosagens diferentes de álcool e medem a variação da temperatura do corpo de cada rato nos 15 minutos subseqüentes. A quantidade de álcool é a variável explanatória, e a variação da temperatura é a variável resposta.

description

EstatísticaCORRELAÇÃO ENTRE VARIÁVEIS

Transcript of diagrama de dispersao corrrelação 2015

  • ESTATSTICA Prof. Gilson J Santos

    CORRELAO ENTRE VARIVEIS

    Conceitos Bsicos

    a) A maioria dos estudos estatsticos envolve a anlise de mais de uma varivel

    o Muitas vezes poderemos estar interessados na relao existente entre duas variveis.

    o O entendimento dos tipos de relaes existentes entre as variveis associadas a um processo, contribui para aumentar a eficincia dos mtodos de controle do processo em questo.

    o Permite tambm a deteco de possveis problemas e facilita o planejamento de aes de melhorias a serem adotadas.

    b) A maneira mais eficiente de demonstrar a relao existente entre duas variveis quantitativas atravs do Diagrama de Disperso

    - Questes pertinentes: o Queremos simplesmente explorar a natureza da relao? o Algumas variveis explicam ou modificam outras? o Algumas variveis so variveis respostas e outras so variveis

    explanatrias?

    Uma varivel resposta mede o resultado de um processo, enquanto que uma varivel explanatria procura explicar os resultados observados.

    c) Exemplo de varivel resposta e varivel explanatria:

    o O lcool tem vrios efeitos sobre o corpo humano. Um destes efeitos a queda da temperatura do corpo. Para estudar este efeito, os pesquisadores do a ratos vrias dosagens diferentes de lcool e medem a variao da temperatura do corpo de cada rato nos 15 minutos subseqentes. A quantidade de lcool a varivel explanatria, e a variao da temperatura a varivel resposta.

  • 1) Diagrama de Disperso O diagrama de disperso um grfico utilizado para a visualizao do tipo de relacionamento existente entre duas variveis. O diagrama de disperso uma ferramenta muito simples que permite o estudo de algumas destas relaes, e por este motivo ele amplamente utilizado.

    Exemplos: a) rendimento de uma reao qumica X a temperatura do reator. b) resistncia trao do ao(ensaio destrutivo) X dureza do ao(ensaio no destrutivo).

    Aspectos de um diagrama de disperso: Y

    Varivel 1 X Atravs do comportamento dos pontos, o grfico nos mostra que, um aumento na varivel 1(X) implica num aumento na varivel 2(Y). 2) COMO CONSTRUIR UM DIAGRAMA DE DISPERSO a) colete pelo menos 30 pares de observaes(X,Y) das variveis cujo tipo de relacionamento

    ser estudado. b) Registre os dados coletados em uma tabela. c) Escolha a varivel que ser representada na eixo horizontal X. Esta varivel deve ser aquela

    que, por algum motivo, considerada independente(preditora) da outra varivel, a qual ser plotada no eixo vertical Y.

    d) Determine os valores mximo e mnimo das observaes de cada varivel. e) Escolha escalas adequadas e de fcil leitura para os eixos horizontal e vertical. O menor

    valor da escala deve ser menor que o mnimo e o maior valor da escala deve ser maior que o mximo das observaes da varivel correspondente.

    f) Desenhe as escalas em papel milimetrado. g) Represente no grfico os pares de observaes (X,Y).

    Quando existirem pares de observaes repetidos, indique este fato desenhando crculos concntricos(O).

  • h) Registre as informaes importantes que devam constar no grfico:

    - ttulo - perodo de coleta dos dados - nmero de pares de observaes - identificao e unidade de medida de cada eixo - identificao do responsvel pela construo do diagrama

    Exemplo Prtico: Uma indstria fabricante de eletrodomsticos da chamada linha branca, utilizou o diagrama de disperso para anlise do problema representado pelo elevado ndice de refugo da gaveta de legumes de um modelo de refrigerador produzido pela empresa. A observao do problema indicou que a maior parte das gavetas refugadas eram consideradas defeituosas por apresentarem corte fora de esquadro. Os tcnicos da empresa suspeitaram que a ocorrncia do corte de gavetas fora de esquadro pudesse estar relacionada variao de tenso na rede eltrica, que poderia prejudicar o desempenho do equipamento de corte. Para verificao desta hiptese, foram coletados dados sobre a tenso na rede eltrica(X) e a variao no corte(Y), os quais esto apresentados na tabela 1.(anexo) Consideraes sobre as etapas: a) foram coletados 35 pares de dados; b) a varivel tenso na rede eltrica foi escolhida como X, porque suspeitava-se que ela

    fosse responsvel pela variao no corte Y.

    c) tenso na rede eltrica X: - mnimo = 213,0 V - mximo = 224,7 V

    variao no corte Y: - mnimo = 15,3 mm - mximo = 19,5 mm d) o diagrama de disperso da figura 1, (anexo), forneceu as seguintes informaes: 1- Existia uma associao negativa entre as duas variveis, j que maiores valores para a

    tenso na rede eltrica correspondiam a menores valores para a variao no corte; 2- A relao entre as variveis era aproximadamente linear;

    3- A relao visualizada era bastante forte, j que a faixa de disperso dos pontos era

    estreita.

  • 3- INTERPRETAO DE DIAGRAMAS DE DISPERSO a)

    - forte correlao positiva

    b) - moderada correlao positiva c) - ausncia de correlao d) - moderada correlao negativa e) - forte correlao negativa

  • EXERCCIOS DE FIXAO: 1) Os dados a seguir foram obtidos em uma pesquisa realizada com 12 alunos. Analise a

    existncia de correlao entre o tempo de estudo dirio fora da classe e a nota nas provas.

    Aluno 1 2 3 4 5 6 7 8 9 10 11 12

    Tempo de estudo (h) (X)

    0,0 0,5 0,5 1,0 1,5 2,0 3,0 3,0 3,5 3,5 4,0 4,0

    Nota (Y) 1,0 3,0 3,5 5,0 5,5 9,5 7,0 7,5 8,0 9,5 9,0 9,5

    2) Uma seguradora de automveis estabeleceu a meta de abrir quatro novas sucursais, com

    mdia de 20 corretores por sucursal, nos prximos dois anos. A equipe responsvel pelo treinamento dos novos corretores decidiu avaliar, para os corretores da primeira sucursal a ser inaugurada, a relao existente entre o nmero de dias de treinamento e o desempenho alcanado em um teste simulado de vendas. Posteriormente, esta informao seria utilizada no treinamento de corretores que seriam contratados para trabalhar nas outras sucursais. Os primeiros dezoito corretores contratados foram separados em nove grupos de dois componentes e cada grupo foi submetido a um perodo de treinamento distinto(em dias). Aps o treinamento, todos os corretores participaram de uma srie de situaes simuladas de vendas e, de acordo com seu desempenho, receberam uma nota de 0 a 100. A tabela abaixo apresenta os resultados mdios de cada grupo.

    Grupo 1 2 3 4 5 6 7 8 9

    Dias de treinamento(X)

    1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0

    Desempenho

    (Y)

    40 51 70 80 86 90 93 94 94

    Pede-se: a) Construa um diagrama de disperso para os dados coletados e interprete-o b) Qual o nmero de dias de treinamento que voc recomendaria que a empresa seguradora

    devesse utilizar para os corretores das outras sucursais que seriam inauguradas?

  • 4- CONSIDERAES SOBRE O USO DE DIAGRAMAS DE DISPERSO

    a) Outliers importante destacar que, o incio da anlise de um diagrama de disperso, a primeira providncia a ser tomada consiste em verificar se no existe pontos atpicos(outliers) na figura. Um outlier uma observao extrema, que no condizente com o restante da massa de dados. Y

    X Os outliers podem fornecer informaes importantes sobre situaes pouco comuns que usualmente so de interesse do pesquisador, devendo ento ser analisados com cuidado. Algumas exemplos de possveis origens dos outliers: a) registro incorreto de dados; b) defeito no instrumento de medio; c) erro de clculo; d) funcionamento incorreto de algum equipamento, etc. Como proceder: o outlier deve ser corrigido ou substitudo ou eliminado do conjunto dados, se isto for possvel. Porm, nunca deve ser ignorado ou seja, esquecido, pois ele pode nos trazer informaes importantes sobre as variaes ainda desconhecidas do processo. b) Relao Causa e Efeito entre as Variveis A existncia de uma correlao entre as variveis consideradas no implica necessariamente na existncia de uma relao de causa e efeito entre X e Y. Este resultado apenas indica que existe um relacionamento significativo entre as duas variveis. EXEMPLO: Foram obtidos, numa cidade, dados sobre o nmero de sorvetes vendidos por ms e o nmero de internaes hospitalares por desidratao. bastante possvel que os dados num grfico de disperso, apresente uma forte correlao positiva. Ento devemos apenas entender que o grfico mostra que existe correlao positiva entre o nmero de sorvete vendidos por ms e o nmero de internaes por desidratao, MAS NO PERMITE CONCLUIR QUE SORVETE CAUSA DESIDRATAO. O fato aqui, que um aumento na temperatura determina tanto um aumento no consumo de sorvete, como maior incidncia de casos de desidratao. c) Estratificao

  • Consiste na diviso de um grupo de dados em diversos subgrupos com base em fatores apropriados, os quais so conhecidos como fatores de estratificao. Ex.: equipamentos, matria-prima, pessoas, turno, mtodo, medidas, condies ambientais, tempo, etc. EXEMPLO: As figuras 1 e 2 apresentam dois exemplos de estratificao de diagramas de disperso. As duas figuram apresentam a relao entre o tempo de vida de uma ferramenta de corte empregada em um torno(Y) e a velocidade do torno(X). No 1

    exemplo (fig. 1), quando observado o diagrama no estratificado (fig. 1.a), parece no

    haver correlao entre as variveis. No entanto, quando os dados so estratificados segundo o fabricante da ferramenta de corte, fica evidente a existncia de uma relao entre X e Y (fig. 1.b)

    Fig. 1.a Fig. 1.b No 2

    exemplo, a fig. 2.a parece indicar uma correlao, mas quando os dados so estratificados

    em funo do operador, podemos observar na fig. 2.b que esta correlao deixa de existir.

    Fig. 2.a Fig. 2.b

  • DIAGRAMA DE DISPERSO EXERCCIOS 1- O gerente de um restaurante fez uma pesquisa para saber se existe alguma relao entre o

    preo do almoo e o nmero de clientes. Os dados coletados esto na tabela a seguir:

    Preo(R$) 8,00 12,00 15,00 18,00 21,00 25,00 28,00 32,00 35,00

    No. clientes 45 40 37 35 30 26 20 15 5

    Construa um diagrama de disperso e comente sobre a existncia de correlao entre as variveis. 2- Para analisar a influncia de dois produtos qumicos A e B , na taxa de obteno do produto

    C, foram realizados dois tipos de experimentos. Experimento 1: aumentou-se gradativamente a quantidade do produto qumico A, mantendo a quantidade do produto qumico B constante. Para cada quantidade de A, mediu-se a taxa de produo de C. Experimento 2: aumentou-se gradativamente a quantidade do produto qumico B, mantendo a quantidade do produto qumico A constante. Para cada quantidade de B, mediu-se a taxa de produo de C. Os resultados obtidos nos dois experimentos esto nas tabelas a seguir: Experimento 1

    Qtidade de A(kg)

    0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0

    Taxa de produo de C (em 100 L)

    0,5 2,3 4,7 6,5 8,1 9,9 12,3 14,1 17,0

    Experimento 2

    Qtidade de B(kg)

    0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0

    Taxa de produo de C (em 100 L)

    8,5 8,7 7,5 8.0 7,7 8,3 8,7 7,8 8,1

  • Faa um diagrama de disperso para cada experimento e comente sobre a existncia de correlao.

    CORRELAO LINEAR SIMPLES 1. OBJETIVO: A Correlao uma tcnica Matemtica utilizada para medir a fora de

    associao entre duas variveis. Essa medio leva em considerao o grau de disperso entre os valores das variveis envolvidas. Logo, quanto menos dispersos estiverem os dados, mais forte ser a relao(correlao) entre as duas variveis.

    2. Exemplos de Aplicao

    Os anos de escolaridade do pai e o do filho;

    Altura e o permetro do tronco das rvores;

    Altura do pai e a altura da filha;

    Nmero de filhos e a renda das famlias;

    Vendas de eletrodomsticos e as vendas de automveis.

    Etc 3. Calculando o Coeficiente de Correlao O coeficiente de correlao dado pela equao de Pearson: Onde: n = nmero de observaes (tamanho da amostra) X = soma de todos os valores de X Y = soma de todos os valores de Y

    X2

    = os valores de X ao quadrado e depois somados

    Y2

    = os valores de Y ao quadrado e depois somados X.Y= o produto dos valores X e Y , depois somados. O campo de variao de r , situa-se entre 1 e +1. Valores prximos de +1, sugerem forte associao positiva; Valores prximos de 1 , sugerem forte associao negativa; Valores prximos de 0, sugerem ausncia de correlao.

  • Orientao para anlise: r > 0,8 forte correlao entre X e Y. 0,6 r 0,8 mdia correlao entre X e Y 0,5 r
  • EXEMPLO 2- Dez impressoras, adequadas para uso com computadores pessoais e sendo vendidas no varejo entre $ 300 a $ 500, foram avaliadas por um certo nmero de voluntrios. Foi pedido a eles que dessem notas(em %) para a velocidade e a qualidade de impresso, para cada impressora:

    modelo 1 2 3 4 5 6 7 8 9 10

    Velocidade(X)

    20 45 25 10 30 25 35 30 20 25

    Qualidade (Y)

    65 35 55 85 10 45 45 60 55 35

    Preo($)(X) 410 395 350 530 400 355 430 405 350 375

    Pede-se: Calcule o coeficiente de correlao e comente os resultados: a) entre velocidade e qualidade de impresso; b) entre qualidade de impresso e preo EXERCCIOS COEFICIENTE DE CORRELAO 1) Os dados abaixo referem-se a meses de experincia de dez digitadores e o nmero de erros

    cometidos na digitao de determinado texto:

    Meses 1 2 3 4 5 6 7 8 9 10

    Erros 30 28 24 20 18 14 13 10 7 6

    a) represente os dados num diagrama de disperso e interprete-o. b) calcule o coeficiente de disperso e comente o resultado. 2) Um jornal quer verificar a eficcia de seus anncios na venda de carros usados. A tabela

    abaixo mostra o nmero de anncios publicados e o correspondente nmero de carros vendidos por seis companhias que usaram apenas esse jornal como veculo de propaganda.

    Companhia A B C D E F

  • Anncios Carros

    Vendidos

    74 139

    45 108

    48 98

    36 76

    27 62

    16 57

    Utilizando-se do diagrama de disperso e do coeficiente de correlao, faa uma anlise da correlao existente entre estas variveis. 3) O custo de manuteno de tratores parece aumentar com a idade do trator. Os seguintes

    dados foram obtidos(X representa idade em anos e Y o custo por seis meses):

    X 0,5 0,5 1,0 1,0 1,0 4,0 4,0 4,0 4,5 4,5 4,5 5,0 5,0 5,0 5,5 6,0 6,0

    Y 163 182 978 466 549 495 723 681 619 998 994 890 900 950 987 764 899

    Calcule o coeficiente de correlao e comente o resultado.

    ANLISE DE REGRESSO Objetivo: Descrever atravs de um modelo matemtico, a relao existente entre duas variveis X e Y, a partir de n observaes dessas variveis. Exemplos de aplicao na prtica:

    a) descrever o preo de lotes de terra(Y), em funo da localizao do terreno(X);

    b) descrever o volume de vendas de auto peas (Y), em funo da idade mdia da frota de veculos de uma regio(X);

    c) predizer o consumo dirio de gua(Y), em funo da temperatura mxima diria(X).

    Situaes como as descritas acima so estudadas pela tcnica da ANLISE DE REGRESSO, onde as variveis X e Y so relacionadas por uma equao matemtica.

    TIPOS MAIS COMUNS DE REGRESSO

    a) MODELO DE REGRESSO LINEAR ocorre quando a disposio dos pontos X e Y, no diagrama de disperso, indicar uma tendncia linear ou de uma reta.

  • O MTODO DOS MNIMOS QUADRADOS Dado um conjunto de pontos no alinhados, podemos ajustar a esses pontos uma reta, de tal forma que a soma das distncias entre os pontos e a reta tomadas ao quadrado seja o menos possvel.

  • Y = a + b X As constantes da reta: a e b so obtidas por: Exemplo 1- Os dados abaixo referem-se ao volume de precipitao pluviomtrica(mm) e ao volume de produo de leite tipo C(milhes de litros), em determinada regio do pas.

    anos 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979

    Prod. Leite(Y)

    26 25 31 29 27 31 32 28 30 30

    Volume de chuva(mm)

    23 21 28 27 23 28 27 22 26 25

    Pede-se:

    a) Construir o diagrama de disperso; b) Ajustar os dados atravs de um modelo linear (Y=a+bX) c) Admitindo-se em 1980, um volume de precipitao de 24mm, qual dever ser o volume

    esperado de produo de leite tipo C? d) Interprete os coeficientes a e b; diagrama de disperso

  • X Y X.Y X

    23 26 598 529

    21 25 525 441

    28 31 868 784

    27 29 783 729

    23 27 621 529

    28 31 868 784

    27 32 864 729

    22 28 616 484

    26 30 780 676

    25 30 780 625

    250 289 7273 6310

    Clculo dos coeficientes a e b

    Clculo do volume de produo para 1980.

  • Interpretao dos coeficientes:

    O PODER EXPLICATIVO DO MODELO(R) Frequentemente denominado Coeficiente de Determinao, o poder explicativo do modelo de regresso tem por objetivo avaliar a qualidade do ajuste. Seu valor fornece a proporo da variao total da varivel Y, explicada pela varivel X, atravs da funo ajustada. Podemos expressar R por: Quando R = 0, a variao explicada de Y zero. R =1, a equao ajustada explicar toda a variao de Y. Assim quanto mais prximo de 1 for o valor de R, melhor ser a qualidade do ajuste da funo aos pontos do diagrama disperso e quanto mais prximo de zero, pior ser a qualidade do ajuste. Exemplo: Se o valor de R for 98%, significa que 98% das variaes de Y so explicados por X, atravs da funo escolhida para relacionar as duas variveis e 2% so atribudas s causas aleatrias.

    Exemplo 2 Seja a tendncia de seguinte tabela.

  • Anos(X) Ton(Y) X.Y X

    1934 883 0 0

    1935 850 850 1

    1936 770 1540 4

    1937 670 2010 9

    1938 625 2500 16

    1939 532 2660 25

    1940 490 2940 36

    1941 435 3045 49

    1942 382 3056 64

    1943 327 2943 81

    1944 256 2560 100

    6220 24104 385

    a) construir o diagrama de disperso b) calcular a equao de regresso linear c) calcular o R d) estimar a produo em toneladas para 1945 e) interpretar os coeficiente a e b

  • EXERCCIOS DE REGRESSO LINEAR

    1) Os dados abaixo correspondem s variveis renda familiar e gasto com alimentao numa amostra de dez famlias, representadas em 100 reais.

    Renda(X)

    3 5 10 20 30 50 70 100 150 200

    Gasto(Y) 1 2 6 10 15 20 25 40 60 80

    Pede-se:

    a) obtenha a equao de regresso linear Y=a+bX b) interprete os coeficientes a e b c) calcule o R d) qual a previso do gasto com alimentao para uma famlia com renda de

    170 reais? e) Se uma determinada famlia gasta em mdia 1000 reais com alimentao,

    qual dever ser o valor esperado de sua renda? 2) Uma empresa est estudando como varia a demanda de certo produto em funo

    de seu preo de venda. Para isso, levantou as seguintes informaes:

    Meses Jan Fev Mar Abr Mai Jun Jul Ago Set Out

    Demanda(Y)

    248 242 234 216 230 220 213 205 198 195

    Preo u.m.(X)

    162 167 165 173 170 176 178 180 182 187

    Pede-se

    a) Calcular a equao de regresso Y= a + bX b) interprete os coeficientes a e b c) calcule o R d) Estimar a quantidade de produto vendido(demanda) para um preo de venda

    de 160u.m.

  • e) Para o ms de Maro, o preo praticado foi 165 u.m.. Utilizando a equao de regresso, estime a demanda. Qual a diferena do valor real? Como voc explicaria esta diferena?

    MODELO DE REGRESSO EXPONENCIAL

    utilizada quando o diagrama de disperso indicar uma tendncia exponencial para o conjunto de pontos (X e Y).

    Pergunta-se: como calcular A e B ? Soluo: transformao de linearizao, atravs do uso do logartimo.

    Y = A . BX

  • Exemplo: A tabela a seguir reflete a evoluo do IGP(ndice geral de preos), no Brasil, no perodo de 1958 e 1967.

    Anos(X) IGP(Y) y = logY X X.Y

    1958 (0) 229 2,3598 0 0

    1959(1) 316 2,4996 1 2,4996

    1960(2) 407 2,6095 4 5,2190

    1961(3) 559 2,7474 9 8,2422 n=10

    1962(4) 848 2,9284 16 11,7136

    1963(5) 1473 3,1682 25 15,8410

    1964(6) 2811 3,4488 36 20,6928

    1965(7) 4416 3,6450 49 25,5150

    1966(8) 6125 3,7871 64 30,2968

    1967(9) 7946 3,9001 81 35,1009

    45 - 31,0939 285 155,1209

    Pede-se: a) representar os dados no diagrama de disperso; b) ajustar os dados a uma equao exponencial. c) estimar o IGP para 1968.

    a) diagrama de disperso

  • EXERCCIOS DE REGRESSO EXPONENCIAL

    3) Os dados abaixo referem-se a variao da taxa de inflao no Brasil no perodo de 1961 a 1979, medida de dois em dois anos:

    Ano(X) 1961 1963 1965 1967 1969 1971 1973 1975 1977 1979

    Taxa(Y) 9 24 72 128 192 277 373 613 1236 2639

    Pede-se:

    a) Construa o diagrama de disperso e interprete-o; b) Obtenha a equao de regresso exponencial; c) Qual a estimativa da taxa de inflao para 1981? d) Por que a equao de regresso linear no seria mais indicada para este ajuste?

    4) Os seguintes dados correspondem a uma amostra de 10 pacientes e referem-se aos

    dias de estadia no hospital e seu custo por dia.

    Paciente 1 2 3 4 5 6 7 8 9 10

    Estadia(Y) 310 89 22 9 120 99 63 170 20 198

    Custo u.m.(X)

    18,4 18,2 53,9 71,7 36,6 41,9 73,8 23,9 42,8 14,8

    Pede-se

    a) Construa o diagrama de disperso e interprete-o; b) Calcular a equao de regresso exponencial. c) Calcular o R d) Seria melhor o ajustamento atravs de um modelo linear? Justifique?