Capitulo i - Elementos de Estatistica Descritiva_01-24

download Capitulo i - Elementos de Estatistica Descritiva_01-24

of 24

description

CAPITULO 1 ELEMENTOS DE ESTATÍSTICA

Transcript of Capitulo i - Elementos de Estatistica Descritiva_01-24

  • UNIVERSIDADE FEDERAL DE VIOSA UNIVERSIDADE FEDERAL DO CEAR

    DEPARTAMENTOS DE TECNOLOGIA DE ALIMENTOS

    TAL 795 Problemas especiais II: Planejamento e anlise de experimentos

    2011 Jos Bencio Paes Chaves DTA/UFV 1 Elementos de estatstica descritiva 1.1 Medidas de tendncia central 1.1.1 Mdia aritmtica simples Dada a facilidade de seu clculo e uso generalizado, a mdia aritmtica a

    mais conhecida e mais comumente usada entre todas as mdias. Quando o termo

    mdia usado sem um qualificativo, a referncia sempre a aritmtica. A quanti-

    dade

    = =

    N

    ii NY

    1)/( [O smbolo a letra grega sigma maisculo e representa

    a soma de valores] representa a mdia aritmtica dos valores Y1, Y2, ...,YN e ser a mdia aritmtica da

    populao, se N representar todos os elementos medidos desta populao. Entre-

    tanto, esta situao muito raramente possvel. Normalmente, o que se tem dispo-

    nvel uma pequena poro (alguns elementos de uma populao), ou seja, uma

    amostra. Se esta amostra for representada por Y1, Y2, ...,Yn , sendo n o nmero de

    elementos ou de unidades amostrais desta amostra, ento a quantidade

    Y = (=

    n

    iiY

    1)/n um estimador no tendencioso da mdia da populao.

    Por exemplo, para a amostra de valores 3, 4, 5, 4, 3, em que n = 5, e

    =

    5

    1iiY = 3 + 4 + 5 + 4 + 3 = 19, tem-se

    Y = 19/5 = 3,80 O valor 3,80 uma estimativa da mdia da populao de onde a amostra foi colhida.

  • 2

    evidente que diversas amostras aleatrias podem ser obtidas de uma mes-

    ma populao. Se esta populao infinita, a rigor, podese imaginar tambm um

    nmero infinito de amostras de tamanho n, ou seja, um grande nmero de amos-

    tras, cada uma, com n unidades amostrais. As estimativas das mdias destas amos-

    tras aleatrias no sero todas numericamente iguais, e todas elas tm o mesmo

    valor com representante, ou estimativa, da mdia da populao. Um experimento

    cientfico constitui-se uma amostra, que se espera aleatria, de uma populao,

    muitas vezes infinita. Este conceito ser fundamental mais frente, quando sero

    apresentados e discutidos os testes de hiptese, como anlise de varincia e anlise

    de regresso, e procedimentos para comparao de mdias.

    1.1.2 Mdia aritmtica ponderada Se os dados da amostra de n elementos ocorrem de tal forma que h mais de

    um valor igual (fi) para os diversos Yi, ento a frmula para estimar a mdia

    Y = (=

    n

    iii Yf

    1. )/ if

    Por exemplo, 50 consumidores provaram uma amostra de sorvete e atribu-

    ram nota para aceitao de acordo com uma escala hednica de cinco categorias (Yi

    = 0, 1, 2, 3 ou 4). As frequncias das notas ocorreram da seguinte forma: 11 con-

    sumidores atriburam o escore zero, 23 atriburam nota 1, 12 consumidores deram

    a nota 2, 3 deram nora 3 e 1 deu nota 4. Os dados e os clculos necessrios para

    estimar a mdia aritmtica encontram-se no quadro a seguir:

    Yi fi fi.Yi 0 11 0 1 23 23 2 12 24 3 3 9 4 1 4 50 60

    A mdia aritmtica dos escores sensoriais para aceitao do sorvete ser: Y = 60/50 = 1,20

  • 3

    Este valor 1,20, portanto, uma estimativa da verdadeira mdia () dos es-

    cores sensoriais para aceitao do nosso sorvete. Claro que este valor desco-

    nhecido, caso contrrio no haveria necessidade do teste. Este simples teste de

    aceitao sensorial de sorvete um experimento cientfico. Esta amostra de 50 pes-

    soas que participaram do teste espera-se seja representante da populao consu-

    midora deste produto. Caso contrrio, o teste deixa de ser um experimento cientfi-

    co e passa a ser apenas uma brincadeira agradvel de degustao de sorvete.

    evidente que se pode imaginar um nmero muito grande de diferentes amostras de

    50 consumidores para participarem do teste sensorial. Cada uma delas gerando um

    valor diferente para a estimativa da mdia dos escores de aceitao sensorial, todas

    elas com o mesmo valor cientfico de estimativa da verdadeira e desconhecida m-

    dia da populao de consumidores do sorvete. H que se entender tambm, neste

    exemplo, que a amostra de sorvete utilizada no teste tem que representar a popu-

    lao de sorvetes do tipo testado. Assim, neste experimento h basicamente duas

    populaes envolvidas, a dos consumidores e a do tipo de sorvete.

    Se os dados da amostra esto dispostos em classes (ou intervalos) a mdia aritmtica calculada da seguinte forma: Y = ( ii Cf . )/ if , em que Ci o ponto central da classe ou do intervalo.

    Classe ou in-tervalo

    Ponto central da classe (Ci)

    Frequncia (fi) fi.Ci

    26 - 29,9 28 3 84 30 - 33,9 32 29 928 31 - 37,9 36 39 1404 38 - 41,9 40 41 1640 42 - 45,9 44 19 836 46 - 49,9 48 12 576 50 - 53,9 52 4 208 54 - 57,9 56 3 168

    150 5844 A estimativa da mdia aritmtica dos dados acima ser: Y = ( ii Cf . )/ if = 5 844/150 = 38,96 Y = 38,96

  • 4

    Outro exemplo de estimativa de mdias, para dados agrupados, pode ser

    como se segue. Um valor arbitrrio (Z ) escolhido para mdia inicial. Qualquer va-

    lor razovel pode ser escolhido. Recomenda-se escolher o ponto mdio de uma das

    classes. Neste exemplo selecionou-se o ponto mdio da terceira classe, valor 5, pa-

    ra o representante inicial da mdia. Considera-se que o ponto mdio de cada inter-

    valo de classe o valor mdio de todos os itens naquele intervalo. A diferena (di)

    entre o ponto mdio de cada intervalo e o representante inicial da mdia representa

    o desvio mdio dos itens no grupo para a mdia inicial. Para obter o desvio total de

    todos os itens na classe basta multiplicar o desvio di pela frequncia (fi) do grupo.

    Para o desvio total da mdia sugerida (valor arbitrrio), obtem-se o valor total (di.

    fi) para todos os intervalos. Este valor total dividido por N = fi para se obter o

    desvio mdio total em torno da mdia arbitrria sugerida. Utilizando os dados da

    Tabela a seguir:

    . Estimativa de mdia de dados agrupados mtodo alternativo

    Intervalo Ponto mdio PM

    Frequencia fi

    Desvio di

    FrequenciaxDesvio fi.di

    0 - 1,99 1 11 -4 -44 2 - 3,99 3 53 -2 -106 4 - 5,99 5 47 0 0 6 - 7,99 7 37 2 74 8 - 9,99 9 21 4 84

    10 - 11,99 11 16 6 96 12 - 13,99 13 13 8 104 14 15, 99 15 8 10 80 16 17,99 17 10 12 120 18 19,99 19 1 14 14 20 21,99 21 2 16 32 22 23, 99 23 1 18 18 24 25,99 25 0 20 0 26 27,99 27 1 22 22

    221 494

    tem-se que (di. fi)/N = 492/221 = 2,24 Este valor adicionado da mdia arbitrria inicial (Z ) para se obter a mdia

    aritmtica dos dados da tabela anterior: Y = Z + (di. fi)/N = 5,00 + 492/221 = 7,24.

  • 5

    em que, Z a mdia arbitrria inicial; fi a frequncia de cada classe; di a dife-

    rena entre o ponto mdio de cada classe e a mdia arbitrria inicial, e N = fi, o

    nmero total de observaes.

    Y = 7,24

    Algumas caractersticas, vantagens e desvantagens da mdia aritmtica

    Caractersticas da mdia aritmtica a) Todos os valores da amostra so usados para estimar a mdia. um valor calculado. b) A soma dos desvios (diferena) de cada observao em relao mdia zero. c) A soma de quadrados dos desvios da mdia sempre menor do que a calculada em relao a qualquer outro ponto ou valor. d) A soma das mdias igual mdia das somas, e a diferena entre mdias igual mdia da diferena. e) H sempre um valor determinado para a mdia em todos os casos. f) O erro-padro da mdia menor do que o da mediana. g) O valor da mdia amostral tende para o valor da mdia da populao, com o aumento do tamanho da amostra. Veja figura a seguir. h) As mdias das amostras tendem a se distribuir em torno da mdia da populao de acordo com a distribuio normal de probabilidades. Figura Variao da mdia amostral com o aumento do tamanho (n) da amostra.

    www.dzetta.com.br

  • 6

    Vantagens da mdia aritmtica

    a) A mdia aritmtica a mais usada e mais facilmente calculada e entendida (geralmente reconhecida como mdia).

    b) Seu clculo relativamente muito simples. c) Para o seu clculo, basta conhecer a soma e o nmero de elementos da amostra ou da populao. d) A mdia pode ser tratada algebricamente. Se as mdias de subgrupos so conhecidas, podem-se obter as mdias dessas mdias como a mdia geral do grupo composto pelos subgrupos. necessrio que o nmero de elementos seja igual entre os subgrupos. Se o nmero de elementos diferente entre subgrupos, trabalha-se com mdia ponderada.

    Desvantagens da mdia aritmtica a) O valor da mdia aritmtica muito afetado por valores extremos na amostra ou na populao desta forma ela poder no ser um valor tpico. b) A mdia aritmtica no poder ser computada para dados no quantitativos por exemplo, classes com intervalos abertos. 1.1.3 Mdia geomtrica (mG) A mdia geomtrica (mG) definida como a raiz n-zima do produto dos va-lores dos n elementos da amostra ou da populao. assim calculada mG = n iY = n nYYYY ...... 321 Dados os valores 3, 4, 5, 4, 3, em que n = 5, tem-se mG = 5 34543 xxxx = 5 720 = 3,73 A mG pode tambm ser computada utilizando logaritmo, pela seguinte fr-mula: Log mG = (log Y1 + log Y2 + ... + log Yn)/n No exemplo anterior, ter-se-ia: Log mG = (log 3 + log 4 + log 5 + log 4 + log 3) / 5 Log mG = 0,571466 => mG = 10 0,571466 = 3,73 mG = 3,73 Noutro exemplo, para os valores R$ 1,00; R$ 3,00; e R$ 9,00 a mdia geomtrica ser:

  • 7

    mG = 3 931 xx = 3 27 = R$ 3,00

    Como se observa, o logaritmo da mdia geomtrica igual a mdia dos loga-

    ritmos dos n elementos da amostra ou da populao (N). A mdia geomtrica pode

    ser computada tambm para dados agrupados, utilizando tcnicas semelhantes s

    da mdia aritmtica, exceto que so usados os logaritmos dos valores dos pontos

    centrais das classes.

    Algumas caractersticas da mdia geomtrica a) A mdia geomtrica um valor calculado e, portanto, depende da magnitude de todos os valores. b) A mdia geomtrica menos afetada pelos valores extremos que a mdia aritmtica. c) Para qualquer srie de valores, a mdia geomtrica sempre menor que a mdia aritmtica. d) Se qualquer valor do rol for zero, a mdia geomtrica ser zero. Vantagens da mdia geomtrica a) Pode ser considerada um valor mdio mais tpico, por ser menos afetada pe los valores extremos. b) A mdia geomtrica pode ser trabalhada algebricamente. Vantagens da mdia geomtrica a) A mdia geomtrica relativamente mais difcil de se calcular. b) A mdia geomtrica no pode ser determinada quando h valores negativos na srie. c) No muito ou to amplamente conhecida. 1.1.4 Mdia harmnica (mH) A mdia harmnica de uma srie de valores [Y1, Y2, ...,Yn] calculada como o

    inverso da mdia aritmtica dos inversos dos valores. Pode ser assim calculada:

    1/mH = (1/Y1 + 1/Y2 + ... +1/Yn) / n A mdia harmnica recomendada para os casos em que os dados representam ta-xas. Dados os valores 3, 4, 5, 4, 3, em que n = 5, tem-se: 1/mH = (1/3 + 1/4 + 1/5 + 1/4 + 1/3) / 5 1/mH = (1,36666/5) = 0,2733

  • 8

    mH = 1/0,2733 = 3,66 O emprego da mdia harmnica recomendado para dados de classificao, ou ordinais. 1.1.5 Mediana A mediana o valor que ocupa a posio central dos dados, quando eles so

    arranjados em ordem (crescente ou decrescente) de magnitude. Se o nmero de

    elementos no rol par, a mediana tomada como sendo a mdia aritmtica dos

    dois valores centrais. Se ocorrerem valores iguais (empates) na srie, utiliza-se a

    mdia das ordens que seria caso no houvesse empates. Pode-se dizer que a medi-

    ana uma mdia de posio, enquanto a mdia aritmtica um valor mdio calcu-

    lado. Outra forma de expressar a mediana como o quinquagsimo percentil de

    uma srie de dados. Dada uma srie de valores numricos observados, a mediana

    aquele valor que no nem maior do que a metade deles nem menor que a outra

    metade.

    Para dados agrupados em classes, a mediana assim computada:

    Determine o nmero do elemento mdio desejado usando a formula n/2, sendo n o

    nmero de elementos na distribuio ou rol. H discusso sobre o uso de n/2 ou

    (n+1)/2 para localizar o nmero do elemento da mediana. Se a varivel na distri-

    buio considerada contnua, recomenda-se usar n/2, caso contrrio, se a varivel

    considerada discreta, use (n+1)/2. A maioria dos autores usa n/2 para localizar a

    mediana. Para a distribuio dada na tabela a seguir, o elemento mediano o sep-

    tuagsimo quinto, ou seja, n/2 = 150/2 = 75.

    Encontre o intervalo de classe no qual o septuagsimo quinto elemento est presen-

    te, adicionando as frequncias de cada classe, em ordem. Na tabela, a soma das

    frequncias para os nove primeiros intervalos 61, e a soma para as 10 primeiras

    classes 79. Assim, o septuagsimo quinto elemento encontra-se na dcima classe.

    Considere que os valores dos elementos no intervalo de classe esto distribudos

    uniformemente entre os limites inferior e superior, e use a interpolao linear para

    determinar o valor da mediana. Na tabela do exemplo, o limite superior da nona

    classe 70, havendo 61 elementos nas primeiras nove classes. O limite superior da

    dcima classe 75 (Para especificar um intervalo de classe, o valor 74,9 de fato

    74,999... Do ponto de vista prtico, 75 usado aqui). H 79 elementos nos primei-

  • 9

    ros 10 intervalos de classe. A mediana, ento, o valor do elemento que corres-

    ponde ao septuagsimo quinto. Esta informao pode ser tabulada como a seguir:

    Valor Elemento 70 Sexagsimo primeiro ? Septuagsimo quinto 75 Septuagsimo nono

    Para encontrar o valor da mediana por interpolao, os seguintes passos devem ser seguidos: a) Determine a frao de distncia de 61 a 75 no dcimo intervalo de classe. N. de casos necessrios/N. de casos no grupo = (75 61) / (79 61) = 14/18 = i/f b) Encontre a diferena entre os limites no valor do intervalo de classe. 75 70 = 5 = H c) Multiplique o valor da frao encontrada em a pela diferena detectada em b, e adicione este produto ao menor limite. Esta soma a mediana. Mediana = Lmc + (i/f) H = 70 + (14/18) 5 = 73,89. Tabela - Exemplo para clculo da mediana de dados agrupados em classes

    N. do intervalo Intervalo de classe Frequncia Freq. acumulada 1 25 - 29,9 2 2 2 30 - 34,9 4 6 3 35 - 39,9 5 11 4 40 - 44,9 9 20 5 45 - 49,9 8 28 6 50 - 54,9 7 35 7 55 - 59,9 8 43 8 60 - 64,9 4 47 9 65 - 69,9 14 61 10 70 - 74,9 18 79 11 75 - 79,9 24 103 12 80 - 84,9 21 124 13 85 - 89,9 14 138 14 90 - 94,9 7 145 15 95 - 99,9 5 150 - 150 -

  • 10

    Caractersticas da mediana a) A mediana uma mdia de posio. b) O valor da mediana afetado pelo nmero de itens e no pelos valores dos

    dados extremos. c) A soma dos desvios da mediana, em valores absolutos, ser sempre menor

    que a soma dos desvios em relao a qualquer outro ponto. d) A mediana valor mais tpico quando usada para descrever distribuies de

    dados cujos valores centrais esto mais agrupados. e) Um valor selecionado por acaso tem a mesma chance de estar localizado

    abaixo ou acima da mediana. s vezes portanto, a mediana chamada de valor provvel.

    Vantagens da mediana

    a) A mediana um valor facilmente calculado. b) Sua estimativa no afetada por itens muito diferentes na srie. c) A mediana , s vezes, um valor mais tpico da srie do que qualquer outro

    valore mdio, em razo de sua independncia dos valores estranhos. d) A mediana pode ser estimada mesmo nos casos de intervalos abertos, ou va-

    lores no quantitativos. Desvantagens da mediana a) A mediana no to familiar como a mdia aritmtica. b) Os dados precisam ser arranjados de acordo com sua magnitude para a determi nao da mediana. c) A mediana tem valor de erro padro de mdia maior do que o da mdia aritmtica. d) A mediana no pode ser manipulada algebricamente. A mdia das medianas de subgrupos, por exemplo, no a mediana do grupo. 1.1.6 Moda A moda definida como o valor mais frequente ou mais comum que ocorre

    em uma grande srie de dados. Tambm pode ser entendida como o valor mximo

    em uma distribuio de frequncia.

    No h dificuldades para encontrar o(s) valor(es) da(s) moda(s) em uma s-

    rie de dados no agrupados. Basta localizar o valor ou valores que ocorrem com

    maior frequncia na distribuio. Por exemplo, no rol 3, 5, 7 e 9 no h moda, pois

    todos os dados tm a mesma frequncia, igual a um. No rol 3, 5, 5, 7 e 9 a moda

    5, pois o valor mais freqente. No rol 3, 5, 5, 7, 7 e 9 h duas modas, 5 e 7. Se

    h duas modas, a srie chamada bimodal.

    Para dados agrupados no h uma determinao matemtica exata para a

    moda. H vrios mtodos disponveis para uma estimativa aproximada nesses ca-

    sos. Por exemplo, o mtodo de momento forado assim descrito:

  • 11

    Tabela Dados para estimativa de moda em dados agrupados

    Intervalo fi 0,00 0,09 19 0,10 - 0,19 43 0,20 0,29 32 0,30 0,39 27

    0,40 0,49 17

    0,50 0,59 21

    0,60 0,69 14

    0,70 0,79 9

    0,80 0,89 2

    0,90 0,99 2

    1,00 1,09 0

    1,10 1,19 0

    1,20 1,29 1

    187

    Fonte: Adaptado de ARKIN & COLTON (1970). O ponto mdio do intervalo de classe modal no deve ser usado como um va-

    lor da moda, uma vez que ele se altera com a mudana do intervalo de classe. A

    reduo da magnitude do intervalo de classe tende a delimitar o valor da moda, e

    tender a t-lo coincidindo cada vez mais com o ponto central do grupo, ou classe,

    de maior frequncia. Esta reduo de tamanho do intervalo de classe , entretanto,

    muito limitada pelo nmero de itens includos na amostra ou distribuio. Se um

    nmero infinito ou muito grande de itens est disponvel e um intervalo de classe

    muito pequeno usado, o ponto mdio da classe de maior frequncia seria o valor

    da moda. De fato, esta situao ideal no ocorre na prtica. Uma aproximao sa-

    tisfatria deste ponto mdio modal se faz necessria. A pressuposio do ponto m-

    dio feita anteriormente razovel. Entretanto, os valores no so distribudos uni-

    formemente dentro da classe. H sempre uma tendncia de se agruparem em torno

    do ponto de maior frequncia.

    Na distribuio da tabela anterior, o grupo modal (0,10 0,19) contm 43

    itens. O grupo modal o da classe de maior frequncia. Observe que na distribuio

    h maior nmero de itens, maior freqncia, na classe acima (32 itens) que na

    classe abaixo (19 itens) da modal. Dessa forma, o ponto de maior concentrao de

  • 12

    dados (moda) tender para o intervalo de classe superior, e estar, portanto, acima

    do ponto mdio do grupo modal.

    Assim, o valor da moda da distribuio acima pode ser aproximado pela for-

    mula:

    Moda = Lmo + [fa/(fa + fb)].C = 0,10 + [32/(32 + 19)] x 0,10 = 0,163 Moda = 0,163 Lmo = limite inferior do intervalo da classe modal. fa = frequncia do intervalo acima da modal. fb = frequncia do intervalo de classe abaixo da modal. C = amplitude ou tamanho do intervalo de classe. Caractersticas da moda a) Por definio, a moda o valor mais comum, usual ou tpico da distribuio. Sob certas circunstncias, ele pode ser considerado o valor normal. b) O valor da moda totalmente independente dos valores extremos da distribuio. c) A moda, assim como a mediana, uma mdia de posio. Vantagens da moda a) Por ser o valor mais tpico da distribuio, a moda o seu valor mais descritivo. b) A moda o valor facilmente aproximvel quando se tem um pequeno nmero de casos, isto , amostras pequenas. Desvantagens da moda a) A moda pode estimada corretamente apenas quando se tem pequeno nmero de dados. b) Seu significado limitado quando a amostra pequena ou muito pequena. c) Se no h repetio de dados a moda no existe. 1.1.7 Percentis, quartis e decis Da mesma maneira que a mediana divide uma distribuio em duas partes,

    os percentis dividem a distribuio em 100 partes, os quartis dividem a distribuio

    em quatro partes, os decis dividem a distribuio em 10 partes, e assim por diante.

    Assim, os quartis, os decis e os percentis so todos mdias de posio, permitindo

    uma anlise mais detalhada da distribuio, que a mediana, por exemplo. Como o

    quartil divide a distribuio em quatro partes, h quatro quartis. O segundo quartil

    divide a distribuio ao meio, portanto, semelhante mediana. O primeiro quartil

    inferior (Q1) marca (cobre) o primeiro quarto da distribuio, e o terceiro quartil su-

    perior (Q3) marca (cobre) o ponto que separa o terceiro do quarto e ltimo quartil.

  • 13

    Os percentis dividem a distribuio em 100 partes, de modo que cada per-

    centil contem 1% dos casos. Uma diviso to detalhada s deve ser usada quando

    h grande nmero de casos (talvez, pelo menos 1000).

    Os quartis, decis e percentis so calculados pela mesma tcnica usada para a

    mediana. Para os quartis n/4 usado para localizar Q1, e 3n/4 usado para locali-

    zar o terceiro quartil Q3. De forma semelhante, n/10 utilizado para localizar o pri-

    meiro decil. A quantidade 2n/10 localiza o segundo decil, 3n/10 localiza o terceiro

    decil, e assim por diante. Para os percentis, n/100 localiza o primeiro percentil,

    2n/100 localiza o segundo, 3n/100 localiza o terceiro, e assim por diante. Em geral,

    substituio na frmula

    L + (i/f) C, em que L limite inferior do intervalo de classe no qual o quartil, decil e percentil desejado se localiza, resultaro nos valores desejados.

    Um exemplo um individuo A obteve escore 236 em um teste. Onze outros indiv-

    duos obtiveram escores 210, 245, 220, 225, 233, 216, 252, 228, 215, 230 e 241.

    Qual o percentil do individuo A dentre os doze?

    Qual o valor do 25. percentil no teste?

    Resposta primeiro coloque as doze observaes em ordem crescente, como segue 210, 215, 216, 220, 225, 228, 230, 233, 236, 241, 245, 252. Verifica-se que o escore do individuo A o nono pode-se ento dizer que este es-

    core (236) o 75, uma vez que 9/12 ou 75% dos escores so menores ou iguais

    ao do individuo A;

    Como h um total de 12 escores, o 25 percentil fica entre as observaes ordena-

    das em 3 e em 4 posies. O 25 percentil pode assim ser especificado como o

    valor entre 216 e 220, 218, por exemplo.

    1.2 Medidas de variao (disperso) 1.2.1 Disperso Na anlise de dados experimentais ou de levantamentos, a mdia ou valor

    tpico de um rol de dados, ou de uma amostra, importante, mas a informao pre-

    cisa ser completada com uma medida de variao. Conforme descrito nos itens rela-

  • 14

    cionados mdias amostrais (1.1.1 e 1.1.2), os valores mdios de amostras dife-

    rentes, tambm so diferentes, mesmo que as amostras sejam provenientes de

    uma mesma populao. Isto porque, a distribuio dos valores medidos nos itens de

    uma mesma populao no uniforme. Os mtodos estatsticos de inferncia ou

    descritivos se justificam neste fato de os elementos de uma populao no serem

    idnticos. Em qualquer populao h sempre diferena entre seus elementos. Os

    profissionais, em qualquer rea de conhecimento, precisam estar atentos a esta va-

    riao. Eles precisam compreend-la. Se a disperso dos dados em torno de uma

    medida de tendncia central muito grande, ento esta medida tpica, por si s, te-

    r pouco valor. Desta forma necessria uma medida quantitativa desta disperso

    ou variao dos dados em torno de um valor tpico.

    1.2.2 Amplitude (range - R) A amplitude ou faixa (R) definida como a diferena entre o maior e o menor

    valor que ocorre em um rol de dados. A diferena entre dois valores extremos indica

    a amplitude de variao da srie de dados, mas geralmente enganosa, pois no

    informa o perfil de como os dados so dispersos. A amplitude foi muito utilizada pe-

    la facilidade de sua estimativa. Exemplo, na srie de escores 210, 245, 220, 225,

    233, 216, 252, 228, 215, 230 e 241, o valor da amplitude :

    R = 252 210 = 42.

    A amplitude pode ser expressa tambm como a faixa de valores extremos: no

    exemplo anterior R = [210, 252]

    1.2.3 Varincia (2 ou S2)

    A varincia matematicamente definida como a soma de quadrados dos des-

    vios em relao mdia dividida pelos graus de liberdade. Dada a srie Y1, Y2, ...,

    YN, a SQD (soma de quadrados dos desvios em relao mdia) dada por

    SQD = =

    N

    i 1(Yi - Y )

    Assim, a varincia de Y, V(Y) = SQD/N. Se N representar todos os elementos

    da populao, ento V(Y) = a varincia da populao. Entretanto, quando se

    tem apenas uma amostra Y1, Y2, ..., Yn , a quantidade

  • 15

    S = =

    n

    i 1(Yi - Y )/(n-1) um estimador no tendencioso de .

    O conceito de varincia fundamental em inferncia estatstica, na aplicao

    dos testes de hipteses, como anlises de varincia e de regresso e em procedi-

    mentos para comparao de mdias.

    1.2.4 Desvio padro ( ou S) A varincia de uma varivel Y tem suas unidades elevadas ao quadrado. Isto

    pode no fazer sentido em muitos casos prticos. Assim, a raiz quadrada da varin-

    cia de Y, )(YV , ou , denominada de desvio padro, e simbolizado por (le-tra grega sigma minscula). Desta forma, as unidades do desvio padro sero as

    mesmas da varivel Y. O desvio padro uma forma especial dos desvios em rela-

    o mdia. Ele mede a variao (diferena) entre cada observao (valor

    individual) e a mdia destas observaes (Yi - ).

    Para amostras, a quantidade

    S = S , sendo S = [=

    n

    i 1(Yi - Y )]/(n-1), um estimador no ten-

    dencioso do desvio padro . Tabela de dados para clculo da varincia e do desvio padro amostral

    Elemento amostral

    Preo R$ Yi

    Desvio da mdia (Yi - Y )

    Quadrado do desvio (Yi - Y )

    1 14 10,1 102,1 2 29 4,9 24,1 3 26 1,9 3,61 4 15 -9,1 82,81 5 40 15,9 252,81 6 41 16,9 285,61 7 17 -7,1 50,41 8 30 5,9 34,81 9 10 -14,1 198,81 10 21 -3,1 9,61 11 12 -12,1 146,41 12 34 9,9 98,01

    Total 289 0,0 1 288,92 Mdia 24,1 - 107,41

  • 16

    A estimativa da varincia S (varincia amostral) do preo em real ser dada por S = [(Yi - Y )]/(n-1) = 1 288,92/(12-1) = 1 288,92/11 = 117,17 A estimativa do desvio padro S (desvio padro amostral) do preo em real ser dada por S = S = 17,117 = R$ 10,8 Desta forma, o S um estimador no tendencioso do . O valor 10,8 uma

    estimativa do desvio padro . Isto quer dizer que diferentes amostras da mesma populao

    apresentam diferentes valores de estimativas de desvios padro. Para amostras excessiva-

    mente grandes, a diferena entre S e muito pequena, talvez, negligvel. Este fato im-

    portante, por exemplo, em controle estatstico de qualidade e de processos, em que na mai-

    oria das vezes a populao infinita.

    O desvio padro uma medida numrica do grau de disperso, grau de variabilidade

    ou de heterogeneidade dos dados aos quais se aplicam. O desvio padro mede as diferenas

    entre os dados individuais da populao e a mdia desta populao.

    Para dados pareados a formula do desvio padro tem uma pequena diferen-

    a. Por exemplo, em um experimento em que um mesmo individuo usado para

    testar o efeito de determinado tratamento, dez elementos (indivduos) foram utili-

    zados e os resultados esto apresentados na tabela a seguir.

    Tabela de resultados de um experimento comparativo simples pareado

    Individuo R_ANTES R_DEPOIS di di 1 8 9 -1 1 2 10 8 2 4 3 5 4 1 1 4 8 8 0 0 5 9 10 -1 1 6 7 6 1 1 7 9 6 3 9 8 10 7 3 9 9 6 6 0 0 10 8 7 1 1 27

    A varincia da diferena (Vd) dada por ndi 2/ e o desvio padro da diferena

  • 17

    Sd = ndi 2/ . Sd = 102/27 x = 20/27 = 1,16 => Sd = 1,16 Observe que a estimativa do desvio padro obtido pela formula acima no

    afetada pela diferena entre os indivduos, uma vez que leva em conta apenas a

    diferena entre respostas antes e depois do tratamento, por indivduo.

    Na aquisio de matrias-primas pela indstria de alimentos tem sido

    crescente o pagamento desta matria-prima pela sua qualidade. Assim surge a ne-

    cessidade de avaliao da preciso dos mtodos de medida desta qualidade. A in-

    dstria precisa de mtodos analticos que forneam resultados em tempo curto, pa-

    ra amostras provenientes de diferentes lotes, que apresentem variao do valor do

    indicador de qualidade dentro de uma faixa comercial aceitvel. A seguir tem-se um

    exemplo para determinao do desvio padro em caso de dados pareados, para o

    teor de sacarose aparente em caldo cana-de-acar. Quinze amostras de caldo de

    cana-de-acar foram obtidas, de modo a representar uma faixa de variao co-

    mercial. Cada amostra foi divida em quatro alquotas, sendo duas para o mtodo A

    e duas para o mtodo B de determinao de sacarose aparente.

    Tabela Dados pareados para determinao do desvio padro do teor de sacarose aparente em caldo cana-de-acar, por dois mtodos analticos A e B. Mtodo A Mtodo B Amostra Dup 1 Dup 2 di di2 Dup 1 Dup 2 di di2

    01 14,0 14,5 0,5 0,25 15,1 14,5 0,6 0,36 02 14,5 15,0 0,5 0,25 14,8 15,2 0,4 0,16 03 13,8 14,2 0,4 0,16 14,3 14,0 0,3 0,09 04 15,2 14,8 0,4 0,16 15,8 16,4 0,6 0,36 05 13,6 13,4 0,2 0,04 14,0 14,8 0,8 0,64 06 14,0 14,5 0,5 0,25 14,8 15,4 0,6 0,36 07 15,0 15,2 0,2 0,04 16,0 16,5 0,5 0,25 08 16,2 15,6 0,6 0,36 17,2 16,5 0,7 0,49 09 16,0 16,5 0,5 0,25 16,5 16,0 0,5 0,25 10 15,5 15,0 0,5 0,25 16,4 16,8 0,4 0,16 11 17,5 17,3 0,2 0,04 18,0 17,0 1,0 1,00 12 16,8 17,0 0,2 0,04 17,0 17,0 0,0 0,00 13 15,9 16,4 0,5 0,25 16,5 17,0 0,5 0,25 14 13,8 14,6 0,8 0,64 14,0 15,0 1,0 1,00 15 12,5 13,1 0,6 0,36 13,5 14,5 1,0 1,00 3,34 6,37

    Mdia 15,04 15,68

  • 18

    SdA = ndi 2/ = 152/34,3 x = 0,3367 SdB = 152/37,6 x = 0,4608 Se o coeficiente de variao (CV) for utilizado como critrio para comparar a preciso dos dois mtodos, tem-se: CVA = (SdA / AY )x100 = (0,3367/15,04)x100 = 2,24% CVB = (SdB / BY )x100 = (0,4608/15,68)x100 = 2,94% Conclui-se, portanto, que os dois mtodos tm precises muito semelhantes, pois os valores de CV so muito prximos para os dois. 1.2.5 Erro padro de mdia [EPM, (Y ) ou S(Y )] O erro padro de mdia EPM uma medida de variao das mdias amostrais

    que leva em conta o tamanho da amostra. O EPM mede as diferenas entre mdias

    amostrais e a mdia da populao de onde as amostras foram retiradas. Matemati-

    camente o EPM igual ao desvio padro dividido pela raiz quadrada do nmero de

    elementos da amostra. O EPM tende para zero quando o tamanho da amostra n

    tende para a populao N.

    S(Y ) = S/ n No exemplo em que a mdia 24,1; para varincia 117,17 e n = 12, tem-se desvio padro S = 10,82. A estimativa do EPM seria: S(Y ) = 10,82/ 12 = 10,82 / 3,464 = 3,12 S(Y ) = R$ 3,12 O EPM preferido em artigos em muitos peridicos pelo fato de sua estimativa considerar o tamanho da amostra. Coletadas vrias amostras de uma mesma populao, o EPM mede a diferen-a (variao) entre as mdias amostrais e a mdia da populao. O EPM usado nos testes de hipteses. A quantidade t = ( 1Y - 2Y ) / S( 1Y - 2Y ) tem distribuio de t de student, e testa a hiptese H0: 1 = 2 versus Ha: 1 2

  • 19

    em que, 1Y e 2Y so estimadores de 1 e 2, respectivamente. A quantidade S( 1Y - 2Y ) o erro padro da diferena entre as duas mdias. 1.2.6 Coeficiente de variao (CV) O coeficiente de variao ou coeficiente de variabilidade CV uma medida

    relativa de disperso. O desvio padro uma medida absoluta de variao, isto , a

    estimativa dada na mesma escala de medida, com a mesma unidade, e, portanto,

    a comparao de variaes nem sempre possvel.

    Para cada estimativa de mdia Y h sempre um desvio padro S associado.

    Se a mdia for 100 o desvio ser denominado de CV (coeficiente de variao ou de

    variabilidade). Ou seja

    CV = 100x S/Y Pode-se dizer que o valor de CV o quociente do desvio padro em relao mdia, expresso em percentagem. No exemplo em que Y = 24,1 e S = 10,82, tem-se CV = 100(10,82)/24,1 = 44,9, Ou seja, o desvio padro representa 44,9% da mdia. 1.2.7 Intervalo de confiana da mdia Quando se estima a mdia populacional a partir de uma amostra de valores

    Y1, Y2, ..., Yn por meio da frmula Y = (=

    n

    iiY

    1)/n, tem-se uma estimativa por ponto.

    Da mesma forma, quando se estima a varincia pela frmula

    S = [=

    n

    i 1(Yi - Y )]/(n-1), tambm se tem uma estimativa por ponto.

    Sem levar em considerao os casos de varincia conhecida (caso que de fato

    muito raro, em situaes prticas) e de pressuposio de distribuio normal (o

    que tambm muito raro se conhecer), o intervalo de confiana da mdia pode ser

    estimado por

    P[Y - t/2(S/ n ) Y + t /2 (S/ n )] = 1 - , para pequenas amostras e,

  • 20

    P[Y - Z /2 (S/ n ) Y + Z /2 (S/ n )] = 1 - , para grandes amostras. Nos casos acima, pode-se dizer que h uma probabilidade 1 - de que o in-tervalo Y t /2 (S/ n ou Z /2 (S/ n ) contenha o valor da mdia da populao. No exemplo a seguir tem-se uma amostra aleatria de n = 36 itens de uma populao. a) estimar a mdia, o desvio padro e o erro padro da mdia amostrais; b) estimar o intervalo de confiana de 90% para a mdia.

    24 21 71 44 62 54 30 83 63 18 34 32 55 62 42 33 55 50 72 59 44 25 37 38 19 38 35 68 53 52 21 46 41 33 49 23

    Soluo:

    a) Y = (=

    36

    1iiY )/36 = 1 586/36 = 44,06 ou seja Y = 44,06

    S = =

    36

    1)(

    ii YY /(36-1) = 281,54

    S = 16,78 EPM = S/ n = 16,78/ 36 = 2,80 b) O intervalo de confiana de 90% ( = 0,10) para pequenas amostras ser P[Y - t/2(S/ n ) Y + t /2 (S/ n )] = 1 - , O valor de /2 0,10/2 = 0,05 levar a um valor de t (35)0,05 = 1,69 em tabelas de t de student. O intervalo de confiana de 90% ser P[44,06 1,69(16,78/ 36 ) 44,06 + 1,69 (16,78/ 36 )] = 1 0,10, P(44,06 4,73 44,06 + 4,73) = 0,90 P(39,33 48,79) = 0,90

  • 21

    H uma probabilidade de 90% de que o intervalo de 39,33 a 48,79 contenha a mdia da populao. Um exemplo para grandes amostras para estimar o valor mdio de alu-

    guel pago pelos estudantes de uma grande universidade foi realizado um levanta-

    mento com uma amostra aleatria de 50 estudantes. O valor mdio obtido para es-

    ta amostra foi R$ 97,10 com um desvio padro de R$ 24,37. Determine o intervalo

    de confiana de 98% para a mdia de aluguel pago por todos os estudantes daquela

    universidade.

    Soluo: uma amostra de n=50 pode ser considerada grande, e admitindo

    distribuio normal para os valores do aluguel tem-se: = 100 98 = 2% e /2 = 0,01. Na tabela da distribuio normal para probabilidade 0,01 tem-se Z0,01 =

    2,33. Para grandes amostras tem-se

    P[Y - Z /2 (S/ n ) Y + Z /2 (S/ n )] = 1 - P[97,40 2,33 (24,37/ 50 ) 97,40 2,33 (24,37/ 50 )] = 1 0,02 P(89,36 105,44) = 0,98 H uma probabilidade de 98% de que o intervalo de 89,36 a 105,44 contenha o va-lor mdio dos alugueis dos estudantes daquela universidade.

    1.3 Medidas de associao 1.3.1 Coeficiente de contingncia (C) Dada uma distribuio de freqncias observadas e esperadas (ou teri-cas) a quantidade = fefefo /)( tem distribuio de chi-quadrado e pode ser usada em testes de hiptese, em que fo freqncia observada e fe freqn-cia esperada ou terica. O coeficiente de contingncia C utiliza a distribuio de para aferir grau de associao ou de dependncia entre duas categorias de variveis no quan-

    titativas. Por exemplo, pode-se testar se h alguma relao entre o sexo das

    pessoas e o grau de gostar ou desgostar de determinado tipo de tecido para

    roupa. Ou pode-se testar o grau de associao entre a quantidade de treina-

    mento de um provador sensorial (treinado versus no treinado) e a coerncia

  • 22

    ou consistncia dos seus escores (consistentes versus no consistentes). Este

    coeficiente pode ser usado para examinar a associao entre a quantidade de

    sal consumida (alta versus intermediria versus baixa) e a presso sangunea

    das pessoas (alta versus intermediria versus baixa). Portanto, o coeficiente de

    contingncia usado para testar associaes entre dados categricos. Este

    coeficiente dado por

    C = )/( +N

    em que o calculado da forma usual e N o nmero total de observaes do levantamento.

    Se valor de for significativo, o coeficiente de contingncia tambm o ser. Se a amostra representativa, e o valor de for significativo, pode-se concluir que, na populao, a associao entre as duas categorias no zero.

    Um exemplo teste de Sessenta consumidores escolhidos aleatoriamente em uma loja de departamentos foram solicitados a selecionar qual produto eles

    preferem entre trs xampus adicionados de: produto A (protena), produto B

    (ovos) e produto C (ervas). Se 30 consumidores preferiram o produto A, 18 o

    produto B e 12 o produto C, haveria diferena significativa na preferncia? A

    hiptese de nulidade H0 neste caso de que no h diferena na preferncia

    dos consumidores. Neste caso as freqncias seriam iguais (20) para os trs

    produtos. A seguinte tabela pode ser montada:

    N. consumidores Produto A Produto B Produto C

    Observados - fo 30 18 12

    Esperados - fe 20 20 20

    O valor de para cada produto pode ser obtido e somado:

    = (30 - 20)/20 + (18 20)/20 + (12 20)/20 = 10/20 + (-2)/20 + (-8)/20 = (100 + 4 + 64)/20 = 8,40 com 3 -1,

  • 23

    igual a 2 graus de liberdade. No h como prever a priori qualquer tendncia

    na preferncia pelos produtos, se H0 tiver que ser rejeitada. Assim, o teste de

    hiptese do tipo bilateral. Na tabela de para = 0,05, bilateral, com 2 gl, o valor crtico 5,99. Para = 0,02, o valor crtico de 7,82 e, para = 0,01, o valor crtico de 9,21. O valor amostral de de 8,40 significativo aos nveis de 5% ou de 2%, mas no ao nvel de 1%. Conclui-se que os resultados apresentados pela

    amostra representam uma tendncia na populao.

    C = )40,860/(40,8 + = 0,35 1.3.2 Coeficiente de correlao Em experimentao e em controle de qualidade sempre til conhecer a

    relao entre variveis quantitativas. O coeficiente de correlao linear simples

    ( r) reflete a relao linear simples entre duas variveis quantitativas. A quantidade

    r = [n(XY) (X)(Y)]/[ )( XXn ][ )( YYn ] um estimador de r. O coeficiente de correlao varia dentro do intervalo de -1 a

    +1, ou seja, -1 1. Se para cada aumento de uma unidade na escala da

    varivel X acarreta aumento de uma unidade na escala da varivel Y, ento a

    relao linearmente perfeita positiva, =1; se o aumento de uma unidade na

    escala da varivel X acarreta reduo de uma unidade na escala da varivel Y,

    ento a relao linearmente perfeita negativa, =-1. Este o coeficiente de

    correlao de Pearson, em que X e Y so consideradas variveis aleatrias con-

    tinuas, com distribuio normal de probabilidade, de mdia e desvio padro

    . Para apenas duas variveis os valores de rX,Y e rY,X so idnticos.

    1.3.3 - Coeficiente de determinao (R) O coeficiente de determinao linear o quadrado do coeficiente de corre-lao:

    = .

  • 24

    O melhor definir o coeficiente de determinao em funo de somas de quadrados em anlise de regresso: R = SQReg/SQTotal ou SQModelo/SQTotal O coeficiente de determinao expressa a proporo ou a percentagem de explicao da equao ou modelo de regresso em relao soma de quadrados total. Referncias Bibliogrficas .ARKIN, H. & COLTON, R.R. Statistical methods. Fifth Barnes & Noble Books Edition. Harper & Row Publishers, Inc., 1970. 344p. .BETHEA, R.M.; DURAN, B.S. & BOULLION, T.L. Statistical Methods for Engineers and Scientists. 2a. Ed. Marcel Dekker, Inc., New York. P1-5. .GACULA, Jr., M.C. & SINGH, J. 1984. Statistical Methods in Food and Consumer Research. Academic Press, Inc., Orlando, FL. P15-18.