Capitulo i - Elementos de Estatistica Descritiva_01-24
-
Upload
marcellus-giovanni -
Category
Documents
-
view
9 -
download
0
description
Transcript of Capitulo i - Elementos de Estatistica Descritiva_01-24
-
UNIVERSIDADE FEDERAL DE VIOSA UNIVERSIDADE FEDERAL DO CEAR
DEPARTAMENTOS DE TECNOLOGIA DE ALIMENTOS
TAL 795 Problemas especiais II: Planejamento e anlise de experimentos
2011 Jos Bencio Paes Chaves DTA/UFV 1 Elementos de estatstica descritiva 1.1 Medidas de tendncia central 1.1.1 Mdia aritmtica simples Dada a facilidade de seu clculo e uso generalizado, a mdia aritmtica a
mais conhecida e mais comumente usada entre todas as mdias. Quando o termo
mdia usado sem um qualificativo, a referncia sempre a aritmtica. A quanti-
dade
= =
N
ii NY
1)/( [O smbolo a letra grega sigma maisculo e representa
a soma de valores] representa a mdia aritmtica dos valores Y1, Y2, ...,YN e ser a mdia aritmtica da
populao, se N representar todos os elementos medidos desta populao. Entre-
tanto, esta situao muito raramente possvel. Normalmente, o que se tem dispo-
nvel uma pequena poro (alguns elementos de uma populao), ou seja, uma
amostra. Se esta amostra for representada por Y1, Y2, ...,Yn , sendo n o nmero de
elementos ou de unidades amostrais desta amostra, ento a quantidade
Y = (=
n
iiY
1)/n um estimador no tendencioso da mdia da populao.
Por exemplo, para a amostra de valores 3, 4, 5, 4, 3, em que n = 5, e
=
5
1iiY = 3 + 4 + 5 + 4 + 3 = 19, tem-se
Y = 19/5 = 3,80 O valor 3,80 uma estimativa da mdia da populao de onde a amostra foi colhida.
-
2
evidente que diversas amostras aleatrias podem ser obtidas de uma mes-
ma populao. Se esta populao infinita, a rigor, podese imaginar tambm um
nmero infinito de amostras de tamanho n, ou seja, um grande nmero de amos-
tras, cada uma, com n unidades amostrais. As estimativas das mdias destas amos-
tras aleatrias no sero todas numericamente iguais, e todas elas tm o mesmo
valor com representante, ou estimativa, da mdia da populao. Um experimento
cientfico constitui-se uma amostra, que se espera aleatria, de uma populao,
muitas vezes infinita. Este conceito ser fundamental mais frente, quando sero
apresentados e discutidos os testes de hiptese, como anlise de varincia e anlise
de regresso, e procedimentos para comparao de mdias.
1.1.2 Mdia aritmtica ponderada Se os dados da amostra de n elementos ocorrem de tal forma que h mais de
um valor igual (fi) para os diversos Yi, ento a frmula para estimar a mdia
Y = (=
n
iii Yf
1. )/ if
Por exemplo, 50 consumidores provaram uma amostra de sorvete e atribu-
ram nota para aceitao de acordo com uma escala hednica de cinco categorias (Yi
= 0, 1, 2, 3 ou 4). As frequncias das notas ocorreram da seguinte forma: 11 con-
sumidores atriburam o escore zero, 23 atriburam nota 1, 12 consumidores deram
a nota 2, 3 deram nora 3 e 1 deu nota 4. Os dados e os clculos necessrios para
estimar a mdia aritmtica encontram-se no quadro a seguir:
Yi fi fi.Yi 0 11 0 1 23 23 2 12 24 3 3 9 4 1 4 50 60
A mdia aritmtica dos escores sensoriais para aceitao do sorvete ser: Y = 60/50 = 1,20
-
3
Este valor 1,20, portanto, uma estimativa da verdadeira mdia () dos es-
cores sensoriais para aceitao do nosso sorvete. Claro que este valor desco-
nhecido, caso contrrio no haveria necessidade do teste. Este simples teste de
aceitao sensorial de sorvete um experimento cientfico. Esta amostra de 50 pes-
soas que participaram do teste espera-se seja representante da populao consu-
midora deste produto. Caso contrrio, o teste deixa de ser um experimento cientfi-
co e passa a ser apenas uma brincadeira agradvel de degustao de sorvete.
evidente que se pode imaginar um nmero muito grande de diferentes amostras de
50 consumidores para participarem do teste sensorial. Cada uma delas gerando um
valor diferente para a estimativa da mdia dos escores de aceitao sensorial, todas
elas com o mesmo valor cientfico de estimativa da verdadeira e desconhecida m-
dia da populao de consumidores do sorvete. H que se entender tambm, neste
exemplo, que a amostra de sorvete utilizada no teste tem que representar a popu-
lao de sorvetes do tipo testado. Assim, neste experimento h basicamente duas
populaes envolvidas, a dos consumidores e a do tipo de sorvete.
Se os dados da amostra esto dispostos em classes (ou intervalos) a mdia aritmtica calculada da seguinte forma: Y = ( ii Cf . )/ if , em que Ci o ponto central da classe ou do intervalo.
Classe ou in-tervalo
Ponto central da classe (Ci)
Frequncia (fi) fi.Ci
26 - 29,9 28 3 84 30 - 33,9 32 29 928 31 - 37,9 36 39 1404 38 - 41,9 40 41 1640 42 - 45,9 44 19 836 46 - 49,9 48 12 576 50 - 53,9 52 4 208 54 - 57,9 56 3 168
150 5844 A estimativa da mdia aritmtica dos dados acima ser: Y = ( ii Cf . )/ if = 5 844/150 = 38,96 Y = 38,96
-
4
Outro exemplo de estimativa de mdias, para dados agrupados, pode ser
como se segue. Um valor arbitrrio (Z ) escolhido para mdia inicial. Qualquer va-
lor razovel pode ser escolhido. Recomenda-se escolher o ponto mdio de uma das
classes. Neste exemplo selecionou-se o ponto mdio da terceira classe, valor 5, pa-
ra o representante inicial da mdia. Considera-se que o ponto mdio de cada inter-
valo de classe o valor mdio de todos os itens naquele intervalo. A diferena (di)
entre o ponto mdio de cada intervalo e o representante inicial da mdia representa
o desvio mdio dos itens no grupo para a mdia inicial. Para obter o desvio total de
todos os itens na classe basta multiplicar o desvio di pela frequncia (fi) do grupo.
Para o desvio total da mdia sugerida (valor arbitrrio), obtem-se o valor total (di.
fi) para todos os intervalos. Este valor total dividido por N = fi para se obter o
desvio mdio total em torno da mdia arbitrria sugerida. Utilizando os dados da
Tabela a seguir:
. Estimativa de mdia de dados agrupados mtodo alternativo
Intervalo Ponto mdio PM
Frequencia fi
Desvio di
FrequenciaxDesvio fi.di
0 - 1,99 1 11 -4 -44 2 - 3,99 3 53 -2 -106 4 - 5,99 5 47 0 0 6 - 7,99 7 37 2 74 8 - 9,99 9 21 4 84
10 - 11,99 11 16 6 96 12 - 13,99 13 13 8 104 14 15, 99 15 8 10 80 16 17,99 17 10 12 120 18 19,99 19 1 14 14 20 21,99 21 2 16 32 22 23, 99 23 1 18 18 24 25,99 25 0 20 0 26 27,99 27 1 22 22
221 494
tem-se que (di. fi)/N = 492/221 = 2,24 Este valor adicionado da mdia arbitrria inicial (Z ) para se obter a mdia
aritmtica dos dados da tabela anterior: Y = Z + (di. fi)/N = 5,00 + 492/221 = 7,24.
-
5
em que, Z a mdia arbitrria inicial; fi a frequncia de cada classe; di a dife-
rena entre o ponto mdio de cada classe e a mdia arbitrria inicial, e N = fi, o
nmero total de observaes.
Y = 7,24
Algumas caractersticas, vantagens e desvantagens da mdia aritmtica
Caractersticas da mdia aritmtica a) Todos os valores da amostra so usados para estimar a mdia. um valor calculado. b) A soma dos desvios (diferena) de cada observao em relao mdia zero. c) A soma de quadrados dos desvios da mdia sempre menor do que a calculada em relao a qualquer outro ponto ou valor. d) A soma das mdias igual mdia das somas, e a diferena entre mdias igual mdia da diferena. e) H sempre um valor determinado para a mdia em todos os casos. f) O erro-padro da mdia menor do que o da mediana. g) O valor da mdia amostral tende para o valor da mdia da populao, com o aumento do tamanho da amostra. Veja figura a seguir. h) As mdias das amostras tendem a se distribuir em torno da mdia da populao de acordo com a distribuio normal de probabilidades. Figura Variao da mdia amostral com o aumento do tamanho (n) da amostra.
www.dzetta.com.br
-
6
Vantagens da mdia aritmtica
a) A mdia aritmtica a mais usada e mais facilmente calculada e entendida (geralmente reconhecida como mdia).
b) Seu clculo relativamente muito simples. c) Para o seu clculo, basta conhecer a soma e o nmero de elementos da amostra ou da populao. d) A mdia pode ser tratada algebricamente. Se as mdias de subgrupos so conhecidas, podem-se obter as mdias dessas mdias como a mdia geral do grupo composto pelos subgrupos. necessrio que o nmero de elementos seja igual entre os subgrupos. Se o nmero de elementos diferente entre subgrupos, trabalha-se com mdia ponderada.
Desvantagens da mdia aritmtica a) O valor da mdia aritmtica muito afetado por valores extremos na amostra ou na populao desta forma ela poder no ser um valor tpico. b) A mdia aritmtica no poder ser computada para dados no quantitativos por exemplo, classes com intervalos abertos. 1.1.3 Mdia geomtrica (mG) A mdia geomtrica (mG) definida como a raiz n-zima do produto dos va-lores dos n elementos da amostra ou da populao. assim calculada mG = n iY = n nYYYY ...... 321 Dados os valores 3, 4, 5, 4, 3, em que n = 5, tem-se mG = 5 34543 xxxx = 5 720 = 3,73 A mG pode tambm ser computada utilizando logaritmo, pela seguinte fr-mula: Log mG = (log Y1 + log Y2 + ... + log Yn)/n No exemplo anterior, ter-se-ia: Log mG = (log 3 + log 4 + log 5 + log 4 + log 3) / 5 Log mG = 0,571466 => mG = 10 0,571466 = 3,73 mG = 3,73 Noutro exemplo, para os valores R$ 1,00; R$ 3,00; e R$ 9,00 a mdia geomtrica ser:
-
7
mG = 3 931 xx = 3 27 = R$ 3,00
Como se observa, o logaritmo da mdia geomtrica igual a mdia dos loga-
ritmos dos n elementos da amostra ou da populao (N). A mdia geomtrica pode
ser computada tambm para dados agrupados, utilizando tcnicas semelhantes s
da mdia aritmtica, exceto que so usados os logaritmos dos valores dos pontos
centrais das classes.
Algumas caractersticas da mdia geomtrica a) A mdia geomtrica um valor calculado e, portanto, depende da magnitude de todos os valores. b) A mdia geomtrica menos afetada pelos valores extremos que a mdia aritmtica. c) Para qualquer srie de valores, a mdia geomtrica sempre menor que a mdia aritmtica. d) Se qualquer valor do rol for zero, a mdia geomtrica ser zero. Vantagens da mdia geomtrica a) Pode ser considerada um valor mdio mais tpico, por ser menos afetada pe los valores extremos. b) A mdia geomtrica pode ser trabalhada algebricamente. Vantagens da mdia geomtrica a) A mdia geomtrica relativamente mais difcil de se calcular. b) A mdia geomtrica no pode ser determinada quando h valores negativos na srie. c) No muito ou to amplamente conhecida. 1.1.4 Mdia harmnica (mH) A mdia harmnica de uma srie de valores [Y1, Y2, ...,Yn] calculada como o
inverso da mdia aritmtica dos inversos dos valores. Pode ser assim calculada:
1/mH = (1/Y1 + 1/Y2 + ... +1/Yn) / n A mdia harmnica recomendada para os casos em que os dados representam ta-xas. Dados os valores 3, 4, 5, 4, 3, em que n = 5, tem-se: 1/mH = (1/3 + 1/4 + 1/5 + 1/4 + 1/3) / 5 1/mH = (1,36666/5) = 0,2733
-
8
mH = 1/0,2733 = 3,66 O emprego da mdia harmnica recomendado para dados de classificao, ou ordinais. 1.1.5 Mediana A mediana o valor que ocupa a posio central dos dados, quando eles so
arranjados em ordem (crescente ou decrescente) de magnitude. Se o nmero de
elementos no rol par, a mediana tomada como sendo a mdia aritmtica dos
dois valores centrais. Se ocorrerem valores iguais (empates) na srie, utiliza-se a
mdia das ordens que seria caso no houvesse empates. Pode-se dizer que a medi-
ana uma mdia de posio, enquanto a mdia aritmtica um valor mdio calcu-
lado. Outra forma de expressar a mediana como o quinquagsimo percentil de
uma srie de dados. Dada uma srie de valores numricos observados, a mediana
aquele valor que no nem maior do que a metade deles nem menor que a outra
metade.
Para dados agrupados em classes, a mediana assim computada:
Determine o nmero do elemento mdio desejado usando a formula n/2, sendo n o
nmero de elementos na distribuio ou rol. H discusso sobre o uso de n/2 ou
(n+1)/2 para localizar o nmero do elemento da mediana. Se a varivel na distri-
buio considerada contnua, recomenda-se usar n/2, caso contrrio, se a varivel
considerada discreta, use (n+1)/2. A maioria dos autores usa n/2 para localizar a
mediana. Para a distribuio dada na tabela a seguir, o elemento mediano o sep-
tuagsimo quinto, ou seja, n/2 = 150/2 = 75.
Encontre o intervalo de classe no qual o septuagsimo quinto elemento est presen-
te, adicionando as frequncias de cada classe, em ordem. Na tabela, a soma das
frequncias para os nove primeiros intervalos 61, e a soma para as 10 primeiras
classes 79. Assim, o septuagsimo quinto elemento encontra-se na dcima classe.
Considere que os valores dos elementos no intervalo de classe esto distribudos
uniformemente entre os limites inferior e superior, e use a interpolao linear para
determinar o valor da mediana. Na tabela do exemplo, o limite superior da nona
classe 70, havendo 61 elementos nas primeiras nove classes. O limite superior da
dcima classe 75 (Para especificar um intervalo de classe, o valor 74,9 de fato
74,999... Do ponto de vista prtico, 75 usado aqui). H 79 elementos nos primei-
-
9
ros 10 intervalos de classe. A mediana, ento, o valor do elemento que corres-
ponde ao septuagsimo quinto. Esta informao pode ser tabulada como a seguir:
Valor Elemento 70 Sexagsimo primeiro ? Septuagsimo quinto 75 Septuagsimo nono
Para encontrar o valor da mediana por interpolao, os seguintes passos devem ser seguidos: a) Determine a frao de distncia de 61 a 75 no dcimo intervalo de classe. N. de casos necessrios/N. de casos no grupo = (75 61) / (79 61) = 14/18 = i/f b) Encontre a diferena entre os limites no valor do intervalo de classe. 75 70 = 5 = H c) Multiplique o valor da frao encontrada em a pela diferena detectada em b, e adicione este produto ao menor limite. Esta soma a mediana. Mediana = Lmc + (i/f) H = 70 + (14/18) 5 = 73,89. Tabela - Exemplo para clculo da mediana de dados agrupados em classes
N. do intervalo Intervalo de classe Frequncia Freq. acumulada 1 25 - 29,9 2 2 2 30 - 34,9 4 6 3 35 - 39,9 5 11 4 40 - 44,9 9 20 5 45 - 49,9 8 28 6 50 - 54,9 7 35 7 55 - 59,9 8 43 8 60 - 64,9 4 47 9 65 - 69,9 14 61 10 70 - 74,9 18 79 11 75 - 79,9 24 103 12 80 - 84,9 21 124 13 85 - 89,9 14 138 14 90 - 94,9 7 145 15 95 - 99,9 5 150 - 150 -
-
10
Caractersticas da mediana a) A mediana uma mdia de posio. b) O valor da mediana afetado pelo nmero de itens e no pelos valores dos
dados extremos. c) A soma dos desvios da mediana, em valores absolutos, ser sempre menor
que a soma dos desvios em relao a qualquer outro ponto. d) A mediana valor mais tpico quando usada para descrever distribuies de
dados cujos valores centrais esto mais agrupados. e) Um valor selecionado por acaso tem a mesma chance de estar localizado
abaixo ou acima da mediana. s vezes portanto, a mediana chamada de valor provvel.
Vantagens da mediana
a) A mediana um valor facilmente calculado. b) Sua estimativa no afetada por itens muito diferentes na srie. c) A mediana , s vezes, um valor mais tpico da srie do que qualquer outro
valore mdio, em razo de sua independncia dos valores estranhos. d) A mediana pode ser estimada mesmo nos casos de intervalos abertos, ou va-
lores no quantitativos. Desvantagens da mediana a) A mediana no to familiar como a mdia aritmtica. b) Os dados precisam ser arranjados de acordo com sua magnitude para a determi nao da mediana. c) A mediana tem valor de erro padro de mdia maior do que o da mdia aritmtica. d) A mediana no pode ser manipulada algebricamente. A mdia das medianas de subgrupos, por exemplo, no a mediana do grupo. 1.1.6 Moda A moda definida como o valor mais frequente ou mais comum que ocorre
em uma grande srie de dados. Tambm pode ser entendida como o valor mximo
em uma distribuio de frequncia.
No h dificuldades para encontrar o(s) valor(es) da(s) moda(s) em uma s-
rie de dados no agrupados. Basta localizar o valor ou valores que ocorrem com
maior frequncia na distribuio. Por exemplo, no rol 3, 5, 7 e 9 no h moda, pois
todos os dados tm a mesma frequncia, igual a um. No rol 3, 5, 5, 7 e 9 a moda
5, pois o valor mais freqente. No rol 3, 5, 5, 7, 7 e 9 h duas modas, 5 e 7. Se
h duas modas, a srie chamada bimodal.
Para dados agrupados no h uma determinao matemtica exata para a
moda. H vrios mtodos disponveis para uma estimativa aproximada nesses ca-
sos. Por exemplo, o mtodo de momento forado assim descrito:
-
11
Tabela Dados para estimativa de moda em dados agrupados
Intervalo fi 0,00 0,09 19 0,10 - 0,19 43 0,20 0,29 32 0,30 0,39 27
0,40 0,49 17
0,50 0,59 21
0,60 0,69 14
0,70 0,79 9
0,80 0,89 2
0,90 0,99 2
1,00 1,09 0
1,10 1,19 0
1,20 1,29 1
187
Fonte: Adaptado de ARKIN & COLTON (1970). O ponto mdio do intervalo de classe modal no deve ser usado como um va-
lor da moda, uma vez que ele se altera com a mudana do intervalo de classe. A
reduo da magnitude do intervalo de classe tende a delimitar o valor da moda, e
tender a t-lo coincidindo cada vez mais com o ponto central do grupo, ou classe,
de maior frequncia. Esta reduo de tamanho do intervalo de classe , entretanto,
muito limitada pelo nmero de itens includos na amostra ou distribuio. Se um
nmero infinito ou muito grande de itens est disponvel e um intervalo de classe
muito pequeno usado, o ponto mdio da classe de maior frequncia seria o valor
da moda. De fato, esta situao ideal no ocorre na prtica. Uma aproximao sa-
tisfatria deste ponto mdio modal se faz necessria. A pressuposio do ponto m-
dio feita anteriormente razovel. Entretanto, os valores no so distribudos uni-
formemente dentro da classe. H sempre uma tendncia de se agruparem em torno
do ponto de maior frequncia.
Na distribuio da tabela anterior, o grupo modal (0,10 0,19) contm 43
itens. O grupo modal o da classe de maior frequncia. Observe que na distribuio
h maior nmero de itens, maior freqncia, na classe acima (32 itens) que na
classe abaixo (19 itens) da modal. Dessa forma, o ponto de maior concentrao de
-
12
dados (moda) tender para o intervalo de classe superior, e estar, portanto, acima
do ponto mdio do grupo modal.
Assim, o valor da moda da distribuio acima pode ser aproximado pela for-
mula:
Moda = Lmo + [fa/(fa + fb)].C = 0,10 + [32/(32 + 19)] x 0,10 = 0,163 Moda = 0,163 Lmo = limite inferior do intervalo da classe modal. fa = frequncia do intervalo acima da modal. fb = frequncia do intervalo de classe abaixo da modal. C = amplitude ou tamanho do intervalo de classe. Caractersticas da moda a) Por definio, a moda o valor mais comum, usual ou tpico da distribuio. Sob certas circunstncias, ele pode ser considerado o valor normal. b) O valor da moda totalmente independente dos valores extremos da distribuio. c) A moda, assim como a mediana, uma mdia de posio. Vantagens da moda a) Por ser o valor mais tpico da distribuio, a moda o seu valor mais descritivo. b) A moda o valor facilmente aproximvel quando se tem um pequeno nmero de casos, isto , amostras pequenas. Desvantagens da moda a) A moda pode estimada corretamente apenas quando se tem pequeno nmero de dados. b) Seu significado limitado quando a amostra pequena ou muito pequena. c) Se no h repetio de dados a moda no existe. 1.1.7 Percentis, quartis e decis Da mesma maneira que a mediana divide uma distribuio em duas partes,
os percentis dividem a distribuio em 100 partes, os quartis dividem a distribuio
em quatro partes, os decis dividem a distribuio em 10 partes, e assim por diante.
Assim, os quartis, os decis e os percentis so todos mdias de posio, permitindo
uma anlise mais detalhada da distribuio, que a mediana, por exemplo. Como o
quartil divide a distribuio em quatro partes, h quatro quartis. O segundo quartil
divide a distribuio ao meio, portanto, semelhante mediana. O primeiro quartil
inferior (Q1) marca (cobre) o primeiro quarto da distribuio, e o terceiro quartil su-
perior (Q3) marca (cobre) o ponto que separa o terceiro do quarto e ltimo quartil.
-
13
Os percentis dividem a distribuio em 100 partes, de modo que cada per-
centil contem 1% dos casos. Uma diviso to detalhada s deve ser usada quando
h grande nmero de casos (talvez, pelo menos 1000).
Os quartis, decis e percentis so calculados pela mesma tcnica usada para a
mediana. Para os quartis n/4 usado para localizar Q1, e 3n/4 usado para locali-
zar o terceiro quartil Q3. De forma semelhante, n/10 utilizado para localizar o pri-
meiro decil. A quantidade 2n/10 localiza o segundo decil, 3n/10 localiza o terceiro
decil, e assim por diante. Para os percentis, n/100 localiza o primeiro percentil,
2n/100 localiza o segundo, 3n/100 localiza o terceiro, e assim por diante. Em geral,
substituio na frmula
L + (i/f) C, em que L limite inferior do intervalo de classe no qual o quartil, decil e percentil desejado se localiza, resultaro nos valores desejados.
Um exemplo um individuo A obteve escore 236 em um teste. Onze outros indiv-
duos obtiveram escores 210, 245, 220, 225, 233, 216, 252, 228, 215, 230 e 241.
Qual o percentil do individuo A dentre os doze?
Qual o valor do 25. percentil no teste?
Resposta primeiro coloque as doze observaes em ordem crescente, como segue 210, 215, 216, 220, 225, 228, 230, 233, 236, 241, 245, 252. Verifica-se que o escore do individuo A o nono pode-se ento dizer que este es-
core (236) o 75, uma vez que 9/12 ou 75% dos escores so menores ou iguais
ao do individuo A;
Como h um total de 12 escores, o 25 percentil fica entre as observaes ordena-
das em 3 e em 4 posies. O 25 percentil pode assim ser especificado como o
valor entre 216 e 220, 218, por exemplo.
1.2 Medidas de variao (disperso) 1.2.1 Disperso Na anlise de dados experimentais ou de levantamentos, a mdia ou valor
tpico de um rol de dados, ou de uma amostra, importante, mas a informao pre-
cisa ser completada com uma medida de variao. Conforme descrito nos itens rela-
-
14
cionados mdias amostrais (1.1.1 e 1.1.2), os valores mdios de amostras dife-
rentes, tambm so diferentes, mesmo que as amostras sejam provenientes de
uma mesma populao. Isto porque, a distribuio dos valores medidos nos itens de
uma mesma populao no uniforme. Os mtodos estatsticos de inferncia ou
descritivos se justificam neste fato de os elementos de uma populao no serem
idnticos. Em qualquer populao h sempre diferena entre seus elementos. Os
profissionais, em qualquer rea de conhecimento, precisam estar atentos a esta va-
riao. Eles precisam compreend-la. Se a disperso dos dados em torno de uma
medida de tendncia central muito grande, ento esta medida tpica, por si s, te-
r pouco valor. Desta forma necessria uma medida quantitativa desta disperso
ou variao dos dados em torno de um valor tpico.
1.2.2 Amplitude (range - R) A amplitude ou faixa (R) definida como a diferena entre o maior e o menor
valor que ocorre em um rol de dados. A diferena entre dois valores extremos indica
a amplitude de variao da srie de dados, mas geralmente enganosa, pois no
informa o perfil de como os dados so dispersos. A amplitude foi muito utilizada pe-
la facilidade de sua estimativa. Exemplo, na srie de escores 210, 245, 220, 225,
233, 216, 252, 228, 215, 230 e 241, o valor da amplitude :
R = 252 210 = 42.
A amplitude pode ser expressa tambm como a faixa de valores extremos: no
exemplo anterior R = [210, 252]
1.2.3 Varincia (2 ou S2)
A varincia matematicamente definida como a soma de quadrados dos des-
vios em relao mdia dividida pelos graus de liberdade. Dada a srie Y1, Y2, ...,
YN, a SQD (soma de quadrados dos desvios em relao mdia) dada por
SQD = =
N
i 1(Yi - Y )
Assim, a varincia de Y, V(Y) = SQD/N. Se N representar todos os elementos
da populao, ento V(Y) = a varincia da populao. Entretanto, quando se
tem apenas uma amostra Y1, Y2, ..., Yn , a quantidade
-
15
S = =
n
i 1(Yi - Y )/(n-1) um estimador no tendencioso de .
O conceito de varincia fundamental em inferncia estatstica, na aplicao
dos testes de hipteses, como anlises de varincia e de regresso e em procedi-
mentos para comparao de mdias.
1.2.4 Desvio padro ( ou S) A varincia de uma varivel Y tem suas unidades elevadas ao quadrado. Isto
pode no fazer sentido em muitos casos prticos. Assim, a raiz quadrada da varin-
cia de Y, )(YV , ou , denominada de desvio padro, e simbolizado por (le-tra grega sigma minscula). Desta forma, as unidades do desvio padro sero as
mesmas da varivel Y. O desvio padro uma forma especial dos desvios em rela-
o mdia. Ele mede a variao (diferena) entre cada observao (valor
individual) e a mdia destas observaes (Yi - ).
Para amostras, a quantidade
S = S , sendo S = [=
n
i 1(Yi - Y )]/(n-1), um estimador no ten-
dencioso do desvio padro . Tabela de dados para clculo da varincia e do desvio padro amostral
Elemento amostral
Preo R$ Yi
Desvio da mdia (Yi - Y )
Quadrado do desvio (Yi - Y )
1 14 10,1 102,1 2 29 4,9 24,1 3 26 1,9 3,61 4 15 -9,1 82,81 5 40 15,9 252,81 6 41 16,9 285,61 7 17 -7,1 50,41 8 30 5,9 34,81 9 10 -14,1 198,81 10 21 -3,1 9,61 11 12 -12,1 146,41 12 34 9,9 98,01
Total 289 0,0 1 288,92 Mdia 24,1 - 107,41
-
16
A estimativa da varincia S (varincia amostral) do preo em real ser dada por S = [(Yi - Y )]/(n-1) = 1 288,92/(12-1) = 1 288,92/11 = 117,17 A estimativa do desvio padro S (desvio padro amostral) do preo em real ser dada por S = S = 17,117 = R$ 10,8 Desta forma, o S um estimador no tendencioso do . O valor 10,8 uma
estimativa do desvio padro . Isto quer dizer que diferentes amostras da mesma populao
apresentam diferentes valores de estimativas de desvios padro. Para amostras excessiva-
mente grandes, a diferena entre S e muito pequena, talvez, negligvel. Este fato im-
portante, por exemplo, em controle estatstico de qualidade e de processos, em que na mai-
oria das vezes a populao infinita.
O desvio padro uma medida numrica do grau de disperso, grau de variabilidade
ou de heterogeneidade dos dados aos quais se aplicam. O desvio padro mede as diferenas
entre os dados individuais da populao e a mdia desta populao.
Para dados pareados a formula do desvio padro tem uma pequena diferen-
a. Por exemplo, em um experimento em que um mesmo individuo usado para
testar o efeito de determinado tratamento, dez elementos (indivduos) foram utili-
zados e os resultados esto apresentados na tabela a seguir.
Tabela de resultados de um experimento comparativo simples pareado
Individuo R_ANTES R_DEPOIS di di 1 8 9 -1 1 2 10 8 2 4 3 5 4 1 1 4 8 8 0 0 5 9 10 -1 1 6 7 6 1 1 7 9 6 3 9 8 10 7 3 9 9 6 6 0 0 10 8 7 1 1 27
A varincia da diferena (Vd) dada por ndi 2/ e o desvio padro da diferena
-
17
Sd = ndi 2/ . Sd = 102/27 x = 20/27 = 1,16 => Sd = 1,16 Observe que a estimativa do desvio padro obtido pela formula acima no
afetada pela diferena entre os indivduos, uma vez que leva em conta apenas a
diferena entre respostas antes e depois do tratamento, por indivduo.
Na aquisio de matrias-primas pela indstria de alimentos tem sido
crescente o pagamento desta matria-prima pela sua qualidade. Assim surge a ne-
cessidade de avaliao da preciso dos mtodos de medida desta qualidade. A in-
dstria precisa de mtodos analticos que forneam resultados em tempo curto, pa-
ra amostras provenientes de diferentes lotes, que apresentem variao do valor do
indicador de qualidade dentro de uma faixa comercial aceitvel. A seguir tem-se um
exemplo para determinao do desvio padro em caso de dados pareados, para o
teor de sacarose aparente em caldo cana-de-acar. Quinze amostras de caldo de
cana-de-acar foram obtidas, de modo a representar uma faixa de variao co-
mercial. Cada amostra foi divida em quatro alquotas, sendo duas para o mtodo A
e duas para o mtodo B de determinao de sacarose aparente.
Tabela Dados pareados para determinao do desvio padro do teor de sacarose aparente em caldo cana-de-acar, por dois mtodos analticos A e B. Mtodo A Mtodo B Amostra Dup 1 Dup 2 di di2 Dup 1 Dup 2 di di2
01 14,0 14,5 0,5 0,25 15,1 14,5 0,6 0,36 02 14,5 15,0 0,5 0,25 14,8 15,2 0,4 0,16 03 13,8 14,2 0,4 0,16 14,3 14,0 0,3 0,09 04 15,2 14,8 0,4 0,16 15,8 16,4 0,6 0,36 05 13,6 13,4 0,2 0,04 14,0 14,8 0,8 0,64 06 14,0 14,5 0,5 0,25 14,8 15,4 0,6 0,36 07 15,0 15,2 0,2 0,04 16,0 16,5 0,5 0,25 08 16,2 15,6 0,6 0,36 17,2 16,5 0,7 0,49 09 16,0 16,5 0,5 0,25 16,5 16,0 0,5 0,25 10 15,5 15,0 0,5 0,25 16,4 16,8 0,4 0,16 11 17,5 17,3 0,2 0,04 18,0 17,0 1,0 1,00 12 16,8 17,0 0,2 0,04 17,0 17,0 0,0 0,00 13 15,9 16,4 0,5 0,25 16,5 17,0 0,5 0,25 14 13,8 14,6 0,8 0,64 14,0 15,0 1,0 1,00 15 12,5 13,1 0,6 0,36 13,5 14,5 1,0 1,00 3,34 6,37
Mdia 15,04 15,68
-
18
SdA = ndi 2/ = 152/34,3 x = 0,3367 SdB = 152/37,6 x = 0,4608 Se o coeficiente de variao (CV) for utilizado como critrio para comparar a preciso dos dois mtodos, tem-se: CVA = (SdA / AY )x100 = (0,3367/15,04)x100 = 2,24% CVB = (SdB / BY )x100 = (0,4608/15,68)x100 = 2,94% Conclui-se, portanto, que os dois mtodos tm precises muito semelhantes, pois os valores de CV so muito prximos para os dois. 1.2.5 Erro padro de mdia [EPM, (Y ) ou S(Y )] O erro padro de mdia EPM uma medida de variao das mdias amostrais
que leva em conta o tamanho da amostra. O EPM mede as diferenas entre mdias
amostrais e a mdia da populao de onde as amostras foram retiradas. Matemati-
camente o EPM igual ao desvio padro dividido pela raiz quadrada do nmero de
elementos da amostra. O EPM tende para zero quando o tamanho da amostra n
tende para a populao N.
S(Y ) = S/ n No exemplo em que a mdia 24,1; para varincia 117,17 e n = 12, tem-se desvio padro S = 10,82. A estimativa do EPM seria: S(Y ) = 10,82/ 12 = 10,82 / 3,464 = 3,12 S(Y ) = R$ 3,12 O EPM preferido em artigos em muitos peridicos pelo fato de sua estimativa considerar o tamanho da amostra. Coletadas vrias amostras de uma mesma populao, o EPM mede a diferen-a (variao) entre as mdias amostrais e a mdia da populao. O EPM usado nos testes de hipteses. A quantidade t = ( 1Y - 2Y ) / S( 1Y - 2Y ) tem distribuio de t de student, e testa a hiptese H0: 1 = 2 versus Ha: 1 2
-
19
em que, 1Y e 2Y so estimadores de 1 e 2, respectivamente. A quantidade S( 1Y - 2Y ) o erro padro da diferena entre as duas mdias. 1.2.6 Coeficiente de variao (CV) O coeficiente de variao ou coeficiente de variabilidade CV uma medida
relativa de disperso. O desvio padro uma medida absoluta de variao, isto , a
estimativa dada na mesma escala de medida, com a mesma unidade, e, portanto,
a comparao de variaes nem sempre possvel.
Para cada estimativa de mdia Y h sempre um desvio padro S associado.
Se a mdia for 100 o desvio ser denominado de CV (coeficiente de variao ou de
variabilidade). Ou seja
CV = 100x S/Y Pode-se dizer que o valor de CV o quociente do desvio padro em relao mdia, expresso em percentagem. No exemplo em que Y = 24,1 e S = 10,82, tem-se CV = 100(10,82)/24,1 = 44,9, Ou seja, o desvio padro representa 44,9% da mdia. 1.2.7 Intervalo de confiana da mdia Quando se estima a mdia populacional a partir de uma amostra de valores
Y1, Y2, ..., Yn por meio da frmula Y = (=
n
iiY
1)/n, tem-se uma estimativa por ponto.
Da mesma forma, quando se estima a varincia pela frmula
S = [=
n
i 1(Yi - Y )]/(n-1), tambm se tem uma estimativa por ponto.
Sem levar em considerao os casos de varincia conhecida (caso que de fato
muito raro, em situaes prticas) e de pressuposio de distribuio normal (o
que tambm muito raro se conhecer), o intervalo de confiana da mdia pode ser
estimado por
P[Y - t/2(S/ n ) Y + t /2 (S/ n )] = 1 - , para pequenas amostras e,
-
20
P[Y - Z /2 (S/ n ) Y + Z /2 (S/ n )] = 1 - , para grandes amostras. Nos casos acima, pode-se dizer que h uma probabilidade 1 - de que o in-tervalo Y t /2 (S/ n ou Z /2 (S/ n ) contenha o valor da mdia da populao. No exemplo a seguir tem-se uma amostra aleatria de n = 36 itens de uma populao. a) estimar a mdia, o desvio padro e o erro padro da mdia amostrais; b) estimar o intervalo de confiana de 90% para a mdia.
24 21 71 44 62 54 30 83 63 18 34 32 55 62 42 33 55 50 72 59 44 25 37 38 19 38 35 68 53 52 21 46 41 33 49 23
Soluo:
a) Y = (=
36
1iiY )/36 = 1 586/36 = 44,06 ou seja Y = 44,06
S = =
36
1)(
ii YY /(36-1) = 281,54
S = 16,78 EPM = S/ n = 16,78/ 36 = 2,80 b) O intervalo de confiana de 90% ( = 0,10) para pequenas amostras ser P[Y - t/2(S/ n ) Y + t /2 (S/ n )] = 1 - , O valor de /2 0,10/2 = 0,05 levar a um valor de t (35)0,05 = 1,69 em tabelas de t de student. O intervalo de confiana de 90% ser P[44,06 1,69(16,78/ 36 ) 44,06 + 1,69 (16,78/ 36 )] = 1 0,10, P(44,06 4,73 44,06 + 4,73) = 0,90 P(39,33 48,79) = 0,90
-
21
H uma probabilidade de 90% de que o intervalo de 39,33 a 48,79 contenha a mdia da populao. Um exemplo para grandes amostras para estimar o valor mdio de alu-
guel pago pelos estudantes de uma grande universidade foi realizado um levanta-
mento com uma amostra aleatria de 50 estudantes. O valor mdio obtido para es-
ta amostra foi R$ 97,10 com um desvio padro de R$ 24,37. Determine o intervalo
de confiana de 98% para a mdia de aluguel pago por todos os estudantes daquela
universidade.
Soluo: uma amostra de n=50 pode ser considerada grande, e admitindo
distribuio normal para os valores do aluguel tem-se: = 100 98 = 2% e /2 = 0,01. Na tabela da distribuio normal para probabilidade 0,01 tem-se Z0,01 =
2,33. Para grandes amostras tem-se
P[Y - Z /2 (S/ n ) Y + Z /2 (S/ n )] = 1 - P[97,40 2,33 (24,37/ 50 ) 97,40 2,33 (24,37/ 50 )] = 1 0,02 P(89,36 105,44) = 0,98 H uma probabilidade de 98% de que o intervalo de 89,36 a 105,44 contenha o va-lor mdio dos alugueis dos estudantes daquela universidade.
1.3 Medidas de associao 1.3.1 Coeficiente de contingncia (C) Dada uma distribuio de freqncias observadas e esperadas (ou teri-cas) a quantidade = fefefo /)( tem distribuio de chi-quadrado e pode ser usada em testes de hiptese, em que fo freqncia observada e fe freqn-cia esperada ou terica. O coeficiente de contingncia C utiliza a distribuio de para aferir grau de associao ou de dependncia entre duas categorias de variveis no quan-
titativas. Por exemplo, pode-se testar se h alguma relao entre o sexo das
pessoas e o grau de gostar ou desgostar de determinado tipo de tecido para
roupa. Ou pode-se testar o grau de associao entre a quantidade de treina-
mento de um provador sensorial (treinado versus no treinado) e a coerncia
-
22
ou consistncia dos seus escores (consistentes versus no consistentes). Este
coeficiente pode ser usado para examinar a associao entre a quantidade de
sal consumida (alta versus intermediria versus baixa) e a presso sangunea
das pessoas (alta versus intermediria versus baixa). Portanto, o coeficiente de
contingncia usado para testar associaes entre dados categricos. Este
coeficiente dado por
C = )/( +N
em que o calculado da forma usual e N o nmero total de observaes do levantamento.
Se valor de for significativo, o coeficiente de contingncia tambm o ser. Se a amostra representativa, e o valor de for significativo, pode-se concluir que, na populao, a associao entre as duas categorias no zero.
Um exemplo teste de Sessenta consumidores escolhidos aleatoriamente em uma loja de departamentos foram solicitados a selecionar qual produto eles
preferem entre trs xampus adicionados de: produto A (protena), produto B
(ovos) e produto C (ervas). Se 30 consumidores preferiram o produto A, 18 o
produto B e 12 o produto C, haveria diferena significativa na preferncia? A
hiptese de nulidade H0 neste caso de que no h diferena na preferncia
dos consumidores. Neste caso as freqncias seriam iguais (20) para os trs
produtos. A seguinte tabela pode ser montada:
N. consumidores Produto A Produto B Produto C
Observados - fo 30 18 12
Esperados - fe 20 20 20
O valor de para cada produto pode ser obtido e somado:
= (30 - 20)/20 + (18 20)/20 + (12 20)/20 = 10/20 + (-2)/20 + (-8)/20 = (100 + 4 + 64)/20 = 8,40 com 3 -1,
-
23
igual a 2 graus de liberdade. No h como prever a priori qualquer tendncia
na preferncia pelos produtos, se H0 tiver que ser rejeitada. Assim, o teste de
hiptese do tipo bilateral. Na tabela de para = 0,05, bilateral, com 2 gl, o valor crtico 5,99. Para = 0,02, o valor crtico de 7,82 e, para = 0,01, o valor crtico de 9,21. O valor amostral de de 8,40 significativo aos nveis de 5% ou de 2%, mas no ao nvel de 1%. Conclui-se que os resultados apresentados pela
amostra representam uma tendncia na populao.
C = )40,860/(40,8 + = 0,35 1.3.2 Coeficiente de correlao Em experimentao e em controle de qualidade sempre til conhecer a
relao entre variveis quantitativas. O coeficiente de correlao linear simples
( r) reflete a relao linear simples entre duas variveis quantitativas. A quantidade
r = [n(XY) (X)(Y)]/[ )( XXn ][ )( YYn ] um estimador de r. O coeficiente de correlao varia dentro do intervalo de -1 a
+1, ou seja, -1 1. Se para cada aumento de uma unidade na escala da
varivel X acarreta aumento de uma unidade na escala da varivel Y, ento a
relao linearmente perfeita positiva, =1; se o aumento de uma unidade na
escala da varivel X acarreta reduo de uma unidade na escala da varivel Y,
ento a relao linearmente perfeita negativa, =-1. Este o coeficiente de
correlao de Pearson, em que X e Y so consideradas variveis aleatrias con-
tinuas, com distribuio normal de probabilidade, de mdia e desvio padro
. Para apenas duas variveis os valores de rX,Y e rY,X so idnticos.
1.3.3 - Coeficiente de determinao (R) O coeficiente de determinao linear o quadrado do coeficiente de corre-lao:
= .
-
24
O melhor definir o coeficiente de determinao em funo de somas de quadrados em anlise de regresso: R = SQReg/SQTotal ou SQModelo/SQTotal O coeficiente de determinao expressa a proporo ou a percentagem de explicao da equao ou modelo de regresso em relao soma de quadrados total. Referncias Bibliogrficas .ARKIN, H. & COLTON, R.R. Statistical methods. Fifth Barnes & Noble Books Edition. Harper & Row Publishers, Inc., 1970. 344p. .BETHEA, R.M.; DURAN, B.S. & BOULLION, T.L. Statistical Methods for Engineers and Scientists. 2a. Ed. Marcel Dekker, Inc., New York. P1-5. .GACULA, Jr., M.C. & SINGH, J. 1984. Statistical Methods in Food and Consumer Research. Academic Press, Inc., Orlando, FL. P15-18.