ESTATÍSTICA APLICADA À INSPEÇÃO MECÂNICA · eles tornaram a Estatística mais forte e agora,...

132
ESTATÍSTICA APLICADA A INSPEÇÃO MECÂNICA SERRA 2006

Transcript of ESTATÍSTICA APLICADA À INSPEÇÃO MECÂNICA · eles tornaram a Estatística mais forte e agora,...

ESTATÍSTICA APLICADA A INSPEÇÃO MECÂNICA

SERRA

2006

SUMÁRIO

1. INTRODUÇÃO ............................................................................................................................... 5 1.1. O QUE É ESTATÍSTICA? ............................................................................................................ 5 1.2. HISTÓRIA DA ESTATÍSTICA ........................................................................................................ 7

2. ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS ........................ 9 2.1. DADOS ESTATÍSTICOS ............................................................................................................ 10

2.1.1. Tipos de Dados................................................................................................................ 10 2.2. MEDIDAS DE TENDÊNCIA CENTRAL.......................................................................................... 13

2.2.1. A Média............................................................................................................................ 13 2.2.2. A Média Ponderada......................................................................................................... 14 2.2.3. A Mediana........................................................................................................................ 15 2.2.4. Comparação entre Média e Mediana .............................................................................. 16 2.2.5. Moda................................................................................................................................ 16

2.3. MEDIDAS DE DISPERSÃO ........................................................................................................ 17 2.3.1. Desvio Padrão ................................................................................................................. 18

2.4. ANÁLISE DE GRANDES CONJUNTOS DE DADOS ........................................................................ 18 2.5. DISTRIBUIÇÕES DE FREQÜÊNCIA ............................................................................................. 19

2.5.1. Construção de uma Distribuição de Freqüência para Dados Contínuos ........................ 20 2.5.2. Construção de uma Distribuição de Freqüências para Dados Discretos........................ 21 2.5.3. Construção de uma Distribuição de Freqüência Acumulada .......................................... 24 2.5.4. Distribuições de Freqüência para Dados Nominais e por Postos................................... 26

2.6. ESTUDO DE CASO .................................................................................................................. 27 3. PROBABILIDADE........................................................................................................................ 31

3.1. A PROBABILIDADE DE UM EVENTO........................................................................................... 32 3.2. ESPAÇO AMOSTRAL E EVENTOS.............................................................................................. 33 3.3. TRÊS ORIGENS DA PROBABILIDADE......................................................................................... 36

3.3.1. O Método Clássico .......................................................................................................... 37 3.3.2. O Método Subjetivo ......................................................................................................... 39

3.4. A MATEMÁTICA DA PROBABILIDADE ......................................................................................... 40 3.4.1. Cálculo de Probabilidade de Ocorrência de Dois Eventos: P(A e B).............................. 41 3.4.2. Probabilidade de Ocorrência de ao Menos um de Dois Eventos: P(A ou B) .................. 42

3.5. TÉCNICAS DE CONTAGEM ....................................................................................................... 43 3.5.1. Permutações, Arranjos e Combinações.......................................................................... 45

4. AMOSTRAGEM ........................................................................................................................... 48 4.1. AMOSTRAGEM ALEATÓRIA ...................................................................................................... 53

4.1.1. Obtenção de uma Amostra Aleatória .............................................................................. 55 4.2. OUTROS PLANOS DE AMOSTRAGEM ........................................................................................ 57

4.2.1. Amostragem Probabilística Versus Amostragem Não-Probabilística ............................. 57 4.2.2. Amostragem por Julgamento .......................................................................................... 58 4.2.3. Amostragem Probabilística.............................................................................................. 59

5. DISTRIBUIÇÕES AMOSTRAIS................................................................................................... 63 5.1. EFEITO DOS PARÂMETROS POPULACIONAIS SOBRE UMA DISTRIBUIÇÃO AMOSTRAL ................... 67 5.2. EFEITO DO TAMANHO DA AMOSTRA SOBRE UMA DISTRIBUIÇÃO AMOSTRAL................................ 70 5.3. DISTRIBUIÇÕES DE MÉDIAS AMOSTRAIS................................................................................... 72

5.3.1. O Teorema do Limite Central .......................................................................................... 75 5.4. DISTRIBUIÇÕES DE PROPORÇÕES AMOSTRAIS ......................................................................... 81 5.5. DISTRIBUIÇÃO AMOSTRAL DO NÚMERO DE OCORRÊNCIAS........................................................ 82 5.6. AMOSTRAGEM DE UMA POPULAÇÃO FINITA .............................................................................. 83

6. ESTIMAÇÃO ................................................................................................................................ 87

6.1. ESTIMATIVAS PONTUAIS E INTERVALARES................................................................................ 87 6.2. OS FUNDAMENTOS LÓGICOS DA ESTIMAÇÃO ........................................................................... 88 6.3. ESTIMAÇÃO DA MÉDIA DE UMA POPULAÇÃO............................................................................. 92

6.3.1. Erro de Estimação ........................................................................................................... 93 6.3.2. Determinação do Tamanho da Amostra.......................................................................... 96

6.3.3. Estimação de Médias Quando xσ é Desconhecido: a Distribuição t.............................. 97 6.3.4. Amostragem de Pequenas Populações: O Fator de Correção Finita ........................... 102

6.4. ESTIMAÇÃO DA PROPORÇÃO NUMA POPULAÇÃO .................................................................... 103 6.4.1. Intervalos de Confiança: Uso da Fórmula ..................................................................... 104 6.4.2. Erro ................................................................................................................................ 105 6.4.3. Determinação do Tamanho da Amostra........................................................................ 107 6.4.4. Amostragem de Populações Finitas.............................................................................. 108

7. REGRESSÃO E CORRELAÇÃO .............................................................................................. 110 7.1. REGRESSÃO LINEAR............................................................................................................. 111

7.1.1. A Equação Linear .......................................................................................................... 112 7.1.2. Decisão por um Tipo de Relação .................................................................................. 114

7.2. DETERMINAÇÃO DA EQUAÇÃO MATEMÁTICA .......................................................................... 115 7.3. O MÉTODO DOS MÍNIMOS QUADRADOS ................................................................................. 117 7.4. ANÁLISE DE CORRELAÇÃO .................................................................................................... 119 7.5. DADOS CONTÍNUOS: O COEFICIENTE R DE PEARSON ............................................................. 120

7.5.1. Características de r........................................................................................................ 121 7.5.2. Correlação Momento-Produto: Conceituação ............................................................... 122 7.5.3. Interpretação de r .......................................................................................................... 127 7.5.4. Processo Prático para o Cálculo de r ............................................................................ 128

8. REFERÊNCIAS BIBLIOGRÁFICAS.......................................................................................... 130

Redescobrindo a Estatística

Toda vez que um aluno me questiona qual

será a aplicação da Estatística em sua vida

profissional me volto a mesma pergunta:

Será que nós sabemos realmente o potencial

de nossas profissões formada em árduos

anos de estudos?

Após algum tempo esquecida, a Estatística

retoma ao mercado industrial de forma

concreta e independente. De certa forma

graças ao esquecimento de sua aplicação

por profissionais em suas atividades

técnicas.

Tempos atrás engenheiros e administradores

de empresas constantemente usufruíam a

magia da estatística em não apenas analisar

os números, mas, talvez o mais importante,

massacrá-los até mostrarem o que era

realmente de interesse. Poderíamos citar

inúmeros fatores conhecidos causadores

dessa amnésia. Mas a verdade é que todos

eles tornaram a Estatística mais forte e

agora, com o seu retorno, as indústrias

começam a novamente deslumbrar suas

maravilhas e correrem atrás do tempo

perdido.

Precisamos voltar a utilizar a Estatística de

forma natural e sem medos em nossos

problemas profissionais diários, mais

comuns, deixando nossos colegas

Estatísticos livres para apoiarem os mais

diversos campos da ciência e tecnologia

acelerando cada vez mais nosso crescimento.

Tenho colhido inúmeros frutos em minha vida

profissional conciliando Engenharia e Estatística

em meu dia-a-dia. Claro que os estudos

adicionais de Estatística são utilizados, mas

graça a forte base recebida, ainda na

graduação, proporcionou-me entender logo

cedo sua importância no desenvolvimento de

minha profissão.

O aluno em formação precisa conhecer as

fronteiras de sua carreira a qual escolheu seguir

e saber onde realmente começa e termina sua

atuação como profissional, pois assim poderá

no futuro usufruir por completo de todo seu

potencial.

Acredito que parte dessa carência pode ser

suprida ainda na faculdade com o apoio de

todos nós professores, atualização constante da

grade curricular e na implantação da

interdisciplinaridade nos cursos superiores.

Assim espero repetir cada vez menos esse

discurso aos questionamentos inocente que

recebo de nossos futuros profissionais.

Salustiano Martins Pinto Júnior, MSc

Companhia Siderúrgica de Tubarão.

5

1. INTRODUÇÃO

1.1. O Que é Estatística?

Quando algumas pessoas ouvem a palavra “estatística”, imaginam logo taxas de

acidente, índices de mortalidade, litros por quilômetro, etc. essa parte da

estatística, que utiliza números para descrever fatos, é chamada de forma

bastante apropriada, estatística descritiva. Compreende a organização, o resumo

e, em geral, a simplificação de informações que podem ser muito complexas. A

finalidade é tornar as coisas mais fáceis de entender, de relatar e de discutir. A

média industrial Dow-Jones, a taxa de desemprego, o custo de vida, o índice

pluviométrico, a quilometragem meia por litro de combustível, as médias de

estudantes, tudo isto se enquadra nessa categoria.

Outro ramo da estatística relaciona-se com a probabilidade, e é útil para analisar

situações que envolvem o acaso. Jogos de dados e de cartas, ou o lançamento

de uma moeda para o ar enquadram-se na categoria do acaso. A maioria dos

jogos esportivos (futebol, basquete, turfe, etc.) também é influenciada pelo acaso

até certo ponto. A decisão de um fabricante de cola de empreender uma grande

campanha de propaganda vindo a aumentar sua participação no mercado, a

decisão de parar de imunizar pessoas com menos de vinte anos contra

determinada doença, a decisão de atravessar uma rua no meio do quarteirão,

todas utilizam a probabilidade consciente ou inconscientemente.

Um terceiro ramo da estatística é a inferência. Diz respeito à análise e

interpretação de dados amostrais. A amostragem é um exemplo vivo do adágio

“Não é preciso comer um bolo inteiro para saber se é bom”. A idéia básica da

amostragem é efetuar determinada mensuração sobre uma parcela pequena, mas

típica de determinada “população” e utilizar essa informação para fazer inferência

sobre a população toda. Os exemplos familiares são muitos. Mergulhar a ponta do

pé na água para avaliar a temperatura da piscina. Experimentar um casaco novo

diante do espelho para ver como fica. Assistir um programa de TV alguns minutos

para ver se vale à pena assisti-lo até o fim. Folhear um novo livro. Testar um novo

6

carro. Há, além disso, inúmeros exemplos da aplicação de tal conceito na

indústria. Consideremos os seguintes.

Um estúdio cinematográfico faz um teste dos candidatos a ator, para ver qual

papel atribuir a cada um.

As fábricas freqüentemente produzem um pequeno número de peças (lote piloto)

antes de se lançarem à fabricação em grande escala. Muitas firmas mantêm

milhares de itens em estoque. Utilizando técnicas de amostragem, pode-se

estimar o valor do inventário, sem proceder à contagem dos itens um a um.

Produtos novos são testados nos mercados de cidades-chave para aquilatar sua

aceitação em geral.

Firmas comerciais e entidades recorrem à amostragem por várias razões. O custo

é usualmente um fator relevante. Coligir dados e analisar resultados custa

dinheiro, e em geral, quanto maior o número de dados coligidos, maior o custo. A

amostragem reduz a quantidade de dados a coligir e analisar, diminuindo assim

os custos. Outra razão para o emprego de amostragem é que o valor da

amostragem em geral custa pouco. Para ser útil, a informação deve ser obtida e

usada rapidamente. A amostragem é a única maneira de conseguir isso. Por

vezes, o exame de determinado artigo o destrói. Testar cintos de segurança

quanto a sua resistência à ruptura obviamente o destrói; se fôssemos testar todos

os cintos, não sobraria nenhum para a venda. Essas e outras razões para

utilização de amostragem serão consideradas em capítulo posterior.

Como o leitor logo verá estas três áreas da estatística não são separadas ou

distintas. Ao contrário, elas tendem a se entrelaçar. Assim é que resumir ou

descrever dados constitui a primeira fase de sua análise. Além disso, a teoria e os

fundamentos da amostragem se baseiam na teoria da probabilidade.

Temos então três áreas entrelaçadas de interesse para a estatística: descrição e

resumo de dados, teoria da probabilidade, e análise e interpretação de dados

amostrais.

A estatística compreende a estatística descritiva, a teoria da probabilidade e

amostragem.

7

Os três ramos da estatística utilizam o método científico, que consiste das cinco

etapas básicas seguintes:

1. Definir cuidadosamente o problema. Certificar-se de que é clara a

finalidade de um estudo ou análise;

2. Formular um plano para a coleta dos dados adequados;

3. Coligir os dados;

4. Analisar e interpretar os dados;

5. Relatar as conclusões de maneira que sejam facilmente entendidas por

quem as for usar na tomada de decisões.

1.2. História da Estatística

O termo estatística foi primeiramente empregado para designar o conjunto de

dados referentes a assuntos do Estado, geralmente com finalidade de controle

fiscal ou de segurança nacional. Por este motivo a epistemologia da palavra,

segundo estudiosos, provém do latim “Status” que significa Estado, podendo

assumir diferentes significações, dependendo de como é utilizado - Objeto de

longas polêmicas o termo estatística até hoje é controvertido se ele deriva de

Estado (entidade política) ou de estado (modo de ser).

Os dados do estado referiam-se, particularmente, à população, às transações

comerciais internas ou com outros estados, ao controle da mortalidade em geral

ou provocada por uma epidemia, endemia ou doença particular, e aos problemas

de taxação e de proporcionalidade de tarifas e impostos. Além de estudar as

maneiras mais eficientes de organizar as informações obtidas, tratava também do

problema mais importante de interpretação de dados e da possibilidade de

realizar previsões.

Os estudiosos da disciplina distinguem três grandes etapas na história da

estatística:

8

a) O período mais antigo e caracterizado pela simples organização de

informações de interesse estatal, do qual é típico o famoso Domesday

Book de Guilherme o conquistador (1086), e que se estende até meados

do séc. XVII;

b) O período que medeia entre o séc. XVII e princípio do séc. XIX,

caracterizado pelas inúmeras tentativas de analisar as tabelas e os

conjuntos de dados com a finalidade de obter conclusões que pudessem

interessar à organização do Estado ou Ter aplicação específica através de

previsões para o futuro. São particularmente importantes nesse período os

trabalhos Conring, John Graunt, William Petty, Halley, e dos inúmeros

matemáticos que se dedicaram à chamada aritmética política. No século

XVIII, a Universidade de Iena promoveu, pela primeira vez, um curso

avançado de estatística. Gottfried Achenwall, da Universidade de

Göttingen, publicou uma série de estudos onde define os objetos material e

formal da estatística, pouco depois do apare-cimento do trabalho de

Süssmilch sobre as mutações no Gênero humano e que dá feição científica

aos problemas estatísticos. No séc. XIX, Adolphe Quételet realizou

cuidadoso estudo estatístico dos fatos demográficos e sociais, imprimindo

um tratamento dominantemente matemático;

c) O terceiro período iniciado com o congresso internacional de Estatística,

reunido em 1853, e que se estende aos nossos dias, caracteriza-se não

somente pelos extraordinários avanços e aperfeiçoamentos tecnológicos

da estatística em si, como, principalmente pelas múltiplas aplicações que

ele vem tendo, particularmente no campo da investigação científica. Pode-

se afirmar que o método estatístico constitui um dos mais seguros

eficientes e necessários instrumentos da ciência moderna.

9

2. ORGANIZAÇÃO, RESUMO E APRESENTAÇÃO DE DADOS ESTATÍSTICOS

Os métodos estatísticos envolvem a análise e a interpretação de números, tais

como renda anual, vendas mensais, escores de testes, números de peças

defeituosas, percentagens de respostas favoráveis a um questionário, vida ativa,

etc. Tais números são designados por dados. Para interpretar os dados

corretamente, em geral é preciso primeiro organizar e sumarizar os números. A

finalidade deste capítulo é apresentar ao leitor os métodos mais usados de

organização e sumarização dados estatísticos. Por isso, começamos

perguntando: “Que faz o leitor com os números após coligi-los?” Não raro um fim

em si mesmo, o processo de descrição de dados também prepara o caminho para

análise adicional sob forma de inferências a respeito de uma população.

Dados Versus Informação

Em sua forma não processada, os dados podem quase não ter sentido. Grandes

quantidades de números tendem a confundir, ao invés de esclarecer,

simplesmente porque nossa mente não é capaz de abranger a variedade e os

detalhes inerentes a grandes conjuntos de números. Ficamos simplesmente

atolados em pequenos detalhes.

O processamento dos dados constitui uma ajuda porque reduz a quantidade de

detalhes. Além disso, facilita a constatação de relações. O processamento

transforma os dados em informação, organizando-os e condensando-os em

gráficos ou em poucos números, os quais, então, nos transmitem a essência dos

dados. O efeito consiste em eliminar detalhes menores e enfatizar os aspectos

importantes dos dados.

Para o processamento de dados, os gráficos e mapas são particularmente

atraentes porque proporcionam uma visualização das características importantes

dos dados. Os gráficos além de servirem como dispositivos de comunicação,

também auxiliam na conceituação de problemas. Por outro lado, as medidas

numéricas são absolutamente essenciais para fins computacionais.

10

Tanto os resumos visuais quanto os numéricos desempenham um importante

papel na análise estatística. Freqüentemente se utilizam tabelas no processo de

organização, resumo e apresentação de dados estatísticos. Conquanto as tabelas

careçam do atrativo visual dos gráficos e dos mapas, elas oferecem certas

vantagens em termos de análise matemática. A variedade de tabelas em uso nos

faz subestimar sua importância.

2.1. Dados Estatísticos

Os dados estatísticos se obtêm mediante um processo que envolve a observação

ou outra mensuração de itens tais como renda anual numa comunidade, escores

de testes, quantidade de café por xícara servida por uma máquina automática,

resistência à ruptura de fibras de náilon, percentagem de açúcares em cereais,

etc. Tais itens chamam-se variáveis, porque originam valores que tendem a exibir

certo grau de variabilidade quando se fazem mensurações sucessivas.

2.1.1. Tipos de Dados

Na maior parte das vezes, a escolha do processo a utilizar na análise ou

descrição de dados estatísticos depende do tipo de dados considerados. O leitor

deve aprender a identificar e a utilizar quatro tipos de dados: contínuos, discretos,

normais e por postos.

As variáveis que podem assumir virtualmente qualquer valor num intervalo de

valores são chamadas contínuas. Características tais como altura, peso,

comprimento, espessura, velocidade, viscosidade e temperatura enquadram-se

nesta categoria.

Os dados referentes a essas características e similares dizem-se contínuos,

embora na prática os instrumentos de mensuração tenham limitações físicas que

lhe restringem o grau de precisão.

11

As variáveis contínuas podem assumir qualquer valor num intervalo contínuo. Os

dados referentes a tais variáveis dizem-se dados contínuos.

A quantidade de café vendida por dia, ou de gasolina vendida por hora, a

velocidade do ar, o tempo de uma reação, a elasticidade, de uma tira de borracha

– todos são dados contínuos.

Uma variável discreta é uma variável que só pode assumir certos valores, em

geral inteiros. Os dados discretos surgem na contagem do número de itens com

determinada característica. Exemplos de dados discretos são o número diário de

clientes, de alunos numa sala de aula, de defeitos num carro novo, de acidentes

numa fábrica, de paradas de um caminhão, etc.

As variáveis discretas assumem valores inteiros. Os dados discretos são os

resultados da contagem do número de itens.

Tanto os dados discretos como os contínuos se dizem quantitativos, porque são

inerentemente numéricos. Isto é, certos valores numéricos acham-se

naturalmente associados às variáveis que estamos medindo. Por outro lado, os

dois tipos restantes de dados – nominais e por postos – envolvem variáveis que

não são inerentemente numéricas. São as variáveis qualitativas – que devem ser

convertidas em valores numéricos antes de serem processadas estatisticamente.

As variáveis nominais envolvem categorias tais como sexo (masculino ou

feminino), cor dos olhos (azuis, castanhos, verdes), campo de estudo (medicina,

direito, administração, biologia, engenharia), desempenho (excelente, bom,

sofrível, mau), etc. Nenhuma dessas características é naturalmente numérica.

Todavia, quando aplicadas a uma população ou a uma amostra, é possível

atribuir cada item a uma classe (p. ex., o campo de estudo é a administração) e

então contar o número em cada categoria (p. ex., há 15 graduados em

engenharia).

Os dados nominais surgem quando se definem categorias e se conta o número

de observações pertencentes a cada categoria.

12

Outro tipo de variável qualitativa é a que se refere tipicamente a avaliações

subjetivas, quando se dispõem os itens segundo a preferência ou desempenho.

Por exemplo, nos concursos de culinária, de beleza, de flores e de cães, os

elementos se classificam como primeiro, segundo, terceiro, etc. Da mesma forma,

às situações de um time atribuem-se números inteiros 1, 2, 3,... Alternativamente,

podem-se usar os sinais + ou – para designar melhora ou piora (p. ex.,

desempenho na escrita após a freqüência a um curso de escrita criativa). Mas é

possível cogitar da variável básica em cada um desses exemplos como sendo

uma variável contínua e, ainda assim, atribuir-lhe artificialmente ou inteiros 1, 2,

3,... (isto é, postos), seja por conveniência, seja por falta de método mais

científico.

Os dados por postos consistem de valores relativos atribuídos para denotar

ordem: primeiro, segundo, terceiro, quarto, etc.

É interessante notar que algumas populações podem originar os quatro tipos de

dados. Por exemplo, um carregamento de carne pode ser classificado numa das

duas categorias (dicotômicas): aceitável ou não aceitável. Ou então a carne pode

ser classificada em diversas categorias de dados discretos. Se, entretanto, o

problema é a quantidade de gordura por quilo, ou coisa semelhante, então os

dados são contínuos. Outro exemplo de como os dados podem assumir diferentes

características acha-se ilustrado (tabela 1). Analogamente, as notas de

aproveitamento podem ser classificadas como medidas, categorias, ou postos, o

mesmo ocorrendo com velocidade, valor estimado, ou o que quer que estejamos

estudando.

Tabela 1 - A Mesma População pode Originar Diferentes Tipos de Dados.

Tipos de Dados

Populações Contínuo Discreto Nominal Por Posto Alunos do 2º Grau Idade, pesos Nº na classe Menino/ menina 2º grau

Automóveis Km/h Nº de defeitos p/ carro Cores Limpeza

Venda de Imóveis Valor $ Nº de ofertas Acima do preço Muito dispendioso

13

2.2. Medidas de Tendência Central

As medidas de tendência central são usadas para indicar um valor que tende a

tipificar, ou a representar melhor, um conjunto de números. As três medidas mais

usadas são a média, a mediana e a moda.

As medidas de tendência central são valores que resumem o comportamento

central dos dados e podem representar um conjunto de dados. São assim

denominadas, pois representam os fenômenos pelos seus valores médios, em

torno dos quais tendem a concentrar os dados.

As medidas de tendência central caracterizam os grupos como um todo,

descrevendo-os de forma mais compacta do que as tabelas e gráficos. Focalizam

a atenção na natureza dos dados medidos, implicando em perda de informação.

Segundo Fonseca (1985), essas medidas orientam-nos quanto à posição da

distribuição no eixo x (eixo dos números reais) e possibilitam que comparemos

séries de dados entre si pelo confronto desses números.

Podem apresentar-se de várias formas, dependendo daquilo que se pretende

conhecer a respeito dos dados estatísticos. A moda, a média aritmética e a

mediana são as mais utilizadas para resumir o conjunto de valores

representativos que se deseja estudar. Essas determinam um único número

representativo de uma série, e raramente coincidem.

2.2.1. A Média

A média aritmética é a idéia que ocorre à maioria das pessoas quando se fala em

“média”. E como ela possui certas propriedades matemáticas convenientes, é a

mais importante das três medidas que estudaremos. Calcula-se a média

aritmética determinando-se a soma dos valores do conjunto e dividindo-se esta

soma pelo número de valores do conjunto. Assim, a média dos valores 70, 80 e

120 é:

14

903

2703

1208070==

++

A média de uma amostra é representada pelo símbolo x (leia-se “x barra”), e seu

cálculo pode expressar-se em notação sigma como segue.

n

xx

n

ii∑

== 1

ou mais simplesmente como:

nx

x ∑=

Tem-se uma representação física da média imaginando uma viga com pesos

iguais colocados nos pontos correspondentes aos valores de um conjunto. A

média dos números 2, 4, e 6 pode ser ilustrada conforme (figura 1) abaixo:

2 4 6

- 2 + 2

2 4 6

- 2 + 2

Figura 1 - A média é o ponto de equilíbrio para a viga; as diferenças positivas e negativas se cancelam.

2.2.2. A Média Ponderada

A fórmula anterior para calcular a média aritmética supõe que cada observação

tenha a mesma importância. Conquanto este caso seja o mais geral, há

exceções. Consideremos, por exemplo, a situação em que um professor informe à

classe que haverá dois exames de uma hora, valendo cada um 30% do total de

pontos do curso, e um exame final valendo 40%. O cálculo da média deve levar

em conta os pesos desiguais dos exames. A fórmula para o cálculo é:

15

Média ponderada =

=

=n

ii

n

iii

w

xw

1

1

2.2.3. A Mediana

Uma segunda medida do meio de um conjunto de números é a mediana. Sua

característica principal é dividir um conjunto ordenado de dados em dois grupos

iguais; a metade terá valores inferiores à mediana, a outra metade terá valores

superiores à mediana. Para calcular a mediana, é necessário primeiro ordenar os

valores (comumente) do mais baixo ao mais alto. Em seguida, conta-se até a

metade dos valores para achar a mediana.

Por exemplo, a mediana do conjunto 5, 6, 8 é 6; 6 está no meio. Em geral, a

mediana ocupa a posição (n + 1) / 2. Logo, para três números, a posição é (3+1)/

2 = 2, ou seja, a segunda posição. Consideremos outro exemplo: Determinar a

mediana dos valores 7, 8, 9, 10. De acordo com nossa fórmula, a posição da

mediana é (4+1)/ 2 = 2,5, que está a meio caminho dos dois valores médios, ou

seja, 8,5, neste caso. Este valor deixa dois valores acima e dois abaixo.

O processo para determinar a mediana é o seguinte:

a) Ordenar os valores;

b) Verificar se há um número ímpar ou par de valores;

c) Para um número ímpar de valores, a mediana é o valor do meio. Para um

número par de valores, a mediana é a média dos dois valores do meio.

A mediana de um conjunto de números é maior que uma metade dos valores e

menor que a outra metade.

16

2.2.4. Comparação entre Média e Mediana

A escolha da média, ou da mediana, como medida de tendência central de um

conjunto, depende de diversos fatores. A média é sensível (ou influenciada por)

cada valor do conjunto, inclusive os extremos. Por outro lado, a mediana é

relativamente insensível aos valores extremos.

Mediana MédiaMediana Média

Figura 2 - A média é afetada pelos valores extremos.

Consideremos o conjunto de dados exibidos (figura 2). Notem como a média é

influenciada por um valor extremo, enquanto que a mediana não é. Assim, os

dados sobre renda pessoal, ou valor de casas de residência, têm na mediana

uma medida descritiva mais adequada; isso porque bastam alguns valores muito

grandes pra inflacionar a média aritmética.

De modo geral, a média possui certas propriedades matemáticas que a tornam

atraente. Além disso, a ordenação dos dados para determinar a mediana pode ser

enfadonha, e o cálculo da mediana não pode ser feito com máquina de calcular,

ao contrário do que ocorre com a média.

2.2.5. Moda

A moda é o valor que ocorre com maior freqüência num conjunto. Por exemplo,

dados os números 10, 10, 8, 6, 10, há três 10’s e um de cada um dos outros

números. O valor mais freqüente – a moda – é 10. A moda funciona como medida

descritiva quando se trata de contar dados, e será estudada em maior detalhe

mais adiante neste capítulo.

17

Comparada com a moda e com a mediana, a moda é a menos útil das medidas

para problemas estatísticos, porque não se presta à análise matemática, ao

contrário do que ocorre com as outras duas medidas (ver a Tabela 2). Todavia, de

um ponto de vista puramente descritivo, a moda indica o valor “típico” em termos

de maior ocorrência. A utilidade da moda se acentua quando um ou dois valores,

ou um grupo de valores, ocorrem com muito maior freqüência que outros.

Inversamente, quando todos ou quase todos os valores ocorrem

aproximadamente com a mesma freqüência, a moda nada acrescenta em termos

de descrição dos dados.

A moda é o valor que ocorre com maior freqüência.

Tabela 2 - Comparação entre Média, Mediana e Moda.

2.3. Medidas de Dispersão

São necessários dois tipos de medidas para descrever adequadamente um

conjunto de dados. Além da informação quanto ao “meio” de um conjunto de

números, é conveniente dispor também de um método que nos permita exprimir a

dispersão. As medidas de dispersão indicam se os valores estão relativamente

próximos uns dos outros, ou separados. Esta situação é ilustrada

esquematicamente (figura 3(a) e 3(b)). As observações (figura 3(a)) apresentam

valores relativamente próximos uns dos outros, em comparação com (figura 3(b)).

Definição Vantagens Limitações

Média nx

x i∑= 1. Reflete cada valor. 2. Possui propriedades

matemáticas atraentes.

1. É influenciada por valores extremos.

Mediana Metade dos valores são maiores, metade menores.

1. Menos sensíveis a valores extremos do que a média.

1. Difícil de determinar para grande quantidade de dados.

Moda Valor mais freqüente.

1. Valor “típico”: maior quantidade de valores concentrados neste ponto.

1. Não se presta a análise matemática

2. Pode não ser moda para certos conjuntos de dados.

18

(a) Pequena dispersão

(b) Grande dispersão

(a) Pequena dispersão

(b) Grande dispersão

(a) Pequena dispersão

(b) Grande dispersão

Figura 3 - A dispersão mede quão próximos uns dos outros estão os valores de um grupo.

2.3.1. Desvio Padrão

O desvio padrão representa a medida de dispersão mais utilizada nos estudos

gerias de Estatística. Para determinar o desvio padrão calcula-se a variância e

toma-se a raiz quadrada positiva do resultado. As fórmulas para o desvio padrão

são:

1]/)[(

1)( 222

−=

−= ∑∑∑

nnxx

nxx

s iii

A substituição de (n-1) por n produz as fórmulas do desvio padrão da população.

O desvio padrão é uma das medidas mais comumente usadas pra distribuições, e

desempenha papel relevante em toda a estatística. Cabe notar que a unidade do

desvio padrão é a mesma da média. Por exemplo, se a média é em reais, o

desvio padrão também se exprime em reais.

O desvio padrão de um conjunto de números é a raiz quadrada positiva da

variância.

2.4. Análise de Grandes Conjuntos de Dados

Os homens requerem um grau suficientemente alto de estrutura ou organização

para bem se conduzirem na vida. Considere o leitor o caso de uma biblioteca,

onde os livros são catalogados por título, por autor, e por assunto

alfabeticamente, e imagine quanto lhe custaria localizar determinado livro, se eles

19

fossem colocados nas estantes totalmente a esmo, onde quer que haja lugar, sem

qualquer preocupação de ordenação, catalogação ou classificação. Ou também a

confusão que resultaria se não houvesse leis nem sinais de tráfego, e se a única

regra fosse “cada qual por si”. As listas telefônicas são organizadas

alfabeticamente por cidade; os programas de cursos indicam quando e onde

serão as aulas; existem horários de viagem de ônibus, trem e avião, bem como

códigos postais – tudo isso vem em nosso auxílio por organizar informação.

Os métodos principais para organizar dados estatísticos compreendem o arranjo

ou a disposição dos itens em subconjuntos que apresentem características

similares (p. ex., a mesma idade, mesma finalidade, mesma escola, mesma

cidade, etc.). Os dados grupados podem ser resumidos graficamente ou em

tabelas, bem como mediante o uso de medidas numéricas tais como média,

intervalo, desvio padrão, etc. A designação para os dados dispostos em grupos

ou categorias é distribuição de freqüência.

2.5. Distribuições de Freqüência

Consideremos os dados da tabela seguinte, que representam a produção diária,

por equipamentos. Embora tenhamos utilizado dados pequenos para simplificar a

discussão, ainda assim é difícil obter uma visão global da produção diária com

base nos dados tais como são apresentados. A construção de uma distribuição de

freqüência facilitará as coisas.

Tabela 3

Produção Diária por Equipamentos

11,1 12,5 32,4 7,8 21,0 16,4 11,2 22,3

4,4 6,1 27,5 32,8 18,5 16,4 15,1 6,0

10,7 15,8 25,0 18,2 12,2 12,6 4,7 23,5

14,8 22,6 16,0 19,1 7,4 9,2 10,0 26,2

3,5 16,2 14,5 3,2 8,1 12,9 19,1 13,7

20

Uma distribuição de freqüência é um método de grupamento de dados em classe,

ou intervalos, de tal forma que se possa determinar o número, ou a percentagem

(isto é, a freqüência) de cada classe. Isso proporciona uma forma de visualizar um

conjunto de números sem precisar levar em conta os números individuais, e pode

ter grande utilidade quando precisamos lidar com grande quantidade de dados. O

número ou percentagem numa classe chama-se freqüência de classe.

Uma distribuição de freqüência é um grupamento de dados em classe. Uma

distribuição de freqüência pode ser apresentada sob a forma gráfica ou tabular.

O processo de construção de uma distribuição de freqüência para determinado

conjunto de dados depende do tipo de dados em estudo (isto é, contínuos,

discretos, nominais ou por postos). Presumivelmente, a produção diária por

equipamento é avaliada em escala contínua; consideremos, pois, este caso em

primeiro lugar.

2.5.1. Construção de uma Distribuição de Freqüência para Dados Contínuos

Estabelecer as classes Os principais estágios na construção de uma distribuição

de freqüência para dados amostrais são:

a) Estabelecer as classes ou intervalos de grupamentos dos dados;

b) Enquadrar os dados nas classes ou intervalos de grupamentos dos dados;

c) Contar o número em cada classe;

d) Apresentar os resultados numa tabela ou num gráfico.

São as seguintes etapas para a construção de uma distribuição de freqüência

para dados contínuos:

a) Determinar o intervalo dos dados;

b) Determinar o número k de classes, servaçõesnúmerodeobk ≈ . (Em geral,

tomar 5 a 15 classes);

21

c) Calcular a amplitude de classe, ou seja, (intervalo)/ k, fazendo o

arredondamento conveniente. (Certificar-se de que k vezes a amplitude é

maior do que o intervalo, pois de outra forma, os valores extremos não

serão incluídos);

d) Estabelecer limites de classe preliminares. Rever os limites, que devem

tocar-se, mas não interceptar-se;

e) Relacionar os intervalos e fazer a contagem dos pontos por classe. (A

contagem total deve ser = n);

f) Construir uma tabela de freqüência, ou um histograma de freqüência.

Uma alternativa ao histograma, útil por vezes, é o polígono de freqüência

construído mediante a conexão dos pontos médios dos intervalos do histograma

com linhas retas.

2.5.2. Construção de uma Distribuição de Freqüências para Dados Discretos

Na construção de uma distribuição de freqüência utilizando dados contínuos,

perde-se certa quantidade de informação porque os valores individuais perdem

sua identidade quando são grupados em classes.

0,30

0,20

0,10

0,00

3 8 13 18 23 28 33

0,30

0,20

0,10

0,00

3 8 13 18 23 28 33

Figura 4 – Gráfico de Distribuição de Freqüência relativa para produção diária de equipamentos.

22

Isto pode ou não ocorrer com dados discretos, dependendo da natureza dos

dados e dos objetivos do analista. Consideremos os seguintes dados relativos ao

número de acidentes diários num grande equipamento durante um período de 50

dias.

Tabela 4 - Números de acidentes diários.

6 9 2 7 0 8 2 5 4 25 4 4 4 4 2 5 6 3 73 8 8 4 4 4 7 7 6 54 7 5 3 7 1 3 8 0 65 1 2 3 6 0 5 6 6 3

Note-se que os dados consistem de números inteiros de 0 a 9.

Podemos construir uma distribuição de freqüência, sem perda dos valores

originais, utilizando como classes os inteiros de 0 a 9.

Tabela 5 - Distribuição de freqüência.

Classe Freqüência absoluta

Freqüência relativa

0 3 0,06

1 2 0,04

2 5 0,10

3 6 0,12

4 9 0,18

5 7 0,14

6 7 0,14

7 6 0,12

8 4 0,08

9 1 0,02

50 1,00

Dizemos que não há perda de informação porque é evidente, pela tabela, que os

dados originais contêm três 0’s, dois 1’s, etc. Em outras palavras, poderíamos

reconstituir os dados originais a partir desta tabela. Por outro lado, poderíamos

usar como classes 0 - 1, 2 - 3, 4 - 5, 6 - 7,8 - 9.

O resultado é uma distribuição não muito diferente da distribuição de dados

contínuos.

Tabela 6 - Distribuição de freqüência.

23

Classe Freqüência absoluta

Freqüência relativa

0-1 5 0,10

2-3 11 0,22

4-5 16 0,32

6-7 13 0,26

8-9 5 0,10

50 1,00

Os gráficos (figura 5) comparam essas duas distribuições de freqüência. Sem

perda de informação, as freqüências (absolutas ou relativas) se apresentam como

barras, enquanto que a distribuição com perda de informação é um histograma.

De modo geral, prefere-se uma distribuição de freqüência sem perda de

informação quando:

a) Os dados são constituídos de valores internos;

b) Há menos de digamos, 16 dados;

c) Há suficientes observações para originar distribuição significativa.

0

5

10

15

20

(a) Sem perda de informação

Núm

ero

de A

cide

ntes

1 2 3 4 5 6 7 8 9 0 - 1 2 - 3 4 - 5 6 - 7 8 - 9

5

10

15

20

(b) Com perda de informação

Núm

ero

de A

cide

ntes

0

5

10

15

20

(a) Sem perda de informação

Núm

ero

de A

cide

ntes

1 2 3 4 5 6 7 8 90

5

10

15

20

(a) Sem perda de informação

Núm

ero

de A

cide

ntes

1 2 3 4 5 6 7 8 9 0 - 1 2 - 3 4 - 5 6 - 7 8 - 9

5

10

15

20

(b) Com perda de informação

Núm

ero

de A

cide

ntes

0 - 1 2 - 3 4 - 5 6 - 7 8 - 9

5

10

15

20

(b) Com perda de informação

Núm

ero

de A

cide

ntes

Figura 5 - Comparação de duas distribuições de freqüência, com e sem perda de informação.

Por outro lado, uma distribuição de freqüência em que o grupamento ocasiona

perda de informação é útil quando:

a) Estão em jogo inteiros e não-inteiros (ou não-inteiros somente);

24

b) Só existem inteiros, porém em número demasiadamente elevado para

permitir uma distribuição útil;

c) A perda de informação é de importância secundária (por exemplo, o

arredondamento do peso de um caminhão para o quilo mais próximo, ou

da renda anual para o cruzeiro mais próximo).

2.5.3. Construção de uma Distribuição de Freqüência Acumulada

Uma distribuição de freqüência acumulada tem por objetivo indicar o número ou

percentagem de itens menores do que, ou iguais a, determinado valor. No caso

dos acidentes, podemos construir distribuições acumuladas para a distribuição

sem perda de informação e para a distribuição com perda de informação. As

distribuições prévias podem ser facilmente transformadas em distribuições

acumuladas somando-se sucessivamente os dados das classes de freqüência (os

dados nas tabelas que sequem são das discussões anteriores).

Sem Perda de Informação:

Tabela 7 - Distribuição de freqüência sem perda de informação.

Classe Freqüência relativa

Freqüência acumulada

0 0,06 0,06 1 0,04 0,04 + 0,06 = 0,10 2 0,10 0,10 + 0,10 = 0,20 3 0,12 0,12 + 0,20 = 0,32 4 0,18 0,18 + 0,32 = 0,50 5 0,14 0,14 + 0,50 = 0,64 6 0,14 0,14 + 0,64 = 0,78 7 0,12 0,12 + 0,78 = 0,90 8 0,08 0,08 + 0,90 = 0,98 9 0,02 0,02 + 0,98 = 1,00 1,00

Com Perda de Informação:

25

Tabela 8 - Distribuição de freqüência com perda de informação.

Classe Freqüência relativa

Freqüência acumulada

0-1 0,10 0,10

2-3 0,22 0,22 + 0,10 = 0,32

4-5 0,32 0,32 + 0,32 = 0,64

6-7 0,26 0,26 + 0,64 = 0,90

8-9 0,10 0,10 + 0,90 = 1,00

1,00

Podemos assim ver, na primeira tabela, que 78% dos dados correspondem a 6 ou

menos, e que 98% correspondem a 8 ou menos. Analogamente, com perda de

informações, podemos ver que 64% dos valores não excedem a 5, e 90% não

excedem a 7.

Veja os gráficos (figura 6) para ambas as distribuições acumuladas.

0,00

0,20

0,40

0,60

0,80

1,00

(b) Com perda de informação

Freq

üênc

ia re

lativ

a

0-1 2-3 4-5 6-7 8-90

0,2

0,4

0,6

0,8

1

0 1 2 3 4 5 6 7 8 9

Freq

üênc

ia re

lativ

a

(a) Sem perda de informação

0,00

0,20

0,40

0,60

0,80

1,00

(b) Com perda de informação

Freq

üênc

ia re

lativ

a

0-1 2-3 4-5 6-7 8-90,00

0,20

0,40

0,60

0,80

1,00

(b) Com perda de informação

Freq

üênc

ia re

lativ

a

0-1 2-3 4-5 6-7 8-90

0,2

0,4

0,6

0,8

1

0 1 2 3 4 5 6 7 8 9

Freq

üênc

ia re

lativ

a

(a) Sem perda de informação

0

0,2

0,4

0,6

0,8

1

0 1 2 3 4 5 6 7 8 9

0

0,2

0,4

0,6

0,8

1

0 1 2 3 4 5 6 7 8 9

Freq

üênc

ia re

lativ

a

(a) Sem perda de informação Figura 6 - Distribuições de freqüência acumulada para os casos com perda de informação e sem perda de informação.

26

2.5.4. Distribuições de Freqüência para Dados Nominais e por Postos

Talvez as distribuições de freqüência de construção mais simples sejam as

relativas a dados nominais ou por postos. Tal simplicidade decorre do fato de que

as classes são mais facilmente reconhecíveis, tomando mínimos os cálculos. Por

exemplo, consideremos os dados nominais (Tabela 9) sobre venda de

rolamentos, dispostos numa tabela de freqüência.

As categorias são os diversos tipos de rolamento. Note-se a última categoria:

Outros. Pode haver diversos tipos com vendas bastante baixas, que foram

englobados numa única categoria para tornar os dados mais abrangentes. Como

antes, podemos querer apresentar essas informações sob forma de gráfico. Aqui

é mais adequado o emprego de barras, em lugar de um histograma, o que

significa que as categorias não se tocam, ou são nominais (figura 7). O gráfico

pode ser apresentado horizontal ou verticalmente, como, de resto, ocorre com

qualquer gráfico de distribuição de freqüência.

Tabela 9 - Vendas de Rolamentos em um dia.

Tipo Vendas Absolutas Vendas Relativas

esfera 600 60%

rolos 200 20%

cônicos 100 10%

agulha 50 5%

bi-partido 40 4%

outros 10 1%

1000 100%

27

0

10

20

30

40

50

60

esfera rolos cônicos agulha bi-partido outros

Vend

as R

elat

ivas

(per

cent

uais

)

Figura 7 - Usa-se um gráfico de barras para representar dados nominais.

A apresentação de dados por postos é muito semelhante. Consideremos os

dados relativos ao aproveitamento num curso, apresentados abaixo de forma

ligeiramente diferente das tabelas de freqüência anteriores, apenas para ilustrar

outra maneira de preparar uma tabela de freqüência.

Tabela 10

Classificação

Fraca Razoável Média Boa Excelente Total Número 2 4 20 10 4 40 Percentagem 5% 10% 50% 25% 10% 100%

Os dados por postos podem ser representados graficamente por meio de barras,

(figura 7).

2.6. Estudo de Caso

96 tirantes de 17731 mm de comprimento (valor de projeto) constituem o sistema

de amarração das paredes de tijolos das baterias de coque da Coqueria. Esse

valor teórico pode variar até 90 mm pela dilatação térmica e deformação normal,

previstos em projeto. Um levantamento topográfico na bateria #1 dos

comprimentos foi realizado com o objetivo de identificar a quantidade de tirantes a

serem trocados. Abaixo o resultado:

Tabela 11 - Tirantes a serem trocados.

28

17784 17819 17832 17857 17788 17819 17832 17857 17793 17819 17832 17877 17795 17820 17833 17878 17796 17820 17834 17884 17796 17820 17837 17912 17802 17821 17838 17802 17821 17838 17803 17821 17839 17803 17821 17839 17805 17822 17840 17805 17822 17842 17806 17823 17842 17809 17823 17842 17810 17823 17843 17810 17824 17843 17811 17824 17843 17812 17824 17843 17813 17824 17844 17816 17824 17844 17816 17824 17844 17816 17826 17845 17817 17827 17850 17817 17827 17852 17817 17829 17853 17818 17830 17853 17818 17830 17853 17818 17831 17855 17819 17831 17856 17819 17831 17856

Uma distribuição de freqüência do comprimento dos tirantes possibilitará uma

visualização melhor dos valores acima do permissível, identificando assim a

quantidade de tirantes a serem trocados.

29

30

31

3. PROBABILIDADE

As origens da matemática da probabilidade remontam ao século XVI. As

aplicações iniciais referiam-se quase todos os jogos de azar. Os jogadores ricos

aplicavam o conhecimento da teoria das probabilidades para planejar estratégias

de apostas. Mesmo hoje ainda há muitas aplicações que envolvem jogos de azar,

tais como os diversos tipos de loteria, os cassinos de jogos, as corridas de

cavalos e os esportes organizados. Todavia, a utilização das probabilidades

ultrapassou de muito o âmbito desses jogos. Hoje os governos, as empresas, as

organizações profissionais incorporam a teoria das probabilidades em seus

processos diários de deliberações.

Independente de qual seja a aplicação em particular, a utilização das

probabilidades indica que existe um elemento de acaso, ou de incerteza, quanto à

ocorrência ou não de um evento futuro. Assim é que, em muitos casos, pode ser

virtualmente impossível afirmar por antecipação o que ocorrerá; mas é possível

dizer o que pode ocorrer. Por exemplo, se jogamos uma moeda para o ar, de

modo geral não podemos afirmar se vai dar cara, ou coroa.Além disso, mediante

determinada combinação de julgamento, experiência e dados históricos, em geral

é possível dizer quão provável é a ocorrência de determinado evento futuro.

Há numerosos exemplos de tais situações no campo dos negócios e do governo.

A previsão da procura de um produto novo, o cálculo dos custos de produção, a

previsão de malogro de safras, a compra de apólices de seguro, a contratação de

um novo empregado, o preparo de um orçamento, a avaliação do impacto de uma

redução de impostos sobre a inflação - tudo isso contém algum elemento de

acaso.

As probabilidades são úteis porque auxiliam a desenvolver estratégicas. Assim é

que alguns motoristas parecem demonstrar uma tendência para correr a grande

velocidade se acham que há pouco risco de ser apanhados; os investidores

sentem-se mais inclinados a aplicar seu dinheiro se as chances de lucro são

boas; e o leitor certamente carregará capa ou guarda-chuva se houver grande

probabilidade de chover. Analogamente, uma empresa pode sentir-se inclinada a

32

investir em novo equipamento se há boa chance de recuperar o dinheiro; ou a

contratar um novo funcionário que pareça promissor, etc.

O ponto central em todas essas situações é a probabilidade de quantificar quão

provável é determinado evento. Este capítulo apresenta definições e regras a

obtenção de probabilidade.

As probabilidades são utilizadas para exprimir a chance de ocorrência de

determinado evento.

3.1. A Probabilidade de um Evento

As probabilidades dizem respeito a algum evento. O “evento” pode ser chuva,

lucro, cara, rendimento de 6%, terminar o curso, notas, etc. A probabilidade de um

evento A, denotada por P(A) , é um número de 0 a 1 que indica a chance de

ocorrência do evento A. Quanto mais próxima de 1,00 é P(A), maior é a chance

de ocorrência do evento A, e quanto mais próxima de zero, menor é a chance de

ocorrência do evento A.

A um evento impossível atribui-se probabilidade de zero, enquanto que um evento

certo tem probabilidade 1,00. Quanto o meteorologista anuncia que “a

probabilidade de precipitação é quase zero”, o que ele realmente quer dizer é que

é altamente inviável que haja qualquer precipitação durante o período a que se

refere à previsão (pela experiência, os meteorologistas sabem que nada é

impossível, pelo menos no que se refere ao tempo, por isso evitam atribuir

probabilidade 0)”.

As probabilidades podem ser expressas de diversas maneiras, inclusive decimais,

frações e percentagem. Por exemplo, a chance de chuva pode ser expressa como

20%, 2 em 10, 0,20, ou 1/5. A probabilidade de ocorrência de um evento é dada

por um número que pode variar de 0 a 1,00.

33

3.2. Espaço Amostral e Eventos

Um dos conceitos matemáticos fundamentais utilizados no estudo das

probabilidades é o de conjunto. Um conjunto é uma coleção de objeto ou itens

que possuem característica(s) comum (ns). Por exemplo, os habitantes de Detroit,

as camionetas em Cincinnati, os rios da Geórgia, as farmácias de Wisconsin, uma

remessa de calculadoras e uma classe de estudantes – todos podem ser

encarados como conjuntos. É importante definir cuidadosamente o que constitui o

conjunto em que estamos interessados, a fim de podermos decidir se determinado

elemento é ou não membro do conjunto.

Conjunto é uma coleção bem definida de objetos ou itens.

Há duas maneiras de descrever os elementos de um conjunto. Uma consiste em

relacionar todos eles, ou um número suficiente deles, de modo a deixar claro

quais são os elementos do conjunto. Tal relação é incluída entre chaves. Uma

segunda maneira de indicar um conjunto é enunciar uma regra ou outra coisa

qualquer que defina a(s) característica(s) comum(ns) aos membros do conjunto.

Consideremos os seguintes exemplos:

Conjunto A = {Jones, Smith, Gungledorf}

Conjunto B = {todos os interiores positivos menores que 9}

Conjunto C = {vencedores do primeiro round}

Mas a probabilidade só tem sentido no sentido no contexto de um espaço

amostral, que é o conjunto de todos os resultados possíveis de um “experimento”. 1O termo “experimento” sugere a incerteza do resultado antes de fazermos as

observações. Os resultados de um experimento chamam-se eventos.

Um espaço amostral é o conjunto de todos os resultados possíveis de um

experimento.

Os resultados de um experimento chamam-se eventos.

1 Costuma-se usar indiferentemente, em estatística, os termos “experimento” e “amostra” para designar o processo da tomada de observações.

34

Os cálculos levam em conta a maneira como os vários eventos de interesse

podem relacionar-se entre si. Algumas dessas relações são descritas pelas

expressões “complemento”, “mutuamente excludente” e “coletivamente

exaustivo”.

O complemento de um evento consiste de todos os resultados no espaço

amostral que não façam parte do evento. Assim, o complemento do evento “a

carta é de copas” consiste de todas as cartas que não são de copas (isto é, paus,

ouros e espadas). O complemento do evento “a carta é um rei de ouros” consiste

de todas as outras 51 cartas. Costuma-se denotar o complemento de um evento

por uma linha. O complemento do evento A é A’.

Tabela 12 - Baralho padrão de 52 cartas.

Naipe Paus

(pretas) Ouros

(vermelhas) Copas

(vermelhas) Espadas (pretas)

♣ K ♦ K ♥ K ♠ K ♣ Q ♦ Q ♥ Q ♠ Q ♣ J ♦ J ♥ J ♠ J ♣ 10 ♦ 10 ♥ 10 ♠ 10 ♣ 9 ♦ 9 ♥ 9 ♠ 9 ♣ 8 ♦ 8 ♥ 8 ♠ 8 ♣ 7 ♦ 7 ♥ 7 ♠ 7 ♣ 6 ♦ 6 ♥ 6 ♠ 6 ♣ 5 ♦ 5 ♥ 5 ♠ 5 ♣ 4 ♦ 4 ♥ 4 ♠ 4 ♣ 3 ♦ 3 ♥ 3 ♠ 3 ♣ 2 ♦ 2 ♥ 2 ♠ 2 ♣ A ♦ A ♥ A ♠ A

Os eventos são mutuamente excludentes se não têm elemento em comum.

Assim, na extração de uma só carta, os eventos “a carta é de copas” e “a carta é

de ouros” são mutuamente excludentes, por que uma carta não pode ser ao

mesmo tempo de copas e de ouros. Já os eventos “a carta é de copas” e “a carta

é uma figura” não são mutuamente excludentes, porque algumas cartas de copas

são também figuras.

Os eventos dizem-se coletivamente exaustivos se ao menos um tiver que ocorrer

durante um dado experimento. Assim, na extração de uma carta, os eventos “a

carta é de paus”, “a carta é de ouros”, “a carta é de espadas” e “a carta é de

copas” são coletivamente exaustivos; esgotam todas as possibilidades. Da

35

mesma forma, os eventos “a carta é preta” e “a carta é vermelha” são

coletivamente exaustivo.

Finalmente, convém às vezes notar que um evento e seu complemento são

mutuamente excludentes e coletivamente exaustivos.

O complemento de um evento consiste de todos os outros resultados no espaço

amostral.

Os eventos são mutuamente excludentes se não tem elemento comum, ou se não

podem ocorrer simultaneamente.

Os eventos são coletivamente exaustivos se nenhum outro resultado é possível

para o experimento em causa.

Eis alguns outros exemplos. Esses eventos devem ser considerados

complementares:

a) Cara ou coroa na jogada de uma moeda;

b) Feridos e não-feridos num acidente;

c) Apanhou ou não a bola;

d) Atendeu ou não ao telefone.

Os eventos que seguem devem ser considerados mutuamente excludentes:

a) Uma pessoa tem um irmão, tem dois irmãos, tem três irmãos;

b) As faces de um dado;

c) Stan obtém conceito A em matemática, obtém conceito B em matemática,

obtém conceito C em matemática.

Os eventos que seguem devem ser considerados coletivamente exaustivos:

a) Qualquer um dos complementos relacionados acima;

b) As faces de um dado;

c) As notas de Stan em matemática (acima).

36

Ora, como um espaço amostral consiste de todos os resultados possíveis de um

experimento, segue-se que ao menos um dos resultados deve ocorrer. Em outras

palavras, a probabilidade do espaço amostral é 100%, ou 1,00. Além disso,

porque qualquer evento e seu complemento esgotam todas as possibilidades do

espaço amostral, seguem-se também que P(A) + P (A’)= 1,00. Por exemplo,

quando se joga uma moeda para o ar (supondo-se que ela não caia de pé), pode-

se afirmar que a probabilidade de dar “cara” ou “coroa” é 1,00. E se é certo que

P(cara) = 0,40, então decore automaticamente que P(coroa) = 0,60 (isto é, 1,00 –

0,40).

A esta altura, podemos então afirmar:

a) A probabilidade de qualquer evento A é representada por um número entre

0 e 1,00:

0,00 < P(A) < 1,00

b) A probabilidade representada pelo espaço amostral é de 100%:

P(qualquer evento do espaço amostral) = 1,00

c) A probabilidade de não-ocorrência de um evento é 1,00 menos a

probabilidade de sua ocorrência:

1,00 – P(A’) ou P(A) + P(A’) = 1,00

3.3. Três Origens da Probabilidade

Antes de estudarmos como se usam as probabilidades, é conveniente ter alguma

idéia de sua origem. Há três maneiras diferentes de calcular ou estimar

probabilidades. O método clássico, quando o espaço amostral tem recursos

igualmente prováveis. O método empírico, que se baseia na freqüência relativa de

ocorrência de um evento num grande número de provas repetidas; e o método

subjetivo, que utiliza estimativas pessoais de probabilidade baseadas num certo

grau de crença. Os dois primeiros métodos são considerados objetivos, e o

terceiro é subjetivo, como seu nome indica.

37

A escolha do método depende da natureza da situação. À medida que o leitor

prosseguir este estudo, verá que certas situações se prestam melhor a um do que

aos outros dois métodos.

3.3.1. O Método Clássico

O método clássico aplica-se a situações que têm resultados igualmente

prováveis. Os jogos de azar (lançamento de moeda, jogos de dados, extração de

cartas) usualmente apresentam esta característica de resultados igualmente

prováveis.

Quando os resultados são igualmente prováveis, a probabilidade de cada

resultado é simplesmente uma função do número de resultados possíveis:

P(cada resultado) = ssíveissultadosponúmerodere

1

Se cada carta de um baralho de 52 tem a mesma chance de ser escolhida, então

a probabilidade de extrair cada uma delas é de 1/52: P(A) = 1 carta/52 cartas. O

espaço amostral do lance de uma moeda tem dois resultados: cara e coroa. Logo,

se os dois resultados são igualmente prováveis (isto é, se a moeda é

“equilibrada”), a probabilidade de cara é:

P(Caras) = 21

E a probabilidade de coroa é:

Subjetivo

Opinião Pessoal

Objetivo

Clássico(resultados igualmente

prováveis) Empírico

(dados históricos)

Figura 8 - Métodos para calcular ou estimar probabilidades.

38

P(Coroas) = 21

Da mesma forma, podemos calcular a probabilidade de aparecer determinada

face num único lance de um dado “equilibrado”. Como há seis faces no espaço

amostral, a probabilidade de cada uma delas deve ser:

P(qualquer face) = 61

E se extraímos uma só bola de uma urna com 321 bolas, a probabilidades de

extrair qualquer delas é:

P(qualquer bola) = 3211

Se admitirmos que as bolas tenham sido bem misturadas antes da extração.

O método clássico pode também aplicar-se a eventos que envolvam dois ou mais

resultados.

Por exemplo, podemos querer determinar a probabilidade de extrair uma das

quatro damas de um baralho de 52 cartas, ou a de obter um número menor que 4

num lance de dado. Em tais situações e em outras análogas, é necessário

identificar primeiro o número de resultados “favoráveis”, e então dividir esse

número pelo total de casos possíveis no espaço amostral. Em outras palavras, a

probabilidade de um evento A é:

P(A) =

Por exemplo:

Em uma caixa há 24 parafusos de classe de resistência diferentes, conforme

tabela abaixo:

Tabela 13

Quantidade classe4 5.6 10 8.8 5 10.9 5 12.9

Número de resultados Número de resultados associados ao evento A

39

A probabilidade de extração de um parafuso classe 5.6 será:

P(parafuso classe 5.6) = 244

Analogamente, a probabilidade de extração de um parafuso classe 8.8, será:

P(parafuso classe 8.8) = 2410

Se um evento é impossível, sua probabilidade é 0.por exemplo, a probabilidade

de obter nove num lance de dado é 0, porque não existe face 9 num dado:

P(nove) = 060=

Por outro lado, se um evento é certo, deve ter probabilidade 1,00, ou 100%. A

probabilidade de obter qualquer das seis faces num lance de um dado é P(um,

dois, três, quatro, cinco ou seis) = 00,166= (desde que admitamos que o dado não

venha a cair sobre uma de suas arestas).

A interpretação da probabilidade clássica, tal como 0,25, é que se o experimento

for repetido um número muito grande de vezes, um evento que tenha

probabilidade 0,25 ocorrerá cerca de 25% das vezes.

3.3.2. O Método Subjetivo

As probabilidades determinadas sejam pelo método clássico ou pelo método

empírico dizem-se objetivas, porque decorrem de fatos. Há, todavia, numerosas

situações que não se prestam a um estudo objetivo – isto é, situações em que

nem os resultados possíveis são igualmente prováveis, nem dispomos de dados

históricos. Devem-se então fazer uma atribuição “subjetiva” de probabilidades.

Por exemplo, você se apaixonará na próxima semana? Que nota receberá em

seu próximo exame? Quando se instalará uma greve de operários? Uma pequena

árvore crescerá em linha reta até ficar bem alta? Um enfermo se recuperará

40

completamente? Em tais casos, deve-se decidir qual é a “probabilidade” do vento

sob as condições dadas.

É instrutivo imaginar grande número de situações idênticas e depois procurar

responder à pergunta: “Que porcentagem dessas situações produzirá o evento

em questão?” Isso pode ser feito, mesmo quando não seja prático realizar

efetivamente tal experimento. E, a não ser pelo fato de que os dados em geral

não podem ser coletados, o método subjetivo é bastante semelhante ao da

freqüência relativa. Definimos, então, probabilidade subjetiva como segue:

A probabilidade subjetiva é uma avaliação pessoal do grau de viabilidade de um

evento.

A probabilidade subjetiva é, então, o resultado de um esforço para quantificar

nossa crença a respeito de algo. Advogados, médicos e administradores utilizam

esse processo com razoável êxito, conquanto ele possa apresentar certas

desvantagens.

Entre estas, podemos mencionar:

a) As estimativas subjetivas são em geral difíceis de defender, quando

postas em dúvida;

b) A tendenciosidade pode ser um fator. Não só noções preconcebidas sobre

o que deveria ocorrer como também o desejo de que ocorra determinado

evento, podem distorcer a objetividade. E não raro é difícil eliminar essa

tendenciosidade, porque em geral ela é subconsciente. Não obstante, o

treinamento, a experiência e a atitude profissional podem auxiliar a eliminá-

la.

3.4. A Matemática da Probabilidade

Até aqui focalizamos as várias definições de probabilidade e sua utilização para

determinar a probabilidade de certos eventos. Conquanto importantes essas

41

idéias sejam não nos dão informação suficiente para mostrar como as

probabilidades podem ser aplicadas à tomada de decisões.

Muitas aplicações da estatística exigem a determinação da probabilidade de

combinações de eventos. Há duas categorias de combinações. Suponhamos

identificados dois eventos de interesse, A e B, no espaço amostral. Pode ser

necessário determinar P(A e B), isto é, a probabilidade de ocorrências de ambos

os eventos. Em outras situações, podemos querer a probabilidade de ocorrência

de A ou B, P(A ou B). Por exemplo, sejam os dois elevadores de um edifício.

Pelos dados históricos, podemos determinar a probabilidade de um elevador estar

em serviço. Pode-se então perguntar: ‘Qual a probabilidade de estarem ambos

em serviço? ”Isso implica P(A e B). Mas poderíamos também perguntar: “Qual a

probabilidade de um ou outro estar em serviço?” Isso implica P(A ou B).

É da máxima importância identificar qual dessas combinações se relaciona com o

problema.

A chave é:

“Ambos” implica P(A e B)

“Um ou outro” implica P(A ou B)

3.4.1. Cálculo de Probabilidade de Ocorrência de Dois Eventos: P(A e B)

A probabilidade da ocorrência de dois eventos é chamada probabilidade conjunta,

e seu cálculo diferem, conforme os eventos sejam ou não independentes.

Dois eventos consideram-se independentes entre si se a ocorrência de um não

influencia a ocorrência do outro. No lance de dois dados, o conhecimento do

resultado de um deles em nada nos ajuda a predizer o resultado do outro. Da

mesma forma, colocar um livro de matemática debaixo da cama e obter uma boa

nota num exame de matemática são dois eventos presumivelmente não-

correlacionados. O mesmo ocorre com o sexo (masculino ou feminino) e QI.

42

Por outro lado, se os eventos são dependentes, então o conhecimento da

ocorrência de um pode auxiliar a predizer a ocorrência do outro. Uma flor precisa

de água para crescer. Uma criança em geral chora quando se machuca. Um copo

em geral se quebra quando cai no chão O fato de sabermos que uma flor não foi

aguada pode ser dizer algo sobre a probabilidade de seu crescimento. Quando

vemos que uma criança se machuca, esperamos que ela chore. E mesmo antes

de o copo atingir o chão, sabemos que teremos que usar a vassoura.

Dois ou mais eventos dizem-se independentes se a ocorrência ou não-ocorrência

de um não influencia a ocorrência do(s) outro(s).

Se dois eventos independentes, então a probabilidade da ocorrência de ambos é

igual ao produto de suas probabilidades individuais, ou “marginais”:

P(A e B) = P(A)P(B)

3.4.2. Probabilidade de Ocorrência de ao Menos um de Dois Eventos: P(A ou B)

Aplica-se a regra da adição para determinar a probabilidade ocorrência de um ou

outro ou de ambos os eventos no caso de haver dois. O cálculo depende de os

eventos a serem ou não mutuamente excludentes.

Quando os eventos são mutuamente excludentes, a probabilidade de ocorrência

de qualquer deles (por definição, não podem ocorrer dois ou mais conjuntamente)

é a soma de suas probabilidades individuais. Para dois eventos A e B, temos:

P (A ou B) = P(A) + P(B)

De modo geral, podemos dizer que, se dois eventos A e B são mutuamente

excludentes, a probabilidade de ocorrência de A ou B é igual à soma das

probabilidades de ocorrência de A e de B: P(A ou B) = P(A) + P(B). Se os dois

eventos não são mutuamente excludentes, a probabilidade de ocorrência de A ou

B, ou ambos, é igual a soma das probabilidades de ocorrência de A e B, menos a

probabilidade de ocorrência de ambos: P(A) + P(B) – P(A) . P(B).

43

REGRAS DE PROBABILIDADE P(A ou B), para eventos excludentes:

P(A ou B ocorrerá) = P(A) + P(B) Para eventos não mutuamente excludentes:

P(A ou B ou ambos ocorrerão) = P(A) + P(B) – P(A e B) P(A e B), para eventos independentes:

P(A e B) = P(A)P(B) Para eventos dependentes:

P(A e B) = P(B)P(A|B) ou P(A)P(B|A)

3.5. Técnicas de Contagem

Para utilizar o método clássico (a priori) da probabilidade, é preciso conhecer o

número total de resultados possíveis de um experimento. Em geral, empregam-se

técnicas de contagem para calcular esse número. O leitor já se deparou com

várias técnicas de contagem. Assim é que, em muitas das ilustrações

precedentes foi conveniente listar os resultados. Isto nos permitiu examinar

visualmente os resultados, a fim de verificar se todos foram realmente levados em

conta.

Um refinamento desta técnica de listagem consiste no emprego das árvores de

decisão, que proporcionam uma base racional para elaborar uma lista de

resultados. Mas quando o número de resultados é grande, essa listagem se torna

muito trabalhosa; é necessário então recorrer a fórmulas matemáticas para

determinar o número total de resultados possíveis. Consideremos cada uma

dessas abordagens.

Suponhamos que um estudante esteja fazendo um teste de 20 questões do tipo

“verdadeiro ou falso”. Suponhamos ainda que ele, não tendo estudado nada,

esteja dando todas as respostas na base do “palpite”. Qual a probabilidade de ele

responder corretamente todo o teste? Para resolver esse problema é necessário

primeiro determinar o número total de resultados possíveis. Assim é que pode

44

resolver responder todas as questões com V, ou todas com F, ou alternar V e F,

ou misturar aleatoriamente V e F.

Em lugar de procurar resolver o problema diretamente, é mais instrutivo explorar

primeiro suas diversas versões. Imaginemos que o teste consista de apenas uma

questão. As possibilidades serão então V ou F. Se houver duas questões, já as

possibilidades serão VV, VF, FV, FF. No caso de três questões, teremos VVV,

VVF, VFF, VFV, FVF, FVV, FFV, FFF.

Vê-se logo que, à medida que aumenta o número de questões, o número de

resultados também aumenta, e muito mais rapidamente, como se vê abaixo:

Tabela 14

Número de questões 1 2 3 4 Número de resultados 2 4 8 16

De fato, a menos que o número de itens a considerar seja muito pequeno, o

número de resultados se tornará extremamente grande, e a listagem se tornará

praticamente impossível, mormente porque é fácil esquecer algumas das

possibilidades.

Os diagramas em árvore proporcionam um método sistemático de enumeração

dos resultados, bem como uma apresentação visual. Podem construir-se

facilmente, e são muito mais esclarecedores do que uma simples listagem (figura

9). Como o estudante tem duas escolhas possíveis para cada questão, V ou F, a

árvore terá dois ramos em cada questão.

45

Questão Nº 1 Nº 2 Nº 3 Resultados

V VVV

V

F VVF

V

V VFV

F

F VFF

V FVV

V

F F FVF

V FFV

F

F FFF

Totais 2 4 8

Questão Nº 1 Nº 2 Nº 3 Resultados

V VVV

V

F VVF

V

V VFV

F

F VFF

V FVV

V

F F FVF

V FFV

F

F FFF

Totais 2 4 8

Questão Nº 1 Nº 2 Nº 3 Resultados

V VVV

V

F VVF

V

V VFV

F

F VFF

V FVV

V

F F FVF

V FFV

F

F FFF

Totais 2 4 8 Figura 9 - A utilização de um diagrama em árvore para determinar todos os arranjos possíveis.

Expandindo o diagrama em árvore, é possível enumerar os resultados com

questões adicionais do tipo V ou F. Mas não seria prático fazer isso, porque o

número de possibilidades se torna extremamente grande. Além disso, o que é

realmente necessário é determinar o número total de resultados; nada se tem a

ganhar identificando cada resultado. Felizmente, há uma maneira simples

determinar o número total de resultados sem ter de contar efetivamente cada

resultado individual.

3.5.1. Permutações, Arranjos2 e Combinações

Quando a ordem em que os elementos se dispõem é importante, o número total

de resultados possíveis é conhecido como arranjo ou permutação. Por exemplo,

2 Arranjos e permutações são grupamentos do mesmo tipo, ou seja, distinguem-se não só pela natureza, como também pela ordem dos elementos. Uma permutação é um arranjo com a totalidade dos elementos.

46

no caso de respostas a um teste de múltipla escolha, a ordem tem significação

especial. Quando a ordem não interessa, o número total de resultados possíveis é

designado como combinação. Por exemplo, um comitê formado por duas

pessoas, Smith e Jones, é o mesmo comitê que consiste de Jones e Smith. Da

mesma forma, tanto na soma como no produto de dois números, é indiferente

qual seja o primeiro e qual o segundo:

10 + 5 = 5 + 10 10 x 5 = 5 x 10

Consideremos primeiro as permutações. Suponhamos que haja quatro times de

futebol num torneio. De quantas maneiras pode apresentar-se o resultado final?

Imaginemos quatro compartimentos a preencher: vencedor, segundo, terceiro e

último. Podemos preencher o compartimento do vencedor com qualquer dos

quatro times. Restam então três compartimentos e três times. O segundo

colocado pode ser qualquer dos três times. O terceiro lugar pode ser ganho por

qualquer de dois times e, finalmente, apenas um time será o final. O número total

de resultados será:

Tabela 15

4 x 3 x 2 x 1 = 24

(1º) (2º) (3º) (4º)

Se houvesse seis times, teríamos:

6 x 5 x 4 x 3 x 2 x 1 = 720 resultados possíveis

Quer escolhamos os times do primeiro ao último, ou do último ao primeiro, ou em

qualquer outra ordem, o resultado final será sempre, o mesmo. Por exemplo, se

escolhermos primeiro o último lugar, teremos 1 x 2 x 3 x 4 = 24.

Ao lidarmos com permutações, cada decisão envolve uma escolha menos que a

anterior. Uma forma abreviada de escrever o produto acima é com o emprego do

símbolo “!”. Por exemplo, 4 x 3 x 2 x 1 pode escrever-se como 4! O ponto de

exclamação significa “fatorial” e 4! Lê-se “quatro fatorial”. Eis algumas ilustrações:

5! = 5 x 4 x 3 x 2 x 1 = 120

12! = 12 x 11 x 10 x 9 x 8 x 7 x ... x 2 x 1 = 479.001.600

47

Os fatoriais crescem de modo extremamente rápido, à medida que aumenta o

número base. Felizmente, quase nunca é necessário utilizar completamente os

fatoriais, pois eles aparecem em grupo, permitindo cancelamentos. Por exemplo:

421

6x71

!5x6x7!5

1x2x3x4x5x6x71x2x3x4x5

!7!5

====

123x4!2

!2x3x41x2

1x2x3x4!2!4

====

156039x40!38

!38x39x40!38!40

===

102

4x5!3x1x2!3x4x5

!3!2!5

===

Às vezes os fatoriais podem envolver soma e subtração. Quando os números

aparecem dentro de parênteses, com o sinal de fatorial fora, é necessário efetuar

a adição ou subtração antes de calcular o fatorial.

2x36x7x8

!5!3!5x6x7x8

!5!3!8

)!38(!3!8

!4)!13(!7)!29(!2)!35(

===−

=+=−=−

Note-se que cancelamos 5! E não 3! O resultado seria o mesmo se tivéssemos

cancelado 3!, mas os cálculos se simplificam quando se cancelam os fatoriais

maiores. O fatorial de zero é igual a um: 0! = 1. Uma explicação intuitiva é a

seguinte: Se houver certo número de cadeiras vazias, quantos arranjos de

assentos são possíveis, se não há ninguém para se sentas? A resposta é um –

com todas as cadeiras vazias. (Se não está muito claro, imagine o leitor duas

pessoas e três assentos, uma pessoa e três assentos, e finalmente 0 pessoas.)

(e não 5! – 3!)

48

4. AMOSTRAGEM

A interferência estatística envolve a formulação de certos julgamentos sobre um

todo após examinar apenas uma parte, ou amostra, dele. Assim é que podemos

receber uma amostragem de um novo produto alimentício num supermercado; o

leitor certamente queimará a língua se tentar provar um pedaço de torta recém-

saída do forno; o cozinheiro prova a sopa para ver se precisa de um pouco mais

de sal.

Analogamente, quando passamos os olhos sobre um novo livro ou uma revista,

ou experimentamos uma roupa nova, ou vemos um programa de TV por uns

poucos minutos para decidir se mudamos ou não de canal - na realidade estamos

fazendo amostragem.

A amostragem estatística é semelhante a cada um dos exemplos acima, embora

seus métodos sejam mais formais e precisos e incluam tipicamente uma

afirmação probabilística. A probabilidade e a amostragem estão estreitamente

relacionadas e, juntas, formam o fundamento da teoria da inferência.

Neste capítulo examinaremos os conceitos básicos da amostragem.

Exploraremos as razões que justificam a amostragem, bem como diversos planos

para ela. Devotaremos especial atenção á amostragem aleatória simples em

razão de sua importância na análise estatística. Embora nenhum plano de

amostragem possa garantir que a amostragem seja exatamente semelhante à

população da qual foi extraída, uma amostra aleatória permite estimar o valor do

erro possível, isto é, dizer “quão próxima” está à amostra da população, em

termos de representatividade. As amostras não-aleatórias não apresentam esta

característica.

Amostras e Populações

Um censo envolve um exame de todos os elementos de um dado grupo, ao passo

que a amostragem envolve o estudo de apenas uma parte dos elementos. A

finalidade da amostragem é fazer generalizações sobre todo um grupo sem

precisar examinar cada um de seus elementos.

49

A parcela do grupo examinada é chamada amostra, e o grupo todo – do qual se

extrai a amostra – é designado como população ou universo. Os elementos que

compõem uma população podem ser indivíduos, firmas, produtos manufaturado,

inventários, escolas, notas de aula, preços, ou qualquer coisa que possa ser

mensurada, contada ou ordenada segundo postos.

Os termos “população” e “amostra” se referem a um conjunto específico de

circunstâncias. Ou seja, em determinado caso os alunos de uma sala de aula

podem ser considerados como uma população, da qual iremos extrair amostras

para análise. Já em outra situação, aqueles mesmos alunos podem ser

considerados como uma amostra de todos os alunos do colégio, ou de toda a

universidade. Como o propósito da amostragem é fazer generalizações sobre a

população básica, é axiomático que a população alvo seja estabelecida de modo

que se possam fazer generalizações válidas.

As populações limitadas em tamanho dizem-se finitas, enquanto que as não

limitadas em tamanho se chamam infinitas. Os alunos de uma sala de aula, os

produtos num supermercado, os livros de uma biblioteca, os automóveis da

Califórnia – tudo isso são exemplos de população finitas. As populações infinitas,

por outro lado, consistem tipicamente em um processo que gera itens, como a

jogada de uma moeda, onde o número de itens (caras e coroas) que podemos

obter é ilimitado.

Outros exemplos de processos de população infinita são a produção futura de

uma máquina, as extrações, com reposição, de bolas de uma urna, os

nascimentos de insetos (ou de qualquer outra espécie). Do ponto de vista prático,

a consideração importante é se a remoção de um item ou de um pequeno número

de itens terá qualquer influência discernível nas probabilidades relativas.

Amostragem de uma População Finita

A questão da reposição do item examinado na população, antes de se proceder à

observação seguinte, surge em relações às populações finitas, porque a

probabilidade de incluir numa amostra itens da população depende de estarmos

fazendo a amostragem com ou sem reposição.

50

Se o tamanho da amostra é pequeno em relação ao da população, a não-

reposição do item examinado terá efeito desprezível nas probabilidades dos itens

restantes, e a amostragem sem reposição não causará dificuldades sérias. Por

outro lado, amostras relativamente grandes tendem a distorcer as probabilidades

dos itens restantes no caso de amostragem sem reposição. Uma regra prática

geralmente aceita é fazer a reposição quando o tamanho da amostra excede 5%

do tamanho da população.

Embora possa não parecer óbvio, a extração de toda uma amostra de uma só vez

equivale à amostragem sem reposição. Na amostragem com reposição, é

possível extrair o mesmo item mais de uma vez, o que não é possível quando se

extrai toda a amostra de uma só vez.

Há várias razões que justificam, na prática, a amostragem sem reposição:

a) Como já dissemos, os efeitos são desprezíveis, e ela pode ser mais

conveniente;

b) Se o teste tem caráter destrutivo, é impossível repor os itens examinados;

c) Na amostragem industrial, pode ser difícil convencer os inspetores não

treinados em estatística a reporem na população os itens examinados,

especialmente os itens defeituosos;

d) Quando se repõe um item examinado na população, há chance de ele ser

novamente escolhido em extração futura. Assim, alguns itens são examinados

mais de uma vez. Se o processo de amostragem é dispendioso, é conveniente

evitar o exame repetido de um ou mais itens.

No caso de a amostragem ser necessária ou conveniente, quando o tamanho da

amostra é relativamente grande em relação ao tamanho da população, o cálculo

das probabilidades relevantes se faz pela distribuição hipergeométrica. Os

cálculos podem tornar-se bastante complexos, por isso aqui apenas

mencionamos o problema. Outros livros mais avançados estudam a distribuição

hipergeométrica.

51

Amostragem Versus Censo

Uma amostra usualmente envolve o estudo de uma parcela dos itens de uma

população, enquanto que um censo requer um exame de todos os itens. Embora

concentremos nossa atenção nas amostras, na estatística indutiva, é conveniente

e instrutivo considerar também alternativa do censo.

À primeira vista pode parecer que a inspeção completa ou total de todos os itens

de uma população seja mais conveniente do que a inspeção de apenas uma

amostra deles. Na prática, o contrário é que é quase sempre válido: amostragem

é preferível ao censo. Exploremos esta última afirmação em termos de situações

onde a amostragem é mais vantajosa.

a) A população pode ser infinita, e então o censo se tornaria impossível. Como

as populações infinitas são processos que nunca terminam, obviamente não

seria possível examinar todos os itens da população;

b) Uma amostra pode ser mais atualizada do que um censo. Caso se necessite

de uma informação rapidamente, um estudo de toda a população - mormente

no caso de itens muito numerosos ou muito dispersos - pode consumir

demasiado tempo e perder utilidade. Durante o tempo necessário para

examinar todo um carregamento de morango, o produto poderia começar a

deteriorar-se, a ponto de não ser comerciável. Além disso, se uma população

tende a modificar-se com o tempo, um censo poderá, na realidade, combinar

várias populações.

Numa grande comunidade, uma pesquisa das pessoas que tenham contraído

certa doença contagiosa pode levar tanto tempo que, ao término da pesquisa,

quando começarem a adotar as providências de caráter médico, o mal já se tenha

alastrado a ponto de exigir uma atuação diferente. Na realidade, os próprios

agentes pesquisadores podem ser veículos da programação da doença.

Assim, o estudo pode recomendar a aplicação de uma vacina disponível no local,

mas o mal pode se alastrado além de qualquer controle, exigindo então doses

maciças da vacina.

52

a) Testes destrutivos. Os testes podem apresentar caráter destrutivo, ou seja, os

itens examinados são destruídos no próprio ato do experimento. Itens com

lâmpadas, munição e dispositivos de segurança freqüentemente devem ser

destruídos como parte do processo de teste. Então o censo nos daria um

panorama preciso de uma população que não mais existe.

b) O custo de um censo pode ser proibitivo, mormente se o custo individual é

elevado e se existem muitos itens na população. O custo de um censo da

população dos EUA é enorme; o censo só realiza a cada dez anos. Como

outro exemplo, consideremos o caso do censo do peso de cada peixe num

dos Grandes Lagos, ou a contagem do número de peixes no lago. A

população é tão grande e móvel, e os problemas de mensuração (tais como o

cuidado de contar cada peixe uma só vez) são tão difíceis que excluem de

imediato a hipótese de um censo.

c) A precisão pode sofrer no caso de um censo de uma grande população. A

amostragem envolve menor número de observações e , conseqüentemente,

menor número de coletores de dados. Com grande número de agentes, há

menor coordenação e controle, aumentado a chance de erros. A amostragem

pode relevar maior uniformidade nos métodos de coleta de dados, e maior

comparabilidade entre os dados, do que um censo.

d) Finalmente, o tipo de informação pode depender da utilização de uma amostra

ou de um censo. Freqüentemente, as despesas com coleta de dados sofrem

restrições orçamentárias. Existe também a premência do tempo. Se nos

decidimos por um censo, os problemas de custo e de tempo podem conduzir a

uma limitação do censo a apenas uma ou a poucas características por item.

Uma amostra, com o mesmo custo e mesmo tempo, poderia proporcionar

resultados mais aprofundados sobre um menor número de itens. Nota-se que,

se todos os elementos de uma população fossem idênticos, bastaria uma

amostra de um elemento para nos dar todas as informações sobre a

população, e pouco ou nada lucraríamos com a alternativa do censo. Embora

se trate de uma situação extrema, há, na realidade, muitos casos em que

53

casos em que os itens de uma população são muito semelhantes. Em tais

casos, um censo completo acrescentaria muito pouco aos resultados de uma

amostragem, ainda que pequena.

Não obstante, há certas situações em que é mais vantajoso examinar todos os

itens de uma população (ou seja, fazer um censo). Entre essas situações, temos:

a) A população pode ser tão pequena que o custo e o tempo de um censo

sejam pouco maiores que para uma amostra. Tal seria o caso de uma sala

de aula com vinte alunos;

b) Se o tamanho da amostra é grande em relação ao da população, o esforço

adicional requerido por um censo pode ser pequeno. Por exemplo, se há

grande variabilidade entre os itens de uma população, uma amostra deverá

ser bastante grande para ser representativa.Se a população não é muito

maior do que a amostra, o censo eliminará a variabilidade amostral;

c) Se é exigida precisão completa, então o censo é o único método aceitável.

Em face da variabilidade amostral, nunca podemos ter certeza de quais

sejam os verdadeiros parâmetros da população. Um censo nos dará essa

informação, embora erros na coleta dos dados de outros tipos de

tendenciosidade possam afetar a precisão do resultado. Um banco não faria

amostragem de seus guichês para saber quanto dinheiro há em todos eles;

procederia a uma contagem (censo) geral. É claro que isto não evita erros

aritméticos na soma das quantias, mas evita problemas de decisão sobre se

determinado guichê é representativo de todos.

d) Ocasionalmente, já se dispõe de informações completa, de modo que não há

necessidade da amostra.

4.1. Amostragem Aleatória

Há vários métodos para extrair uma amostra. Talvez o mais importante – sobre o

qual concentramos nossa atenção – seja o da amostragem aleatória. De fato, a

maior parte dos testes estatísticos que estudaremos se baseia na amostragem

54

aleatória. Freqüentemente se designa por “amostragem aleatória simples”, para

distinguir de outros planos de amostragem que incorporam elementos de

amostragem aleatória.

De modo geral, a amostragem aleatória exige que cada “elemento” da

população tenha a mesma oportunidade de ser incluído na amostra. Isto pode

ser interpretado como segue:

Para populações discretas, uma amostragem aleatória é aquela em que cada

item da população tem a mesma chance de ser incluído na amostra.

Para populações contínuas, uma amostra aleatória é aquela em que a

probabilidade de incluir na amostra qualquer intervalo de valores é igual à

percentagem da população que está naquele intervalo.

Uma amostra aleatória de uma população discreta é, então, uma amostra em que

a probabilidade de extrair qualquer dos N itens numa única prova é igual a 1/N.

Isto implica também que grupos de itens tenham a mesma chance de serem

incluídos na amostra que outros grupos do mesmo tamanho. Por exemplo, a

probabilidade de incluir dois itens quaisquer deve ser a mesma para todos os

grupos possíveis de dois itens.

Uma extensão deste conceito é que a probabilidade de incluir um item que seja

membro de um subgrupo da população numa amostra aleatória é proporcional ao

tamanho do subgrupo. Grandes subgrupos têm maior probabilidade de ter um ou

mais itens na amostra.do que pequenos subgrupos, enquanto que subgrupos de

igual tamanho têm probabilidades iguais. Por isso é que a amostragem aleatória

tende a produzir amostras representativas.

Nota-se que, quando se extrai uma amostra aleatória, o que é aleatório é o

processo de escolha, e não os itens em si. Além disso, o processo não é do tipo

“acerta-ou-erra”; não devemos associar a aleatoriedade com azar, pois não

satisfaz necessariamente a condição de igual probabilidade.

55

4.1.1. Obtenção de uma Amostra Aleatória

Se a população alvo é infinita, tal como toda a produção futura de uma máquina

podemos considerá-la como um processo probabilístico. Simplesmente anotando

os itens na ordem em que ocorrem, podemos obter uma amostra representativa

do processo (isto é, uma amostra aleatória). Enquanto o processo se mantiver

estável durante o período em que fazemos nossas observações (de modo que a

probabilidade de cada resultado possível permaneça constante), podemos

considerar como aleatórios o processo e a amostra dele resultante. Esta é

precisamente a maneira como encararmos os sucessivos lances de moeda ou

dado.

Exemplos de processos geralmente considerados aleatórios são: a chegada de

carros a um posto de pedágio, as chamadas telefônicas numa grande mesa de

operação, a chegada de clientes aos caixas de um supermercado; tempo de

serviço em estações de pedágio; guichês; a produção de qualquer processo

mecânico.

Se a população alvo é finita, há essencialmente duas maneiras de escolher uma

amostra aleatória. Um método envolve a compilação de um a lista de todos os

elementos da população, aplicando-se então à listagem um método aleatório para

relacionar os itens que comporão a amostra. O segundo método é usado quando

os elementos da população não são claramente identificáveis, o que torna

impossível a listagem.

Por exemplo, no processamento de alimentos, ou na eliminação de resíduos, ou

no controle da poluição, em geral não há o conceito de itens que possam

constituir uma amostra. A alternativa seria então selecionar locações em lugar de

itens, como, por exemplo, “4 polegadas acima e 7 abaixo” . Consegue-se isto

encarando a população como se fosse composta de cubos, e selecionando cubos

para a amostra.

A alternativa seria o emprego de um processo de mistura, tal como a mistura de

bolas numa urna. É claro que há o perigo de a mistura não ser completa,

resultando numa amostra não-representativa. Assim, é da máxima importância

56

dar cuidadosa atenção à maneira como se escolhem os itens, bem como se eles

são igualmente prováveis.

A viabilidade de obter uma amostra verdadeiramente aleatória é muito maior

quando os itens podem ser listados. Alguns exemplos de elementos que podem

ser listados são os empregados de uma firma, as ações negociadas numa Bolsa

de Valores, os veículos registrados em determinada cidade, os estudantes que

fazem determinado curso, revistas existentes numa biblioteca, os membros de

uma associação, as leituras de temperatura às 6 horas da manhã em diversos

lugares de um país, etc.

Note-se que a listagem dos itens de uma população não constitui por si um censo,

mas apenas um meio de identificação. As características de interesse serão

obtidas através de amostragem. Assim é que uma relação de jornais nada nos diz

sobre o conteúdo deles; uma lista de cinemas não indica a receita de cada um em

determinado dia uma relação dos estudantes de um curso não diz quantos

exercem atividade nas férias; e uma lista de ações não nos releva o ativo de cada

companhia. O único propósito de uma listagem é permitir selecionar itens da

população para estudo ulterior.

O processo de seleção exige que se atribuam números consecutivos aos itens

listados, escolhendo-se depois, aleatoriamente, os números dos itens que

comporão a amostra. Conceitualmente, podemos usar cartas, dados, ou fichas

numeradas para gerar números aleatórios correspondentes aos números de

nossa listagem. Por exemplo, se nossa população consistisse de 46 itens,

colocaríamos numa urna 46 bolas numeradas de 1 a 46, e escolheríamos uma a

uma até perfazer o número de itens desejados para amostra. Os números nas

bolas nos indicariam os itens a selecionar.

Na prática, tais dispositivos são empregados raramente, por várias razões. Uma

delas é que cada dispositivo deixa algo a desejar; os métodos não são

perfeitamente aleatórios. As cartas, por exemplo, podem aderir umas às outras,

impedindo um embaralhamento perfeito. As arestas de um dado podem estar

desgastadas. E sempre há o perigo de as bolas numa urna não terem sido

57

convenientemente misturadas. Além do mais, no caso de grandes ou freqüentes

amostras mediante listagem, tais processos tornam-se tediosos. Em vista disso, e

porque a amostragem aleatória é vital para a interferência estatística, existem

tabelas especialmente elaboradas, chamadas tabelas de números aleatórios, que

são utilizadas em conjunto com algumas formas de amostragem aleatória.

4.2. Outros Planos de Amostragem

Além da amostragem aleatória simples, há muitos outros planos de amostragem

aleatória úteis para coligir informação amostral. Mencionaremos alguns deles para

ilustrar algumas extensões da amostragem simples e das uma perspectiva

adicional à amostragem aleatória. Uma palavra de cautela: é preciso

conhecimento e um planejamento muito cuidadoso para determinar quais itens da

população devem compor a amostra e como interpretar os resultados amostrais.

4.2.1. Amostragem Probabilística Versus Amostragem Não-Probabilística

Os planos de amostragem probabilística são delineados de tal modo que se

conhece a probabilidade de todas as combinações amostrais possíveis. Em razão

disso, pode-se determinar a quantidade de variabilidade amostral numa

amostragem aleatória. Sob tais condições a amostragem é objetiva, podendo-se

obter prontamente uma estimativa do erro amostral. A amostragem aleatória é um

exemplo da amostragem probabilística. A amostragem não-probabilística é a

amostragem subjetiva, ou por julgamento, onde a variabilidade amostral não pode

ser estabelecida com precisão.

Conseqüentemente, não é possível nenhuma estimativa do erro amostral (isto é,

da variabilidade amostral). A verdade é que, sempre que possível, deve-se usar a

amostragem probabilística. Há não obstante, alguns casos em que a amostragem

não-probabilística proporciona uma alternativa útil para a amostragem

probabilística.

58

4.2.2. Amostragem por Julgamento

Se o tamanho da amostra é bem pequeno; digamos, de um a cinco itens, a

amostragem aleatória pode dar resultados totalmente não-representativos, ao

passo que uma pessoa familiarizada com a população pode especificar quais os

itens mais representativos da população. Por exemplo, uma cadeia de

restaurantes pode querer experimentar uma nova técnica de serviço, empregando

bandejas com aquecimento.

Problemas de custo podem fazer que a experiência se limite a dois restaurantes,

os quais podem diferir consideravelmente em termos de tamanho, localização,

clientela e lucratividade. Ao invés de uma seleção aleatória dos dois locais a

serem usados como teste, será melhor confiar no conhecimento da administração

para fazer tal escolha.

Ocasionalmente os itens amostrais se apresentam convenientemente grupados.

Uma pesquisa médica deve trabalhar com os itens disponíveis, ou talvez com

condenados que se apresentem como voluntários para o estudo. Nenhum desses

grupos pode ser considerado como uma amostra aleatória do público em geral, e

seria perigoso tentar tirar conclusões gerais com base em tal estudo. Todavia, os

resultados poderiam proporcionar uma base para a elaboração de um plano de

amostragem aleatória para validar os recursos básicos.

Os perigos inerentes à pesquisa médica, bem como a outros tipos de pesquisa,

freqüentemente obrigam a limitar a pesquisa inicial a um pequeno número de

voluntários. Outros exemplos similares seriam portadores de doenças fatais,

cadáveres, animais, etc.

Finalmente, a amostragem por julgamento pode ser mais rápida e menos custosa

porque não é preciso construir uma listagem dos itens da população.

Tenha-se em mente que a amostragem por julgamento não permite a avaliação

objetiva do erro amostral, de modo que é conveniente usar a amostragem

probabilística sempre que possível.

59

4.2.3. Amostragem Probabilística

Consideremos três planos de amostragem probabilística: sistemática, estratificada

e por conglomerado.

A amostragem sistemática é, de fato, muito semelhante à amostragem aleatória

simples. Requer uma lista dos itens da população e, assim, padece das mesmas

restrições já mencionadas em relação à listagem na amostragem simples. Se os

itens da lista não se apresentam numa ordem determinada, a amostragem

sistemática pode dar uma amostra realmente aleatória, escolhendo-se cada k-

ésimo item da lista, onde k se obtém dividindo o tamanho da população pelo

tamanho da amostra (isto é, k = N/n). Assim, se N = 200 e n = 10, então k = 10200

= 20.

Significa isto que será escolhido um item em cada seqüência de 20. Pode-se

consultar uma tabela de números aleatórios para determinar onde começar no

primeiro grupo, selecionando então cada k-ésimo item após aquele. Por exemplo,

se a tabela deu 09, escolheremos o 9º item, o 29º, o 49º, o 69º, etc. É preciso ter

cuidado no caso de os itens da lista se apresentarem grupados ou com caráter

periódico.

Assim, é que os nomes escolhidos alfabeticamente podem estar grupados porque

vários nomes étnicos começam com certas letras ou combinação de letras. A

escolha de casas quando a lista se baseia na ordem das casas numa rua também

pode não ser aleatória porque um número igual de casas em cada quarteirão

pode fazer que uma casa de esquina, ou de meio de quarteirão, seja sempre o k-

ésimo item.

Uma casa de esquina pode ter maior valor, pagar maior imposto, sofrer mais

ruído, e seu ocupante pode ter salário mais alto, ser mais preocupado com a

estrutura dos impostos, etc, enquanto que as casas de meio de quarteirão podem

apresentar características bem diferentes.

A amostragem estratificada pressupõe a divisão da população em subgrupos

(estratos) de itens similares, procedendo-se então à amostragem em cada

60

subgrupo. A lógica do processo é que, dispondo os itens da população em

subgrupos homogêneos, a variabilidade é menor que a da população global, o

que leva à necessidade de um menor tamanho de amostra.

Podemos ver isto considerando um caso extremo: suponhamos idênticos os itens

em cada estrato. Em tal caso, basta uma única observação de cada subgrupo

para dizer do seu comportamento. Assim, pois, quanto maior a semelhança entre

os elementos de cada estrato, menor o tamanho da amostra necessária.

Em geral, procede-se a amostragem aleatória em cada estrato, mas às vezes, é

útil um censo em cada subgrupo. Por exemplo, num estudo de sistemas de

inventário, não é raro acontecer que apenas 10% dos itens em estoque no

depósito de uma firma representem mais de 60% do valor do inventário, e que os

restantes 90% não representem nem 40% do valor.

Como há tão poucos itens na categoria, ou estrato, de custo alto, sem dúvida teria

sentido proceder-se a um censo completo de tais itens, fazendo-se então

amostragem aleatória nos outros subgrupos com grande número de itens de

baixo custo.

Alguns outros exemplos de amostragem estratificada: estudo do tempo que os

indivíduos de várias categorias de renda despendem com o lazer, ou

percentagem de seus salários gasta em recreação, ou tipo e duração de suas

férias, etc. Um estudo do volume de vendas comparado com os gastos com

propaganda pode prestar-se também a uma amostragem estratificada, desde que

haja muitas firmas incluídas no estudo.

A amostragem por conglomerado pressupõe a disposição dos itens de uma

população em subgrupos heterogêneos representativos da população global.

Idealmente, cada conglomerado pode ser encarado como uma mini população.

Na verdade, se a formação dos conglomerados foi perfeita, cada conglomerado

sendo exatamente semelhante a outro (e assim, semelhante à população básica)

bastaria examinar apenas um conglomerado para fazer inferências sobre a

população.

Todavia, isto raramente ocorre na prática, porque os conglomerados são, em

61

geral, grupos de itens que se acham em estreito contato físico, como casas,

quarteirões, bairros, etc.

Nas maioria das vezes, tais subgrupos são quase homogêneos e são escolhidos

mais por facilidade administrativa e economia de custo do que por suas

características heterogêneas. Em geral, não é pratico ou mesmo possível dispor

os itens em subgrupos heterogêneos. Conseqüentemente, deve-se selecionar um

número maior de conglomerados para obviar essa limitação.

A amostragem por conglomerados tem duas vantagens muito distintas sobre a

amostragem aleatória. Uma é que, se os itens da população se acham muito

dispersos, uma amostra aleatória pode acarretar considerável despesa, viagens,

etc, para ser bem extraída, ao passo que os itens de cada conglomerado estão

próximos um dos outros. Suponhamos, por exemplo, que a população de

interesse consistisse dos proprietários em localidades demasiadamente afastadas

no estado, o que dificultaria a coordenação e a padronização na coleta de dados.

Por outro lado, os conglomerados de condados ou cidades conteriam

proprietários de carros em áreas concentradas, reduzindo o custo e facilitando a

coordenação. Além disso, selecionado aleatoriamente conglomerados em todo o

estado, provavelmente se obterá uma amostra mais representativa da população.

Dentro de cada conglomerado, a amostragem poderia ser aleatória, estratificada,

ou ainda por conglomerado, pois o número de proprietários de carro mesmo num

condado ou numa cidade pode ser demasiado grande para permitir um censo.

Uma segunda vantagem da amostragem por conglomerado é que não é

necessário uma listagem dos itens da população. Basta uma lista dos

conglomerados. Assim, não é possível obter uma listagem de todos os

proprietários de imóveis dos EUA, mas pode-se obter uma lista de condados, ou

mesmo de cidades. Ou então os conglomerados podem ser quarteirões.

Embora não possamos dispor de uma listagem das casas de uma cidade, os

quarteirões podem, em geral, ser identificados, fazendo-se a seleção por meio de

mapas. Então os quarteirões escolhidos podem ser visitados, identificando-se as

casas que comporão a amostra.

62

Freqüentemente, um plano de amostragem incorpora vários desses tipos. Por

exemplo, os itens da população podem ser as pessoas que vivem em

determinado estado. O estado pode ser dividido em condados (conglomerados),

fazendo-se então uma seleção aleatória de condados para estudo. Os condados

escolhidos seriam divididos (estratificados) em áreas rurais e urbanas.

As áreas urbanas poderiam ainda ser estratificadas em residências e comerciais,

ou em áreas centrais e suburbanas. Os diversos estratos podem então ser

submetidos à amostragem aleatória ou divididos em conglomerados, ou

novamente estratificados e então submetidos à amostragem ou a um censo.

Naturalmente, o processo pode tornar-se bastante complicado.

A tabela abaixo apresenta uma comparação dos planos de amostragem

probabilística.

Tabela 16 - Comparação de Planos de Amostragem Probabilística

Tipo Caracterizado por Aleatória Lista de itens Sistemática Lista aleatória de itens Estratificada Subgrupos homogêneos Por conglomerado Itens fisicamente próximos uns dos outros

63

5. DISTRIBUIÇÕES AMOSTRAIS

A finalidade da amostragem é obter uma indicação do valor de um ou mais

parâmetros de uma população, tais como a média, o desvio padrão populacional,

ou a proporção de itens que possuem determinada característica. As estatísticas

amostrais que correspondem a esses parâmetros populacionais são usadas para

aproximar os valores desconhecidos daqueles parâmetros.

Assim é que a média amostral é usada para estimar à média da população, o

desvio padrão amostral é usado para estimar o desvio padrão populacional, e a

proporção amostral serve para estimar a proporção na população.

Uma das realidades da amostragem aleatória é que, quando se extraem repetidas

amostras da mesma população, há uma tendência de a estatística amostral variar

de uma amostra para outra e também em relação ao verdadeiro valor do

parâmetro, simplesmente em razão de fatores casuais relacionados com a

amostragem. Essa tendência é conhecida como variabilidade amostral. (Por esta

razão, quase sempre podemos estar certos de que determinada estatística

amostral não é igual ao correspondente parâmetro populacional).

Obviamente, então, qualquer tentativa para fazer inferências sobre uma

população deve levar em conta a variabilidade amostral. No caso da amostragem

aleatória, entretanto, demonstra-se matematicamente que a variabilidade pode

ser descrita por distribuições de probabilidades tais como a normal e a binomial.

Quando as distribuições de probabilidade são usadas desta maneira, são

conhecidas como distribuições amostrais. E como essas distribuições só podem

ser utilizadas quando se trata de amostras aleatórias, é essencial usar somente

amostras aleatórias para fazer inferência estatística.

A questão a responder para cada amostra é: Quão próxima está a estatística

amostral do verdadeiro valor do parâmetro populacional? A resposta depende de

três fatores. Um é a estatística que está sendo considerada. Para descrever a

variabilidade associada a diferentes estatísticas amostrais, usam-se diferentes

distribuições de probabilidade. Outro fator é o tamanho da amostra. Há menor

64

variabilidade entre estatísticas de grandes amostras do que entre estatísticas de

pequenas amostras. E o terceiro fator é a variabilidade existente na própria

população submetida à amostragem. Populações com muita variabilidade

produzem estatísticas amostrais com maior variabilidade do que populações com

pequena variação entre os valores populacionais.

Para entender como se podem usar estatísticas amostrais para fazer inferências

sobre parâmetros populacionais, começaremos estudando populações com

parâmetros conhecidos e observaremos as estatísticas amostrais que elas

tendem a produzir (raciocínio dedutivo). Feito isto, estaremos em condição de

aprender como as características de uma única amostra podem ser usadas para

fazer inferências sobre o (s) parâmetro (s) de uma população (raciocínio indutivo).

Uma distribuição amostral é uma distribuição de probabilidades que indica até que

ponto uma estatística amostral tende a variar devido a variações causais na

amostragem aleatória.

Inicialmente é difícil assimilar o conceito de distribuição amostral. Examinemos

por isso uma distribuição amostral simples. Suponhamos que um fazendeiro

deseja vender alguns porcos. Para simplicidade, limitemos a população a cinco

porcos (embora o fazendeiro não os conheça).

Os pesos constam da tabela abaixo.

Tabela 17 - População de Cinco Porcos

Porco Peso (lb)A 200 B 203 C 206 D 209 E 212 1030

Suponhamos que qualquer porco com menos de 205 Ib de peso seja considerado

magro, não podendo ser vendido a preço razoável. Vemos que 2 deles, ou seja,

52

da população, estão nessa categoria. O fazendeiro quer agora estimar a

proporção de seus porcos que estão abaixo do peso. Como é muito trabalhoso

pesar todos os animais, ele resolve tomar uma amostra de 2 e usar a proporção

65

amostral para estimar a proporção populacional. As perguntas que devemos

responder são: Que proporções amostrais são possíveis e quão viável é cada

uma? Em outras palavras, queremos a distribuição amostral da situação. Como

uma distribuição amostral deve indicar os resultados possíveis, comecemos por

identificá-los. Presumivelmente, o fazendeiro faria amostragem sem reposição,

pois não desejaria pesar o mesmo porco duas vezes. A seguir têm-se os

resultados amostrais possíveis (Tabela 19 e Figura 10 e Figura 11).

Tabela 18 - Combinações Amostrais de Dois Porcos.

Tamanho da amostra

Número de amostras possíveis

Combinação amostral

Pesos amostrais

Proporção abaixo de 205 lb

2 ⎟⎠⎞

⎜⎝⎛

25

A, B 200, 203 22

A, C 200, 206 21

A, D 200, 209 21

A, E 200, 212 21

B, C 203, 206 21

B, D 203, 209 21

B, E 203, 212 21

C, D 206, 209 20

C, E 206, 212 20

D, E 209, 212 20

A distribuição amostral mostra que as proporções amostrais possíveis são 20 ,

21

e 22 . Mostra também quão provável é cada proporção, sob a hipótese de que

66

cada porco tenha a mesma chance de ser incluído na amostra (isto é,

amostragem aleatória). Por exemplo, há uma probabilidade de 0,6 de a proporção

amostral ser 21 , o que está próximo da proporção real (como são usadas

amostras de 2, seria impossível termos uma proporção amostral de 52 ). Se

escolhêssemos a distribuição para amostras de 3 observações para a mesma

população, a distribuição da proporção de porcos com deficiência de peso seria a

mostrada a seguir (Figura 10). Note-se que neste último caso os resultados são

diferentes dos do caso de amostras de tamanho 2.

00,10,20,30,40,50,60,7

Proporção amostral abaixo de 20520

21

22

00,10,20,30,40,50,60,7

Proporção amostral abaixo de 205

00,10,20,30,40,50,60,7

Proporção amostral abaixo de 20520

21

22

Figura 10 - Distribuição das proporções amostrais de porcos com peso deficiente para

amostras de tamanho 2, extraídas de uma população de 5, com uma proporção

populacional de 52

.

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0/3 1/3 2/3 3/3

Proporção amostral

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0/3 1/3 2/3 3/30,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0/3 1/3 2/3 3/3

Proporção amostral Figura 11 - Distribuição amostral da proporção de porcos com deficiência de peso, com

n=3, 52p = .

67

Conquanto esta abordagem empírica das distribuições amostrais não seja prática,

pois exige a listagem de todos os resultados possíveis, permite, não obstante,

considerar em pequena escala o que uma distribuição amostral realmente é. Na

prática, as distribuições amostrais são deduzidas matematicamente e colocadas à

disposição dos analistas sob forma de tabelas e gráfico.

Duas das distribuições amostrais mais usadas são a binomial e a normal, com as

quais o leitor já deve estar familiarizado. Vamos agora explorar algumas formas

como uma população pode influenciar uma distribuição amostral.

5.1. Efeito dos Parâmetros Populacionais sobre uma Distribuição Amostral

Já dissemos que as distribuições amostrais tendem a produzir estatísticas

amostrais representativas dos parâmetros populacionais. Isto é, apesar do fato

tenderem a apresentar certa variabilidade, podemos dizer que as estatísticas

amostrais devem aproximar parâmetros populacionais de forma bastante

satisfatória. Esta característica de ser representativa resulta em estatísticas

amostrais que tendem a se acumular na vizinhança dos verdadeiros

populacionais.

Podemos explorar esta afirmação de várias maneiras. Talvez a mais simples

consiste em focalizar nossa relação numa distribuição amostral para o número de

ocorrências. Suponhamos que tenhamos sido encarregados de fazer amostragem

em grandes containers de geléia para verificar a percentagem que se apresenta

demasiado licorosa.

Podemos ter uma idéia de como a percentagem na população (um grande

container) pode influenciar a percentagem amostral considerando várias

proporções populacionais (parâmetros) e examinando as distribuições amostras

relacionadas. Suponhamos, por exemplo, 10 observações, para determinar o

número de licorosos na amostra. A situação pode ser adequadamente descrita

por uma distribuição binomial com n = 10, dicotomizando o produto em licoroso e

68

não-licoroso.

Devemos admitir que a população seja tão grande que a probabilidade de obter

uma unidade licorosa permaneça praticamente constante de uma para outra

observação, mas isto não parece fora de propósito.

Pode-se usar uma tabela da distribuição binomial para obter as probabilidades

dos vários resultados (0, 1, 2, ..., 10 licorosos) possíveis. A conversão desses

resultados em percentagens mostra como as proporções populacionais

influenciam as proporções amostrais. A Figura 12 ilustra uma sucessão de

distribuições amostrais (probabilidades), cada uma com uma percentagem

diferente de licorosos na população.

A primeira exibe a probabilidade de cada proporção amostral (0, 1, ..., 10) para

uma população com 5% de licorosos, a segunda mostra as mesmas

probabilidades para uma população com 10% licorosos, etc. Note-se que, em

cada caso, a distribuição de proporções amostrais parece refletir a proporção

populacional. A implicação é que, quando a amostragem é aleatória, há uma

elevada probabilidade de que a estatística amostral se aproxime do parâmetro

populacional.

Assim, populações com pequenas percentagens de determinado item tendem a

gerar amostras com pequenas percentagens do item; populações com

percentagem moderada tenderão a gerar amostras com percentagens moderadas

do item; e populações com elevadas percentagens gerarão tipicamente amostras

com grandes percentagens. Note-se, todavia, que sempre há certo grau de

variação; as estatísticas amostrais não são necessariamente iguais ao parâmetro

populacional.

69

.

Distribuição de probabilidadede percentagem amostral: n = 10

p = 0,05

Distribuição de probabilidadede percentagem amostral: n = 10

p = 0,05

P(x)

0,00

0,20

0,40

0,60

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Proporção Amostral

x

P(x)

0,00

0,20

0,40

0,60

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

Proporção Amostral

x

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

p = 0,10

x

P(x)

Proporção Amostral

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

p = 0,10

x

P(x)

Proporção Amostral

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

p = 0,20

x

P(x)

Proporção Amostral

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

p = 0,20

x

P(x)

Proporção Amostral

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

p = 0,50

x

P(x)

Proporção Amostral

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

p = 0,50

x

P(x)

Proporção Amostral

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

p = 0,90

x

P(x)

Proporção Amostral

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0

p = 0,90

x

P(x)

Proporção Amostral

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0x

P(x)

Proporção Amostral

p = 0,70

0,00

0,20

0,40

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0x

P(x)

Proporção Amostral

p = 0,70

Figura 12 - A distribuição das proporções amostrais é influenciada pela proporção populacional; as proporções amostrais com maiores probabilidades estão mais próximas

de p.

70

5.2. Efeito do Tamanho da Amostra sobre uma Distribuição Amostral

A distribuição binomial também proporciona um método conveniente para ilustrar

a relação básica entre o tamanho da amostra e variabilidade na distribuição

amostral. Isto pode ser observado diretamente escolhendo-se uma proporção

única (probabilidade de sucesso) e comparando as probabilidades dos resultados

para vários tamanhos de amostra.

P(x/n)

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

n = 16, p = 0,5

x/n

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

n = 32, p = 0,5

x/n

P(x/n)

P(x/n)

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

n = 16, p = 0,5

x/n

P(x/n)

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

n = 16, p = 0,5

x/n

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

n = 16, p = 0,5

x/n

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

n = 32, p = 0,5

x/n

P(x/n)

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

n = 32, p = 0,5

x/n

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

n = 32, p = 0,5

x/n

P(x/n)

0,00

0,10

0,20

0,30

0,40

0,50

0,00 0,50 1,00

P(x/n)

n = 2, p = 0,5

x/n

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

P(x/n)

n = 4, p = 0,5

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

P(x/n)

n = 8, p = 0,5

x/n

0,00

0,10

0,20

0,30

0,40

0,50

0,00 0,50 1,00

P(x/n)

n = 2, p = 0,5

x/n

0,00

0,10

0,20

0,30

0,40

0,50

0,00 0,50 1,00

P(x/n)

n = 2, p = 0,5

x/n

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

P(x/n)

n = 4, p = 0,5

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

P(x/n)

n = 4, p = 0,5

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

P(x/n)

n = 8, p = 0,5

x/n

0,00

0,10

0,20

0,30

0,40

0,00 0,50 1,00

P(x/n)

n = 8, p = 0,5

x/n

Figura 13 - Uma série de fatos ilustra o fato de que, à medida que aumenta o tamanho da

amostra, (1) a distribuição amostral das proporções tende para a normalidade e (2) a variabilidade amostral decresce. Note-se que a média da distribuição amostral é sempre

igual à proporção da população.

71

Novamente aqui, as probabilidades são tiradas de uma tabela de probabilidades

binomiais individuais convertidas em percentagem de sucesso. A série de gráficos

(Figura 13) ilustra a distribuição das proporções amostrais para amostras de n =

2, 4, 8, 16, 32 para a situação em que a proporção de licorosos na população é de

50%.

Há três pontos muito importantes ilustrados (Figura 13). Uma é que, na medida

em que o tamanho da amostra aumenta, a distribuição amostral tende para a

forma da distribuição normal. A razão segundo a qual a distribuição amostral

tende para a normalidade depende de quão simétrica à população é: quanto mais

simétrica, mais rápida a tendência para a normalidade (e, assim, menor o

tamanho da amostra necessário para “supor” normalmente).

Um segundo ponto ilustrado (Figura 13) é que, à medida que aumenta o tamanho

da amostra, há variabilidade cada vez menor entre as proporções amostrais. A

implicação é que grandes amostras têm mais forte tendência a produzirem

estatísticas amostrais relativas próximas, em valor, do parâmetro populacional.

Assim, o erro potencial decrescerá à medida que o tamanho da amostra aumente.

Ainda um terceiro ponto: em cada caso, a média da distribuição amostral é igual

ao parâmetro da população. Logo, a média ou valor esperado de uma estatística

amostral é igual à proporção populacional.

Embora a distribuição binomial proporcione maneira conveniente de ilustrar certas

propriedades de distribuições amostrais, os resultados são mais gerais do que as

aplicações envolvendo proporções. Vemos (Figura 14) a demonstração da

mesma tendência de as médias amostrais se agruparem em torno da média

populacional. Sabemos, por exemplo, que 68% dos valores numa distribuição

normal estão à distância de um desvio padrão de cada lado da média. E, ao

contrário da binomial, a distribuição amostral é sempre simétrica em relação a sua

média. Assim, é ilustrado o fato de o aumento do tamanho da amostra fazer

descrever a variabilidade inerente à distribuição amostral (Figura 14).

72

5.3. Distribuições de Médias Amostrais

Uma distribuição amostral de médias é uma distribuição de probabilidade que

indica quão prováveis são diversas médias amostrais. A distribuição é função da

média e do desvio padrão da população e do tamanho da amostra. Para cada

combinação de média, desvio padrão de amostra haverá uma única distribuição

amostral de médias amostrais.

No princípio deste capítulo consideramos uma população de cincos porcos e um

fazendeiro que queira estimar a proporção de porcos com deficiência de peso. Ele

poderia muito bem ter apelado para o peso médio dos porcos, caso em que a

distribuição amostral de médias seria apropriada. Os dados são repetidos,

juntamente com os parâmetros populacionais (Tabela 18 e 19).

Se o fazendeiro deseja estimar o peso médio de seus porcos, pode considerar

amostras de dois, três, ou possivelmente quatro. E novamente então, poderíamos

listar cada média amostral possível e construir uma distribuição de freqüência.

Além disso, poderíamos calcular a média e o desvio padrão de cada distribuição

amostral. Como já dissemos, entretanto, é preferível usar processos matemáticos

a esse processo empírico. Não obstante, os resultados do método empírico

revelam algumas propriedades interessantes das distribuições amostrais. A

Tabela 7.4 exibe os resultados.

Tabela 19 - População de Cinco Porcos.

Porco Peso (lb) Parâmetros

A 200 média = 5

1030 = 206

B 203 desvio padrão = 4,24 C 206 D 209 E 212 1030

73

Distribuições de médias amostrais

Média Populacional

(a) As médias amostrais tendem a grupar-se em torno da média populacional.

Média Populacional

(b) As distribuições amostrais de grandes amostras têm menor variabilidade que as de pequeno tamanho amostral.

n = 100

n = 80

n = 60

n = 40

Distribuições de médias amostrais

Média Populacional

(a) As médias amostrais tendem a grupar-se em torno da média populacional.

Média Populacional

(b) As distribuições amostrais de grandes amostras têm menor variabilidade que as de pequeno tamanho amostral.

n = 100

n = 80

n = 60

n = 40

Figura 14 - As médias amostrais tendem a grupar-se em torno da média populacional. (b) A variabilidade das distribuições amostrais tende a decrescer com o aumento do tamanho da

amostra.

Tabela 20 - Resumo dos Parâmetros de Distribuições Amostrais de Médias e População de Cinco Porcos.

Média Desvio PadrãoPopulação 206 4,24

Distribuições amostrais: n = 2 206 2,60 n = 3 206 1,73 n = 4 206 1,06

A Tabela acima ilustra várias coisas. Uma é que a média da distribuição amostral

parece sempre exatamente igual à média populacional, não é coincidência.

Resulta do fato de que uma distribuição amostral se compõe de “todas as

amostras possíveis”, incluindo, portanto, todos os itens da população. Em

essência, o cálculo da média de uma distribuição amostral nada mais é que um

processo indireto de calcular a média da população. Basta um simples exemplo.

Suponhamos três itens numa população: x1, x2 e x3...A média da população é

74

3)( 321 xxx ++ . Considerando todas as amostras de dois itens, as combinações

serão 1x e 2x , 1x e 3x , 2x e 3x . As médias amostrais seriam:

221 xx +

2

31 xx +

232 xx +

A média das três médias amostrais (e a média da distribuição amostral) seria:

32)[(]2)[(]2)[( 323121 xxxxxx +++++

= 3

)(21

323121 xxxxxx +++++

3

)(21

323121 xxxxxx +++++=

3

)222(21

321 xxx ++=

3321 xxx ++

=

Que é a média da população.

Outra característica ilustra pela Figura 7.4 é que o desvio padrão da distribuição

amostral parece decrescer quando o tamanho da amostra aumenta. A mesma

característica já havia sido observada anteriormente. A implicação é que a média,

ou valor esperado, da média amostral será igual à média da população, e que

amostras maiores tendem a serem mais confiáveis que amostras menores.

Consideremos agora as fórmulas efetivamente usadas para cálculos envolvendo

distribuições amostrais de médias. A média de uma distribuição amostral é

sempre igual à média da população3.

Assim:

xxμμ =

3 Em razão disso, o símbolo xμ será usado daqui por diante para designar tanto a média da população como a média da distribuição

amostral.

75

Onde:

xμ = média da distribuição amostral

xμ = média da população

Quando a população é muito grande ou infinita, o desvio padrão da distribuição

amostral de média é:

nx

x

σσ =

xσ = desvio padrão da distribuição amostral

xσ = desvio padrão da população

n = tamanho da amostra

A fórmula do desvio padrão nos diz, com efeito, que a quantidade de dispersão na

distribuição amostral depende de duas coisas:

a) A dispersão na população;

b) A raiz quadrada do tamanho da amostra.

Por exemplo, em qualquer população, o aumento do tamanho das amostras

extraídas resultará em menor variabilidade entre as possíveis médias amostrais.

E se o mesmo tamanho de amostra é usado com diferentes populações, as

populações com maior quantidade de dispersão )( xσ tenderão a gerar a maior

quantidade de variabilidade entre as médias de amostras extraídas delas.

5.3.1. O Teorema do Limite Central

A capacidade de usar amostras para fazer inferências sobre parâmetros

populacionais depende do conhecimento da distribuição amostral. Acabamos de

ver como se determinam a média e o desvio padrão, mas precisamos ainda de

outra informação: a forma da distribuição amostral. Já dissemos antes que há

uma tendência para as distribuições de médias e de proporções se apresentarem

aproximadamente normais. No caso das médias amostrais, pode-se demonstrar

matematicamente que, se uma população tem distribuição normal, a distribuição

76

das médias amostrais extraídas da população também tem distribuição normal,

para qualquer tamanho de amostra. Além disso, mesmo no caso de uma

distribuição não-normal, a distribuição das médias amostrais será

aproximadamente normal, desde que a amostra seja grande. Este é um resultado

notável, na verdade, pois nos diz que não é necessário conhecer a distribuição de

uma população para podermos fazer inferências sobre ela a partir de dados

amostrais.

A única restrição é que o tamanho da amostra seja grande. Uma regra prática

muito usada é que a amostra deve consistir de 30 ou mais observações.

Estes resultados são conhecidos como o Teorema do Limite Central e

representam talvez o conceito mais importante na inferência estatística.

O TEOREMA DO LIMITE CENTRAL

1. Se a população sob amostragem tem distribuição normal, a distribuição das

médias amostrais também será normal para todos os tamanhos de amostra;

2. Se a população básica é não-normal, a distribuição de médias amostrais será

aproximadamente normal para grandes amostras.

Em sentido estrito, o Teorema do Limite Central só se aplica a médias

amostrais.Não obstante, o leitor deve recordar que, exceto para valores muito

pequenos ou muito grandes de p, a distribuição normal constitui aproximação

razoável das probabilidades binomiais para grandes amostras. Logo, a

distribuição normal pode ser utilizada para médias e proporções em grandes

amostras (Figura 15).

77

=

Distribuição da População

Distribuição Amostral

Para todos os tamanhos de amostra:

Para grandes amostras: ≈

=

Distribuição da População

Distribuição Amostral

Para todos os tamanhos de amostra:

Para grandes amostras: ≈

Figura 15 - O Teorema do Limite Central.

Vejamos como aplicar essa informação para obter probabilidades de várias

estatísticas amostrais para amostras extraídas de populações conhecidas.

Exemplo 1: Uma população muito grande tem média 20,0 e desvio padrão 1,4.

Extrai-se amostra de 49 observações. Responda:

a. Qual a média da distribuição amostral?

b. Qual o desvio padrão da distribuição amostral?

c. Qual a percentagem das possíveis médias que diferirão por mais de 0,2 da

média da população?

Solução:

Como n > 30, podemos supor normal a distribuição amostral.

78

a. A média da distribuição amostral é sempre igual à média da população. Logo,

xμ = 20,0.

b. O desvio padrão da distribuição amostral é:

2,074,1

494,1

====nx

x

σσ

c. A percentagem de médias amostrais que diferem por mais de 0,2 da média

populacional (Figura 16)é:

xσ1

2,0202,20

+=−

proporção: 0,1587

xσ1

2,0208,19

−=−

proporção: 0,1587

total: 0,3174

0,1587 0,1587

19,8 20 20,2

xu

0,1587 0,1587

19,8 20 20,2

xu

Figura 16 - As porções sombreadas são iguais à probabilidade de uma média amostral inferior a 19,8 ou superior a 20,2.

Exemplo 2: Um fabricante de baterias alega que seu artigo de primeira categoria

tem uma vida esperada (média) de 50 meses. Sabe-se que o desvio padrão

correspondente é de 4 meses. Que percentagem de amostras de 36 observações

acusará vida média no intervalo de 1 mês em torno de 50 meses, admitindo ser

de 50 meses a verdadeira vida média das baterias? Qual será a resposta para

uma amostra de 64 observações?

Solução:

Sabemos que, como n > 30, a distribuição de médias amostrais será

79

aproximadamente normal, com média igual à média populacional e o desvio

padrão igual ao desvio padrão populacional dividido pela raiz quadrada do

tamanho da amostra. A figura a seguir ilustra a probabilidade desconhecida

(Figura 17).

49 50 51

Mesesxμ

49 50 51

Mesesxμ

Figura 17 - O problema exige a determinação da área sombreada da distribuição amostral.

A solução envolve a determinação do número de desvios padrões que 49 e 51 meses distam da

média; recorrendo a uma tabela de áreas sob a curva normal, obtemos as probabilidades

procuradas.

Determinemos primeiro o desvio padrão da distribuição amostral:

nx

x

σσ =

para n = 36: xσ = 67,064

364

==

para n = 64: xσ = 50,084

644

==

Em seguida determinemos a diferença em relação ao valor esperado:

x

parâmetroaestatísticzσ−

=

para n = 36:x

σ5,167,01

67,05049

−=−

=−

x

σ5,167,01

67,05051

==−

para n = 64:x

σ250,01

50,05049

−=−

=−

x

σ250,01

50,05051

==−

Finalmente determinemos as áreas com o auxílio da tabela da Distribuição

Normal Padronizada:

80

para n = 36: z =1,5 área = 0,4332

P(49 < x < 51) = 0,4332 + 0,4332 = 0,8664

para n = 64: z = 2,0 área = 0,4773

P(49 < x < 51) = 0,4773 + 0,4773 = 0,9546

Note-se que, mesmo permanecendo constante o intervalo de 49 a 51, as

respostas para as amostras de 36 e 64 são diferentes. A probabilidade de obter

uma média amostral no intervalo dado é maior para amostras de 64 observações

do que para amostras de 36 observações, devido ao fato de o desvio padrão da

distribuição amostral decrescer quando n aumenta.

Exemplo 3: Usando a informação contida no Exemplo 2, qual seria a

probabilidade de obter uma média amostral inferior a 49,8 meses com uma

amostra de 100 observações?

Solução:

Vemos a área desconhecida sob a curva normal (Figura 18).

nx

x

σσ = =

104

= 0,4

xσ5,0

4,0508,49

−=−

A área abaixo de xσ5,0− é 0,3085.

49,8 50

Meses

?

49,8 50

Meses

?

Figura 18 - A porção sombreada representa )8,49x(P ≤ .

81

5.4. Distribuições de Proporções Amostrais

Uma distribuição de proporções amostrais indica quão provável é determinado

conjunto de proporções amostrais, dados o tamanho da amostra e a proporção

populacional. Quando o tamanho da amostra é 20 ou menos, as probabilidades

dos diversos resultados possíveis podem ser lidas diretamente numa tabela de

probabilidades binomiais simplesmente convertendo o número de sucessos em

percentagens. Por exemplo, 3 ocorrências em 10 observações correspondem a

30%, 5 ocorrências em 20 observações correspondem a 25%. Para maiores

amostras, a aproximação normal da binomial dá resultados bastante satisfatórios.

A média (proporção ou percentagem média) da distribuição amostral é sempre

igual à proporção populacional. Isto é:

pp =

Onde:

p = proporção populacional

p = média da distribuição amostral das proporções

Quando a população é muito grande ou infinita, o desvio padrão da distribuição

amostral se calcula pela fórmula:

npp

p)1( −

Exemplo 4: Um varejista compra copos diretamente da fábrica em grandes lotes.

Os copos vêm embrulhados individualmente. Periodicamente o varejista

inspeciona os lotes para determinar a proporção dos quebrados ou lascados. Se

um grande lote contém 10% de quebrados ou lascados, qual a probabilidade de o

varejista obter uma amostra de 100 copos com 17% ou mais defeituosos?

Solução:

A distribuição amostral se centrará em 10%, que é a percentagem populacional

de defeituosos. E 17% ilustra a percentagem desconhecida (Figura 19). O

primeiro passo é calcular o desvio padrão da população:

82

03,010

3,0100

)90,0)(10,0()1(===

−=

npp

Podemos usar esse resultado para determinar a variação relativa:

zp ===− σ33,2

%3%7

%3%10%17

10% 17%

?

10% 17%

?

Figura 19 - %)17n/x(P ≥ .

A área além de pσ33,2 é 0,0099, conforme a tabela da Distribuição Normal

Padronizada, com z = 2,33.

Teoricamente, deveríamos usar uma correção de continuidade, pois estamos

usando a distribuição normal para aproximar probabilidades binomiais. Do ponto

de vista prático, entretanto, isto é desnecessário, sendo especialmente verdadeiro

para grandes amostras e valores de z ≥ 2 ou mais.

5.5. Distribuição Amostral do Número de Ocorrências

As distribuições amostrais de proporções e do número de ocorrências são

essencialmente as mesmas. Ambas dizem respeito à contagem de dados, e não a

mensurações; ambas envolvem o uso das tabelas binomiais para as

probabilidades desejadas quando o tamanho da amostra é menor que 20, e

ambas podem ser aproximadas pela normal para amostras maiores. A única

diferença é que, na distribuição amostral de proporções, os valores vêm

expressos como percentagens, enquanto que nas distribuições amostrais do

número de ocorrências os valores se apresentam como contagens. A tabela nos

83

dá uma comparação das fórmulas para a média e para o desvio padrão de cada

uma.

Tabela 21 - Comparação de Fórmulas para as Distribuições Amostrais de Proporções e de Número de Ocorrências.

Distribuição Amostral Média Desvio Padrão Proporções p

npp

p)1( −

Número de ocorrências np )1( pnpnp −=σ

Exemplo 5: Suponha que uma pesquisa recente tenha revelado que 60% de uma

população de adultos do sexo masculino consista de não-fumantes. Tome uma

amostra de 600, calcule e interprete a média e o desvio da distribuição amostral.

Solução:

Temos n = 600, p = 0,60, de modo que 1 – p = 0,40.

média = np = 600 (0,60) = 360

desvio padrão = 12144)40,0)(60,0(600)1( ===− pnp

A média da distribuição, 360, é o número de não-fumantes que esperaríamos

encontrar numa amostra aleatória de 600 adultos do sexo masculino, admitindo

que 60% desses adultos não fumem. Sabendo que sempre existe variabilidade

amostral, seria de surpreender se houvesse exatamente 360 não-fumantes em

nossa amostra. Na verdade, o desvio padrão da distribuição amostral, 12, nos diz

quanta dispersão devemos esperar. Por exemplo, 95,5% (2 desvios padrões) de

tais amostras devem cair no intervalo de 24± em torno de 360, ou seja, de 336 a

384 não-fumantes.

5.6. Amostragem de uma População Finita

A maior parte da amostragem se faz sem reposição, seja por motivos

psicológicos, seja por razões de conveniência e custo. Enquanto o tamanho da

amostra for pequeno em relação ao da população, a amostragem sem reposição

84

dará entre as amostras essencialmente a mesma variabilidade da amostragem

com reposição. Enquanto, se o tamanho da amostra representa percentagem

apreciável da população (digamos, mais de 5%), já os resultados dos tipos de

amostragem começam diferir. Isto porque, na amostragem sem reposição, a

probabilidade de extração de itens varia de uma para outra extração. Em tais

condições, a distribuição adequada é a distribuição hipergeométrica.

As fórmulas do desvio padrão das médias amostrais e do desvio padrão das

proporções amostrais devem ser modificadas de modo a refletirem a

probabilidade, se o tamanho da amostra é superior a 5% da população.

Felizmente, a modificação hipergeométrica tem uma forma simples:

1−−

NnN

Onde:

N = tamanho da população

n = tamanho da amostra

Essa fórmula é designada como fator de correção finita, ou, às vezes,

multiplicador de população finita, já que multiplica as expressões usuais do desvio

padrão.

O desvio padrão das médias amostrais se torna:

1−−

=N

nNnx

x

σσ

O desvio padrão das proporções amostrais fica:

1)1(

−−−

=N

nNnpp

E o desvio padrão do número de ocorrências se escreve:

1)1(

−−

−=N

nNpnpnpσ

Exemplo 6: Uma máquina para recobrir cerejas com chocolate é regulada para

produzir um revestimento de 3 mm de espessura. O processo tem distribuição

85

normal, com desvio padrão de 1 mm. Se o processo funciona conforme o

esperado (isto é, média de 3mm e desvio padrão de 1mm), qual seria a

probabilidade de extrair uma amostra de 25 de um lote de 169 cerejas e encontrar

uma amostra superior a 3,4 mm?

Solução:

Na figura a probabilidade desconhecida de obter uma média amostral superior a

34 mm. Como a população é finita e a amostra é maior do que 5% (n/N = 25/169

= 0,15) cabem aplicar o fator de correção finita. A solução exige a determinação

de quão afastado da média está o valor 3,4 mm (em termos de padrões), usando-

se o valor para obter a possibilidade na tabela de curva normal (Figura 20).

3,0 3,4

?

3,0 3,4

?

Figura 20 - )4,3x(P ≥ .

185,0)92,0(51

16825169

251

1==

−=

−−

=N

nNnx

x

σσ

xx

x σσμ 2,2

185,04,0

185,00,34,3

≈=−

=−

A área sob a curva normal além de x

σμ 2,2+ é 0,0139. Assim, P(x> 3,4) = 1,39%.

Exemplo 7: Um processo de encher garrafas de cola dá em média 10% mal

cheias. Extraída uma amostra de 225 garrafas de uma seqüência de produção de

625, qual a probabilidade de que a proporção amostral de garrafas mal cheias

esteja entre 9% e 11%?

Solução:

Como o tamanho da amostra é grande em relação ao da população (n/N é

86

225/625,ou 36%), necessitamos do fator de correção finita. Determinando, em

desvios padrões, a distância de 9% e 11% em relação à media do processo,

podemos determinar a probabilidade procurada (Figura 21).

9% 10% 11%

P

9% 10% 11%

P Figura 21 - %)11/%9( ≤≤ nxP

016,02520

153,0

1625225625

225)90,0)(10,0(

1)1(

=⋅≈−

−=

−−−

=N

nNnpp

625,0016,0

10,009,01 −=

−=z

625,0016,0

10,011,02 =

−=z

A área sob a curva no intervalo z1 a z2 é 2(0,2340) = 0,4680.

87

6. ESTIMAÇÃO

A estimação é o processo que consiste em utilizar dados amostrais para estimar

os valores de parâmetros populacionais desconhecidos. Essencialmente,

qualquer característica de uma população pode ser estimada a partir de uma

amostra aleatória. Entre os mais comuns, estão a média e o desvio padrão de

uma população e a proporção populacional.

Há inúmeras aplicações da estimada. Os políticos, por exemplo, costumam

estimar a proporção de seus eleitores que esposam vários pontos de vista sociais

ou econômicos. As fábricas devem continuamente estimar a percentagem de

defeituosas num lote de peças. As características de bom desempenho de um

produto devem ser delineadas levando em conta considerações como resistência

média, peso, duração média, etc. Os grandes magazines devem prever a procura

de seus diversos artigos. A avaliação de inventários, a estimação do custo de

projetos, a avaliação de novas fontes de energia, predições sobre a realização de

empreendimentos, estimadas de tempo médio – todas essas situações envolvem

a estimação.

A estimação é o processo que consiste em utilizar dados amostrais para estimar

parâmetros populacionais desconhecidos.

6.1. Estimativas Pontuais e Intervalares

As estatísticas amostrais são utilizadas como estimadores de parâmetros

populacionais. Assim, uma amostral é usada como estimada de uma média

populacional; um desvio padrão amostral serve de estimativa do desvio padrão da

população; e a proporção de itens numa amostra, com determinada característica,

serve para estimar a proporção da população que apresenta aquela

característica. Tais estimativas chamam-se estimativas pontuais, porque originam

uma única estimativa do parâmetro. Mas já sabemos que a amostragem aleatória

apresenta tendência a gerar amostras em que a média amostral, por exemplo,

não é igual à média da população, embora os dois valores em geral sejam

88

próximos. Em virtude da variabilidade amostral, é usual uma “estimativa

intervalar” para acompanhar a estimativa pontual. Essa nova estimativa

proporciona um intervalo, ou âmbito, de possíveis valores do parâmetro

populacional. A tabela a seguir dá alguns exemplos de cada tipo de estimativa.

Estimativa pontual: Estimativa única de um parâmetro populacional.

Estimativa intervalar: Dá um intervalo de valores possíveis, no qual se admite

esteja o parâmetro populacional.

Tabela 22 - Exemplos de Estimativas.

Tipo de Estimativa Parâmetro Populacional Pontual Intervalar

Média

1. O americano médio consome 40 lb de carne por ano.

2. Um carro típico de 6 cilindros faz 15 milhas por galão.

1. O consumo médio de carne no país está entre 30 e 50 lb por pessoa por ano.

2. Um carro típico de 6 cilindros faz entre 12 e 18 milhas por galão.

Proporção

1. Vinte e dois por cento da população se opõe a um aumento do limite de velocidade.

2. A proporção de estudantes fumantes é 43%.

1. Entre 18% e 26% da população há oposição a um aumento do limite de velocidade.

2. A proporção de estudantes fumantes está entre 37 e 49%.

Desvio Padrão

1. O desvio padrão da quilometragem de um pneu radial é de 2.000 milhas.

2. O desvio padrão da temperatura numa piscina não aquecida é da ordem de 5ºF.

1. O desvio padrão da quilometragem de um pneu radial está entre 1.500 e 2.500 milhas.

2. O desvio padrão da temperatura numa piscina não aquecida está entre 2ºF e 8ºF.

6.2. Os Fundamentos Lógicos da Estimação

A capacidade de estimar parâmetros populacionais por meio de dados amostrais

está ligada diretamente ao conhecimento da distribuição amostral da estatística

que está sendo usada como estimador. Podemos encarar a estatística amostral

como uma observação daquela distribuição amostra. Suponhamos, por exemplo,

que tenhamos extraído uma amostra de aluno graduado, tendo-se observado a

idade média de 24,2 anos. Sabemos que este é um dos valores da distribuição

amostra, mas a questão é: qual deles? Istoé, quão próximo está 24,2 da média da

população?

Ao formular a resposta a esta pergunta, devemos levar em conta as

89

características da distribuição amostral. Vimos, por exemplo, no Capítulo 7 que a

distribuição das médias amostrais é normal ou aproximadamente normal em

muitos casos. Suponhamos, por um momento, que este seja o caso aqui.

Sabemos então que cerca de 68% da estatística amostral está a menos de um

desvio padrão de cada lado da média da distribuição amostral (que é igual à

média da população) e que 95% das médias amostrais estarão dentro de 1,96

desvios padrões a contar da média.

Da mesma forma, sabemos que 32% das médias amostrais além de 1 desvio

padrão a contar da média (1,00 – 0,68) e que cerca de 5% das médias amostrais

estarão a mais de 1,96 desvios padrões além da média.

Conseqüentemente, se fizermos a afirmativa que a média de uma amostra está a

menos de 1,96 desvios padrões a contar da média verdadeira, podemos esperar

estar certos 95% das vezes, e errados 5% das vezes. Assim, dizer que 24,2 está

menos de 1,96 desvios padrões da média acarreta um risco de erro de 5%. Na

verdade, a média amostral pode estar muito mais próxima da verdadeira média do

que 1,96 – ou muito mais afastada. Como nunca saberemos ao certo, devemos

contentar-nos com essa atribuição probabilística do intervalo em que o verdadeiro

valor possa estar. Tal intervalo é chamado intervalo de confiança, e nossa

“confiança” é: 1-p(erro). Logo, um intervalo de confiança de 95% leva consigo um

risco de 5% de erro; 5% dos intervalos assim fixados não incluirão a média

populacional.

Analogamente, se dizemos que uma média amostral está a 2,33 desvios padrões

da média, risco de não estar é de cerca de 2%, o que nos dá um intervalo de

confiança de 98%. Note-se que o risco diminui à medida que aumenta o valor z;

um intervalo com 2,33 tem menor risco que um intervalo com limites de 1,96.4 Por

outro lado, para reduzir o risco, é necessário fixar um âmbito maior para os

possíveis valores da média da população.

Ora, independentemente do nível de confiança que adotemos, ainda não

4 A esta altura parece natural cogitarmos de um intervalo de confiança de 100%. Mas como a distribuição normal vai de ∞− a ∞+ , seria virtualmente impossível especificar limites que incluíssem todos os valores amostrais possíveis.

90

podemos dizer se determinada média amostral é menor, ou maior, do que valor

desconhecido da média populacional. Por exemplo, a média amostral pode ter

sido gerada na cauda superior da distribuição amostral (isto é, a média amostral

pode ser muito maior que a média real). Ou pode ter sido gerada também na

cauda inferior da distribuição amostral. Obviamente, não temos meios de saber se

determinada estatística amostral é muito alta, muito baixa, em relação ao valor

real, ou quase igual a ele. Conseqüentemente, estabelecemos um intervalo de

valores possíveis, onde achamos que o verdadeiro valor do parâmetro possa

estar tendo sempre presente o erro máximo que estejamos querendo aceitar

(Figura 22).

Nosso intervalo de confiança tem a forma xzx σ± ; um intervalo de 95% para a

média com 2,24=x seria 24,2 xσ96,1± . O valor de nossa amostra é duplo. Por

um lado, serve de ponto médio de nosso intervalo de confiança. Por outro lado,

serve de estimativa pontual da média real. Recorde o leitor que a média amostral

tem valor esperado igual à média populacional. Logo, em média, o valor amostral

será “igual” ao parâmetro da população.

O fato de que um intervalo de confiança de 95% só não inclui a média da

população para 5% das médias amostrais, podemos visualizar na figura a seguir

(Figura 23). Note-se, entretanto, que usualmente basta tomar uma amostra; as

cinco amostras são exibidas apenas para fins ilustrativos.

91

24,2

?μ ?μx

x(a)

(b) A estatística amostral provém da cauda superior, da distribuição amostral,como se vê aqui?

(c) A estatística amostral provém da cauda inferior da distribuição amostral, como se vê aqui?

(d) Como não há maneira de saber ao certo, admitimos o pior e construímos um intervalo dos valores verdadeiros possíveis.

24,2

?μ ?μx

x

24,2

?μ ?μx

x(a)

(b) A estatística amostral provém da cauda superior, da distribuição amostral,como se vê aqui?

(c) A estatística amostral provém da cauda inferior da distribuição amostral, como se vê aqui?

(d) Como não há maneira de saber ao certo, admitimos o pior e construímos um intervalo dos valores verdadeiros possíveis.

Figura 22 - O conceito do intervalo de estimação.

xx σ96,11 − 1x xx σ96,11 +

xx σ96,12 − xx σ96,12 +2x

xx σ96,13 − xx σ96,13 +3x

xx σ96,14 − xx σ96,14 +4x

xx σ96,15 − xx σ96,15 +5x

Distribuição amostral de x

Amostra

xσμ 96,1− xμ xσμ 96,1+

Distribuição amostral de x

Amostra

xσμ 96,1− xμ xσμ 96,1+

1

2

3

4

5

Figura 23 - Nem todos os intervalos de estimação baseados nas médias de amostras repetidas contêm o verdadeiro valor. Para fins de ilustração, exibimos intervalos de

confiança de 95% (z = 1,96).

Um intervalo de confiança dá um intervalo de valores, centrado na estatística

amostral, no qual julgamos, com um risco conhecido de erro, estar o parâmetro da

população.

92

Até aqui conseguimos dizer, de modo geral, quão próxima nossa média amostral

de 24,2 anos está da idade média dos estudantes graduados (em termos de

desvios padrões), mas nada se disse ainda sobre essa proximidade em anos.

6.3. Estimação da Média de uma População

A questão de quão próxima determinada média amostral pode estar da média da

distribuição amostral, em unidades efetivas, depende da variabilidade na

distribuição amostral (isto é, o desvio padrão da distribuição amostral).

Recordamos que, à medida que aumenta o tamanho amostral, o desvio padrão da

distribuição amostral diminui. Logo, grandes amostras tenderão a produzirem

médias amostrais que estão mais próximas da média do que pequenas amostras.

Além disso, a variabilidade da população global é um fator; quanto maior a

variabilidade na população, maior a variabilidade na distribuição amostral.

O método usado para estimar a média de uma população depende se o desvio

padrão da população é conhecido ou deve ser estimado com base nos dados

amostrais. Consideremos primeiro o caso em que o desvio padrão da população é

conhecido.

a) Desvio Padrão populacional conhecido

Quando o desvio padrão populacional é conhecido, as estimativas: pontual e

intervalar da média populacional são:

estimativa pontual de xx :μ

estimativa intervalar de xzx σμ ±:

onde nxxσσ =

A figura a seguir (Figura 24) ilustra como se constrói o intervalo de confiança com

a média amostral como ponto médio.

A estimativa intervalar da média populacional se baseia na hipótese de que a

distribuição amostral das médias amostrais é normal. Para grandes amostras isto

93

não apresenta dificuldade especial, pois se aplica o Teorema do Limite Central.

Todavia, para amostras de 30 ou menos observações, é importante saber que a

população submetida amostragem tem distribuição normal, ou ao menos

aproximadamente normal. De outra forma essas técnicas não podem ser

utilizadas.

Intervalo de confiança

xzx σ− xzx σ+x

Intervalo de confiança

xzx σ− xzx σ+x

Figura 24 - O intervalo de confiança tem centro na média amostral.

Podemos agora construir alguns intervalos de confiança para a idade média dos

estudantes graduados usando nossa média amostral de 24,2. Para isso, devemos

conhecer o tamanho da amostra e o desvio padrão populacional. Suponhamos n

= 36 e xσ = 3,0. A Tabela 8.2 ilustra os cálculos de intervalos de 90%, 95% e

99% de confiança.

Tabela 23 - Intervalos de Confiança para xμ . Quando se conhece xσ Tamanho amostral =

36, 2,24,3 == xxσ .

Confiança desejada z Fórmula Cálculo e Intervalo

90% 1,65 n

x xσ65,1±

36365,12,24 ± 825,02,24 ± 23,375 a 25,025

95% 1,96 n

x xσ96,1±

36396,12,24 ± 980,02,24 ± 23,220 a 25,180

99% 2,58 n

x xσ58,2±

36358,22,24 ± 290,12,24 ± 23,110 a 25,690

6.3.1. Erro de Estimação

O erro num intervalo de estimação diz respeito ao desvio (diferença) entre a

média amostral e a verdadeira média da população. Como o intervalo de

confiança tem centro na média amostra, o erro máximo provável é igual à metade

da amplitude do intervalo. Logo, o intervalo:

94

nzx xσ

±

Pode escrever-se como:

errox ±

O erro e sendo dado por:

nze xσ

=

Intervalo de confiança em termos de erro (Figura 25).

A fórmula do erro revela que há efetivos três determinados do tamanho ou

qualidade de erro: (1) a confiança desejada, representada pelo valor de z; (2) a

dispersão na população, xσ ; e o (3) o tamanho da amostra, n. Os fatores no

numerador têm efeito direto no erro, pois um aumento dessas variáveis faz que e

aumente. Isto é, quanto maior o coeficiente de confiança ou a dispersão da

população, maior o erro potencial. O tamanho da amostra, figurando no

denominador, tem efeito inverso no erro. Maiores amostras significam menor

potencial de erro.

ex− x ex+Intervalo de confiança

ErroMáximoprovável

ErroMáximoprovável

ex− x ex+Intervalo de confiança

ErroMáximoprovável

ErroMáximoprovável

Figura 25 - Erro = 21

(amplitude do intervalo de confiança).

O efeito líquido depende dos valores das três variáveis. Todavia, pode ser

instrutivo considerar rapidamente os efeitos individuais de cada variável (Figura

26).

A figura mostra que o aumento do grau de confiança resulta numa ampliação do

intervalo (Figura 26(a)). Em seguida indica que um aumento do tamanho da

95

amostra ocasiona uma redução no intervalo (Figura 26 (b)). Note-se, entretanto,

que, como o fator no denominador é a raiz quadrada de n, e não n apenas, a

amplitude do intervalo é menos sensível a modificações no tamanho da amostra.

Assim é que seria preciso tomar 4 vezes n para se ter uma redução de um meio

na amplitude do intervalo )

2141( =

. A figura ilustra como a dispersão numa

população pode afetar o intervalo; quanto maior a dispersão maior o intervalo

(Figura 26 (c)).

(a) Efeito do coeficiente de confiança

Confiança

68%

95%

99%

z

1,00

1,96

2,58

Amplitude do Intervalo

(b) Efeito do tamanho da amostra

Tamanho da Amostra

8

16

64

32

Amplitude do Intervalo

(c) Efeito da dispersão da população

8

16

64

32

xσ Amplitude do Intervalo

(a) Efeito do coeficiente de confiança

Confiança

68%

95%

99%

z

1,00

1,96

2,58

Amplitude do Intervalo(a) Efeito do coeficiente de confiança

Confiança

68%

95%

99%

z

1,00

1,96

2,58

Amplitude do Intervalo

(b) Efeito do tamanho da amostra

Tamanho da Amostra

8

16

64

32

Amplitude do Intervalo(b) Efeito do tamanho da amostra

Tamanho da Amostra

8

16

64

32

Amplitude do Intervalo

(c) Efeito da dispersão da população

8

16

64

32

xσ Amplitude do Intervalo(c) Efeito da dispersão da população

8

16

64

32

xσ Amplitude do Intervalo

Figura 26 - Fatores que influem na amplitude de um intervalo de confiança: (a) coeficiente

de confiança; (b) tamanho da amostra; (c) dispersão da população.

Se atentarmos para a coluna “e” (Tabela 23) veremos que o erro máximo

aumenta à medida que o nível de confiança aumenta.

Com a fórmula anterior, podemos determinar a quantidade de erro associada à

dispersão de uma população, o tamanho da amostra e o nível de confiança.

Entretanto, às vezes podemos querer especificar um erro tolerável e talvez achar

o tamanho de amostra necessário para gerar aquele erro para determinado nível

96

de confiança e um desvio padrão populacional conhecido. Ou podemos querer

determinar um nível de confiança, dadas as outras três variáveis. Interessante é o

fato de a mesma equação básica poder ser usada para determinar qualquer

variável desconhecida, mediante simples manipulação algébrica. Na seção que

segue daremos especial atenção a uma dessas variáveis – o tamanho da

amostra.

6.3.2. Determinação do Tamanho da Amostra

Uma das perguntas mais freqüentes em estatística é: “Qual o tamanho da

amostra que devemos tomar?” A fórmula do erro pode ser resolvida em relação à

n. Assim:

nze xσ

= , e

zn xσ= ,

2

⎟⎠⎞

⎜⎝⎛=e

zn xσ

Logo, o tamanho da amostra necessária dependerá de (1) a grau de confiança

desejado, (2) a quantidade de dispersão entre os valores individuais da

população, e (3) certa quantidade específica de erro tolerável.

Exemplo 1: Que tamanho de amostra será necessário para produzir um intervalo

de 90% de confiança para a verdadeira média populacional, com erro de 1,0 em

qualquer dos sentidos, se o desvio padrão da população é 10,0?

Solução:

Sabemos que 0,10=xσ e e = 1,0 e queremos um intervalo de 90% de confiança,

o que implica um valor de z de 1,65. Temos assim:

27325,27265,10,10,1065,1 2

22

→==⎥⎦

⎤⎢⎣

⎡=⎥⎦

⎤⎢⎣⎡=e

zn xσ

Note-se que, ao resolver em relação à n, sempre arredondamos a resposta para o

próximo inteiro superior.

Até agora nossa investigação da estimação de médias populacionais tem

focalizado exclusivamente situações em que o desvio padrão populacional é

97

conhecido. Na prática, é mais comum encontrar situações em que a dispersão da

população não é conhecida. Uma seqüência do desconhecimento do desvio

padrão da população é que a distribuição normal já não é a distribuição

adequada. A seção que seque aborda esses aspectos.

6.3.3. Estimação de Médias Quando xσ é Desconhecido: a Distribuição t

Quando o desvio padrão da população não é conhecido (o que é o caso,

geralmente), usa-se o desvio padrão da amostra como estimativa, substituindo-se

xσ por xs nas equações para intervalos de confiança e erros. Isto não acarreta

maiores dificuldades, pois o desvio padrão amostral dá uma aproximação

bastante razoável do verdadeiro valor, na maioria dos casos. Além disso, pelo

Teorema do Limite Central, sabemos que, quando o tamanho da amostra é

superior a 30, a distribuição das médias é aproximadamente normal. Todavia,

para amostras de 30 ou menos observações, aproximação normal não é

adequada. Devemos então usar a distribuição t5, que é a distribuição correta

quando se usa xs .

A forma da distribuição t é bastante parecida com a normal. Podemos ver uma

comparação entre as distribuições t e normal (Figura 27). A principal diferença

entre as duas distribuições é que a distribuição t tem maior área nas caudas. Isto

significa que, para um dado nível de confiança, o valor t será um pouco maior que

o correspondente valor z.

5 O criador da Distribuição t foi W. S. Gossett, empregado de uma cervejaria irlandesa no princípio do século XX. A firma não gostava de que seus empregados publicassem trabalhos em seu próprio nome, de modo que Gosset adotou o pseudônimo de Student em seus trabalhos sobre a distribuição t. Por isso é que ela tomou o nome de distribuição de Student t.

98

Normal

t

Normal

t

Figura 27 - Comparação das distribuições normal e t. Note-se que a distribuição tem mais

área nas caudas.

Mas o aspecto interessante (e de certo modo, complicado) sobre a distribuição t é

que ela não é uma distribuição padronizada no mesmo sentido em que a

distribuição normal o é: há uma distribuição t ligeiramente diferente para cada

amostra. Assim, enquanto a distribuição normal é essencialmente independente

do tamanho da amostra, a distribuição t não o é. Para amostras de pequeno

tamanho (digamos, 30 observações ou menos), a distribuição t é mais sensível ao

tamanho da amostra, embora para maiores amostras essa sensitividade diminui.

Na verdade, para grandes amostras, é razoável usar valores z para aproximar

valores t, muito embora a distribuição t seja sempre teoricamente correta quando

não se conhece o desvio padrão da população, independente do tamanho da

amostra.

Como existe uma distribuição t para cada tamanho de amostra, não seria prático

tentar construir tabelas completas das distribuições. Em vez disso, tabelam-se

apenas os principais valores.

Para usar uma tabela t, devemos conhecer duas coisas: o nível de confiança

desejado, e o número de graus de liberdade. O número de graus de liberdade

está relacionado com a maneira como se calcula o desvio padrão:

1)( 2

−= ∑

nxx

sx

Probabilidades (ou áreas sob a curva da Distribuição t)

Área numa cauda 0,10 0,05 0,025 0,01 0,005 Área em duas caudas 0,20 0,10 0,05 0,02 0,01

99

Figura 28 - - Valores de t para Probabilidades Escolhidas.

Exemplo: Número de graus de liberdade = 6

Área acima de t = 1440 ou abaixo de t = -1,440 representa 10% da área sob a curva.

A área considerada acima de t = -1,440 e abaixo de t = -1,440 representa 20% da área sob a curva.

100

Onde:

xs = desvio padrão amostral

n – 1 = graus de liberdade

Assim, o número de graus de liberdade é igual a n - 1, ou tamanho da amostra

menos um. Eis uma explicação intuitiva do número de graus de liberdade:

suponhamos uma sala de aula com 20 carteiras vazias, cada um escolhe um

lugar. Naturalmente, o primeiro aluno tem 20 escolhas de assentos, o segundo

tem 19 escolhas, e assim por diante.

Assim é que 20 alunos têm 19, ou n – 1, graus de liberdade.

Consideremos um segundo exemplo. Suponhamos que queiramos três números

cuja soma seja 10. O primeiro número pode ser tudo (mesmo negativo); o

segundo número também. Mas o terceiro número estar limitado à condição que a

soma dos três deve ser 10. Escolhidos os dois primeiros valores, o terceiro este

essencialmente determinado; não existe grau de liberdade para o terceiro valor.

Por exemplo, o primeiro número poderia ser + 3, e o segundo poderia ser – 1,

para um total de + 2. Para que os três números somem 10, o terceiro deve ser 8.

Há três números em jogo, mas liberdade só para dois. (Mais adiante veremos que

o número de graus de liberdade depende de mais alguma coisa, de forma que

seria errado supor que o número de graus de liberdade sempre fosse n – 1, tal

como um número mágico).

A verdade é que se exige que a soma dos desvios em relação à média amostral

seja zero, o que exige um arredondamento do menor valor. Logo, o número de

graus de liberdade é igual a n -1.

Há aqui uma tabela dos mesmos valores (Tabela 24). Note-se que essa tabela

está disposta de forma um pouco diferente das tabelas normais. As áreas (ou

percentagens ou probabilidades) aparecem no topo e não no corpo da tabela; os

valores de t são dados no corpo da tabela; e os graus de liberdade estão

relacionados ao lado da tabela.

Para usar a tabela, o leitor deve especificar a área nas caudas da distribuição

101

(risco) e os graus de liberdade. Ela dá alguns exemplos de valores t para certos

tamanhos amostrais e riscos.

Tabela 24 - Valores de t para 95% de Confiança (0,025 em cada cauda).

Tamanho da amostran

Graus de liberdaden - 1 Valor de t

8 7 2,365 13 12 2,179 23 22 2,074 28 27 2,052

O intervalo de confiança para uma média amostral quando se usa xs é muito

semelhante ao intervalo quando se usa xσ . O intervalo é:

nstx x±

Um último ponto. A distribuição t é só é teoricamente adequada quando a

distribuição é normal. Na prática, quando n aumenta, indo além de 30

observações, a necessidade de admitir a normalidade diminui.

A distribuição t supõe que a população submetida amostragem seja normal. Essa

hipótese é particularmente importante para n ≤ 30. A tabela a seguir ilustra

intervalos de confiança com o emprego de t. (Tabela 25)

Tabela 25 - - Intervalos de Confiança com Valores de t

Média Amostral 20,0; Desvio Padrão Amostral 1,5; Tamanho da Amostra 25 (graus de liberdade n – 1 = 24)

Confiança desejada t Fórmula Cálculo Intervalo

90% 1,711nstx x± 20,0 ± 1,711

255,1

20,0 ± 0,5133

95% 2,064nstx x± 20,0 ± 2,064

255,1

20,0 ± 0,6192

99% 2,797nstx x± 20,0 ± 2,797

255,1

20,0 ± 0,8391

Note-se que, para amostras de 30 ou menos, tanto z como t exigem que a

população seja normal, ou ao menos aproximadamente normal. Para amostras

maiores, essa restrição já não é necessária. Dada uma população normal, já

dissemos que se usa z quando se conhece xσ e que só se usa t quando só se

conhece xs . Se n > 30, o valor de t pode ser aproximado por z.

102

6.3.4. Amostragem de Pequenas Populações: O Fator de Correção Finita

Quando a população é finita e a amostra constitui mais de 5% da população,

devemos aplicar o fator de correção finita para modificar os desvios das fórmulas:

Intervalo de Confiança Erro

xσ conhecido

1−−

±N

nNn

zx xσ 1−

−N

nNn

z xσ

xσ desconhecido1−

−±

NnN

nstx x

1−−

NnN

nst x

Exemplo 2: Determinar um intervalo de 95% de confiança para estas duas

situações:

a.

1000100

0,20,15

===

=

Nn

x

xσ Sandra mourão b.

20016

0,20,15

====

Nnsx

x

Solução:

a. %101000100

==Nn

Portanto, devemos utilizar o fator de correção finita. A fórmula para o intervalo de

confiança é:

1−−

±N

nNn

zx xσ

Com os dados do problema, temos:

901,0)2,0(96,10,15999

1001000100

0,296,10,15 ±=−

±

b. %82016

==Nn

Com xσ desconhecido e n ≤ 30, cabe utilizar a distribuição t (supondo normal a

103

população), e a fórmula para o intervalo de confiança é:

1−−

±N

nNnstx x

Os dados do problema dão (15 graus de liberdade)

925,0)5,0(131,20,151200

16200162131,20,15 ±=

−−

±

025,10,15 ±=

Devemos também modificar a fórmula para determinar o tamanho da amostra

necessário para obter um intervalo com um erro máximo e um nível de confiança

específico, quando se trata de amostragem de população finita. Há duas fórmulas

– uma, quando o desvio padrão da população é conhecido, e outra quando não é:

xσ conhecido: )1(222

22

−+=

NezNz

nx

x

σσ

xσ desconhecido: )1(222

22

−+=

NestNst

nx

x

A não utilização dessas fórmulas, quando for apropriado fazê-lo, pode resultar

numa amostra que exceda o tamanho da população.

6.4. Estimação da Proporção numa População

Que percentagem de peças numa grande remessa apresenta defeito? Que

proporção de bolas numa urna são vermelhas? Que proporção de eleitores

aprova determinado projeto? Qual é a probabilidade de um aluno do curso

primário não ser vacinado? Essas perguntas e outras analogias podem ser

respondidas utilizando-se dados amostrais para estimar o parâmetro

populacional. Tal como antes, as estimativas serão pontuais e intervalares.

A estimativa de proporções populacionais é muito semelhante à de médias

populacionais. Por exemplo, intervalos de confiança para grandes amostras se

baseiam numa distribuição amostral que é aproximadamente normal, usando-se a

104

estatística (neste caso a proporção amostral) como estimativa pontual do

verdadeiro parâmetro (proporção populacional). Há uma exceção digna de nota. A

distribuição t não é usada, e assim evita-se completamente o problema t versus z.

E há ainda um outro aspecto: a construção de intervalos de confiança tanto de

95% como de 99% é grandemente simplificada pelo uso de gráficos especiais.

Não obstante, será necessário considerar não só o uso da fórmula para a

construção de intervalos de confiança (um processo análogo ao usado para

intervalos de confiança para média) como uso de gráficos, porque a fórmula é

usada sempre que se desejam intervalos que não sejam de 95% ou 99%.

6.4.1. Intervalos de Confiança: Uso da Fórmula6

O valor esperado de uma proporção amostral (isto é, a média de uma distribuição

amostral de proporções amostrais) é sempre igual à verdadeira proporção da

população. Usa-se, portanto, a proporção amostral como estimativa pontual da

verdadeira proporção:

estimativa pontual de p: nxp =

A estimativa intervalar do parâmetro populacional (para grandes amostras) é

simétrica em relação à proporção amostral, tal como ocorre com o intervalo para a

média populacional em relação à média amostral. A principal diferença entre a

estimativa de médias e a de proporções está nos desvios de padrões das

distribuições amostrais. O desvio padrão de uma proporção se baseia na

distribuição binomial. A estimativa de pσ é dada abaixo.

onde n

nxnxnx

)](1)[( −=σ

x = número de itens da amostra z = desvio padrão normal n = tamanho da amostra

6 Esse processo está limitado a grandes amostras (digamos, n > 40). Para pequenas amostras é adequado o processo gráfico (para intervalos de 95% e 99% de confiança).

105

estimativa intervalar de n

nxnxnxznxp )](1)[(1)[(: −−±

Exemplo 4: Determine um intervalo de 98% de confiança para a verdadeira

proporção populacional, se x = 50 e n = 200.

Solução:

Um intervalo de 98% de confiança implica z = 2,33.

estimativa = n

nxnxznx )](1)[( −±

200)75,0)(25,0(33,225,0 ±=

07,025,0 ±= ou 0,18 a 0,32

6.4.2. Erro

Novamente aqui, a quantidade de erro numa estimativa nada mais é que a

metade da amplitude do intervalo de confiança. Logo, a equação:

nnxnxz

nx )](1)[( −±

Pode ser encarada como:

enx±

Onde e é n

nxnxz )](1)[( −

Os dois fatores, z e n, têm exatamente o mesmo efeito que o caso de erros de

estimativas de médias populacionais. Isto é, quanto maior for z (isto é, quanto

maior a confiança) maior o erro possível, ao passo que, quanto maior o tamanho

da amostra, menor o erro.

O efeito da população amostral, entretanto, pode não ser óbvio, simplesmente

porque x/n e 1—(x/n) são complementares um do outro. Assim, quanto um

106

aumenta, o outro diminui. A Figura 8.7 exibe o efeito global da proporção amostral

sobre a amplitude de um intervalo de confiança. Note-se que o intervalo é máximo

quando p = 0,50, decrescendo quando p aumenta ou diminui em razão do efeito

sobre o produto de p por (1 – p). De fato, sob condições de completa incerteza,

pode-se admitir inicialmente p = 0,50, o que revelará a maior quantidade de erro

possível.

Por outro lado, se pudermos dispor de alguma informação sobre o tamanho da

proporção amostral, digamos, de uma pequena amostra-piloto, então será

possível reduzir o tamanho do intervalo ou o tamanho necessário da amostra.

Exemplo 5: Uma amostra de 200 observações acusou 20 baterias defeituosas numa remessa. Usando uma confiança de 99%, determine o erro de estimação. Solução:

A proporção amostral 10,020020

= .Um nível de confiança de 99% exige z = 2,58.

055,0200

)90,0)(10,0(58,2)]/(1)[(==

−=

nnxnxze

0,090,90

0,160,80

0,210,70

0,240,60

0,250,50

0,240,40

0,210,30

0,160,20

0,090,10

p(1-p)p

0,090,90

0,160,80

0,210,70

0,240,60

0,250,50

0,240,40

0,210,30

0,160,20

0,090,10

p(1-p)p Tamanho relativo do intervalo (= 2e)Tamanho relativo do intervalo (= 2e)

Figura 29 - O intervalo de confiança para uma proporção é máximo quando x/n = 0,50.

107

Temos relacionado a seguir alguns exemplos de intervalos de confiança para

proporções (Tabela 26).

Tabela 26 - Exemplos de Intervalos de Confiança para Proporções.

n x Confiança desejada z x/n Erro Intervalo de

confiança

40 8 90% 1,65 20,0408

= 104,040

)80,0(20,065,1 = 0,096 a 0,304

80 20 95% 1,96 25,08020

= 095,080

)75,0(25,096,1 = 0,155 a 0,345

100 30 98% 2,33 30,010030

= 107,0100

)70,0(30,033,2 = 0,193 a 0,417

6.4.3. Determinação do Tamanho da Amostra

Uma das aplicações mais freqüentes da fórmula do erro é para determinar o

tamanho da amostra necessária para se obter determinado grau de precisão na

estimativa de proporções. A fórmula do erro:

nnxnxze )]/(1)[/( −

=

Pode ser usada para estabelecer uma fórmula para o tamanho da amostra.

Elevando ambos os membros ao quadrado, temos:

⎭⎬⎫

⎩⎨⎧ −

=n

nxnxze )/(1)[/(22

Podemos resolver em relação a n permutado n e 2e :

⎭⎬⎫

⎩⎨⎧ −

=n

nxxzn )]/(1/)[(2

Exemplo 6: Qual o tamanho da amostra necessário para obter um intervalo de

95% de confiança para a proporção populacional, se o erro tolerável é 0,08?

Solução:

Como o enunciado do problema não contém informação sobre o tamanho

possível da proporção populacional, os cálculos devem basear-se no intervalo

mais amplo possível, o que ocorre quando o valor amostral é igual a 0,50. Como

108

queremos um intervalo de 95%, usamos z = 1,96. Assim:

⎥⎦⎤

⎢⎣⎡ −

= 22 )1(

eppzn

Se torna:

0064,025,084,3

08,0)5,0)(5,0(96,1 2

2n =⎥⎦

⎤⎢⎣

⎡=⎥

⎤⎢⎣

⎡= 149,9 ou 150

Exemplo 7: Determine o tamanho da amostra necessário para estimar a

verdadeira percentagem populacional a menos de 4%, usando um intervalo de

confiança de 90%. É razoável suspeitar que o verdadeiro valor seja 0,30 ou

menos.

Solução:

Trinta por cento dariam o intervalo máximo; usa-se então p = 0,30. Um intervalo

de 90% de confiança implica z = 1,65. Assim:

⎥⎦⎤

⎢⎣⎡ −

= 22 )1(

eppzn

Se torna:

0016,021,072,2

04,0)7,0)(3,0(65,1 2

2n =⎥⎦

⎤⎢⎣

⎡=⎥

⎤⎢⎣

⎡= 357,3 ou 358

(arredonda-se para cima a fim de obter ao menos a precisão desejada).

6.4.4. Amostragem de Populações Finitas

Quando o tamanho da amostra é mais que 5% da população, devemos modificar

a fórmula para a estimativa intervalar da proporção populacional. Como se pode

ver, a modificação é idêntica à feita no caso de médias amostrais:

estimativa intervalar: 1

)]/(1)[/(−−

⋅−

±N

nNnxnxznx

Exemplo 8: Determine um intervalo de confiança de 95% para a percentagem

populacional de defeituosos para os seguintes dados:

109

N = 2000 n = 400 10,0=nx

Solução:

Como n/N = 400/2000 =20%, é necessário introduzir o fator de correção finita.

19991600

40009,096,1%10

120004002000

400)90,0)(10,0(96,1%10 ±=

−−

±

= )9,0(20

3,096,1%10 ⎟⎠⎞

⎜⎝⎛±

= %65,2%10 ± ou 7,35% a 12,65%

A fórmula para o tamanho da amostra no caso de populações finitas é:

)]/(1)[/()1())](/(1)[/(

22

2

nxnxzeNNnxnxzn

−+−−

=

110

7. REGRESSÃO E CORRELAÇÃO

A regressão e a correlação são duas técnicas estreitamente relacionadas que

envolvem uma forma de estimação. A diferença entre essas técnicas e o tipo de

estimação discutido anteriormente é que aquelas técnicas anteriores foram

utilizadas para estimar um único parâmetro populacional, enquanto que as

técnicas apresentadas neste capítulo se referem à estimação de uma relação que

possa existir na população.

Mais especificamente, a análise da correlação e regressão compreende a análise

de dados amostrais para saber se e como duas ou mais variáveis estão

relacionadas umas com as outras numa população. Nosso objetivo será

principalmente o estudo de duas variáveis. A análise de correlação dá um número

que resume o grau de relacionamento entre duas variáveis; a análise de

regressão tem como resultado uma equação matemática que descreve o

relacionamento. A equação pode ser usada para estimar, ou predizer, valores

futuros de uma variável quando se conhecem ou se supõem conhecidos valores

de outra variável. A análise de correlação é útil em trabalho exploratório, quando

um pesquisador ou analista procura determinar quais variáveis são

potencialmente importantes e o interesse está basicamente no grau ou força do

relacionamento. Em educação e psicologia, freqüentemente se dá maior ênfase

ao grau ou força do relacionamento. Em outras áreas, como administração,

economia, pesquisa medica, agricultura, focaliza-se mais a natureza do

relacionamento (isto é, a equação de predição), e a análise de regressão é o

instrumento principal.

A correlação mede a força, ou grau, de relacionamento entre duas variáveis; a

regressão dá uma equação que descreve o relacionamento em termos

matemáticos.

Os dados para a análise de regressão e correlação provêm de observações de

variáveis empalhadas. Para um problema de duas variáveis, isto significa que

cada observação origina dois valores, um para cada variável. Por exemplo, um

estudo que envolve características físicas pode focalizar a idade e a altura de

111

cada indivíduo. As duas variáveis de interesse – idade e altura de cada pessoa –

são então emparelhadas. Para um problema de três variáveis, cada observação

origina três valores. Por exemplo, além da idade e altura de cada pessoa,

podemos incluir também o peso na análise.

Iniciaremos nossa investigação das relações existentes numa população pela

análise de regressão. A análise de correlação será abordada mais adiante.

7.1. Regressão Linear

A regressão linear simples constitui uma tentativa de estabelecer uma equação

matemática linear (linha reta) que descreve o relacionamento entre duas

variáveis.

Há diversas maneiras em que as equações de regressão são utilizadas. Uma é

em situações em que as duas variáveis medem aproximadamente a mesma

coisa, mas uma delas é relativamente dispendiosa, ou difícil de lidar, enquanto

que a outra não. Por exemplo, a resistência e a dureza de um metal podem estar

relacionadas, de modo que conhecendo-lhe a dureza podemos estimar-lhe a

resistência. Se o teste de resistência destrói o metal, enquanto que o teste de

dureza não o destrói, uma pessoa interessada em estimar a resistência

obviamente preferirá confiar nos resultados do teste de dureza para estimar a

resistência. A finalidade de uma equação de regressão seria então estimar

valores de uma variável, com base em valores conhecidos da outra.

Outra utilização das equações de regressão é explicar valores de uma variável

em termos da outra. Isto é, podemos suspeitar de uma relação de causa e efeito

entre duas variáveis. Por exemplo, um economista pode tentar explicar as

variações na procura de automóveis usados em termos de desemprego. Um

agricultor pode suspeitar que a quantidade de fertilizante por ele usada tenha

influenciado a safra.

A distância de frenagem de um carro é influenciada por sua velocidade. Deve-se

notar, entretanto, que a lógica de uma relação causal deve provir de teorias

112

externas ao âmbito da estatística. A análise de regressão apenas indica qual

relacionamento matemático pode existir, se existir algum. Em outras palavras,

nem a regressão nem a correlação podem mostrar que uma variável tenda a

“causar” valores de outra variável.

Ainda uma terceira aplicação da regressão: predizer valores futuros de uma

variável. Por exemplo, costuma-se aplicar testes a empregados ou estudantes

potencias, para avaliar o potencial de sucesso na escola ou no emprego. É de

presumir que haja um relacionamento matemático entre o resultado do teste e o

potencial futuro.

Embora tais relações possam assumir uma grande diversidade de formas, nossa

discussão se limitará às equações lineares. As equações lineares (de uma linha

reta) são importantes porque servem para aproximar muitas relações da vida real,

e porque são relativamente fáceis de lidar e de interpretar. Outras formas da

análise de regressão, tais como regressão múltipla (mais de duas variáveis) e

regressão curvilínea (não-linear) envolvem extensões dos mesmos conceitos

usados na regressão linear simples.

7.1.1. A Equação Linear

Duas importantes características da equação linear são (1) o coeficiente angular

da reta e (2) a cota da reta em determinado ponto. Uma equação linear tem a

forma:

y = a + bx

onde a e b são valores que se determinam com base nos dados amostrais; a é a

cota da reta em x = 0, e b é o coeficiente angular. A variável y é a variável que

deve ser predita, e x é o valor preditor.

A Figura 9.1 ilustra a relação entre o gráfico de uma reta e sua equação. A reta,

com equação y = a + bx, intercepta o eixo dos y’s no ponto y = a. Este ponto é

chamado interceptor-y. O coeficiente angular da reta, b, indica a variação de y por

unidade de variação de x, ou xy ΔΔ / .

113

Y = a

x =

0

Y = a

x =

0

Figura 30 - A equação y = a+ bx representa uma reta com coeficiente angular b e intercepto-

a.

x

y

01 2 3 4

5

6 7 8 9 105

10

15

20

25

x

y

01 2 3 4

5

6 7 8 9 105

10

15

20

25

Figura 31 - A reta y = 5 + 3x tem coeficiente angular 3 e intercepto-y igual a 5.

Consideremos a equação y = 5 + 3x, ilustrada na Figura 9.2. A reta intercepta o

eixo dos y’s no ponto em que y = 5. O coeficiente angular da reta é 3, o que

significa que cada unidade de variação de x, correspondem 3 unidades de

variação de y. Podemos usar a equação para determinar valores de y

correspondentes a valores de x, como se vê na tabela que segue. A técnica de

levar valores de x na equação matemática e resolver em relação a y é usualmente

preferível à leitura de valores no gráfico, porque proporciona um grau de precisão

muito mais elevado. Não obstante, os gráficos são importantes porque criam uma

imagem mental do relacionamento. Além disso, na fase inicial da análise, podem

auxiliar a decidir se determinada relação linear é apropriada.

Valor de x y = 5 + 3x Valor calculado de y

2 5 + 3(2) = 11 3,1 5 + 3(3,1) = 14,3 7,2 5 + 3(7,2) = 26,6

114

7.1.2. Decisão por um Tipo de Relação

É importante ter em mente que nem todas as situações são bem aproximadas por

uma equação linear. Por isso, em geral é necessário desenvolver um trabalho

preliminar para determinar se um modelo linear é adequado. O processo mais

simples consiste em grafar os dados e ver se uma relação linear parece razoável.

Observem os gráficos a seguir (Figura 32) e decidam por si mesmos se os

gráficos (b) e (C) são lineares.

Quando os dados não podem ser aproximados por um modelo linear, as

alternativas são procurar um modelo não-linear7 conveniente, ou transformar os

dados para a forma linear. Por exemplo, a conversão de uma ou de ambas as

escalas em logaritmos dá por vezes um modelo linear. Isto provavelmente

ocorreria com dados da Figura 9.3(a).

(a) (b)

(c) (d)

(a) (b)

(c) (d) Figura 32 - Nem toda relação entre duas variáveis é linear. Os pontos em (b) e (c) parecem

dispor-se segundo um padrão linear, o que não ocorre com (a) e (d).

7 Estes serão mencionados rapidamente aqui. Maiores detalhes poderão ser encontrados em livros mais avançados.

115

7.2. Determinação da Equação Matemática

Voltemos agora nossa atenção para a mecânica da determinação da equação de

uma reta que melhor descreva um conjunto de observações. Por exemplo,

suponha-se que queiramos determinar se alguma relação entre a quilometragem

de um carro usado e seu preço de venda.

y

x(a)

(b)

y

x

0 100 200 300 400 500

5

10

15

- 2

2

4

8

12

10

6

0

y

x(a)

(b)

y

x

0 100 200 300 400 500

5

10

15

- 2

2

4

8

12

10

6

0

Figura 33

Isto é, queremos saber se o preço depende da quilometragem do carro. Em

linguagem de regressão, a quilometragem seria a variável independente, ou

“explanatória”, e o preço de venda a variável dependente, ou “explicada”. É

tradicional usar o símbolo x para representar valores da variável independente e o

símbolo y para valores da variável dependente.

Na regressão, os valores y são preditos com base em valores dados ou

conhecidos de x. A variável y é chamada variável dependente, e a variável x

variável independente.

Suponha-se que tenhamos coligado dados de vendedores de caros da área,

sobre quilometragem e preços de carros de 1975 de certa marca e com

determinado equipamento (condicionamento de ar, toca-fitas, etc.). Os dados

116

amostrais, que poderiam se originar de uma amostra aleatória de vendedores da

região, se apresentariam mais ou menos como os dados a seguir (Tabela 27).

Tabela 27 - Dados Amostrais Hipotéticos: Quilometragem e Preço de Venda de Carros.

i Observação

ix Quilometragem (1000’s)

iy Preço de venda

1 40 1000 2 30 1500 3 30 1200 4 25 1800 5 50 800 6 60 1000 7 65 500 8 10 3000 9 15 2500

10 20 2000 11 55 800 12 40 1500 13 35 2000 14 30 2000

Para simplificar, foram arredondados a quilometragem e o preço. E embora fosse

mais realista incluir detalhes como condição do carro (ferrugem, amassados, etc.),

cor, e localização do vendedor, para fins de ilustração da técnica de determinação

da equação incluímos apenas a quilometragem.

Os dados da tabela estão grafados na figura a seguir (Figura 34) a fim de

decidirmos se uma reta descreve adequadamente os dados. Conquanto seja

evidente a impossibilidade de achar uma reta que passe por cada um dos pontos

do diagrama, parece que uma relação linear é razoavelmente consistente com os

dados amostrais.

Preç

o de

ven

da (0

00)

Quilometragem (000)

x

y

0 10 20 30 40 50 60 70

1

2

3

Preç

o de

ven

da (0

00)

Quilometragem (000)

x

y

0 10 20 30 40 50 60 70

1

2

3

Figura 34 - Os dados parecem sugerir uma relação linear entre quilometragem e preço de

venda.

117

7.3. O Método dos Mínimos Quadrados

O método mais usado para ajustar uma linha reta a um conjunto de pontos é

conhecido como técnica dos mínimos quadrados. A reta resultante tem duas

características importantes: (1) a soma dos desvios verticais dos pontos em

relação à reta é zero, e (2) a soma dos quadrados desses desvios é mínima (isto

é, nenhuma outra reta daria menor soma de quadrados de tais desvios).

Simbolicamente, o valor que é minimizado é:

2)(∑ − ci yy

onde

iy = um valor observado y

cy = o valor de y utilizando-se a equação de mínimos quadrados com valor de x

correspondente a iy

Os valores de a e b para a reta cy = a + bx que minimiza a soma dos quadrados

dos desvios são as soluções das chamadas “equações normais”:

∑ ∑+=y

xbna )(

)()( 2∑ ∑∑ +xy

xbxa

Onde n é o número de pares de observações. Assim, obtendo-se as quantidades

∑x, ∑xy

etc., poderíamos resolver essas equações simultâneas em relação a

a e b. Todavia, as equações podem ser resolvidas algebricamente em relação a a

e b, e isto proporciona uma forma muito mais simples. O resultado consiste em

duas fórmulas, uma para a e uma para b, usadas para fins de cálculo:

∑∑∑∑∑

−= 22 )()(

))(()(xxnyxxyn

b

nxby

a ∑∑ −=

118

Podemos usar o método dos mínimos quadrados para obter uma reta para o

exemplo quilometragem versus preço de venda. Das equações acima é evidente

que, para determinar a equação linear, devemos primeiro calcular. ∑x, ∑y

,

∑ 2x e ∑xy Tais valores se determinam a partir dos dados amostrais. Calcula-

se também uma quantidade adicional. ∑ 2y , para uso posterior. Note-se que n =

14 pares de observações. Veja os cálculos na tabela (Tabela 28).

Da tabela temos:

56,38525.50

000.948.1025.255550.305

000.908.10000.960.8)505()825.21(14

)600.21)(505()000.640(142 −=

−=

−−

=−

−=b

934.214

4,979.4014

)505)(56,38(600.21)(==

−−=

−= ∑∑

nxby

a

Tabela 28 - Cálculos para os dados.

Observação

Quilometragem

(em 1.000) x

Preço de venda em $

y xy x2 y2

1 40 1.000 40.000 1600 1.000.000 2 30 1.500 45.000 900 2.250.000 3 30 1.200 36.000 900 1.440.000 4 25 1.800 45.000 625 3.240.000 5 50 800 40.000 2.500 640.000 6 60 1.000 60.000 3.600 1.000.000 7 65 500 32.500 4.225 250.000 8 10 3.000 30.000 110 9.000.000 9 15 2.500 37.500 225 6.250.000

10 20 2.000 40.000 400 4.000.000 11 55 800 44.000 3.025 640.000 12 40 1.50 60.000 1.600 2.250.000 13 35 2.000 70.000 1.225 4.000.000 14 30 2.000 60.000 900 4.000.000

∑ x = 505 ∑ y =21.600

∑ xy =640.000

∑ 2x =21.825

∑ 2y =39.960.000

A equação de regressão resultante, yc = a + bx, e então

yc = 2.934 – 38,56x

A equação pode ser interpretada da seguinte maneira. O preço de venda

esperado para um carro 1975 é $2.934 menos $38,56 para cada mil milhas que o

carro tenha rodado. Por exemplo, para um carro com 20.000 milhas rodadas, a

119

equação sugere um preço de venda de $2.934 – 38,56(20) = $2.163.

É importante reconhecermos certos fatos relativos à equação de regressão. Um é

que se trata de uma relação média; assim, um carro com determinada

quilometragem não obterá necessariamente o preço de venda exato indicado pela

equação. Outro ponto importante é que seria muito arriscado extrapolar essa

equação para preços e quilometragem fora do âmbito dos dados.

Em outras palavras, embora tenhamos ficado razoavelmente convencidos,

mediante uma rápida inspeção dos dados, de que a relação era linear, isso não

nos autoriza a supor que carros com maior ou menor quilometragem apresentem

a mesma relação entre o preço e quilometragem.

A reta de regressão tem interessante propriedade de passar sempre pelo ponto

),( yx . Essa informação é útil para certos tipos de problema.

7.4. Análise de Correlação

O objetivo do estudo correlacional é a determinação da força do relacionamento

entre duas observações emparelhadas. O termo “correlação” significa literalmente

“co-relacionamento”, pois indica até que ponto os valores de uma variável estão

relacionados com os de outra. Há muitos casos em que pode existir um

relacionamento entre duas variáveis. Consideremos, por exemplo, questões como

estas:

% A idade e a resistência física estão correlacionadas?

% Pessoas de maior renda tendem apresentar melhor escolaridade?

% O sucesso num emprego pode ser predito com base no resultado de teste?

% A temperatura parece influenciar a taxa de criminalidade?

% Estudantes com maior capacidade de leitura tendem a obter melhores

resultados em cursos de matemáticas?

Problemas como esses se prestem à análise de correlação. O resultado de tal

120

análise é um coeficiente de correlação – um valor que quantifica o grau de

correlação. Nas páginas que seguem, o leitor aprenderá (1) as características

importantes dos coeficientes correlacionados, (2) processos computacionais, e

(3) como usar tais coeficientes para fazer inferências sobre relações numa

população. Consideremos três técnicas de correlação: uma para mensuração de

dados, uma para dados por postos, e uma para classificações nominais.

7.5. Dados Contínuos: O Coeficiente r de Pearson

A forma mais comum de análise de correlação envolve dados contínuos. O grau

de relacionamento entre duas variáveis contínuas é sintetizado por um

coeficiente de correlação conhecido como “r de Pearson”, em homenagem ao

grande matemático Karl Pearson, que desenvolveu a técnica. Essa técnica só é

válida se pudermos levantar certas hipóteses um tanto rígidas. As hipóteses são:

% Tanto x como y são variáveis aleatórias contínuas. Isto é, ao contrário da

análise de regressão, não se aceita selecionar certos valores de x e depois

avaliar y: tanto y como x devem variar livremente (isto é, ser considerados

“como são”).

% A distribuição de freqüência conjunta (isto é, a distribuição de valores dos

pares x, y) é normal. É o que se chama distribuição normal bivariada e acha-se

ilustrada abaixo (Figura 35).

x

f (x, y)

x

f (x, y)

Figura 35 - A análise de correlação supõe que x e y tenham uma distribuição conjunta de

freqüência que é normal.

121

7.5.1. Características de r

O coeficiente de correlação tem duas propriedades que caracterizam a natureza

de uma relação entre duas variáveis. Uma é o sinal (+ ou -) e a outra é sua

magnitude. O sinal é o mesmo que o do coeficiente angular de uma reta

imaginária que se “ajustasse” aos dados se fosse traçada num diagrama de

dispersão, e a magnitude de r indica quão próximos da “reta” estão os pontos

individuais. Por exemplo, valores de r próximos de -1,00 ou +1,00 indicam que os

valores estão muito próximos da reta, ou mesmo sobre a reta, enquanto que os

valores mais próximos de 0 sugerem maior dispersão. A Figura 9.7 ilustra esses

conceitos.

Mais precisamente, podemos dizer:

% O valor de r varia de -1,00 a +1,00: -1,00≤ r ≤1,00;

% Um relacionamento positivo (r é +) entre duas variáveis indica que a valores

altos (baixos) de uma das variáveis correspondem valores altos (baixos) da

outra;

% Um relacionamento negativo (r é -) significa que a valores altos (baixos) de

uma variável correspondem valores baixos (altos) da outra;

% Um relacionamento zero )0( ≈r indica que alguns valores altos estão em

correspondência com valores baixos e outros estão em correspondência com

valores altos;

% O sinal de r é sempre o mesmo sinal de b, o coeficiente angular de uma reta

imaginária ajustada aos dados. Note-se que não é necessário calcular esta

reta.

122

Valor de r Descrição do relacionamento linear Diagrama de dispersão

+ 1,00 Relacionamento positivo, perfeito

Cerca de + 0,70 Relacionamento positivo, moderado

0,00 Ausência de relacionamentos

Cerca de - 0,70 Relacionamento negativo, moderado

- 1,00 Relacionamento negativo, perfeito

y

x

y

x

y

x

y

x

y

x

Valor de r Descrição do relacionamento linear Diagrama de dispersão

+ 1,00 Relacionamento positivo, perfeito

Cerca de + 0,70 Relacionamento positivo, moderado

0,00 Ausência de relacionamentos

Cerca de - 0,70 Relacionamento negativo, moderado

- 1,00 Relacionamento negativo, perfeito

y

x

y

x

y

x

y

x

y

x

Figura 36 - Vários diagramas de dispersão e os valores correspondentes do coeficiente de

correlação.

7.5.2. Correlação Momento-Produto: Conceituação

O termo “momento-produto” descreve a maneira em que se combinam dados

emparelhados para obter o coeficiente de correlação. Para demonstrar o conceito,

consideremos o seguinte exemplo hipotético. Suponha-se que estejamos

interessados em saber se o desempenho do estudante na universidade está

relacionado com seu desempenho no curso secundário. Parece razoável que os

estudantes obtenham na universidade aproximadamente as mesmas notas que

obtiveram no curso secundário. Para avaliar isto, imaginemos 15 universitários

escolhidos aleatoriamente numa grande universidade, e comparemos suas

médias na universidade e no secundário. Os dados se apresentariam como os

exibidos a seguir (Tabela 29).

123

Tabela 29 - Dados Hipotéticos - Médias de 15 estudantes no Curso Secundário.

Número Estudante Secundário Classificação (%)

Universidade Classificação

1 Jim C. 80 1,0 2 Ed 82 1,0 3 Karen 84 2,1 4 Márcia 85 1,4 5 Peter 87 2,1 6 Beverly 88 1,7 7 Tom 88 2,0 8 Marc 89 3,5 9 Sid 90 3,1 10 Jim L. 91 2,4 11 Linda 91 2,7 12 Al 92 3,0 13 John 94 3,9 14 Susan 96 3,6 15 Ann Marie 98 4,0

Se existe forte relacionamento entre as médias no secundário e as médias na

universidade, a universidade pode incorporar tal estudo ao seu processo de

seleção. Ou então poderá utilizar a informação para estabelecer programas

corretivos.

Um primeiro passo, extremamente útil, na análise de dados desse tipo consiste

em construir um diagrama de dispersão, porque proporciona uma visualização do

relacionamento. Entre outras coisas, tal gráfico pode revelar se a reação linear é

concebível. Constrói-se o gráfico tomando um valor x (classif. no secundário) e

um valor y (classif. na universidade) para cada estudante. Nosso gráfico parece

indicar que existe uma relação positiva moderada, pois em geral médias baixas

no secundário parecem estar associadas a médias baixas na universidade,

enquanto que médias altas no secundário e na universidade parecem

corresponder-se, embora haja algumas exceções.

Não é de surpreender a constatação desse relacionamento. Na realidade, seria

de esperar um relacionamento ainda mais forte. Detenhamo-nos, pois, por um

momento, para refletir por que não há um relacionamento positivo perfeito. Entre

as explicações mais plausíveis estão as seguintes:

124

Cla

ssifi

caçã

o un

iver

sida

de

Classificação secundário (%)

0

1,0

2,0

3,0

4,0

80 85 90 95 100

Cla

ssifi

caçã

o un

iver

sida

de

Classificação secundário (%)

0

1,0

2,0

3,0

4,0

80 85 90 95 100

Figura 37 - Diagrama de dispersão das classificações de 15 estudantes no secundário e na

universidade.

% Os estudantes quase certamente provêm de diferentes cursos secundários,

com diferentes critérios de avaliação;

% A motivação e a capacidade podem modificar-se com o decorrer do tempo;

% Os programas universitários diferem, tanto na dificuldade como nos critérios de

avaliação;

% Há, sem dúvida, alguma avaliação aleatória.

É prudente construir um diagrama de dispersão dos dados sempre que for

possível. A visualização é especialmente útil na exploração de dados. Não

obstante, a menos que haja perfeito relacionamento entre as duas variáveis, é

necessário apelar para os métodos de cálculo, a fim de obter uma estatística que

sintetize o grau do relacionamento.

Nosso objetivo é saber se a situação relativa de um estudante num grupo está

relacionada com sua situação relativa no outro grupo de escores. É possível

medir a posição relativa de qualquer escore num grupo de escores em termos da

média e do desvio padrão do grupo. Isto é, subtraindo-se a média do grupo,

obtemos a posição de cada valor em relação aos outros valores do grupo. Isto, na

realidade, padroniza os escores e tem a propriedade de tornar comparáveis os

grupos de escores, mesmo que as médias ou desvios padrões grupais sejam

125

diferentes. Veja (Tabela 30) o processo de padronização para nossos dois

conjuntos de escores.

Esses escores padronizados podem agora ser usados para determinar uma cifra

que meça a situação combinada (isto é, posição relativa em grupos), calculando-

se o produto dos dois escores padronizados para cada estudante. Por exemplo,

se existe um relacionamento positivo entre os dois conjuntos de escores, então

escores elevados serão emparelhados com escores elevados, e escores baixos

com escores baixos. Além disso, o produto desses pares refletirá um

relacionamento positivo, pois eles tendem a ser positivo. Se há um

relacionamento negativo, o emparelhamento se dará entre escores altos e baixos,

dando produtos negativos (Figura 38).

Tabela 30 - Padronização dos Escores.

Escores x (secundário)

589==

xsx

Escores y (universidade)

0,15,2

==

ysy

Número Estudante xi (xi - x )zx

(xi - x )/sxyi (yi - y )

zy (yi - y )/sy

1 Jim C. 80 -9 -1,8 1,0 -1,5 -1,5 2 Ed 82 -7 -1,4 1,0 -1,5 -1,5

3 Karen 84 -5 -1,0 2,1 -0,4 -0,4 4 Márcia 85 -4 -0,8 1,4 -1,1 -1,1 5 Peter 87 -2 -0,4 2,1 -0,4 -0,4 6 Beverly 88 -1 -0,2 1,7 -0,8 -0,8 7 Tom 88 -1 -0,2 2,0 -0,5 -0,5 8 Marc 89 0 0 3,5 +1,0 +1,0 9 Sid 90 +1 +0,2 3,1 +0,6 +0,6 10 Jim L. 91 +2 +0,4 2,4 -0,1 -0,1 11 Linda 91 +2 +0,4 2,7 +0,2 +0,2 12 Al 92 +3 +0,6 3,0 +0,5 +0,5 13 John 94 +5 +1,0 3,9 +1,4 +1,4 14 Susan 96 +7 +1,4 3,6 +1,1 +1,1 15 Ann Marie 98 +9 +1,8 4,0 +1,5 +1,5

0 0

126

Quadrante1234

xx −+--+

yy −é é+--+

)yy)(xx( −− é

+--+

Quadrante1234

xx −+--+

yy −é é+--+

)yy)(xx( −− é

+--+

Figura 38

O coeficiente de correlação será a média desses produtos. Logo, o processo é o

seguinte:

% Converter os escores de cada grupo em escores padronizados;

% Determinar o produto de cada par de escores padronizados;

% Somar os produtos;

% Determinar o produto médio.

A média se obtém somando-se os produtos e dividindo-se a soma por n - 1 em

lugar de n, pela mesma razão que determina que se utilize n – 1 no desvio

padrão. Nossa fórmula será então:

1−= ∑

nyx

rzz

Os cálculos necessários para os escores de curso secundário e universitário

podem ser vistos a seguir (Tabela 31).

127

Tabela 31 - Cálculos para r usando os Escores Padronizados.

Número Estudante zy zx zz x y 1 Jim C. -1,5 -1,8 +2,702 Ed -1,5 -1,4 +2,103 Karen -0,4 -1,0 +0,404 Márcia -1,1 -0,8 +0,885 Peter -0,4 -0,4 +0,166 Beverly -0,8 -0,2 +0,167 Tom -0,5 -0,2 +0,108 Marc +1,0 0 0,00 9 Sid +0,6 +0,2 +0,1210 Jim L. -0,1 +0,4 -0,04 11 Linda +0,2 +0,4 +0,0812 Al +0,5 +0,6 +0,3013 John +1,4 +1,0 +1,4014 Susan +1,1 +1,4 +1,5415 Ann Marie +1,5 +1,8 +2,70

12,60

7.5.3. Interpretação de r

Nosso objetivo ao calcular o valor de r foi determinar se havia algum

relacionamento estatístico entre a situação do estudante no curso secundário e

sua situação do estudante no curso secundário e sua situação na universidade.

Encontramos r = + 0,90. O sinal + nos diz que existe um relacionamento positivo

entre os dois conjuntos de escores. Como sabemos que r tem um limite superior

de + 1,00, o resultado parece sugerir que as duas variáveis estejam estreitamente

relacionadas. Todavia, o valor de r pode ser enganoso. Na realidade, uma

estatística mais significativa é 2r , o coeficiente de determinação8, que dá a

percentagem de variação numa variável que é “explicada” estatisticamente pela

variação na outra variável. Por exemplo, neste caso, com.r = + 0,90, 2r = 0,81 o

que significa que 81% da variação dos pontos em torno das duas médias grupais

pode-se explicar pelo relacionamento entre as duas variáveis. Inversamente, 1 - 2r ou 19% da variação, não se pode explicar pelo relacionamento, e assim

devemos considerá-los como devidos a outros fatores não incluídos no estudo.

Algumas possibilidades são as motivações, métodos de avaliação, etc.

8 É o mesmo 2r mencionado em relação à variação numa reta de regressão.

90,014

60,121

+=+

=−

= ∑n

yxz

zz

128

7.5.4. Processo Prático para o Cálculo de r

A discussão precedente do coeficiente de correlação nos deu uma base intuitiva

para a correlação. Todavia, do ponto de vista prático, a técnica de padronização

das observações não é útil em vista do tempo necessário para os cálculos,

especialmente a subtração das médias grupais de cada observação e sua

elevação ao quadrado. Felizmente, há uma versão mais conveniente da fórmula,

que simplifica os cálculos, embora, à primeira vista, possa parecer trabalhosa:

∑ ∑∑∑∑ ∑∑

−⋅−

−=

2222 )()()()(

))(()(

yynxxn

yxxynr

Os cálculos necessários para a determinação de r por esse processo constam da

Tabela 9.6. Mesmo com esta fórmula, os cálculos são bastante longos.

Tabela 32 - Cálculos para obtenção de r.

Número Estudante xi

(secund.) yi

(univers.) xiyi

2ix 2

iy

1 Jim C. 80 1,0 80,0 6.400 1,00 2 Ed 82 1,0 82,0 6.724 1,00 3 Karen 84 2,1 176,4 7.056 4,41 4 Márcia 85 1,4 119,0 7.225 1,96 5 Peter 87 2,1 182,7 7.569 4,41 6 Beverly 88 1,7 149,6 7.744 2,89 7 Tom 88 2,0 176,0 7.744 4,00 8 Marc 89 3,5 311,5 7.921 12,25 9 Sid 90 3,1 279,0 8.100 9,61 10 Jim L. 91 2,4 218,4 8.281 5,76 11 Linda 91 2,7 245,7 8.281 7,29 12 Al 92 3,0 276,0 8.464 9,00 13 John 94 3,9 366,6 8.836 15,21 14 Susan 96 3,6 345,6 9.216 12,96 15 Ann Marie 98 4,0 392,0 9.604 16,00

∑ ix =1335 ∑ iy =37,5 ∑ xy =3.400,5 ∑ 2ix =119.115 ∑ 2

iy =107,75

As calculadoras de bolso e de mesa eliminam boa parte do trabalho, mas o

processo mais realista para o cálculo de r consiste em utilizar programas de

computador, quando pudermos dispor deles.

Há, com efeito, três maneiras alternativas de obter o valor de r: padronizar cada

conjunto de escores e achar o produto médio, usar a fórmula, ou calcular o

coeficiente de determinação 2r e achar a raiz quadrada. Para certo conjunto de

129

dados, todos os três métodos dão o mesmo valor de r. Não obstante, cada

processo acrescenta algo ao nosso entendimento do significado do termo

“correlação”. A Tabela 9.7 dá uma rápida comparação dos três métodos.

Tabela 33 - Três Métodos Alternativos para a Obtenção de r.

Método Comentário

)/(1 22ye ssr −=

A correlação em termos de regressão. O sinal de r é o mesmo sinal de b. A correlação está relacionada inversamente com a dispersão, mais alta a correlação. Utilizar n – 2 no cálculo de 2

ys .

Valores padronizados A correlação mede o relacionamento entre duas variáveis com a média e o desvio padrão de cada variável “equalizados”.

∑ ∑∑∑∑ ∑∑

−⋅−

−=

2222 )()()()( yynxxn

yxxynr Mais adequado para o cálculo mecânico.

130

8. REFERÊNCIAS BIBLIOGRÁFICAS

1 FONSECA, J. S. e MARTINS, G. A. (1996). Curso de estatística. São Paulo:

Atlas. 6ª edição.

2 STEVENSON, W. J. (1986). Estatística aplicada à administração. São

Paulo: Harbra.

131

Anexos

132

z Área entre a

média e z 1,00 0,3413 1,50 0,4332 2,13 0,4834 2,77 0,4972

Z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,00 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,03590,10 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,07530,20 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,11410,30 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,15170,40 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,18790,50 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,22240,60 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,25490,70 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,28520,80 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,31330,90 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,33891,00 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,36211,10 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,38301,20 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,40151,30 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,41771,40 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,43191,50 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,44411,60 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,45451,70 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,46331,80 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,47061,90 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,47672,00 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817