Apostila de estatística

70
ESTATÍSTICA Regiane Slongo Fagundes Cascavel - 2011 FACULDADE ASSIS GURGACZ FACULDADE ASSIS GURGACZ FACULDADE ASSIS GURGACZ FACULDADE ASSIS GURGACZ – FAG FAG FAG FAG Avenida das Torres, 500 – Fone: (45) 321-3900 Fax: (045) 321-3913 CEP: 85802-640 – Cascavel – Paraná Email: [email protected]

Transcript of Apostila de estatística

Page 1: Apostila de  estatística

ESTATÍSTICA

Regiane Slongo Fagundes

Cascavel - 2011

FACULDADE ASSIS GURGACZ FACULDADE ASSIS GURGACZ FACULDADE ASSIS GURGACZ FACULDADE ASSIS GURGACZ –––– FAG FAG FAG FAG

Avenida das Torres, 500 – Fone: (45) 321-3900 Fax: (045) 321-3913 CEP: 85802-640 – Cascavel – Paraná

Email: [email protected]

Page 2: Apostila de  estatística

PARTE I

Introdução á Estatística

A estatística é um processo que permite a análise e a interpretação de dados provenientes de uma ou mais amostras, com o objetivo de inferir características de populações. Sendo aplicável a qualquer ramo do conhecimento onde se manipulam dados experimentais.

1. O Crescimento e o Desenvolvimento da Estatística Moderna Historicamente, o crescimento e o desenvolvimento da estatística moderna podem

ser relacionados a três fenômenos isolados – a necessidade do governo de coletar dados sobre os cidadões, o desenvolvimento da teoria da probabilidade e o advento da informática.

Dados têm sido coletados através de toda a história. Nas civilizações Egípcias, Grega e Romana, dados primários eram coletados com propósito de taxações e finalidades militares. Na idade Média, igrejas registram dados e informações sobre nascimentos, mortes e casamentos. Nos Estados Unidos, a Constituição de 1790 determinava a realização de censo a cada 10 anos. Atualmente, informações numéricas são necessárias para cidadões e organizações de qualquer natureza, e de qualquer parte do globo.

2. Estatística Descritiva versus Inferência Estatística A estatística pode ser dividida em duas partes:

2.1 - Estatística Descritiva Ocupa-se da organização, sumarização e descrição de um conjunto de dados. Esta análise serve como um primeiro guia ao pesquisador, fornecendo informações sobre a qualidade de seus dados e indicando algumas tendências (se existirem) e, em geral, não tem um fim em si própria, exceto o caso do censo.

2.2 - Estatística Inferencial É uma etapa da estatística que cuida da coleta, redução, análise, modelagem e interpretação dos dados. O objetivo da estatística inferencial (ou indutiva) é o de tirar conclusões com base nos resultados observados em amostras extraídas dessas populações. O próprio termo “indutiva” decorre da existência de um processo de indução, isto é, um processo de raciocínio e que partindo-se do conhecimento de uma parte, procura-se tirar conclusões sobre a realidade no todo.

3. Pesquisa Estatística Pesquisa é um conjunto de atividades orientadas para a busca de um

determinado conhecimento. Para merecer qualificativo de científica a pesquisa deve ser feita de modo sistematizada, utilizando para isto métodos próprios e técnicas específica. A pesquisa científica se distingue de outras modalidades quaisquer de pesquisa pelo método, pela técnica, por estar voltada para a realidade empírica e pela forma de comunicar o conhecimento.

3.1 – Finalidade da Pesquisa

• Descobrir respostas para questões, mediante a aplicações de métodos científicos;

Page 3: Apostila de  estatística

• Tentar conhecer e explicar fenômenos que ocorrem no mundo existente. 3.2 – Tipos de Pesquisas 3.2.1 Pesquisa de Reconhecimento ou “Survery”

• estudo de opinião, mercado e diagnóstico

3.2.2 Pesquisa Bibliográfica

• Procura material já elaborado

3.2.3 Pesquisa documental

• Coleta de informações a partir de documentos quantitativos tais como arquivos públicos e privados, imprensa, revistas, etc.

3.2.4 Pesquisa Experimental

• Experiências realizadas em laboratórios, fábricas, parcelas de terras. É utilizado o Delineamento de Experimento e Controle de Qualidade.

3.3 – Etapas de uma Pesquisa Estatística

Cada uma essas passagens merece um estudo aprofundado e tem características próprias.

3.3.1 - População É o conjunto de interesse final para a pesquisa. Em geral é o conjunto do qual a amostra é retirada.

3.3.2 - Amostra Chamaremos de amostra qualquer subconjunto da população de interesse, quer

os dados tenham sido coletados de um estudo observacional, quer sejam provenientes de um experimento realizado sob certas condições de controle.

3.3.3 - Tratamento dos Dados Conjunto de técnicas usadas para descrever os dados observados.

3.3.4 - Inferência

Conjunto de métodos que permitem inferir o comportamento de uma população a partir do conhecimento da amostra

3.3.5 - Cálculo de Probabilidade

Teoria matemática que deduz a partir de um modelo, as propriedades de um fenômeno aleatório.

Determinar os Objetivos: Para que?

população amostra Tratamento dos dados

inferência

Page 4: Apostila de  estatística

4 Terminologia Estatística

População Amostra Unidade experimental

4.1 - Unidade experimental ou de Análise É o objeto ou indivíduo que será estudado na população, e sobre os quais obtêm-se os dados.

4.2 - Dados É o valor ou resposta que toma a variável em cada unidade experimental. É o resultado de uma observação. É a matéria prima da estatística.

4.3 - Variável É uma característica observável, susceptível de adotar distintos valores ou ser expresso em várias categorias. Variáveis: • Idades; • Sexo; • Série; • Horas de estudo; • Horas de treino; etc...

4.4 Informação É o resultado dos dados processados (ou organizados) de acordo com certos objetivos.

4.5 - Estatística É qualquer função dos dados empíricos* que é usada com fins descritivos ou analíticos. É uma medida resumo dos dados. *Dados Empíricos: baseado apenas na experiência, e não no estudo.

4.6 - Parâmetros São as características mais importantes da população. Comumente são desconhecidas. 5 Classificação Das Variáveis

Qualitativas Quantitativas

Nominais Ordinais Discretas Contínua

Page 5: Apostila de  estatística

5.1 - Variáveis qualitativas São características cujos dados não são numéricos, isto é, são apresentados como uma qualidade ou atributo. Ex: Sexo, estado civil, nível de escolaridade.

5.1.1 - Nominal Não existe nenhuma ordenação ou hierarquia nos possíveis resultados. Ex: sexo, estado civil, região de procedência.

5.1.2 - Ordinal Existe uma certa ordem ou hierarquia nos possíveis resultados. Ex: Nível de escolaridade, nível de satisfação. 5.2 - Variáveis Quantitativas É uma característica em estudo cujos resultados se referem a quantidades, isto é, são medidas numa escala numérica. Ex: idade, salário, número de filhos, etc.

5.2.1 - Discretas Cujos resultados se referem a dados que podem assumir valores inteiros (IN). Ex: idade, número de pessoas, número de filhos por família, etc. 5.2.2 - Contínuas São dados que podem assumir qualquer valor de um conjunto de números reais (IR). Ex: peso, altura, consumo mensal de energia, etc.

Page 6: Apostila de  estatística

MODELO DE UM QUESTIONÁRIO Esperamos beneficiar à você através de um estudo que estamos realizando para conhecer suas preferências na escolha de supermercado, gostaríamos que nos auxiliasse respondendo as seguintes perguntas: 1. – Sexo 1( ) Masculino 2 ( ) Feminino 2. – Idade ___________ anos 3. – Estado Civil: 1( ) Solteiro (a) 4 ( ) Divorciado 2 ( ) Casado (a) sem filhos 5 ( ) Outros ___________________ 3 ( ) Casado (a) com filhos 4. – Nível Escolar 1 ( ) Sem instrução 5 ( ) Ensino Médio completo 2( ) Ensino Fundamental Incompleto 6 ( ) Ensino Superior Incompleto 3 ( ) Ensino Fundamental completo 7 ( ) Ensino Superior completo 4 ( ) Ensino Médio Incompleto 8 ( ) Outros _____________ 5. – Número de Pessoas que Moram com você _________ 6. – Renda Mensal da Família ______________ 7. – Com que freqüência você visita um supermercado 1 ( ) Diariamente 4 ( ) Mensalmente 2 ( ) Semanalmente 5 ( ) Outros ______ 3 ( ) Quinzenalmente 8. – Quantos mercados diferentes você visita em suas compras? _____________ 9. – Quanto da sua renda você gasta em suas comprar mensais de supermercado? 1 ( ) menos de 25% da renda 3 ( ) acima de 50% até 75% da renda 2 ( ) de 25% até 50% da renda 4( ) acima de 75% da renda 10. – Ao escolher um supermercado você observa: 10.1 ( ) A tradição da empresa 10.2 ( ) Propaganda 10.3 ( ) Higiene 10.4 ( ) Atendimento 10.5 ( ) Diversificação de produtos 10.6 ( ) Preços 10.7 ( ) Tamanho da Loja 10.8 ( ) Prazos 10.9 ( ) Distância 10.10 ( ) Promoções

1 ( ) sim 2 ( ) não 1 ( ) sim 2 ( ) não 1 ( ) sim 2 ( ) não 1 ( ) sim 2 ( ) não 1 ( ) sim 2 ( ) não 1 ( ) sim 2 ( ) não 1 ( ) sim 2 ( ) não 1 ( ) sim 2 ( ) não 1 ( ) sim 2 ( ) não 1 ( ) sim 2 ( ) não

11. – O atendimento no supermercado em que você compra freqüentemente é: 1 ( ) Insatisfatório 3 ( ) Muito Satisfatório 2 ( ) Médio Satisfatório 4 ( ) Satisfatório

Page 7: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 7

PARTE II

Análise Exploratória Dos Dados ou Estatística Descritiva

1. Introdução

A Estatística Descritiva é a fase na qual os dados de um experimento ou

pesquisa, são organizados, resumidos, descritos, apresentados e interpretados. Esta fase é de grande importância para uma pesquisa, pois nela, podemos perceber as tendências do nosso conjunto de dados. Após a coleta dos dados experimentais, devemos organizá-los e apresentá-los; esta apresentação, pode ser feita através de tabelas e gráficos.

2. Tabelas de distribuição de freqüências

As apresentações através de tabelas deverão ser realizadas em uma pesquisa, mediante alguma convenção ou norma, dependendo de qual instituição, congresso ou órgão, esta tabela será apresentada. Mas alguns princípios básicos podem ser utilizados, segundo as normas do IBGE (Instituto Brasileiro de Geografia e Estatística): - Título: aonde é dada uma noção inicial ao leitor sobre o que é a tabela; - Cabeçalho: para que sejam identificados os conteúdos referentes a cada coluna da

tabela. O cabeçalho deve conter o suficiente para responder as questões: o que está sendo representado? onde ocorreu ? Quando ocorreu?

- Coluna Indicadora: que especifica as diferentes categorias da variável; - Corpo: é representado por colunas e subcolunas dos quais são registrados os dados

numéricos e informações. - Rodapé ou pé: onde é identificada a fonte original dos dados, ou alguma nota

referente a tabela. Exemplo:

Tabela 01: Casos registrados de intoxicação humana segundo a causa determinante. Brasil, 1993

Causa Freqüência Acidente 29.601 Abuso 2.604 Suicídio 7.965 Profissional 3.735 Outras 1.959 Ignorada 1.103

Fonte: Mensário Estatístico 259/260 Observação: Não há linhas laterais, ponto final em cada linha e linhas horizontais no

corpo da tabela separando as linhas.

Page 8: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 8

2.1 - Tabela de distribuição de freqüências Uma tabela de distribuição de freqüências é composta, além dos itens citados acima:

- Freqüência absoluta ( fi ): é o número de vezes em que cada elemento aparece na

amostra ou população. Na tabela acima, esta freqüência absoluta está sendo expressa pela “empresas fiscalizadas”.

- Freqüência Absoluta Acumulada (Fi): É a soma das freqüências dos dados

anteriores. - Freqüência Relativa (hi): É a razão entre o valor de cada freqüência e o número

total de dados existentes na observação. Ou seja: n

f=h

i

i

- Freqüência Relativa Acumulada (Hi): É a soma das freqüências relativas dos

dados anteriores.

As tabelas de distribuição de freqüências são válidas para variáveis quantitativas e qualitativas. Mas quando há um número grande de dados para a distribuição de freqüências, ou quando a variável de interesse é quantitativa contínua, convém utilizarmos intervalos (ou classes); estes intervalos podem ser de igual tamanho, ou de tamanho diferentes. Ou ainda, os intervalos podem ser abertos ou fechados.

Segundo Bussab e Morettin, a escolha dos intervalos dependerá da familiaridade do pesquisador com os dados. Mas, vale assinalar que, com um pequeno número de intervalos pode-se perder informações, e com um grande número de intervalos pode-se prejudicar o resumo dos dados. Entretanto, segundo Fonseca, há duas aparentes soluções para a definição do número de intervalos: a) Se o número de elementos (n) for menor que 25 então o número de classes (k) é

igual a 5; se n for maior que 25, então o número de classes é aproximadamente a raiz quadrada positiva de n. Ou seja:

Para n ≤ 25, k = 5

Para n > 25, K = n b) Fórmula de Sturges: k ≅ 1 + 3,33 log n. - Amplitude total ou “range” (R ): É a diferença entre o maior e o menor valor observados no conjunto de dados. - Amplitude dos intervalos ou das classes (h): É o maior inteiro da divisão da amplitude total (R) pelo número de intervalos (k).

Ou seja: h ≅k

R

Page 9: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 9

2.2 - Tabela de distribuição de freqüências bidimensional

Muitas vezes, estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis. Assim, vamos estudar como organizamos e resumimos os dados para uma distribuição conjunta de duas variáveis em forma de tabelas. Essas tabelas podem apresentar freqüências relativas as quais servem para apresentar estimativas de riscos, ou seja, dão estimativas das probabilidades de dano.

O exemplo mostrado abaixo apresenta o número de nascidos vivos registrados, classificados segundo dois fatores: o ano de registro e o sexo. Tabela 02: Nascidos vivos registrados segundo o ano de registro e o sexo.

Ano de registro sexo Total Masculino Feminino

1984 1.307.758 1.251.280 2.559.038 1985 1.339.059 1.280.545 2.619.604

1986 1.418.050 1.361.203 2.779.253

Fonte: IBGE (1988) Nota: Nascimentos ocorridos no ano de registro

ATIVIDADE DESENVOLVIDA EM SALA DE AULA

1. Os dados a seguir determinam a produção de sacas/ha de soja em determinada região.

Tabela 01-Produção de sacas/ha 67 65 68 67 67 64 69 66 66 66

68 71 67 67 70 65 65 66 70 64

67 68 66 68 64 65 67 66 69 68

65 69 68 67 68 67 67 67 66 66

Organize os dados e construa uma tabela de distribuição de freqüência e o histograma

da produção.

2. Os dados a seguir representam a idade 50 funcionários selecionados aleatoriamente da população de uma agroindústria X. 3.

Tabela 02-Idades de 50 funcionários(colocados em ordem crescente) 18 20 20 21 22 24 25 25 26 27

29 29 30 30 31 31 32 33 34 35

36 36 37 37 37 37 38 38 38 40

41 43 44 44 45 45 45 46 47 48

49 50 51 53 54 54 56 58 62 65

Organize os dados e construa uma tabela de distribuição de freqüência e o histograma

da produção.

Page 10: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 10

3. Representação Gráfica para Variáveis Qualitativas e Quantitativas A apresentação dos dados através de gráficos, nos fornece uma excelente idéia dos

resultados obtidos e de como se relacionam os dados. Todo gráfico ou diagrama deve ser auto-explicativo e de fácil compreensão, devem ter três requisitos básicos: simplicidade, clareza e veracidade. Mas algumas sugestões devem ser seguidas na sua construção: - O tamanho do gráfico deve ser adequado à sua publicação;

- Todo gráfico dever ter sempre um título e uma escala, sendo que, esta escala deve

ser adequada para que não desfigure os fatos.

3.1 Representação gráfica de variáveis qualitativas

Para a representação gráfica de variáveis qualitativas, os tipos de gráficos mais usados são: gráficos de ordenadas, gráfico em barras, gráfico em colunas, pictograma, dot plot, gráfico de setores. • Gráfico de Ordenadas

Para a sua construção é traçada uma reta horizontal (ou vertical) que servirá de base; a partir de pontos com a mesma distância nesta reta, constroem-se traços perpendiculares, cujo comprimento seja proporcional a freqüência. • Gráfico em Barras

O gráfico em barras é a representação em que sobre o eixo vertical constroem-se retângulos para as diferentes categorias da nossa variável, com largura apropriada e altura proporcional as respectivas freqüências de cada categoria. As barras não são justapostas ou ligadas, pois na maioria das vezes as categorias das variáveis qualitativas não apresentam relação de continuidade.

Tabela 04: Internações em estabelecimento de saúde, por espécie de clínica - 1992 Espécie de Clínica Freqüência Freqüência relativa (%)

Médica 6457923 32,51

Ginecologia e Obstetrícia 3918308 19,73

Cirurgia 3031075 15,26

Pediatria 2943939 14,82

Outros 3513186 17,69

Fonte: IBGE, Diretoria de Pesquisa, Pesquisa de Assistência Médico-Sanitária

Page 11: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 11

Figura 1: Internações em estabelecimento de saúde, por espécie de clínica - IBGE 1992.

• Gráfico em Colunas

A construção do gráfico em colunas é semelhante ao em barras, com uma única diferença, os retângulos serão sustentados no eixo horizontal.

Figura 2: Internações em estabelecimento de saúde, por espécie de clínica - IBGE 1992.

• Pictograma O gráfico pictograma é semelhante ao gráfico em colunas, com a diferença que no

lugar de retângulos serão figuras que representaram as distribuições de freqüência.

• Gráfico de Setores Circulares Geralmente este gráfico é usado para evidenciar a distribuição percentual de uma

população ou amostra. Para a construção deste tipo de gráfico, divide-se a área total de um círculo em subáreas (setores) proporcionais às respectivas freqüências absoluta ou relativa.

Lembrando que um círculo tem 360°, então usaremos a seguinte regra de três para calcularmos o ângulo de cada setor :

0

5

10

15

20

25

30

35

Médic

a

Gin

icolo

gia

e

Obstr

etr

ícia

Cirurg

ia

Pedia

tria

Outr

os

Fre

qu

ênci

a re

lati

va (

%)

0 5 10 15 20 25 30 35

Médica

Ginicologia e Obstretrícia

Cirurgia

Pediatria

Outros

Frequência relativa (%)

Page 12: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 12

n 360°

fi x° ⇒ x° = n

fi⋅360

Onde n é o total de elementos no conjunto de dados e fi a respectiva freqüência

absoluta da categoria da variável. Para calcularmos o ângulo para a freqüência relativa, basta substituirmos o total de elementos pelo número 1.

Sabendo-se o ângulo de cada setor, traça-se uma circunferência e assim, basta marcarmos os valores da cada ângulo na circunferência e traçar os raios, separando os setores.

Figura 3: Internações em estabelecimento de saúde, por espécie de clínica - IBGE 1992.

• Dot Plot

É o gráfico onde, no eixo horizontal marca-se com espaçamentos iguais cada categorias da variável e verticalmente a estas, desenha-se pontos, sendo que, a quantidade de pontos em cada categoria é igual ao valor da freqüência absoluta desta. Este gráfico não é usual e é recomendado apenas, quando as freqüências são pequenas.

32%

20%15%

15%

18%Médica

Ginicologia e

Obstretrícia

Cirurgia

Pediatria

Outros

Page 13: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 13

3.2 Representação gráfica de variáveis quantitativas

Alguns tipos de gráficos que construímos anteriormente: gráfico em colunas, em

barras, dot plot, de setores circulares também são usados para representar a distribuição de variáveis quantitativas. • Histograma

Este é um gráfico usado para apresentar dados organizados em intervalos, utilizado principalmente para representar a distribuição de variáveis contínuas.

Figura 4: peso ao nascer dos nascidos vivos, em quilogramas.

- Histograma para classes com amplitudes iguais

Para a sua construção, trace o sistema de eixo cartesiano; marque os extremos das classes no eixo horizontal (das abscissas); no eixo vertical (das ordenadas) marque as freqüências absolutas ou freqüências relativas; e para cada classe, trace um retângulo com base igual ao intervalo de classe e altura igual a freqüência. - Histograma para classes com amplitude diferentes

Para a sua construção, calcule a densidade de freqüência absoluta ou relativa.

h

fd i

i = ou h

hd i

i =

Trace um sistema de eixo cartesianos; marque os extremos de classes no eixo

horizontal; no eixo vertical marque a densidade e para cada classe, trace um retângulo com base igual ao intervalo da classe e altura igual a densidade de freqüência. • Polígono de freqüências É a representação gráfica de uma distribuição de freqüências por meio de um polígono.

Para a sua construção, trace o sistema de eixo cartesianos; marque os pontos médios de cada classe no eixo horizontal (ponto médio de um intervalo é a soma dos extremos do intervalo dividido por dois); no eixo vertical coloque as freqüências; faça

0

2

4

6

8

10

12

14

1,75 2,25 2,75 3,25 3,75 4,25 4,75 Mais

Peso a o na sce r

Fre

ênci

a

Page 14: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 14

pontos na intersecção do ponto médio de cada intervalo com sua respectiva freqüência; una todos estes pontos por segmentos de reta.

Figura 5: peso ao nascer dos nascidos vivos, em quilogramas.

• Ogiva

É o gráfico que representa a distribuição da freqüência absoluta acumulada. Sua construção é semelhante ao do polígono de freqüências, com a diferença que consideraremos a freqüência absoluta acumulada.

0

2

4

6

8

10

12

14

1,75 2,25 2,75 3,25 3,75 4,25 4,75 Mais

Pe so a o na sce r

Fre

ênci

a

Page 15: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 15

EXERCÍCIOS

1. A WW Indústria e Comércio, desejando melhorar o nível de sues funcionários em cargos de chefia, montou um curso experimental e indicou 25 funcionários para a primeira turma. Os dados referentes à seção a que pertencem, sexo, idade, notas e graus obtidos no curso estão na tabela a seguir:

Tabela 01 – Informações sobre a seção, sexo, idade e aproveitamento dos funcionários da indústria WW, nas disciplinas oferecidas durante o curso experimental. Funcionário

seção sexo idade

Administração

direito

redação

estatística

inglês

metodologia

política

economia

1 P M 25 8 9 8,0 9 A A 9,0 8,5 2 P M 45 8 9 7,5 9 A B 8,5 8,0 3 P M 43 8 9 9,5 9 A A 9,5 8,5 4 P M 32 6 9 5,0 6 B B 7,0 7,0 5 P F 30 9 9 10,0 10 A B 7,5 8,0 6 P F 29 9 9 10,0 10 A B 9,0 9,5 7 P F 40 9 9 10,0 9 B A 9,5 7,5 8 T F 35 10 9 10,0 9 A A 1,0 9,5 9 T M 20 6 9 7,0 8 C C 6,0 6,0

10 T M 23 6 9 7,5 5 D C 4,0 5,0 11 T F 21 6 9 6,5 9 C C 5,0 5,0 12 T F 25 9 9 10,0 10 A A 9,5 9,5 13 T F 39 10 9 9,5 10 A A 9,5 9,5 14 T M 37 7 9 8,0 7 B B 9,0 8,0 15 V M 40 7 9 8,0 7 B A 9,0 8,5 16 V M 27 7 9 8,0 7 A A 8,5 9,5 17 V F 35 8 9 8,5 8 B A 9,5 9,5 18 V F 34 8 9 8,5 8 B B 7,0 7,5 19 V F 37 8 9 7,0 8 A B 8,0 8,0 20 V M 29 10 9 10,0 9 A A 9,5 8,5 21 V M 30 10 9 10,0 10 A A 9,5 9,5 22 V M 42 8 9 9,5 8 A A 8,5 8,0 23 V F 24 6 9 6,0 5 D C 5,0 5,0 24 V F 26 9 9 9,0 9 A A 9,5 9,5 25 V M 32 6 9 5,0 5 D C 5,0 5,0

Observações: Seção: P= Seção Pessoal, T= Seção Técnica e V= Seção de Vendas. Sexo: M= Masculina, F= Feminino. Como havia dúvidas quanto à adoção de um único critério de avaliação, cada professor adotou seu próprio sistema de aferição. Usando os dados da tabela, responda as questões: a) Após observar atentamente cada variável, e com intuito de resumi-las, como é que

você identificaria (qualitativa ordinal ou nominal e quantitativa discreta ou contínua) cada uma das 11 variáveis listadas?

b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direito, Política e Estatísticas.

c) Construa o histograma para as notas da variável Redação. Interprete os resultados.

Page 16: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 16

d) Construa a distribuição, de freqüência da variável Metodologia e faça um gráfico (poderá ser de setor, barras, colunas – de sua preferência) para indicar essa distribuição. Interprete os resultados.

e) Construir a distribuição de freqüência conjunta para as variáveis Sexo e Idade. Interprete os resultados.

Page 17: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 17

PARTE III

Medidas de Posição 1. Introdução Através de tabelas e gráficos construídos anteriormente, vimos como resumir e

apresentar um conjunto de dados. Contudo, podemos resumir ainda mais este conjunto, apresentando um ou alguns valores que “representam” todo o conjunto. Esses valores são chamados de medidas de posição.

2. Medidas de Tendência Central São valores estabelecidos num ponto central em torno do qual os dados se

distribuem. As medidas de tendência central que iremos estudar são: média aritmética, mediana e moda.

2.1 - Média Aritmética É a soma de todos os elementos em nosso conjunto de dados dividido pelo total

de elementos. Isto é,

=x n

xn

i

i∑=1

Onde n é o total de elementos no conjunto de dados.

A média aritmética é um valor que pode substituir todos os valores da variável, isto é, é o valor que a variável teria se em vez de “variável” ela fosse “constante”.

2.1.1 – Propriedades da Média Aritmética

� A soma algébrica dos desvios de um conjunto de valores em relação ao média aritmética é zero;

� A soma algébrica dos quadrados dos desvios de um conjunto de valores em relação a média aritmética é mínima;

� Somando ou subtraindo uma constante a todos os valores de uma variável, a média ficará acrescida ou subtraída a essa constante;

� Multiplicando ou dividindo todos os valores de uma variável por uma constante, a média ficará multiplicada ou dividida por essa constante.

2.1.2 Vantagens do emprego da média

� Como faz uso de todos os dados para seu cálculo, pode ser determinada com precisão matemática;

� Pode ser determinada quando somente o valor total e o número de elementos forem conhecidos.

2.1.3 Desvantagens do emprego da média aritmética

� Não pode ser empregada para dados qualitativos; � É influenciada por valores extremos, podendo, em alguns casos, não

representar a série.

Page 18: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 18

2.2 - Mediana (Md) É o valor que ocupa a posição central de um conjunto de dados ordenados. Ou

seja, é o valor que tiver o mesmo número de elementos no seu lado esquerdo e direito.

Sejam os números a seguir, as cinco observações de uma variável qualquer: 5 6 7 8 8

A mediana para este conjunto é 7, correspondente à 3a observação que ocupa a posição central.

Assim, se o número de elementos for ímpar, a mediana é o elemento cuja ordem da posição central é:

+=2

1)(n

xxMd

Onde n é o número de elementos no conjunto de dados. Sejam as seguintes observações: 5,0 5,5 7,0 8,0 8,5 10,0 Como o número de elementos é par, a mediana é a média aritmética dos dois elementos centrais, cuja ordem:

2)( 2

2

2

+

+

=nn

xx

xMd

Neste exemplo: X1 = 6/2 = 3 (3O termo) e X2 = (6+2)/2 = 4 (4O termo), logo a mediana é:

Md = 572

87,=

+

Observe que este é um valor teórico, pois não figura entre os dados originais.

2.2.1 Vantagens do emprego da mediana � A mediana não é influenciada por valores extremos.

2.2.2 Desvantagens do emprego da mediana � A mediana é uma medida que exige uma ordenação de categorias, da mais

alta a mais baixa, assim ela só pode ser obtida para variáveis qualitativas ordinais ou para as quantitativas, jamais para variáveis qualitativas nominais;

� Não inclui todos os valores da distribuição;

2.3 - Moda (Mo) É o valor que ocorre com maior freqüência em um conjunto de dados.

Exemplo: Conjunto de dados: 7 8 5 7 7 7 5 8 9 7 Moda = Mo = 7

Page 19: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 19

Em um conjunto de dados podemos ter duas modas ou nenhuma; a distribuição que possui duas modas chamamos de distribuição bimodal e mais de duas modas, multimodais. Existem ainda distribuições que não apresentam nenhuma moda: são chamadas de amodais.

2.3.1 Vantagens do emprego da moda

� A moda é uma medida que requer apenas o conhecimento da freqüência absoluta e pode ser utilizada para qualquer tipo de variáveis, tanto qualitativas, quanto quantitativas;

� É de uso prático. Exemplificando: os empregadores geralmente adotam a referência modal de salário. Também carros e roupas são produzidos tomando como referência o tamanho modal

2.3.2 Desvantagens do emprego da moda

� Não inclui todos os valores da distribuição; � Mostra-se ineficiente quando a distribuição é amplamente dispersa.

3. Outras Medidas de Posição, as SEPARATRIZ

3.1 - Quartis (Q1 e Q3) São medidas de posição que dividem um conjunto de dados ordenados em quatro partes iguais.

Mín. Q1 Md Q3 Máx. Onde: - O 1O Quartil (Q1) significa que 25% dos dados são inferiores a Q1, ou que 75% dos

dados são superiores a Q1. - O 3O Quartil (Q3) significa que 75% dos dados são inferiores a Q3, ou que 25% dos

dados são superiores a Q3. Em geral Q1 < Me < Q3.

Q1 = 1 1 11

4 4 4

0.75n n n

X X X+ + + +

+ −

Q3 = ( 1) ( 1)( 1)3. 3.3. 14 44

0.25n nn

X X X+ + + +

+ −

Page 20: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 20

3.2 - Box plot ou desenho esquemático

É um tipo de representação gráfica, em que se realçam algumas características

da amostra, fornecendo uma idéia da posição central, dispersão, assimetria, cauda e dados discrepantes. O conjunto dos valores da amostra compreendidos entre o 1º e o 3º QUARTIS, que vamos representar por Q1 e Q3 é representado por um retângulo (caixa) com a MEDIANA indicada por uma barra vertical. A largura do retângulo não dá qualquer informação. Consideram-se seguidamente duas linhas que unem os meios dos lados do retângulo com os extremos da amostra. Para obter esta representação, começa por se recolher da amostra, informações sobre 5 números, que são: os 2 extremos (mínimo e máximo), a mediana e o 1º e 3º quartis. A posição central dos valores é dada pela mediana e a dispersão d = Q3 - Q1. As posições relativas Q1, Me e Q3 dão uma noção da simetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores mais afastados que não sejam outliers e pelos próprios outliers. A representação do diagrama de extremos e quartis tem o seguinte aspecto:

Existem fundamentalmente 3 características, que nos dão idéia da simetria ou enviesamento e da sua maior ou menor concentração: distância entre a linha indicadora da mediana e os lados do retângulo; comprimento das linhas que saem dos lados dos retângulos e o comprimento da caixa. Apresentamos a seguir 3 exemplos de boxplot, correspondentes a tipos diferentes de distribuição de dados.

Exemplo: Dados os números:

3 4 2 1 7 5 4 2 1 7 8 5 2 1 4 3 5 5 6 7 9 8 8 8 Achar média, mediana, moda, Q1, Q3 e construir o Boxplot

3.3 Decis: São medidas de posição que dividem um conjunto de dados ordenados em dez partes iguais.

3.4 Percentis: São medidas de posição que dividem um conjunto de dados

ordenados em cem partes iguais.

Page 21: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 21

3.5 Medida de Assimetria

Há um momento em que o pesquisador fará a seguinte pergunta: Qual a medida

de tendência central que representa melhor o conjunto de dados em estudo?Assim, no caso das variáveis quantitativas, quando o valor da Mediana é muito diferente da Média, é aconselhável considerar sempre a Mediana como valor de referência mais importante.

Quando a distribuição dos dados é considerada "normal", então a melhor medida de localização do centro, é a média, fato que justifica a grande utilização da média. Esquematicamente podemos posicionar a média da forma seguinte, tendo em conta a representação gráfica na forma de histograma.

MoMdX << XMdMo << assimetria negativa ou a esquerda assimetria positiva ou a direita

MoMdX ==

distribuição simétrica

Para determinar o grau de assimetria, uma regra muito utilizada é: COEFICIENTE DE ASSIMETRIA DE PEARSON

σ

O

S

MXA

−= ou

13

31 *2

QQ

MdQQA s −

−+=

Desse modo, pode-se concluir que: � Se As > 0, a distribuição é assimétrica positiva; � Se As < 0, a distribuição é assimétrica negativa; � Se As = 0, a distribuição é simétrica.

Page 22: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 22

PARTE IV

Medidas de Dispersão ou Medidas de Variabilidade 1. Introdução

As informações fornecidas pelas medidas de posição necessitam em geral ser complementada pelas medidas de dispersão. Estas servem para indicar o quanto os dados se apresentam dispersos em torno da região central. Caracterizam, portanto, o grau de variação ou oscilações existente no conjunto de valores.

Exemplo: Seja os quatro conjuntos abaixo, as notas de quatro turmas: Turma A: 4 4 5 6 6 Turma B: 5 5 5 5 5 Turma C: 2 3 6 6 8 Turma D: 0 0 5 10 10 Os conjuntos são iguais? Em qual das turmas há maior variação ou dispersão dos dados em relação à média? Para calcularmos esta dispersão em relação à média, utilizaremos algumas medidas: 1.1 – Amplitude: é a diferença entre o maior e o menor dado observado. Como utiliza apenas dois valores, contém pouca informação sobre a dispersão. È utilizada em amostra muito pequenas.

R= Xmaior - Xmenor

1.2.Variância amostral: A variância mede o quanto os valores em uma amostragem variam. È uma medida que avalia o grau de dispersão dos valores da variável em torno da média. Quanto menor a variância, maior é o grau de concentração dos dados em torno da média. Podemos representar o cálculo dos dados da seguinte forma:

2

12 2

1

1

1

n

ini

i

i

x

S xn n

=

=

= − −

∑∑ (para dados de uma amostra agrupados)

1.3.Desvio Padrão amostral: A variância é um quadrado, e muitas vezes o resultado torna-se artificial.Por exemplo: a altura média de um grupo de pessoas é 1,70m e a variância 25cm2. Fica um tanto esquisito cm2 em altura.

Para contornamos este “problema” definindo Desvio Padrão como sendo a raiz quadrada positiva de sua Variância.

2SS = (para dados amostrais)

Page 23: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 23

Usando a tabela de distribuição normal, vemos que no intervalo de:

• De )SX( − a )SX( + o grau de concentração de probabilidades em torno da

média é de 68%;

• De )SX( 2− a )SX( 2+ , o grau de concentração de probabilidades em torno da

média é de 95%;

• De )SX( 3− a )SX( 3+ , o grau de concentração de probabilidades em torno da

média é de 99,7%.

Exemplificando, se dissermos que a altura média ( )X do homem brasileiro adulto é de 1,70m e desvio Padrão (S) 5cm, estaremos dizendo que entre; 1,65m e 1,75m encontramos 68% da população masculina adulta brasileira. 1,60m e 1,80m encontramos 95% da população masculina adulta brasileira. 1,55m e 1,85m encontramos 99,7% da população masculina adulta brasileir.a OBSERVAÇÃO: O desvio Padrão representa a maneira mais comum de se medir a variação de um conjunto de observações. Para duas amostras, a que apresentar um desvio padrão maior acusará uma maior dispersão. Quanto menor o desvio padrão, mais os valores da variável se aproximam de sua média. Quanto maior a variância e desvio padrão, maiores são os indícios de heterogeneidade entre os elementos do conjunto. 1.4.Coeficiente de Variação de PEARSON: O coeficiente de variação mede a homogeneidade dos dados em conjunto em relação à média, sua fórmula é expressa por:

100×=x

SCV

O valor obtido será dado em porcentagem. • Acima de 30% o conjunto de dados é considerado heterogêneo • Abaixo de 30% o conjunto é considerado homogêneo.

Em algumas regras empíricas para interpretações do coeficiente de variação: • Se 0 ≤ CV < 10% tem-se baixa dispersão • Se 10% ≤ CV <20% tem-se média dispersão • Se 20% ≤ CV<30% tem-se alta dispersão • Se CV≥30% tem-se elevada (altíssima) dispersão

Page 24: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 24

EXERCÍCIOS

1. Uma amostra de 50 estudantes apontou o seguinte rol de notas de Estatística

(avaliação de 0 a 100). 30 – 35 – 35 – 39 – 41 – 41 – 42 – 45 – 47 – 48 50 – 52 – 53 – 54 – 55 – 55 – 57 – 59 – 60 – 60 61 – 64 – 65 – 65 – 65 – 66 – 66 – 66 – 67 – 68 69 – 71 – 73 – 73 – 74 – 74 – 76 – 77 – 77 – 78 80 – 81 – 84 – 85 – 85 – 88 – 89 – 91 – 94 – 97

a) Qual é a amplitude total desta amostra? É viável construir uma distribuição por

intervalos de classe? b) Em quantas classes poderemos agrupar esse conjunto de dados? c) Qual será o tamanho dos intervalos de classe? d) Construa a tabela de distribuição de freqüência por classes. Inicie a primeira

classe com 30. e) Construa os histogramas de freqüências absolutas e relativas. f) Quantos alunos obtiveram notas maiores ou iguais a 70? g) Analisando a tabela e os gráficos, redija um breve relatório sobre as notas desta

turma de estudantes. h) Calcule a média amostral e interprete. i) Calcule e interprete a moda. j) Calcule e interprete a mediana. k) Determine os quartis. Represente os resultado usando o BOX-PLOT. l) Determine a Variância, Desvio Padrão e Coeficiente de Variação. Interprete. m) A Distribuição é Simétrica? Justifique calculando o grau de assimetria e

interprete o BOX-PLOT. n) Faça um comentário final utilizando todos as informações obtidas nos itens

acima e faça suas considerações finais.

2. Para se estudar o desempenho de duas companhias corretoras de ações, selecionou-se de cada uma delas amostras aleatórias das ações negociadas. Para cada ação selecionada, computou-se a porcentagem de lucro apresentada durante um período fixado de tempo. Os dados estão a seguir:

Quadro 1. Porcentagem de lucro de ações negociadas de duas corretoras

Corretora A Corretora B 45 54 62 61 54 64 57 58 58 50 51 49 70 48 64 55 65 65 52 59 59 55 61 65 59 51 55 60 62 63 65 59 48 55 60 70 60 55 40 55 66 65 55 69 58 63 64 75

Determine: a) A média, mediana, moda e quartis de cada corretora. Interprete os resultados; b) Que corretora tem as ações menos dispersas? c) Que corretora tem as ações mais homogêneas?

Page 25: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 25

3. Um laboratório clínico precisa decidir comprar um dentre três aparelhos (A,B,C) para dosagem no sangue. Para isto o responsável pela análise preparou uma substância de concentração conhecida (10mg/ml) e extraiu várias amostras para serem dosadas pelos três aparelhos. Os resultados obtidos em cada um deles foi o seguinte:

A 10 9 10 9 11 8 9 7 8 9 B 5 10 7 15 16 12 4 8 10 13 C 10 11 9 10 9 11 12 8 10 10 Em medidas clínicas três termos são utilizados freqüentemente: PRECISÃO: Refere-se à dispersão dos resultados; NÃO VICIADO: Refere-se à tendência de um conjunto de medidas produzir um resultado igual ao “verdadeiro valor”(em nosso exemplo o verdadeiro valor é 10mg/ml). EXATO: refere-se ao instrumento PRECISO e NÃO VICIADO. a) Descreva os três instrumentos em termos das definições acima. b) Qual instrumento lhe parece recomendável? Justifique

4. No quadro a seguir apresenta-se a produtividade de soja t/há das parcelas de uma variedade.

81 77 103 112 123 119 110 110 82 61 110 121 119 97 102 111 82 74 97 105 112 91 103 112 88 70 103 111 122 94 99 105 89 88 94 110 116 108 93 107 77 82 86 101 109 113 99 102 74 80 85 90 97 101 96 72 75 80 83 87 94 99 95 48 77 84 74 108 121 143 91 52 87 100 47 111 104 109 80 98

a) Calcular o valor médio, desvio padrão, coeficiente de variação. A área em

estudo é homogênea? Justifique sua resposta.

b) Achar os quartis e classifique cada parcela da seguinte maneira: Vermelho, se a produtividade é menor a Q1; Amarelo, se Q1 ≤ produtividade ≤ Me; Verde, se Me< produtividade ≤ Q3 ; Azul, se produtividade > Q3 . Existe alguma tendência espacialmente nos dados? Que se pode dizer acerca do estudo de homogeneidade obtido em (a)?

Page 26: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 26

5. Uma indústria metalúrgica recentemente passou a produzir um tipo especial de aço para atender um novo cliente. Estas peças são produzidas com um aço de baixa-liga e após serem usinadas são submetidas ao processo de resfriamento. Para satisfazer às especificações do novo cliente, o item de dureza, medida no centro das peças de aço deve estar na faixa de 32 a 38 Rockwell C(unidade de dureza). Os dados apresentados na Tabela 1 representa o nível de dureza do aço utilizando três tratamentos (água, óleo A, Óleo B).

Tabela 01: Valores da Dureza, medida no centro das Peças do Tipo Especial, Após os tratamentos de resfriamento. Resfriamento em

Observação Água Óleo A Óleo B 1 36,7 36,0 35,3 2 38,9 36,4 35,0 3 38,7 35,3 34,3 4 38,8 36,8 35,7 5 37,6 36,9 35,2 6 37,2 37,5 34,2 7 38,8 35,3 36,5 8 38,0 36,0 35,6 9 37,2 35,7 35,5 10 37,8 36,1 35,5 11 38,0 37,0 35,4 12 38,8

Determine: a) A média, Mediana, Desvio Padrão, Coeficiente de Variação, Quartis, Valor

Mínimo e Valor Máximo de cada tratamento. Interprete os resultados. b) Construa os gráficos Dot-plot e Box-plot para cada tratamento. Interprete os

resultados. c) Que tratamento tem nível de dureza com menos variabilidade com respeito a sua

média e mais homogêneo? d) Qual dos três tratamentos de resfriamento cumpre as especificações do cliente?

Page 27: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 27

PARTE V

Probabilidade

1 . Introdução

Chama-se experimento aleatório àquele cujo resultado é imprevisível, porém pertence necessariamente a um conjunto de resultados possíveis denominado espaço amostral.

Qualquer subconjunto desse espaço amostral é denominado evento.

Se este subconjunto possuir apenas um elemento, o denominamos evento elementar.

Por exemplo, no lançamento de um dado, o nosso espaço amostral seria:

U = {1, 2, 3, 4, 5, 6}. Exemplos de eventos no espaço amostral U: A: sair número maior do que 4: A = {5, 6} B: sair um número primo e par: B = {2} C: sair um número ímpar: C = {1, 3, 5} Nota: O espaço amostral é também denominado espaço de prova.

Trataremos aqui dos espaços amostrais equiprováveis, ou seja, aqueles onde os eventos elementares possuem a mesma chance de ocorrerem.

� Por exemplo, no lançamento do dado acima, supõe-se que sendo o dado perfeito, as chances de sair qualquer número de 1 a 6 são iguais. Temos então um espaço equiprovável.

Em oposição aos fenômenos aleatórios, existem os fenômenos determinísticos, que são aqueles cujos resultados são previsíveis, ou seja, temos certeza dos resultados a serem obtidos.

Normalmente existem diversas possibilidades possíveis de ocorrência de um fenômeno aleatório, sendo a medida numérica da ocorrência de cada uma dessas possibilidades, denominada Probabilidade.

Consideremos uma urna que contenha 49 bolas azuis e 1 bola branca. Para uma retirada, teremos duas possibilidades: bola azul ou bola branca. Percebemos, entretanto que será muito mais freqüente obtermos numa retirada, uma bola azul, resultando daí, podermos afirmar que o evento "sair bola azul" tem maior probabilidade de ocorrer, do que o evento "sair bola branca".

Page 28: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 28

2. Conceito de Probabilidade

Seja U um espaço amostral finito e equiprovável e A um determinado evento, ou seja, um subconjunto de U. A probabilidade p(A) de ocorrência do evento A será calculada pela fórmula

)(

)()(

Un

AnAP =

onde: n (A) = número de elementos de A e n (U) = número de elementos do espaço de prova U.

Vamos utilizar a fórmula simples acima, para resolver os seguintes exercícios

introdutórios:

2.1 - Considere o lançamento de um dado. Calcule a probabilidade de:

a) sair o número 3: Temos U = {1, 2, 3, 4, 5, 6} [n(U) = 6] e A = {3} [n(A) = 1]. Portanto, a probabilidade procurada será igual a

6

1)( =AP

b) sair um número par: agora o evento é A = {2, 4, 6} com 3 elementos; logo a probabilidade procurada será

2

1

6

3)( ==AP

c) sair um múltiplo de 3: agora o evento A = {3, 6} com 2 elementos; logo a probabilidade procurada será

3

1

6

2)( ==AP

d) sair um número menor do que 3: agora, o evento A = {1, 2} com dois elementos. Portanto:

3

1

6

2)( ==AP

e) sair um quadrado perfeito: agora o evento A = {1,4} com dois elementos. Portanto:

3

1

6

2)( ==AP

Page 29: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 29

2.2 - Considere o lançamento de dois dados. Calcule a probabilidade de:

a) Sair a soma 8 Observe que neste caso, o espaço amostral U é constituído pelos pares ordenados (i, j), onde i = número no dado 1 e j = número no dado 2. É evidente que teremos 36 pares ordenados possíveis do tipo (i, j) onde i = 1, 2, 3, 4, 5, ou 6, o mesmo ocorrendo com j. As somas iguais a 8, ocorrerão nos casos: (2,6), (3,5), (4,4), (5,3) e (6,2).

Portanto, o evento "soma igual a 8" possui 5 elementos. Logo, a probabilidade procurada será igual a:

36

5)( =AP

b) Sair a soma 12 Neste caso, a única possibilidade é o par (6,6).Portanto, a probabilidade procurada será igual a:

36

1)( =AP

2.3 – Uma urna possui 6 bolas azuis, 10 bolas vermelhas e 4 bolas amarelas. Tirando-

se uma bola com reposição, calcule as probabilidades seguintes:

a) sair bola azul

%3030,010

3

20

6)( ====AP

b) sair bola vermelha

%5050,02

1

20

10)( ====AP

c) sair bola amarela

%2020,05

1

20

4)( ====AP

Vemos no exemplo acima, que as probabilidades podem ser expressas como porcentagem. Esta forma é conveniente, pois permite a estimativa do número de ocorrências para um número elevado de experimentos.

Por exemplo, se o experimento acima for repetido diversas vezes, podemos afirmar que em aproximadamente 30% dos casos, sairá bola azul, 50% dos casos sairá bola vermelha e 20% dos casos sairá bola amarela. Quanto maior a quantidade de experimentos, tanto mais a distribuição do número de ocorrências se aproximará dos percentuais indicados.

Page 30: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 30

3. Propriedades

• P1: A probabilidade do evento impossível é nula. Com efeito, sendo o evento impossível o conjunto vazio (Ø), teremos: P(Ø) = n (Ø)/n (U) = 0 /n (U) = 0 Por exemplo, se numa urna só existem bolas brancas, a probabilidade de se retirar uma bola verde (evento impossível, neste caso) é nula.

• P2: A probabilidade do evento certo é igual à unidade. Com efeito, P(A) = n(U)/n(U) = 1 Por exemplo, se numa urna só existem bolas vermelhas, a probabilidade de se retirar uma bola vermelha (evento certo, neste caso) é igual a 1.

• P3: A probabilidade de um evento qualquer é um número real situado no intervalo real [0, 1]. Esta propriedade, decorre das propriedades 1 e 2 acima.

• P4: A soma das probabilidades de um evento e do seu evento complementar é igual a unidade. Seja o evento A e o seu complementar A'. Sabemos que A U A' = U. n(A U A') = n(U) e, portanto, n(A) + n(A') = n(U). Dividindo ambos os membros por n(U), vem: n(A)/n(U) + n(A')/n(U) = n(U)/n(U), de onde se conclui:

P(A) + P(A') = 1

Nota: esta propriedade simples, é muito importante pois facilita a solução de muitos

problemas aparentemente complicados. Em muitos casos, é mais fácil calcular a

probabilidade do evento complementar e, pela propriedade acima, fica fácil determinar

a probabilidade do evento.

• P5: Sendo A e B dois eventos, podemos escrever: (Adição de Probabilidades) P(A U B) = P(A) + P(B) – P(A∩B) Observe que se A∩B= Ø (ou seja, a interseção entre os conjuntos A e B é o conjunto vazio), então P(A U B) = P(A) + P(B).

Com efeito, já sabemos da Teoria dos Conjuntos que n(A U B) = n(A) + n(B) – n(A∩B) Dividindo ambos os membros por n(U) e aplicando a definição de probabilidade, concluímos rapidamente a veracidade da fórmula acima.

Exemplo: Em uma certa comunidade existem dois jornais J e P. Sabe-se que 5000 pessoas são assinantes do jornal J, 4000 são assinantes de P, 1200 são assinantes de ambos e 800 não lêem jornal. Qual a probabilidade de que uma pessoa escolhida ao acaso seja

assinante de ambos os jornais?

Page 31: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 31

SOLUÇÃO: Precisamos calcular o número de pessoas do conjunto universo, ou seja, nosso espaço amostral.

Teremos: n(U) = n(J U P) + N.º de pessoas que não lêem jornais. n(U) = n(J) + n(P) – n(J∩ P) + 800 n(U) = 5000 + 4000 – 1200 + 800 n(U) = 8600 Portanto, a probabilidade procurada será igual a: P = 1200/8600 = 12/86 = 6/43. Logo, P = 6/43 = 0,1395 = 13,95%.

A interpretação do resultado é a seguinte: escolhendo-se ao acaso uma pessoa da comunidade, a probabilidade de que ela seja assinante de ambos os jornais é de aproximadamente 14%.(contra 86% de probabilidade de não ser).

4. Probabilidade condicional

Considere que desejamos calcular a probabilidade da ocorrência de um evento A, sabendo-se de antemão que ocorreu um certo evento B. Pela definição de probabilidade vista anteriormente, sabemos que a probabilidade de A deverá ser calculada, dividindo-se o número de elementos de elementos de A que também pertencem a B, pelo número de elementos de B. A probabilidade de ocorrer A, sabendo-se que já ocorreu B, é denominada Probabilidade condicional e é indicada por P (A / B) – probabilidade de ocorrer A sabendo-se que já ocorreu B – daí, o nome de probabilidade condicional.

Teremos então: P(A/B) = n(A∩B)/n(B) onde A∩B = interseção dos conjuntos A e B. ou seja:

Se A e B são dois eventos de um espaço amostral (U), com P(B) ≠ 0, então a probabilidade condicional do evento A, tendo ocorrido B, é indicada por P(A/B) é definida pela relação

( )( / ) , se ( ) 0

( )

P A BP A B P B

P B

∩= ≠

Esta fórmula é denominada Lei das Probabilidades Compostas. Esta importante fórmula, permite calcular a probabilidade da ocorrência simultânea dos eventos A e B, sabendo-se que já ocorreu o evento B.

Page 32: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 32

1) Um dado foi jogado. Qual a probabilidade de ocorrer face 5, sabendo que ocorreu face com número ímpar?

3Evento B Probabilidade de ocorrer face impar = ( )

61

Evento A A Probabilidade de ocorrer face 5 = ( )6

1( ) 16( / ) = = 0,3 = 33,33% 3( ) 3

6

P B

P A B

P A BP A B

P B

→ =

→ ∩ =

∩= =

5. Probabilidade Independente e a Regra do Produto

Se a ocorrência do evento B, não mudar a probabilidade da ocorrência do evento A, então p(A/B) = p(A) ou p(B/A) = p(B) e, neste caso, os eventos são ditos

independentes, e a fórmula acima fica:

P(A∩B) = P(B) . P(A/B) ou P(A∩B) = P(A) . P(B/A)

Podemos então afirmar, que a probabilidade de ocorrência simultânea de eventos independentes, é igual ao produto das probabilidades dos eventos considerados. Daí vem a regra do produto que pode ser expressa da seguinte forma:

P(A∩B) = P(A) . P(B)

Ou seja, se A e B são eventos independentes, a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A, multiplicada pela probabilidade de ocorrer B.

Exemplo: 1) Uma urna possui cinco bolas vermelhas e duas bolas brancas.Calcule as probabilidades de:

a) em duas retiradas, sem reposição da primeira bola retirada, sair uma bola vermelha

(V) e depois uma bola branca (B). P(V ∩ B) = P(V) . P(B/V) P(V) = 5/7 (5 bolas vermelhas de um total de 7). Supondo que saiu bola vermelha na primeira retirada, ficaram 6 bolas na urna. Logo: P(B/V) = 2/6 = 1/3 Da lei das probabilidades compostas, vem finalmente que: P(V ∩ B) = 5/7 . 1/3 = 5/21 = 0,2380 = 23,8%

b) em duas retiradas, com reposição da primeira bola retirada, sair uma bola vermelha

e depois uma bola branca.

Com a reposição da primeira bola retirada, os eventos ficam independentes. Neste caso, a probabilidade buscada poderá ser calculada como: P(V ∩ B) = P (V) . (B) = 5/7 . 2/7 = 10/49 = 0,2041 = 20,41%

Page 33: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 33

5. Teorema Bayes

É um processo usado para calcular a probabilidade a posteriori.

Definição: Sejam E1, E2, E3, . . . , Ek eventos mutuamente exclusivos, tais que: P(E1) +

P(E2) + P(E3) + . . . + P(Ek) = 1. Seja A um evento qualquer, que se sabe ocorrerá em conjunto com, ou em conseqüência de, um dos eventos Ei. Então a probabilidade de ocorrência de um evento Ei dada a ocorrência de A, é dada por:

)/()(....)/()()/()(

)/()(

)(

)()/(

2211 kk

iii

iEAPEPEAPEPEAPEP

EAPEP

AP

AEPAEP

⋅++⋅+⋅⋅

=∩

=

Esse resultado relaciona probabilidades a priori P(Ei) com probabilidades a posteriori P(Ei/A) = Probabilidade de Ei depois da ocorrência de A.

Page 34: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 34

EXERCÍCIOS

1. Determine a probabilidade de cada evento: a) Um número par aparecer no lançamento de um dado não viciado; b) Um rei aparecer, ao extrair-se uma carta de um baralho; c) Pelo menos uma cara aparecer no lançamento de três moedas; d) Pelo menos uma cara aparecer no lançamento de n moedas; e) Duas copas aparecerem, ao retirarem-se duas cartas de um baralho; f) Uma carta de copas e uma de ouros aparecerem ao extraírem-se duas

cartas de um baralho. R: a) 1/2 b) 1/13 c) 7/8 d) (2n – 1)/2n e) 1/17 f) 13/204

2. Um número é escolhido entre 20 inteiros ao acaso, de 1 a 20. qual a probabilidade de o número escolhido:

a) ser par? b) Ser ímpar? c) Ser primo? d) Quadrado perfeito?

R: a) 1/2 b) 1/2 c) 2/5 d) 1/5

3. Uma urna contém 20 bolas numeradas de 1 a 20. seja o experimento retirada de uma bola, e considere os eventos:

A = { a bola retirada possui um múltiplo de 2} B = {a bola retirada possui um múltiplo de 5} Determine a probabilidade do evento A∪B

R: 4/13 4. Dois dados, um verde e um vermelho, são lançados e observados os números das

faces de cima: a) Qual a probabilidade de ocorrerem números iguais? b) Qual a probabilidde de ocorrerem números diferentes? c) Qual a probabilidade de a soma dos números ser 7? d) Qual a probabilidade de a soma dos números ser 12? e) Qual a probabilidade de a soma dos números ser menor ou igual a 12? f) Qual a probabilidade de aparecer um número 3 em ao menos um dado?

R: a) 1/6 b) 5/6 c) 1/6 d) 1/36 e) 1 f) 11/36

5. Um dado é lançado e o número da face de cima é observado. a) se o resultado obtido for par, qual a probabilidade de ele ser maior ou

igual a cinco? b) Se o número obtido for maior ou igual a cinco, qual a probabilidade de

ele ser par? c) Se o resultado obtido for ímpar, qual a probabilidade de ele ser menor

que 3? d) Se o resultado for menor que 3, qual a probabilidade de ele ser ímpar?

R: a) 1/3 b) ½ c) 1/3 d) ½

Page 35: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 35

6. Um número é escolhido aleatoriamente dentre os números 1, 2, 3, 4, 5, . . . , 50.

Qual é a probabilidade de : a) O número ser divisível por 5? b) O número terminar em 3? c) O número ser primo? d) O número ser divisível por 6 ou por 8?

R: a) 1/5 b) 1/10 c) 3/10 d) 6/25

7. Qual é a probabilidade de sair um Rei ou uma carta de Copas, quando retiramos uma carta de um baralho? R: 4/13

8. Dois dados são lançados simultaneamente. Qual é a probabilidade de:

a) A soma ser menor que 4? b) A soma ser 9? c) O primeiro resultado ser maior do que o segundo?

R: a) 1/12 b) 1/9 c) 5/12

9. Numa urna, são misturadas 10 bolas numerada de 1 a 10. Duas bolas são retiradas (a, b) sem reposição. Qual é a probabilidade de a + b =10?

R: 4/45

10. Em uma indústria há 10 pessoas que ganham mais de 20 salários mínimos(s.m.), 20 que ganham entre 10 e 20 s.m. e 70 que ganham menos de 10 s.m.. Três pessoas desta indústria são selecionadas. Determinar a probabilidade de que pelo menos uma ganhe menos de 10 s.m.

R: 97,3%

11. Um lote é formado por 10 peças boas, quatro com defeitos e duas com defeitos graves. Uma peça é escolhida ao acaso. Calcule a probabilidade de que:

a) Ela não tenha defeitos graves; b) Ela não tenha defeitos; c) Ela seja boa, ou tenha defeitos graves;

R: a) 7/8 b) 5/8 c) ¾

12. Considere o mesmo lote anterior. Retiram-se duas peças ao acaso. Qual a probabilidade de que;

a) Ambas sejam perfeitas? b) Pelo menos uma seja perfeita? c) Nenhuma tenha defeito grave? d) Nenhuma seja perfeita?

R: 3/8 b) 7/8 c) 91/120 d) 1/8

13. Um lote de 120 peças é entregue ao controle de qualidade de uma firma. O responsável pelo setor seleciona 5 peças. O lote é aceito se forem observadas 0 ou 1 defeitos. Há 20 peças defeituosas no lote.

a) Qual a probabilidade do lote ser aceito? b) Admitindo que o lote seja aceito, qual a probabilidade de ter sido

observado só um defeito? R: a)80,38% b) 50%

Page 36: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 36

14. Um grupo de 50 moças é classificado de acordo com a cor dos cabelos, e dos olhos de cada moça, segundo a tabela

Olhos Cabelos azuis castanhos Loira 17 9 Morena 4 14 Ruiva 3 3

Se você marca um encontro com uma dessas garotas, escolhida ao acaso, qual a probabilidade de ela ser:

a) Loira? b) Morena de olhos azuis? c) Morena ou ter olhos azuis? d) Está chovendo quando você encontra a garota. Seus cabelos estão

completamente cobertos, mas você percebe que ela tem olhos castanhos. Qual a probabilidade de que ela seja morena?

R: a) 25

13 b)

25

2 c)

25

19 d)

13

7

15. Uma urna contém cinco bolas brancas e seis pretas. Três bolas são retiradas.

Calcular a probabilidade de: a) Serem todas pretas; b) Ser exatamente uma branca; c) Ser ao menos uma preta.

R: a)4/33 b) 5/11 c) 31/33

16. Em uma classe, existem cinco alunos do 4º ano, quatro do 2º ano e três do 3º ano. Qual é a probabilidade de serem sorteados dois alunos de 2º ano, três do 4º e dois do 3º?

R: 5/22 17. A probabilidade de três jogadores marcarem um pênalti são respectivamente:

10

7

5

4,

3

2e

Se cada um “cobrar” uma única vez, qual a probabilidade de: a) Todos acertarem? b) Apenas uma acertar? c) Todos errarem?

R: a) 28/75 b) 1/6 c) 1/50

18. A e B jogam 120 partidas de xadrez, das quais A ganha 60, B ganha 40 e 20 terminam empatadas. A e B concordam em jogar 3 partidas. Determinar a probabilidade de:

a) A ganhar todas as três; b) Duas partidas terminarem empatadas; c) A e B ganharem alternadamente.

R: a) 1/8 b) 5/72 c) 5/36

Page 37: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 37

19. Num período de um mês, 100 pacientes sofrendo de determinada doença foram internados em um hospital. Informações sobre o método de tratamento aplicado em cada paciente e o resultado obtido estão abaixo,

Tratamento Resultado

A B Soma

Cura total 24 16 40 Cura parcial 24 16 40

Morte 12 8 20 Soma 60 40 100

a) Sorteando aleatoriamente um desses pacientes, determinar a probabilidade de o paciente escolhido:

a1) ter sido submetido ao tratamento A; a2) ter sido totalemente curado; a3) ter sido submetido ao tratamento A e ter sido parcialmente curado; a4) ter sido submetido ao tratamento A ou ter sido parcialmente curado.

b) Os eventos “morte”e “tratamento A” são independentes? Justifique. c) Sorteando dois pacientes, qual a probabilidade de que:

c1) tenham recebido tratamentos diferentes? c2) pelo menos um deles tenha sido curado totalmente?

R: a1) 0,6 a2) 0,4 a3) 0,24 a4) 0,76 c1) 0,48 c2) 0,64

20. Numa bolsa temos cinco moedas de R$ 1,00 e quatro de R$ 0,50. Qual a probabilidade de, ao retirarmos duas moedas, obtermos R$ 1,50?

R: 5/9

21. A probabilidade de uma mulher estar viva daqui 30 anos é de 4

3 e de seu

marido, 5

3. Calcular a probabilidade de:

a) Apenas o homem estar vivo; b) Somente a mulher estar viva; c) Ambos estarem vivos.

R: a) 3/20 b) 3/10 c) 9/20

22. Uma caixa A contém oito peças, das quais três são defeituosas, e uma caixa B contém cinco peças, das quais duas são defeituosas. Uma peça é retirada aleatoriamente de cada caixa.

a) Qual a probabilidade p de que ambas as peças não sejam defeituosas? b) Qual é a probabilidade p de que uma peça seja defeituosa e a outra não? c) Se uma peça é defeituosa e a outra não, qual é a probabilidade p de que a

peça defeituosa venha da caixa A? R: a) 3/8 b) 19/40 c) 9/19

23. Temos duas caixas: na primeira há três bolas brancas e sete pretas; e na segunda,

uma bola branca e cinco pretas. De uma caixa escolhida ao acaso, seleciona-se uma bola e verifica-se que é preta. Qual é a probabilidade de que a caixa onde for extraída a bola seja a primeira? E a segunda?

R: 21/46 25/46

Page 38: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 38

24. A probabilidade de um indivíduo de classe A comprar uma carro é de 4

3, de B é

5

1 e de C é

20

1. A probabilidade de o indivíduo de classe A comprar um carro

da marca D é 10

1; de B comprar da marca D é

5

3 e de C é

10

3. Em certa loja

comprou-se um carro da marca D. qual é a probabilidade de que o indivíduo da classe B o tenha comprado?

R: 4/7

25. Em certo colégio, 5% dos homens e 2% das mulheres tem mais do que 1,80m de altura. Por outro lado, 60% dos estudantes são homens. Se um estudante é escolhido ao acaso e tem mais de 1,80m de altura qual é a probabilidade de que o estudante seja mulher?

R: 4/19

26. Três máquinas, A, B e c, produzem respectivamente 40%, 50% e 10% total de peças de uma fábrica. As porcentagens de peças defeituosas nas respectivas máquinas são 3%, 5% e 2%. Uma peça é sorteada ao acaso e verifica-se que é defeituosa. Qual é a probabilidade de que a peça tenha vindo da máquina B?

R: 25/39

27. A industria Alpha Ltda., fabricante de esferas metálicas, possui três máquinas, M1, M2 e M3, responsáveis por 25%, 40% e 35%, respectivamente, de sua produção diária. Por sua vez, as respectivas taxas de unidades defeituosas são de 1%, 2% e 3%. Tendo um item sido retirado, ao acaso, da produção diária de 600.000 unidades, e se verificando que apresenta defeito, pede-se a probabilidade de ser proveniente de Mi (i = 1, 2, 3).

R: M1 = 11,9% M2 = 38,10% M3 = 50%

Page 39: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 39

PARTE VI

Distribuição Teóricas De Probabilidade De Variáveis Aleatórias Discretas

1. Variáveis Aleatórias

Seja E um evento aleatório e U o espaço Amostral associado ao experimento. Uma função X que associe cada elemento u∈U um número real X(u) denominada variável aleatória.

Exemplo: • Lançam-se três moedas. Seja X: número de ocorrência de face cara. Determinar a distribuição de probabilidade de X.

1.1 Variável Aleatória Discreta Seja X uma variável aleatória. Se o número de valores possíveis de X for finito ou infinito numerável, denominaremos X de Variável Aleatória Discreta.

Exemplos: • X: O número de Caras obtidas em um lançamento de duas moedas não viciadas. • X: O número de Clientes que vão ao banco no horário das 10:00h as 12:00h. • X: Chamadas telefônicas por unidade de tempo. • X: Número de partículas emitidas por uma fonte de material radioativo por unidade de tempo.

1.2 DISTRIBUIÇÃO BINOMIAL Trata-se de um modelo que dá a probabilidade do número de sucessos quando são realizadas n provas do mesmo tipo. Cada experimento admite dois resultados: • Sucesso ⇒ com probabilidade p • Fracasso ⇒ com probabilidade 1 – p = q Hipóteses: • São realizadas n provas do mesmo tipo (Idênticas); • Cada prova admite dois resultados possíveis: Sucesso ou Fracasso; • Os resultados das provas são independentes;

A variável X tem distribuição binomial, com parâmetros n e p, e indicaremos

pela notação )p,n(BX =

Fórmula: P(X = x) = x,nxnx C.q.p −

Onde: n = número de provas ou repetições; x=número de Sucessos; n-x = número de Fracassos; p = probabilidade de sucesso em cada prova;

Page 40: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 40

q = 1-p é a probabilidade de Fracasso em cada prova;

x,nC = número de combinações de n elementos tomados x a x

Parâmetros da distribuição Binomial Esperança: E(x) = µµµµ(x) = n . p

Variância Var(x) = σσσσ2(x) = n . p . q

1.3 DISTRIBUIÇÃO DE POISSON

Consideremos a probabilidade de ocorrência de sucessos em um determinado intervalo. Hipóteses: H1: A probabilidade de uma ocorrência em um intervalo t∆ ( ∆ S, ou...) é constante e proporcional ao tamanho do intervalo. Isto é:

t)t,X(P ∆=∆= λ1

H2: A probabilidade de mais de uma ocorrência em um intervalo t∆ ( ∆ S, ou...) é igual a zero. Isto é:

01 =∆> )t,X(P

H3: O número de ocorrências constituem variável aleatórias independentes. Seja X: número de sucessos no intervalo, então:

Fórmula: P(X = x) = !x

e.x µµ −

Onde: λλλλ = coeficiente de proporcionalidade, ou taxa de freqüência por unidade de tempo, área, etc. t = tempo, área;

e = base dos logaritmos naturais; x = número de ocorrências (sucessos) µµµµ = λλλλ.t

Parâmetros da distribuição de Poisson Esperança: E(x) = µµµµ(x) = λλλλ.t Variância: Var(x) = σσσσ2

(x) = λλλλ.t

Page 41: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 41

EXERCÍCIOS

1. Uma moeda é jogada 10 vezes. Calcule as seguintes probabilidades: a) de dar pelo menos duas caras; R: 98,93%

b) de ocorrer seis caras; R: 20,51%

c) de não dar nenhuma coroa; R: 0,098%

d) de dar pelo menos uma coroa; R: 99,90%

e) de não dar 5 caras e 5 coroas R: 75,39%

2. Admitindo que o nascimento de meninos e meninas sejam iguais, calcule a

probabilidade de um casal com seis filhos ter quatro filhos homens e duas mulheres.

R: 23,44%

3. Uma urna tem 20 bolas pretas e 30 brancas. Retira-se 25 bolas com reposição. Qual a probabilidade de que:

a) 2 sejam pretas? R: 0,038% b) Pelo menos 3 sejam pretas? R: 99,96%

4. Numa estrada há 2 acidentes para cada 100 km. Qual a probabilidade de que em;

a) 250Km ocorram pelo menos 3 acidentes? R: 87,53% b) 300Km ocorram 5 acidentes? R: 16,06%

5. A probabilidade de um arqueiro acertar um alvo uma única flecha é de 0,20.

Lança 30 flechas no alvo. Qual a probabilidade de que: a) exatamente 4 acertem o alvo? R: 13,25% b) pelo menos 3 acertem o alvo? R: 95,58

6. O pessoal de inspeção de qualidade afirma que os rolos de fita isolante

apresentam, em média uma emenda a cada 50 metros. Admitindo-se que a probabilidade do número de emendas é dada pela Poisson, calcule as probabilidades;

a) de nenhuma emenda em um rolo de 125 metros. R: 8,21% b) De ocorrer no máximo duas emendas em um rolo de 125 metros. R: 54,40% c) De ocorrer pelo menos uma emenda em um rolo de 100 metros. R: 86,47%

7. Admitindo que X tem distribuição de probabilidade de Poisson, encontre as

probabilidades: a) P(X=5) quando µ = 3,0 R: 10,08%

b) P(X ≤ 2) quando µ = 5,5) R: 8,84%

c) P(X ≥ 4) quando µ = 7,5) R: 5,91% d) P(X = 8) quando µ = 4,0 R: 2,98%

8. Sabe-se que 20% dos animais submetidos a um certo tratamento não

sobrevivem. Se esse tratamento foi aplicado em 20 animais e se X é o número de não sobreviventes:

a) qual a distribuição de X? Binomial = B(20 ; 0,2) b) calcular a E[X] e Var [X] R: E[X] = 4 Var[X]

Page 42: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 42

c) calcular P(2 < X ≤ 4) R : 42,36% d) calcular P(X ≥ 2) R = 93,08%

9. O número de mortes por afogamento em fins de semana, numa cidade praiana é

de 2 para cada 50.000 habitantes. Qual a probabilidade de que em: a) 200.000 habitantes ocorram 5 afogamentos R: 9,16% b) 112.500 habitantes ocorram pelo menos 3 afogamentos? R: 82,64%

10. A média de chamadas telefônicas numa hora é três. Qual a probabilidade de: a) Receber exatamente três chamada numa hora? R: 22,41% b) Receber quatro ou mais chamadas em 90 minutos? R: 65,8%

11. Certo posto de Bombeiros recebe em média três chamadas por dia. Calcular a

probabilidade de: a) receber quatro chamadas num dia; R: 16,8% b) receber três ou mais chamadas num dia. R: 57,67%

12. Uma loja atende em média dois cliente por hora. Calcule a probabilidade de em

uma hora: a) atender exatamente dois cliente; R: 27% b) atender três clientes. R: 18%

13. Suponha 400 erros de impressão distribuídos aleatoriamente em um livro de 500

páginas. Encontre a probabilidade de que dada página contenha: a) nenhum erro; R: 44,9% b) exatamente dois erros. R: 14,37%

14. Se 5% das lâmpadas de certa marca são defeituosas, ache a probabilidade de

que, numa amostra de 100 lâmpadas, escolhidas ao acaso, tenhamos: a) nenhuma defeituosa; R: (0,95)

100

b) três defeituosas; R:

3

100)95,0()05,0( 973

15. A probabilidade de um atirador acertar uma alvo é de 3

1. Se ele atirar seis vezes,

qual a probabilidade de: 1. acertar exatamente dois tiros? R: 32,92% 2. não acertar nenhum tiro? R: 8,78%

16. Em um teste do tipo certo-errado, com 100 perguntas, qual a probabilidade de

uma aluno, respondendo às questões ao acaso, acertar 70% das perguntas?

R:

70

100

2

1100

Page 43: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 43

PARTE VII

Distribuição Teóricas De Probabilidade De Variáveis Aleatórias Contínuas

1. Variável Aleatória Contínua

Seja X uma variável aleatória. Se o contradomínio de X é um intervalo, ou uma coleção de intervalos, denominamos X de Variável Aleatória Contínua.

Exemplos: • X: Altura acima do solo que um dardo atinge o painel. • X: O intervalo de tempo de vida de uma lâmpada. • X: Tempo de vida útil de uma bateria de automóvel. • X: Tempo de vida de uma pessoa.

2. Definição

Podemos dizer que uma variável aleatória contínua é aquela que assume valores em um

intervalo da reta real dos números reais.

Por definição, uma variável aleatória X é contínua em IR se existir uma função f(x), tal

que:

1. 0)( ≥xf (não negativa)

2. ∫∞

∞−

= 1)( dxxf .

A função f(x) é chamada função densidade de probabilidade (f.d.p.). Observamos que:

∫=≤≤b

a

dxxfbXaP )()(

A área sobre a curva expressa a função densidade de probabilidade de uma f.d.p.

definida.

Page 44: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 44

Parâmetros:

ESPERANÇA MATEMÁTICA: Pode ser entendida como um “centro de distribuição

de probabilidade”. ∫∞

∞−

⋅== dxxfxxXE )()()( µ

VARIÂNCIA MATEMÁTICA:

22 )]([)()( XEXEXVAR −=

onde:

∫∞

∞−

⋅= dxxfxXE )()( 22

Também podemos definir:

∫∞−

=≤=x

dssfxXPxF )()()(

2.1 DISTRIBUIÇÃO NORMAL

O nome normal deve-se ao fato de que muitas distribuições de freqüências de erros de

observações e mensurações podem ser descritas por uma distribuição dessa natureza.

A função f(x) é chamada função densidade de probabilidade (f.d.p.) de uma distribuição

normal é definida por: 2

2

1

2

1)(

−−

= σµ

πσ

x

exf , para +∞<<∞− x

O gráfico de f(x) é;

As principais características dessa função são:

a) o ponto máximo de f(x) é o ponto X = µ;

µ

Page 45: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 45

b) os pontos de inflexáo da funçao são: X = µ + σ e X = µ – σ;

c) a curva é simétrica com relação a µ;

d) E(X) = µ e VAR(X) = σ2

Se quisermos calcular a probabilidade indicada na figura, devemos fazer:

−−

=≤≤b

a

x

dxebxaP

2

2

1

2

1)( σ

µ

πσ

Graficamente:

Essa integral requer um trabalho computacional em séries para resolvê-la, pois

de forma analítica a mesma se torna inviável. Para solucionarmos este problema usamos

uma transformação de variáveis que nos conduz à chamada distribuição normal

padronizada, ou distribuição normal reduzida. Usaremos a seguinte notação:

),(: 2σµNX

Para transformação de variáveis , consideraremos a seguinte transformação linear de X

para Z: σ

µ−= i

i

XZ

Logo, para encontrarmos as áreas (probabilidade) sob a curva f(x), mudam-se suas

abscissas para Z, determinando-se a probabilidade com auxilio de uma tabela normal

padronizada. Assim:

)()( 21 zZzPbxaP <<=<<

Onde:

σµ−

=a

Z1 σ

µ−=

bZ 2

Page 46: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 46

2.2 DISTRIBUIÇÃO EXPONENCIAL

Uma variável aleatória X tem distribuição exponencial de probabilidade se a sua f.d.p. é

dada por:

<≥

=−

0 se 0

0 se )(

x

xexf

xλλ

A função de distribuição de X, f.d.p., é:

≤>−

=−

0 se 0

0 se 1)(

x

xexF

se

O gráfico da f.d.p. de X é:

Parâmetros: ESPERANÇA MATEMÁTICA: A Esperança de X é o ponto médio do intervalo

[a, b]: λ1

)( =XE

VARIÂNCIA MATEMÁTICA: A variância de X é dada por:

2

1)(

λ=XVAR

P(T≤t0)=1 – 0teλ−

P(T>t0) = 0teλ−

Page 47: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 47

EXERCÍCIOS

1. Foi feito um estudo sobre a altura de uma faculdade, observando-se que ela se

distribuía normalmente com média de 1,72m e desvio Padrão de 5cm. Qual a porcentagem dos alunos com altura:

a) entre 1,67m e 1,77m? b) entre 1,62m e 1,82m? c) entre 1,57m e 1,87m? d) acima de 1,90m?

R: a) 68,27% b) 95,45% c) 99,73% d) 0,02%

2. Um estudo das modificações percentuais dos preços, no atacado, de produtos industrializados, mostrou que há distribuição normal com média de 50% e desvio padrão de 10%. Qual a porcentagem dos artigos que:

a) sofreram aumentos superiores a 75%? b) sofreram aumentos entre 30% e 80%?

R: a) 0,626 b) 97,59%

3. O volume de correspondência recebido por uma firma quinzenalmente, tem distribuição normal com média de 4000 cartas e desvio padrão de 200 cartas. Qual a porcentagem de quinzenas em que a firma recebe:

a) entre 36000 e 4250 cartas? b) menos de 3400 cartas? c) mais de 4636 cartas?

R: a) 87,16% b) 0,14% c) 0,07%

4. Numa fábrica foram instaladas 1000 lâmpadas novas. Sabe-se que a duração média das lâmpadas é de 800 horas e desvio padrão de 100 horas, com distribuição normal. Determinar a quantidade de lâmpadas que durarão:

a) Menos de 500 horas. b) Mais de 700 horas. c) Entre 516 e 814 horas.

R: a) 1,4 b) 841,3 c) 120,8

5. A duração de certo componente eletrônico pode ser considerada normalmente distribuída com média de 850 dias e desvio padrão de 45 dias. Calcular a probabilidade de um componente durar:

a) entre 700 e 1000 dias; b) mais de 800 dias; c) menos de 750 dias; d) exatamente 1000 dias.

R: a) 1 b) 0,8665 c) 0,0132 d) 0

6. Uma fábrica de pneumáticos fez um teste para medir o desgaste de sues pneus e verificou que ele obedecia a uma distribuição normal de média 48.000 km e desvio Padrão de 2.000km. Calcule a probabilidade de um pneu escolhido ao acaso:

a) Durar mais de 46.000km; b) Durar menos de 52.000km c) Durar entre 45.000 e 50.000km.

Page 48: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 48

7. Suponha que o diâmetro médio de vida dos parafusos produzidos por uma

fábrica seja de 0,25 polegadas, e o desvio padrão de 0,02 polegadas. Um parafuso é considerado defeituoso se seu diâmetro é maior que 0,28 polegadas ou menor que 0,20 polegadas.

a) Encontre a porcentagem de parafusos defeituosos. b) Qual deve ser a medida mínima para que tenhamos no máximo 12% de

parafusos defeituosos? R: a) 7,3% b) 0,2266 polegadas

8. Se as interrupções no suprimento de energia elétrica ocorrem segundo uma distribuição de Poisson com média de uma interrupção por mes (quatro semanas), qual a probabilidade de que entre duas interrupções consecutivas haja um intervalo de:

a) Menos de uma semana? b) Entre 10 e 12 semanas? c) Exatamente um mês? d) Mais de três semanas?

R: a) 0,2212 b) 0,0323 c) 0 d) 0,4724

9. O tempo de atendimento numa oficina é aproximadamente exponencial com media de quatro minutos. Qual a probabilidade de:

a) espera superior a quatro minutos? b) Espera inferior a cinco minutos? c) Espera de exatamente quatro minutos?

R: a) 0,3679 b) 0,7135 c) 0

10. Sabemos que o intervalo de ocorrências sucessivas de uma doença contagiosa é uma variável aleatória que tem distribuição exponencial com média de 100 dias. Qual a probabilidade de não se ter registro de incidência da doença por pelo menos 200 dias a partir da data em que o último caso for registrado?

R: 0,1353

Page 49: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 49

PARTE VIII

Regressão e Correlação Amostral 1. CONCEITO DE MODELO De modo geral, a palavra modelo pode ser entendida como uma representação abstrata da realidade, estruturada de forma tal que permita compreender o funcionamento total ou parcial dessa realidade ou fenômeno. Refere-se a um conjunto de hipóteses estabelecias a priori sobre o comportamento de um fenômeno, com base numa teoria já existente ou a partir de novas proposições teóricas. 1.1 – CLASSIFICAÇÃO DE MODELOS

Os modelos, no sentido aqui referido, podem ser puramente teóricos ou estatísticos que chamaremos de modelos de regressão.

Modelos teóricos são aqueles que expressam leis sem necessariamente conter a especificação efetiva da forma matemática nem a enumeração exaustiva das variáveis que o compõem.

Já os modelos de regressão são aqueles que necessariamente contêm as especificações (forma matemática, definição das variáveis e número de equações) para aplicação empírica, além de incorporar um termo residual (ou erro) com a finalidade de levar em conta variáveis ou outros elementos, que por alguma razão, não puderam ser considerados explicitamente.

Contrastando com os modelos determinísticos que supõem a existência de variáveis que satisfazem exatamente as equações matemáticas, os modelos de regressão ou probabilísticos não admitem relações exatas em virtude da não-inclusão de todas as variáveis que determinam o comportamento do fenômeno e de erros de medidas das variáveis. 1.2 – MODELOS DE REGRESSÃO

Três aspectos dos modelos de regressão destacam-se: a estrutura, a classificação quanto às características dos fenômenos a serem modelados e as qualidades desejáveis. 1.2.1 – Estruturas do modelo de regressão

A formulação de um modelo de regressão envolve quatro elementos básicos, a saber:

i) variáveis; ii) relações ou equações; iii) parâmetros ou coeficientes; iv) termo aleatório ou permutação aleatória ou erro aleatório.

Variáveis são características observáveis de alguma entidade, que podem apresentar diferentes valores. São, portanto, magnitudes sujeitas a alterações. As variáveis podem ser classificadas em dependentes ou explicadas e independentes ou explicativas.

Page 50: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 50

Variáveis dependentes ou explicadas são aquelas que recebem influência de outras variáveis. São, também, chamadas de variáveis endógenas ou variáveis efeito. Variáveis independentes ou explicativas, também denominadas de causa ou exógenas, são aquelas que afetam as variáveis dependentes, cujo comportamento se deseja explicar. O conjunto de variáveis explicativas mais o termo constante são denominados costumeiramente de regressores. As relações ou equações descrevem ou expressam o mecanismo que aciona os elementos singulares de um fenômeno. Parâmetros ou equações descrevem ou expressam o mecanismo que aciona os elementos singulares de um fenômeno. Parâmetros são magnitudes que permanecem constantes no âmbito de um fenômeno concreto. O termo constante, especificamente, indica a ausência de alteração significativa da variável dependente ao longo do tempo ou entre unidades de observação não temporais, no âmbito da amostra utiliza, após ter sido descontadas a influência das variáveis explicativas sobre a explicada. O termo aleatório ou erro aleatório é a expressão de um grande número de pequenas causas, que produzem um desvio em relação ao que a variável dependente deveria ser, se a relação fosse determinística. Por conseguinte, o tal indica:

� variáveis omitidas � imprevisibilidade do comportamento humano; � variação do comportamento � erros de medidas da variável dependente; � especificações imperfeita das relações.

1.2.2 – Classificações úteis dos modelos de regressão

É útil classificar os modelos de regressão em função das características dos fenômenos que se desejam modelar.

Os modelos podem ser classificados quanto à forma funcional, ao número de equações, às associação das variáveis com o tempo e a finalidade. Dessa forma, ter-se-ão os seguintes modelos:

a) quanto a forma funcional � Lineares – aqueles que são expressos por funções lineares nos parâmetros.

i iy a bx e= + +

� Não-lineares – aqueles expressos por funções não lineares nos parâmetros. Exemplos:

2

.exp( )t

i i i

y a bt e

y a bx cx e

= +

= + + +

b) quanto ao número de equações � Uni-equacionais – contem apenas uma equação

i iy a bx e= + +

� Multi-equacionais – contem pelo menos, duas equações.

t t t tM a bY cP u= + + +

Page 51: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 51

c) quanto a associação das variáveis com o tempo � Estáticos - quando o ajustamento da variável dependente em função do efeito

da variável explicativa ocorre simultaneamente no mesmo período de tempo.

� Dinâmico – quando as variáveis se referem a períodos de tempo diferentes.

d) quanto a finalidade � Modelos de decisão – são aqueles orientados para o processo de tomada de

decisões. � Modelos de previsão – que visam á previsão de valores de uma variável. Tais classificações não são exclusivas. Portanto, um modelo pode ser, por exemplo linear, uni-equacional, dinâmico e de decisão ao mesmo tempo.

1.2.3 – Qualidades desejáveis dos modelos de regressão

A qualidade de um modelo de regressão é normalmente avaliado em função das seguintes propriedades. a) Plausibilidade teórica – segundo tal propriedade, o modelo deve descrever e explicar adequadamente o fenômeno sob análise. b) Capacidade explanatório – nesse caso, o modelo deve ser capaz de explicar os dados observados, cuja relação ele determina. c) Exatidão das estimativas dos parâmetros – os parâmetros estimados deverão ser exatos no sentido de aproximar-se tanto quanto possível do verdadeiro parâmetro estrutural. d) capacidade de previsão – o modelo deve ser capaz de gerar previsões satisfatórias de valores futuros da variável dependente. e) Simplicidade – o modelo deve representar as relações entre as variáveis com o máximo de simplicidade em termo de número de equações e da forma matemática. 1.3 - ESPECIFICAÇÃO DO MODELO DE REGRESSÃO

� A especificação de um modelo é uma das etapas mais importantes da pesquisa estatística, pois requer conhecimentos tanto da teoria quanto da matemática, sobre tudo de funções e derivadas. Nas especificações de um modelo, dever-se-ão considerar, inicialmente, aos

seguintes requisistos: i) delimitação do fenômeno ou grupo de fenômenos a serem estudados; ii) identificação das variáveis; iii) estabelecimentos de relações entre variáveis; iv) definição da finalidade do modelo, a fim de orientar a especificação da

forma matemática, a seleção de variáveis e o número de equações.

Em conseqüência, a especificação é a etapa do trabalho estatístico que envolve: i) a determinação das variáveis dependentes e explicativas a serem incluídas no

modelo; ii) a expectativa a priori dos sinais e magnitude dos parâmetros; iii) a formulação (linear, ou não linear); iv) o número de equações; v) a forma de medição das variáveis, como unidades adotadas, defasagens ou

avanços de efeitos de variáveis temporais, etc.

Page 52: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 52

� As fontes de informações para a especificação de modelos que se costuma recorrer para defini-las são:

i) teoria; ii) estudo de casos anteriores; iii) conhecimentos sobre as condições especificas do fenômeno; iv) termo aleatório.

� A construção de um modelo de regressão, sem a existência de uma teoria ou

outro raciocínio a priori subjacente, tem as seguintes implicações negativas: i) descrição, mais não explicação do fenômeno; ii) esterilidade do modelo à medida que não permite atuar sobre o curso do

fenômeno estudado; iii) o modelo descrito fica excessivamente dependente das condições ou fatores

envolvidos. 1.4 - CORRELAÇÃO O coeficiente de correlação determina, em proporção, quanto da variação na resposta é explicado pela regressão em questão. Usamos r (ρ) para indicarmos o grau de correlação e R2 = Para indicarmos o grau de determinação, que nada mais é que o quadrado do coeficiente de correlação.

Quando maior o coeficiente de correlação entre duas variáveis, maior é o R2. O valor de r pode variar de -1 a + 1. Os valores indicam o máximo de correlação; o sinal (+ ou -) indica o sentido da correlação; o valor 0 significa a independência das variáveis, isto é, não existe correlação.

Observamos que quando 0>ρ e 0<ρ , as “nuvens”de pontos dos diagramas de dispersão (a) e (b) apresentam uma “tendência”linear. Quanto mais próximo for ρ de +1 e de -1, maior o grau de dependência entre as variáveis e maior a confiabilidade de se escrever uma variável em função da outra.

1≤ρ 11 +≤≤−⇒ ρ

a) Quando .0),cov(,0 >> YXρ O diagrama de dispersão é: ( )1+≅ρ

x

y

b) Quando .0),cov(,0 << YXρ O diagrama de dispersão é: ( )1−≅ρ

x

y

Page 53: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 53

c) Quando .0),cov(,0 == YXρ O diagrama de dispersão é: ( )0≅ρ

x

y

É importante destacar o fato de que, apesar do forte relacionamento existente entre a análise de regressão e de correlação, na maioria dos casos a análise de regressão é uma ferramenta mais poderosa Isso acontece porque a correlação fornece apenas uma medida da associação entre as variáveis e nem sempre pode ser utilizada para a realização de predições. Já a análise de regressão é muito útil para desenvolver modelos que representam, de forma quantitativa, o tipo de relacionamento existente entre as variáveis. Estes modelos podem ser empregados para as realizações de predições.

Page 54: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 54

EXERCÍCIOS 1. Num experimento foi estudado a relação entre a altura da muda e o Diâmetro (D) dos tubetes de papel, utilizados na formação de mudas de eucalipto. Os dados se encontram no quadro a seguir. Quadro 1: Altura das mudas de eucalipto (cm) em função do diâmetro do tubete

Diâmetro (cm) 3,5 5 6,5

Altura da muda (cm) 4,98 17,91 22,13

Com bases nas informações anteriores, determine:

a) O gráfico que representa o estudo, sua equação de estimação (linha de tendência) e determine seu grau de correlação.

b) Faça um estudo matemático do comportamento do gráfico. c) Qual seria a altura esperada para um diâmetro de 4cm? E 6 cm? d) Qual a taxa de variação de crescimento das mudas em função do diâmetro?

2. Os dados da tabela abaixo representam a velocidade de um móvel em relação ao tempo.

t(segundos) 0 10 20 30 40 v(m/s) 0 30 75 90 110

a) O gráfico que representa o estudo, sua equação de estimação (linha de tendência) e determine seu grau de correlação. b) Faça um estudo matemático do comportamento do gráfico. c) Qual seria a velocidade esperada após se passarem 15segundos? e 35segundos? e 1 minuto? d) Qual a taxa de variação da velocidade em função do tempo?

3. No trabalho “Efeito de doses de gesso na cultura do feijoeiro (Phaseolus

vulgaris L.)”, Ragazzi (1979) utilizou um experimento inteiramente casualizado com 4 repetições, para estudar os efeitos de 7 doses de gesso (Tratamentos): 0, 50, 100, 150, 200, 250, e 300 kg/ha sobre diversas características do feijoeiro. Os dados do quadro a seguir indica o peso de 1.000 sementes (g). Quadro 3: Produção de colmos de cana-de-açúcar em função da adição de Nitrogênio Doses (kg/ha) 0 50 100 150 200 250 300

Peso de 1000 sem. 138,60 153,60 164,53 164,93 163,20 159,98 154,43

a) O gráfico que representa o estudo, sua equação de estimação (linha de tendência) e determine seu grau de correlação. b) Faça um estudo matemático do comportamento do gráfico. c) Estime o peso máximo de 1000 sementes em função da dosagem de gesso.

4. Em um experimento realizado por MELO et al.(1993) sobre “Fertilidade do

Solo”, obteve-se os dados apresentados no Quadro 4, que mostra a produção de colmos da cana-de-açúcar (kg/ha), dada como função da adição de Nitrogênio (kg/ha).

Quadro 4: Produção de colmos de cana-de-açúcar em função da adição de Nitrogênio x - kg/ha 10 20 30 40 50 60 70 80 90 100

f(x)-kg/ha 380,43 394,6 412,8 423,96 432,4 441,6 444,45 446,16 445,31 441,9

Page 55: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 55

Com bases nas informações anteriores, determine: a) O gráfico que representa o estudo, sua equação de estimação (linha de tendência) e determine seu grau de correlação. b) Faça um estudo matemático do comportamento do gráfico. c) Estime a produção máxima em função da dosagem de nitrogênio.

5. Em um estudo realizado por DAO (1996), publicado em um artigo do Agronomy

Journal, obteve-se dados da densidade volumétrica do solo f(mg/m3) em diferentes

alturas do solo x(m), para dado tipo de manejo do solo. Os dados obtidos estão apresentados no Quadro 5. Quadro 5: Densidade volumétrica em diferentes alturas dos solo. x - m 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5

f(x)-mg/m3 1,14 1,25 1,2999 1,3198 1,2998 1,2 1,2557 1,272 1,337 1,4588 1,6913

Com bases nas informações anteriores, determine:

a) O gráfico que representa o estudo, sua equação de estimação (linha de tendência) e determine seu grau de correlação. b) Faça um estudo matemático do comportamento do gráfico.

6. Em um experimento realizado por PATERNIANI.(1978) sobre “Melhoramento

da Produção de milho no Brasil”, obteve-se os dados apresentados no Quadro 6, que descrevem a produção de matéria seca f(x)(g/planta) do milho em função da idade da planta x (dias).

Quadro 6: Produção de matéria seca do milho em função da idade da planta

x - dias 20 30 40 50 60 70 80 90 100

f(x)-g/planta 0,58 33,58 80,58 135,58 192,58 245,58 288,58 315,58 320,58

Com bases nas informações anteriores, determine:

a) O gráfico que representa o estudo, sua equação de estimação (linha de tendência) e determine seu grau de correlação. b) Faça um estudo matemático do comportamento do gráfico.

Page 56: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 56

PARTE IX

Técnicas De Amostragem POPULAÇÃO Erro!

1. Amostra Aleatória N é o número de indivíduos da população (N conhecido ou desconhecido)

Os problemas de amostragem são:

1) Como coletar a amostra? 2) Quanto vale n? 3) Técnica de amostragem a ser utilizada?

O elemento fundamental em Estatística é a estimativa. Isto é, em uma pesquisa muitas vezes há a necessidade de se fazer previsões: Luis Inácio Lula da Silva, vai ganhar a eleição com uma margem de 2,5% de erro; a inflação do mês que vem deve chegar aos 17%. Em quase todos os casos, a estimativa está associada a uma pesquisa ou a uma verificação de características, que devido á custos acessíveis com resultados satisfatórios, não é realizada sobre todos os elementos da população, mas sim sobre uma parte dela, chamada de amostra. Assim, um dos objetivos da estatística é tirar conclusões sobre o “todo” (população) a partir das informações fornecidas por “parte representativa” do todo (amostra). Assim, realizadas as fases de descrição dos dados. (estatística descritiva), é feita uma análise dos resultados, obtidos através dos métodos da Estatística Inferencial ou Indutiva, que tem por base a indução, inferência de dados com indução da precisão, obtida por meio da teoria da probabilidade.

Quanto mais se conhecer sobre a população, melhores serão as informações colhidas pela observação de uma amostra. Por exemplo, uma cozinheira para verificar se o ensopado que ela está preparando tem ou não uma quantidade de sal desejada, experimenta apenas uma colher de ensopado, pois se sabe que a distribuição do sal em todo o ensopado é homogênea, e de qualquer lugar que se tivesse retirado a amostra do ensopado, ela seria “representativa”. Mas nem sempre a escolha de uma amostra representativa é imediata. A maneira de se escolher os elementos para compor uma amostra é denominada Amostragem. Como as conclusões relativas à população vão estar baseadas nos resultados obtidos nas amostras dessa população, vemos o quão importante é a fase de coleta dos

Page 57: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 57

dados (amostragem), pois se erros forem cometidos no momento de selecionarmos os elementos da amostra o trabalho fica comprometido e os resultados finais serão provavelmente incorretos. Devemos, portanto, tomar cuidados especiais quanto aos critérios que serão utilizados na seleção da amostra. O que é necessário garantir, em suma é que a amostra seja representativa da população. Isto significa que, a menos de certas discrepâncias inerentes à aleatoriedade sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve possuir as mesmas características básicas da população no que diz respeito à(s) variável(eis) que desejamos pesquisar.

2. Vantagens De Um Levantamento Por Amostragem

2) Menor custo; 3) Menor tempo; 4) Maior amplitude do universo; 5) Menor erro da medida.

3. Tipo De Amostragem Probabilística 3.1 - Amostragem simples aleatória (m.s.a.)

É a amostragem em que se pressupõe que todo o elemento da população tem a

mesma probabilidade de ser incluído na amostra extraída. Uma das formas pelas quais se pode executar este tipo de amostragem é atribuindo a cada elemento da população um número distinto e efetuando sucessivos sorteios ate completar o tamanho da amostra. Esta seleção dos elementos ainda pode ser feita através de tabelas de números aleatórios, programas computacionais ou de calculadoras científicas que possuam a função RANDOM (ALEATORIZAÇÃO).

RESUMO: • É equivalente a um sorteio de loteria; • Considera a população homogênea; • Cada elemento da população (umidade experimental), tem a mesma

oportunidade de ser escolhida; • Utilizam-se números aleatórios, programas, computacionais, calculadoras,

bolinhas numeradas, etc.

� MÉTODOS DE ESCOLHA

1) Enumeramos a população 1, 2, ...., N; 2) Determinamos o tamanho da amostra N; 3) Escolhemos a amostra.

ELEMENTO ESCOLHIDO = N * (Ran) + 1

UTILIZANDO A CALCULADORA

Page 58: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 58

Exercício: N = 20 alunos de uma turma da FAG n = 7 alunos escolhidos aleatoriamente (amostra)

1º -

2º -

3º -

4º -

5º -

6º -

7º -

Amostra 1 Amostra 2

3.2 - Amostragem Estratificada

Muitas vezes a população se divide, em sub-populações ou estratos, sendo

razoável supor que, de estrato para estrato, a variável de interesse apresente um comportamento substancialmente diverso, tendo, entretanto, comportamento razoavelmente homogêneo dentro de cada estrato. Em tais casos, se o sorteio dos elementos da amostra for realizado sem se levar em consideração a existência dos estratos, pode acontecer que os diversos estratos não sejam convenientemente representados na amostra, a qual seria mais influenciada pelas características da variável nos estratos mais favorecidos pelo sorteio. Evidentemente a tendência à ocorrência de tal fato será tanto maior quanto menor o tamanho da amostra. Para evitar isso, pode-se adotar uma amostragem estratificada.

A amostragem estratificada consiste em especificar quantos elementos da amostra serão retirados em cada estrato. É costume considerar três tipos de amostragem estratificada: uniforme, proporcional e ótima. Na amostragem estratificada uniforme: sorteia-se igualmente o número de elementos em cada estrato. Na proporcional o número de elementos sorteados em cada estrato é proporcional ao número de elementos existentes no estrato. Evidentemente a amostragem estratificada uniforme será em geral, recomendável se os estratos da população forem pelo menos aproximadamente do mesmo tamanho, caso contrario, será em geral preferível a estratificação proporcional por fornecer uma amostra mais representativa da população. A Amostragem estratificada ótima por sua vez toma em cada estrato, um número de elementos proporcional ao número de elementos do estrato e também a variação da variável de interesse no estrato, medida pelo seu desvio – padrão. Pretende-se assim otimizar a obtenção de informações sobre a população, com base no principio de que, onde a variação é menor, menos elementos são necessários para bem caracterizar o comportamento da variável. Dessa forma, com um menor número total de elementos na amostra, conseguir-se-ia uma quantidade de informação equivalente a obtidos nos demais casos. As principais dificuldades para a utilização desse tipo de amostragem residem nas complicações teóricas relacionadas com a análise dos dados e em que, muitas vezes não podemos avaliar de antemão o desvio – padrão da variável nos diversos estratos.

Page 59: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 59

CASADOS 210

RESUMO: • É utilizada quando existir diferenças (população heterogênea) entre diversas partes

da população. • Essas diferenças denominarão os estratos.

� MÉTODOS DE ESCOLHA

1) Determinamos o tamanho da população N; 2) Definimos:

We = Ne N Onde: N é o tamanho da população; Ne é tamanho do estrato; We é a proporção de cada estrato. Para e = 1, 2, .. e 1

Tal que ∑ Ne = N E =1

Onde: n é o tamanho da amostra; ne é tamanho da amostra por estrato; We é a proporção da população por estrato. Exemplo:

N1 = 50 solteiros; N2 = 210 casados; N3 = 40 outros N = 300

W1 = N1 = 50 proporção de solteiros N 300 W2 = N2 = 210 proporção de casados N 300 W3 = N3 = 40 proporção de outros

ne = n*We

SOLTEIROS 50

OUTROS 40

N = 300 pessoas n = 60 pessoas – amostra total

Page 60: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 60

N 300 Logo a amostra por estrato será:

n1 = nW1 = 60 (50/300) = 10 n2 = nW2 = 60 (210/300) = 42 n3 = nW3 = 60 (40/300) = 8 n = 60 total Solteiros (10) Elementos = 50 (Ram) +1 = Escolhido = Casados (42) Elementos = 210 (Ram) +1 = Escolhido = Outros (8) Elementos = 40 (Ram) +1 = Escolhido = 3.3 - Amostragem sistemática

Quando os elementos da população se apresentam ordenados e a retirada dos

elementos da amostra é feita periodicamente, temos uma amostragem sistemática. Assim por exemplo em uma linha de produção, podemos a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária.

A principal vantagem da amostragem sistemática está na grande facilidade na determinação dos elementos da amostra. O perigo em adotá-la está na possibilidade da existência de ciclos de variação da variável de interesse, especialmente se o período desses ciclos coincidir com o período de retirada dos elementos da amostra.

10 Solteiros escolhidos por m.s.a.

42 casados escolhidos por m.s.a.

8 Outros escolhido

por m .s.a.

Page 61: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 61

Por outro lado, se a ordem dos elementos na população não tiver qualquer relacionamento com a variável de interesse, então a amostragem sistemática terá efeitos equivalentes a casual simples, podendo ser utilizada sem restrições.

RESUMO: • É utilizada quando a população encontra-se cadastrado ou enumerado. • Vantagens: Fácil escolha da amostra; Mais preciso que o m.s.a; É tão preciso quanto à amostragem estratificado.

� MÉTODO DE ESCOLHA DA AMOSTRA 1) Define-se o tamanho da população e o tamanho da amostra N � tamanho da população n � tamanho da amostra 2) Determina-se a proporção entre população e amostra:

K = N n

3) Escolhe-se um número aleatoriamente menor ou igual a K, suponhamos a > 0. Logo a amostra sistemática será:

a, a+k, a+2k, ....., a+(n-1)k Exemplo: Suponhamos que desejamos estudar o estado de conservação da rodovia BR277 com 190 Km. Para o qual estudaremos uma amostra aleatória de 30 Km (isto é n = 30).

N = 190 n = 30 (foi determinado) R = 190 = 6,33 ≈ 6 30 a = 4 � escolhido aleatoriamente As amostras são: a, a+2k 4, 10, 16, 22, 28, 34, 40 46, 52, 58, 64, 70, 76, 82,......,178

0km 1km . . . 190km

Cascavel Foz

Page 62: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 62

3.4 - Amostragem por Conglomerados

Quando a população apresenta uma subdivisão em pequenos grupos, chamado

de conglomerados é possível e muitas vezes conveniente – fazer-se a amostragem por meio de conglomerado, a qual consiste em sortear um número suficiente de conglomerados, cujos elementos constituirão a amostra. Ou seja, as unidades de amostragem, sobre as quais é feito o sorteio, passam a ser os conglomerados e não mais os elementos individuais da população. Esse tipo de amostragem é às vezes adotado por motivos de ordem prática e econômica. RESUMO: • É utilizada quando a população pode ser dividida em pequenos grupos, chamados de

conglomerados. • Fácil escolha da amostra;

4. Tipo De Amostragem Não - Probabilística

4.1 - Amostragem Intencional

É uma amostragem não probabilística e consiste em selecionar um subgrupo de população que, com base nas informações disponíveis, possa ser considerado representativo, de toda a população. A principal vantagem da amostragem intencional esta nos baixos custos de sua seleção. A amostragem intencional não é considerada um bom método, pois os dados podem ser facilmente manipulados, direcionados aos interesses do pesquisador ou de quem encomendou a pesquisa.

4.6 - Amostragem a Esmo

É a amostragem em que o amostrador, para simplificar o processo, procura ser

aleatório sem, no entanto realizar propriamente o sorteio usando algum dispositivo aleatório confiável. Por exemplo, se desejarmos retirar uma amostra de 100 parafusos de uma caixa contendo 1000 evidentemente não faremos uma amostragem casual simples, pois seria extremamente trabalhosa, mas procederemos a retirada simplesmente a esmo. Os resultados da amostragem a esmo são em geral equivalentes aos de uma amostragem probabilística se a população é homogênea e se não existe a possibilidade de o amostrador ser inconscientemente influenciado por alguma característica dos elementos da população.

Page 63: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 63

EXERCÍCIOS 1. Os associados de uma cooperativa estão organizados em um arquivo, por ordem alfabética. Qual é a maneira mais rápida de amostra 1/3 do total de fichas de associados?

2. Um pesquisador tem dez gaiolas que contêm, cada uma, seis ratos. Como o pesquisador pode selecionar dez ratos para uma amostra?

3. Para levantar dados sobre o número de filhos por casal, em uma comunidade, um pesquisador organizou um questionário que enviou, pelo correio, a todas as residências. A resposta ao questionário era facultativa, pois o pesquisador não tinha condições de exigir a resposta. Nesse questionário perguntava-se o número de filhos por casal morador na residência. Você acha que os dados assim obtidos têm algum tipo de tendenciosidade? Justifique.

4. Um pesquisador pretende levantar dados sobre o número de moradores por domicílio, usando a técnica de amostragem simples sistemática. Para isso, o pesquisador visitará cada domicílio selecionado. Se nenhuma pessoa estiver presente na ocasião da visita, o pesquisador excluíra o domicílio da amostra. Esta última determinação introduz tendenciosidade. Por quê?

5. Dada uma população de 40 alunos, descreva uma forma de obter uma amostra casual simples de 6 alunos.

6. Organize uma lista com 10 nomes de pessoas em ordem alfabética. Depois descreva uma forma de obter uma amostra sistemática de 5 indivíduos.

7. Em uma pesquisa de mercado para serviços odontológicos tomou-se a lista telefônica, onde os nomes dos assinantes estão organizados em ordem alfabética do último sobrenome, e se amostrou o décimo de cada 10 assinantes. Critique esse procedimento.

8. Por que os estatísticos estudam amostra e não populações?

9. Como podemos dizer que uma determinada amostra representa adequadamente a população?

10. Para as questões a seguir imagine um experimento em que se dividam os elementos em dois grupos: Um grupo experimental e um grupo de controle.

a) Por que os grupos devem ser tão semelhante quanto possível? b) As pessoas devem saber em que grupo estão? c) Qual é o melhor sistema de dividir os indivíduos pelos dois grupos

11. Diferencie Estatística Descritiva de Estatística Inferencial. 12. Defina e diferencie com suas palavras Variáveis Quantitativas de Variáveis Qualitativas com suas respectivas subdivisões.

Page 64: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 64

13. Fale sobre as etapas de uma pesquisa. 14. Fale sobre os tipos de amostragem Probabilística, suas características, suas aplicações e restrições. Cite exemplos de seu cotidiano para cada caso.

15. Fale amostragem não Probabilística, suas características, suas aplicações e restrições. Cite exemplos.

Page 65: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 65

PARTE X

Inferência Estatística: Estimativa por Ponto e

Intervalos De Confiança

1. - INTRODUÇÃO

O objetivo da Estatística é o de conhecer populações por meio das informações

amostrais. Como as populações são caracterizadas por medidas numéricas descritivas,

denominadas parâmetros, a estatística diz respeito á realização de inferências sobre

esses parâmetros populacionais desconhecidos. Parâmetros populacionais típicos são a

média ( X ou µ ), o desvio padrão ( S ou σ ) e a proporção (p)de determinado

evento populacional.

Os nmétodos para realizar inferências a respeito dos parâmetros pertencem a

duas categorias:

• Estimação : determinação de estimativas dos parâmetros populacionais;

• Teses de hipóteses: tomada de decisão relativa ao valor de um parâmetro

populacional.

1.1 – Estimativa por Ponto

Quando com base em dados amostrais calculamos um valor da estimativa do

parâmtro populacional, temos uma estimativa por ponto do parâmetro considerado.

Assim, o valor da média amostral ( x ) é uma estimativa por ponto da média

populacional ( µ ). De maneira análoga, o valor do desvio padrão amostral (S) constitui

uma estimativa do parâmetro (σ ).

EXEMPLO:

Uma amostra aleatória de 200 alunos de uma universidade de 20.000 estudantes

revelou nota média amostral de 5,2. logo: x = 5,2 é uma estimativa pontual da

verdadeira média dos 20.000 alunos.

Page 66: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 66

1.2 – Estimativa por Intervalo

uma estimativa por intervalo para um parâmetro populacional é um intervalo

determinado por dois números, obtidos a partir de elementos amostrais, que se espera

contenham o valor do parâmetro com dado nível de confiança que se espera contenham

o valo do parâmetro com dado nível de confiança ou probabilidade de (1-α)%.

Geralmente (1-α)% = 90%, 95%, 97,5%, . . .

Se o comprimento do intervalo é pequeno, temos um elevado grau de precisão

da inferência realizada. As estimativas dessa natureza são denominadas de intervalos de

confiança.

EXEMPLOS:

• O intervalo [1,60m; 1,64m] contém a altura média dos moradores do município X,

com um nível de confiança de 95%;

• Com 97,5% de confiança, o intervalo [8%; 10%] contém a proporção de analfabetos

da cidade Y;

• O intervalo [37mm; 39mm] contém o desvio padrão do comprimento de uma peça,

com 90% de confiança.

É importante atentar para o risco do erro, quando se constrói um intervalo de

confiança. Se o nível de confiança é de 95%, o risco do erro da inferência estatística

será de 5%. Assim: se construíssemos 100 intervalos, baseados em 100 amostra de

tamanhos iguais, poderíamos esperar que 95 desses intervalos (5% deles) não iriam

conter o parâmetro.

1.3 – Intervalo de Confiança para a Média Populacional quando a variância é

desconhecida

Quando temos amostras e não conhecemos o valor do desvio padrão

populacional, podemos construir intervalos de confiança para a média a partir da

fórmula expressa a seguir. Para tanto, é necessária que a população de onde a amostra

foi extraída tenha distribuição normal.

Page 67: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 67

Geometricamente

Equação

IC (µ, (1-α)%) =

+≤≤−

− n

S.tx

n

S.tx

,n,n2

12

1αα µ

Onde:

t = distribuição t de Student

(n – 1) = grau de liberdade

S = desvio padrão

x = média

n = tamanho da amostra

α = probabilidade de erro na estimação do intervalo.

1.4 – Intervalo de Confiança para o Desvio Padrão Populacional

Considerando que a distribuição de probabilidade populacional de onde se

extraiu a amostra seja normal, será dado pela distribuição Qui-quadrado ( iX 2 )

Geometricamente

1-αααα 2

α 2

α

2

αt−

−2

αt

ϕ = n-1

0

2

α

2

α

ϕ = n-1

f( iX 2 )

1-αααα

X2

inferior X2

superior X

2

Page 68: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 68

Equação

IC (σ, (1-α)%) =

−≤≤

infX

)n(2

S

supX

)n(2

S

21

21 σ

Onde:

2X = distribuição normal da tabela X2 (n – 1) = grau de liberdade

S2= Variância n = tamanho da amostra

Exercícios:

1. Considerando uma amostra de 4 elementos extraída de uma população com

distribuição normal forneceu média de 8,2 e desvio padrão de 0,4. Construir um

intervalo de confiança para a média dessa população com 95% e 99% de

confiança. Interprete os resultados.

2. A amostra 9, 8, 12, 7, 6, 11, 6, 10,9, foi extraída de uma população normal.

Construa um intervalo de confiança para a média ao nível de 95% e 99% e

interprete os resultados.

3. A distribuição dos diâmetros de parafusos por uma máquina é normal, com

desvio padrão igual a 0,17mm. Uma amostra de seis parafusos retirada ao acaso

da produção apresentou os seguintes diâmetros (mm):

25,4 25,2 25,6 25,3 25,0 25,4

Construa um intervalo com 95% e 99% de confiança para o diâmetro médio da

produção dessa máquina.

4. A cronometragem de certa operação forneceu os seguintes valores para diversas

determinações em segundos:

14 16 13 13 15 15 17 14 15 14 16 14

Construa um intervalo de 95% e 99% de confiança para o tempo médio dessa operação.

Suponha que a distribuição seja normal.

Page 69: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 69

5. Uma amostra de onze elementos extraídas de uma população com distribuição

normal, forneceu variância S2 = 7,08. Construir um intervalo de 95% de

confiança para o desvio padrão populacional. Interprete os resultados.

6. Sabe-se que a variação das dimensões fornecidas por uma máquina independem

dos ajustes do valores médios. Duas amostras de dimensões das peças

produzidas forneceram:

Amostra 01: 12,2 12,4 12,1 12 12,7 12,4

Amostra 02: 14,0 13,7 13,9 14,1 13,9

Estabeleça um intervalo de 90% e 95% de confiança para a média e para o desvio padrão com que a máquina opera. Interprete os resultados.

Page 70: Apostila de  estatística

AGRONOMIA-FAG Estatística

Regiane Slongo Fagundes 70

BIBLIOGRAFIA

BUSSAB, W. O.;MORETTIN, P.A. Estatística Aplicada. Editora Saraiva, 5ª edição, 2002. DOWNING, D.; CLARK, J. Estatística Aplicada. Editora Saraiva, 2ª edição, 2002. LEVINE, D.D. M.; BERENSON, M.L.; STEPHAN, D. Estatística, Teoria e aplicações. Editora ABPDEA, 2000. MORETTIN, L.G. Estatística Básica-Probabilidade. Editora McGraw-Hill, 4ª edição, 1992. V. 1 MORETTIN, L.G. Estatística Básica-Inferência . Editora McGraw-Hill, 4ª edição, 1992. V. 2 MARTINS, G.A. Estatística Geral e Aplicada. Editora Atlas, 2ª edição, 2002. MEYER, P. L. Probabilidade – Aplicações à Estatística. Livros Técnicos e Científicos Editora, 2ª edição, 1983. NETO, P. L. O. Estatística. Editora Edgard Blucher, 2ª edição, 2002.