Apostila_MAT236 Segunda Unidade

72
 UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE ESTATÍSTICA NOTAS DE AULA MAT236 – MÉTODOS ESTATÍSTICOS 2ª UNIDADE Elaborada pelas professoras: Giovana Silva, Lia Moraes, Rosana Castro e Rosemeire Fiaccone Revisada em 2010.2 Monitora: Tatiana Felix da Matta

Transcript of Apostila_MAT236 Segunda Unidade

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 1/72

 

 

UNIVERSIDADE FEDERAL DA BAHIAINSTITUTO DE MATEMÁTICA

DEPARTAMENTO DE ESTATÍSTICA

NOTAS DE AULAMAT236 – MÉTODOS ESTATÍSTICOS

2ª UNIDADE

Elaborada pelas professoras:Giovana Silva, Lia Moraes,

Rosana Castro e Rosemeire Fiaccone

Revisada em 2010.2Monitora: Tatiana Felix da Matta

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 2/72

 

1

5.  INTRODUÇÃO

A Estatística constitui-se num conjunto de técnicas e métodos científicos quetratam da coleta, análise e interpretação de informações numéricas, cujo objetivoprincipal é auxiliar na tomada de decisões ou tirar conclusões em situações de

incerteza, a partir de informações numéricas.

A Teoria Estatística moderna se divide em dois grandes campos:

Estatística Descritiva - consiste num conjunto de métodos que ensinam areduzir uma quantidade de dados bastante numerosa por um número pequeno demedidas, substitutas e representantes daquela massa de dados.

Estatística Indutiva ou Inferência Estatística - consiste em inferir (deduzir outirar conclusões a respeito das) propriedades de um universo a partir de uma amostra. Oprocesso de generalização, que é característico do método indutivo, está associado auma margem de incerteza. A medida da incerteza é tratada mediante técnicas e métodosque se fundamentam na Teoria das Probabilidades.

Na maioria das vezes não podemos investigar o fenômeno que estamosinteressados em estudar em todos os elementos da população por diversos fatores. Pararesolver o problema devemos trabalhar com um subconjunto da população, chamado deAMOSTRA. A inferência estatística procura com base nos dados amostrais tirarconclusões sobre a população. Considere o exemplo abaixo para ilustrar as definiçõesdadas.

O esquema a seguir resume as etapas de um trabalho estatístico:

5.1.  População e amostra

População - Conjunto de indivíduos, objetos ou informações que apresentam

pelo menos uma característica comum, cujo comportamento interessa-nos analisar. Ou,em outras palavras, conjunto de todas as medidas, observações relativas ao estudo dedeterminado fenômeno.

População Amostra

Técnicas de Amostragem

 AnáliseDescritiva

Conclusõessobre as

característicasda população

Informações contidasnos dados

InferênciaEstatística

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 3/72

 

2

i) Deseja-se conhecer o consumo total de energia elétrica em MWH nas residências dacidade de Salvador no ano de 1998.População ou universo: todos as residências que estavam ligadas a rede elétrica emSalvador, em 1998.

Características: X = consumo anual de energia elétrica em MWH.

ii) Deseja-se saber se nas indústrias situadas no Estado da Bahia, em 1997, existiaalgum tipo de controle ambiental.População ou universo: indústrias situadas no Estado da Bahia em1997.Característica:  X  = existência ou não de algum tipo de controle ambiental na

indústria.

iii) Estudo sobre a precipitação pluviométrica na Região Nordeste no ano 1997.População ou universo: área referente à Região Nordeste.Característica: X = precipitação pluviométrica.

Populações finitas e infinitas: Quanto ao número de elementos, as populações podemser classificadas em finita ou infinita, dependendo do número de elementos que acompõe.

Exemplos :i) População finita: empresas do Pólo Petroquímico de Camaçari.ii) População infinita: as pressões atmosféricas ocorridas nos diversos pontos doContinente em determinado momento.

Em geral, como os universos são grandes, investigar todos os elementos populacionaispara determinarmos a característica necessita muito tempo, e/ou o custo é elevado, e/ouo processo de investigação leva a destruição do elemento observado, ou, como no casode populações infinitas, é impossível observar a totalidade da população. Assim, estudarparte da população constitui-se um aspecto fundamental da Estatística.

Amostra: É qualquer subconjunto da população.

5.2. Tipos de variáveis

As características da população que nos interessa analisar recebem o nome de

variáveis. As características ou variáveis podem ser divididas em dois tipos:qualitativas e quantitativas.

Variáveis qualitativas - quando o resultado da observação é apresentado naforma de qualidade ou atributo. Exemplos: sexo; estado civil; grau de escolaridade; etc.

Variáveis quantitativas - quando o resultado da observação é um número,decorrente de um processo de mensuração ou contagem. Exemplos: número de filhos;salário mensal; altura; peso; idade; tamanho da família; etc.

As variáveis qualitativas são divididas em dois tipos: nominal, para a qual não

existe nenhuma ordenação nas possíveis respostas da referida variável, e ordinal, para aqual existe uma ordenação. Por exemplo,

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 4/72

 

3

Qualitativa NOMINAL (SEXO, COR DOS OLHOS,TIPOS DE DEFEITOS...)ORDINAL (CLASSE SOCIAL, GRAU DE INSTRUÇÃO, PORTE DEEMPRESA...)

As variáveis quantitativas são divididas em:discretas

, que assumem valores em umconjunto finito ou enumerável de números, contínuas, que assumem valores em um intervalonúmeros reais.Quantitativa CONTÍNUA (PESO, ALTURA, VIDA ÚTIL DE BATERIA...)

DISCRETA (NÚMERO DE FILHOS, NÚMERO DE CARROS,NÚMERO DE DEFEITOS...)

Para resumir as informações levantadas durante uma pesquisa usaremos atécnica e a representação mais apropriada, a depender do tipo de variável que estamosanalisando.

6. 

 APRESENTAÇÃO DOS DADOSEsta seção apresenta alguns procedimentos que podem ser utilizados para

organizar e descrever um conjunto de dados, tanto em uma população como em umaamostra.

O conjunto de informações disponíveis, após a tabulação do questionário oupesquisa de campo, é denominado de tabela de dados brutos. Apesar de conter muitainformação, a tabela de dados brutos pode não ser prática para respondermos àsquestões de interesse.

Exemplo: Banco de dados (dados brutos) 

Foi realizada uma pesquisa por amostragem junto às indústrias de matériasplásticas nas principais regiões metropolitanas do Brasil e investigou-se as seguintesvariáveis: constituição jurídica; porte; número total de empregados em 1999;faturamento anual em 1998 e 1999; tempo de existência; região metropolitana; e setorde atividade. As observações referentes às 106 empresas amostradas encontram-se noarquivo Empresa.xls.

Dado um conjunto de dados o modo de condensação ou apresentação dasinformações pode ser na forma de tabelas de frequências ou de gráficos que facilitam avisualização do fenômeno, permitem a comparação com outros elementos ou, ainda,fazer previsões.

6.1. Tabela ou Distribuição de Frequências

O fenômeno considerado é uma variável qualitativa ou quantitativa (discreta oucontínua) e seus valores observados são descritos considerando o número de vezes queocorreram na tabela de dados brutos (frequência).

Algumas definições:

Frequência simples absoluta( f i ): é o número de ocorrências ou repetições de um valorindividual ou um intervalo de valores.

Frequência simples relativa( fr i): é a razão entre a frequência simples absoluta e onúmero total de dados (soma de todas as frequências simples absolutas).

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 5/72

 

4

Agora vamos exemplificar distribuições de frequência para cada tipo de variável.

1ª) Variável qualitativa Nominal ou Ordinal

As variáveis qualitativas obtidas em uma pesquisa podem ser organizadas em formas detabelas para facilitar a visualização e análise dos dados.

Exemplo 6.1: Considere a planilha de dados empresa.xls. Para a variável “porte deempresa” construa uma tabela:

Tabela 6.1: Porte das indústrias de matérias plásticas nas principais regiões metropolitanas doBrasil - 1999 

Porte da Indústria Números de indústrias%

(100x fr i ) 

Grande 23 21,7

Média 70 66,0Pequena 13 12,3Total geral 106 100,0

Fonte: Dados fictíciosa) Variável Quantitativa Discreta

Exemplo 6.2: Foi observado o número de defeitos apresentados por uma máquinaindustrial durante o período de 30 dias. Os resultados foram os seguintes:

1 1 1 0 1 10 2 1 3 1 01 1 1 2 0 11 1 4 1 0 32 2 1 1 0 1

Tabela 6.2: Número de defeitos em uma máquina industrial durante o período de 30 diasNúmero de

defeitosQuantidade ( fi) %

(100x fr i)0 6 20,01 17 56,72 4 13,33 2 6,67

4 1 3,33Total 30 100,0Fonte: Dados fictícios

b) Variável Quantitativa Contínua

Para certo conjunto de dados, vamos adotar a seguinte nomenclatura:

1.  Máximo (max): maior valor do conjunto.2.  Mínimo (min): menor valor do conjunto.3.  Amplitude total (AT): é a diferença entre o valor máximo e mínimo.

 AT  = MAX  – MIN  4.  Classe: é cada um dos intervalos em que se subdivide a amplitude total.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 6/72

 

5

Representação: k = número de classes5.  Limite superior ( lsup): é a cota superior para os valores da classe.6.  Limite inferior ( linf ): é a cota inferior para os valores da classe.7.  Amplitude do intervalo de classe (hi): é o comprimento da classe, definida como a

diferença entre o limite superior e inferior.

8.  Ponto médio ( X i): é a média entre os limites superior e inferior da classe i.

Determinação do número de classes e amplitude do intervalo de classes:

Não existem regras gerais, universalmente aceitas, para a determinação do número declasses. Existem, no entanto, algumas regras propostas por diferentes autores, que dãoideia aproximada do número de classes em função do número de dados.

Um dos métodos utilizado é chamado de regra de Sturges ou regra do logaritmo. Eleestabelece que

em que k é o número de classes e n é o número de dados. Outra maneira para obter onúmero de classes é

Mesmo conhecendo alguns métodos para a determinação do k , deve-se saber que aescolha dependerá antes da natureza dos dados, da unidade de medida e da experiência edo bom senso de quem fará a organização dos dados da pesquisa.

Uma vez encontrado o número de classes, determina-se a amplitude do intervalo declasses através da fórmula:

Exemplo 6.3: (Werkema, vol.2) Os dados abaixo representam o rendimento em (%) deuma reação para fabricação de uma substância química, em 80 bateladas produzidas poruma indústria. A empresa decidiu construir uma tabela de frequência para obter umresumo do conjunto de dados.

70,7 71,8 73,9 74,4 75,9 76,0 76,6 76,7 77,4 78,0 78,1 78,178,2 78,4 78,4 78,4 78,5 78,5 78,5 78,9 79,0 79,1 79,3 79,379,5 79,5 79,7 79,8 79,9 79,9 80,1 80,2 80,4 80,4 80,5 80,780,7 80,7 80,9 81,3 81,4 81,6 81,8 81,9 82,0 82,0 82,1 82,382,5 82,7 82,9 83,0 83,0 83,2 83,4 83,5 83,6 83,6 83,7 83,884,3 84,5 84,5 84,5 84,6 85,2 85,5 85,5 85,7 86,4 86,5 86,886,8 86,8 87,1 87,1 87,1 87,3 88,5 90,0

Procedimento para construir uma tabela de distribuição de frequências com intervalosde classes.

Solução: Neste caso, n = 80 ⇒ k = (80)1/2 ≅ 9

A amplitude total será dada por AT = 90 – 70,7 = 19,3.

.nk ≅

.k 

 AT h =

,log3,31 10 nk  +≅

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 7/72

 

6

Assim, a amplitude de cada intervalo de classe será: h ≅ 2,2

Dessa forma, a tabela de distribuição de frequências para dados agrupados em classesfica da seguinte maneira:

Tabela 6.3: Rendimento (em %) de uma reação para fabricação de uma substânciaquímica.

Rendimento Número desubstância ( fi)

%(100x fr i)

70,5 |— 72,7 2 2,5072,7 |— 74,9 2 2,5074,9 |— 77,1 4 5,0077,1 |— 79,3 14 17,5079,3 |— 81,5 19 23,7581,5 |— 83,7 17 21,2583,7 |— 85,9 11 13,7585,9 |— 88,1 9 11,2588,1 |— 90,3 2 2,50

Total 80 100,00Fonte: Dados fictícios

6.1.1.  Tabela de múltipla entrada

Em alguns casos é necessário apresentar mais de uma variável em uma única tabela.Quando são utilizadas apenas duas variáveis tem-se uma tabela de dupla entrada.

Tabela 6.4: Porte das indústrias de matérias plásticas por região metropolitana do Brasil -1999 

Região MetropolitanaPorte da empresa

TotalGrande Média Pequena

Belo Horizonte 2 9 3 14Curitiba 1 4 0 5Porto Alegre 0 7 1 8Rio de Janeiro 3 13 2 18Salvador 8 18 4 30São Paulo 9 19 3 31Total 23 70 13 106

Fonte: Dados fictícios

6.2.  Representação gráfica

Serão apresentados alguns tipos de gráfico: setor ou pizza, barra, colunas, Paretoe histograma.

1º) Gráfico em barras

Utilizado para representação de variáveis qualitativas e quantitativas discretas

Exemplo 6.4:

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 8/72

 

7

Tabela 6.5: Tipo de fraude nos cartões de crédito daMastercard Internacional no Brasil - 2000

Tipo de fraude QuantidadeCartão roubado 243Cartão falsificado 85

Pedido por correio/telefone 52Outros 46

Fonte: Triola, Mario F.

Figura 6.1: Tipo de fraude nos cartões de crédito da Mastercard Internacional no Brasil -2000

Fonte: Triola, Mario F.

2º) Gráfico em colunas

Utilizado para representação de variáveis qualitativas e quantitativasdiscretas.

Exemplo 6.5:Tabela 6.6: Número de crianças de baixa renda, segundo o bairro

de residência, que participaram do ensino de música naEscola XYZ, em Salvador - 1998

Bairro Número de criançasParipe 11Periperi 39Plataforma 45Praia Grande 25Total 120Fonte: Escola de Música XYZ, Salvador.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 9/72

 

8

Figura 6.2: Número de crianças de baixa renda, segundo o bairro de residência,que participaram do ensino de música na Escola XYZ, em Salvador - 2008

Fonte: Escola de Música XYZ, Salvador

Exemplo 6.6:

Tabela 2.7: Estudantes da Universidade XYZSegundo área de estudo e ano de ingresso

Área / Ano 1998 1999 2000Exatas 120 156 68Humanas 72 85 112

Biológicas 169 145 73Fonte: Dados Fictícios

Figura 6.3: Estudantes da Universidade XYZSegundo área de estudo e ano de ingresso

Fonte: Dados Fictícios

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 10/72

 

9

Exemplo 6.7: Gráfico para o exemplo 1.2.Figura 6.4: Número de defeitos em uma máquina industrial durante o período de 30 dias

Fonte: Dados fictícios

3º) Gráfico de Pareto

O gráfico de Pareto é composto por colunas e por uma curva representando apercentagem acumulada. As barras estão disponíveis em ordem decrescente, tornandoevidente a priorização de temas. Este gráfico é muito utilizado na área de Controle deQualidade.

Exemplo 6.8: (Werkema, volume 2)

Uma indústria fabricante de lentes tem como objetivo resolver o seguinte problema:aumento do número de lentes defeituosas produzidas pela empresa a partir de fevereirode 1995. A empresa classificou uma amostra de lentes fabricadas durante uma semanade produção de acordo com os tipos de defeitos detectados. O resultado está na tabela aseguir:

Tabela 6.8: Defeitos encontrados em uma amostra de lentes fabricadas durante umasemana de produção de uma indústria em 1200 lentes inspecionada.

Tipo de Defeito QuantidadeArranhão 12Trinca 41Revestimento Inadequado 55Muito Fina ou Muito Grossa 11Não Acabada 05Outros 03Total 127Fonte: Dados fictícios

Uma maneira de representarmos graficamente estes dados é através do gráfico dePareto, para que seja possível identificar com mais facilidade o defeito que apareceu

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 11/72

 

10

com maior frequência. Para construirmos o gráfico de Pareto é necessário obtermos aplanilha de dados mostrada na tabela a seguir.

Tabela 6.9: Planilha de dados para construção de gráfico de Pareto.

Tipo de defeito Quantidade dedefeito Totalacumulado Percentagem dototal geral (%) PercentagemacumuladaRevest. Inadeq. 55 55 43,3 43,3Trinca 41 96 32,3 75,6Arranhão 12 108 9,4 85,0Fina ou Grosa 11 119 8,7 93,7Não- Acabada 5 124 3,9 97,6Outros 3 127 2,4 100,0Total 127 / 100 / Fonte: Dados fictícios

Na Tabela 6.9 os tipos de defeitos foram listados em ordem decrescente de quantidadena coluna 1, a quantidade de defeitos aparece na coluna 2 e o total acumulado está nacoluna 3. Nas colunas 4 e 5 estão as percentagens totais e as percentagens acumuladasrespectivamente. As barras do gráfico de Pareto foram construídas a partir dos dados dacoluna 2 e a curva acumulada conhecida como curva de Pareto, foi traçada a partir dosnúmeros da coluna 5.

 O u  t r o s

  N o A c a  b a

 d a

  M u  i  t o

  F  i n a  o u   M u  i  t o 

 G r o s s a

 A r r a n  h

 o

  T r  i n c a

  R e  v e s  t  i m e n  t

 o   I n a d e

 q  u a d o

3511124155

2.43.98.79.432.343.3

100.097.693.785.075.643.3

100

50

0

100

80

60

40

20

0

DefeitosQuantidade

PercentagemPerc. Acumulada

     A    c    u    m    u     l    a     d    a

     P    e    r    c    e    n     t    a    g    e    m

     C    o    n     t    r    o     l    e

Gráfico de Pareto para os defeitos de lentes

 Observando a Figura 6.5, foi imediato para indústria perceber que os dois tipos dedefeitos mais frequentes, “Revestimento inadequado” e “trinca”, representavam 75,6%dos defeitos detectados nas lentes produzidas pela empresa. Portanto, “Revestimentoinadequado” e “trinca” foram considerados os defeitos mais importantes, que devem sereliminados em primeiro lugar esse tipo de defeito é chamado de poucos defeitos vitais,enquanto que os outros representam apenas os muitos defeitos triviais, pois 

representam a minoria das observações.

Figura 6.5:

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 12/72

 

11

4º) Gráfico em linhas ou curvasUtilizado para descrever séries temporais que são dados observados em instantesordenados do tempo. 

Exemplo 6.9:

Tabela 6.10: Índice de Produto IndustrialBrasil – 1979Meses IPIJaneiro 18.633Fevereiro 17.497Março 19.470Abril 18.884Maio 20.308Junho 20.146Julho 20.258Agosto 21.614

Setembro 19.717Outubro 22.133Novembro 20.503Dezembro 18.800

Fonte: FIBGE

Figura 6.6: Índice de Produto IndustrialBrasil – 1979

Fonte: FIBGE

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 13/72

 

12

5º) Gráfico em setores

Exemplo 6.10:Tabela 2.11: Percentual de funcionários da

Companhia Milsa segundo região de procedência

Procedência PercentualInterior 33,30Capital 30,60Outro 36,10

Fonte: Bussab e Morettin (2002)

Figura 6.7: Percentual de funcionários daCompanhia Milsa segundo região de procedência

Fonte: Bussab e Morettin (2002)

6º) Histograma

Quando os dados estão agrupados em intervalos de classes, o gráfico mais

apropriado é o histograma. No caso de classes de mesma amplitude, é construído um

retângulo para cada classe, com base igual à amplitude do intervalo classe e altura

proporcional a frequência da classe. Neste caso,

altura ~ frequência (absoluta ou relativa)

Quando temos classes com amplitudes diferentes, devemos construir um

retângulo para cada classe, com base igual à amplitude do intervalo de classe e altura

dada por:

Note que, neste caso, a área do retângulo é igual a frequência da classe. A altura d  

definida acima é chamada de densidade de frequência. 

classeda amplitude

requênciad  =

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 14/72

 

13

Exemplo 6.11: Histograma para a distribuição de frequência do exemplo 6.3.

Figura 6.8: Rendimento (%) de uma Reação para Produção de uma Substância

Química  Fonte: Dados fictícios

Exercício: As especificações estabelecem um limite inferior para o rendimento igual a78%. A partir de um histograma, você acredita que o processo está satisfazendo aespecificação? Justifique.

6.2.1.  Cuidados na representação gráfica

Fonte: Dados fictícios

Há vários problemas com este gráfico. Ele impressiona mais pela tecnologiautilizada do que pela informação que passa para o leitor. Os dados não sãotridimensionais. As grades do fundo mais o efeito tridimensional distraem a visão edificultam comparações entre trimestre e regiões. Uma forma de melhorar o gráfico édar-lhe a dimensão correta. As linhas de grade. Não utilize faixas horizontais, verticaisou similares, que só atrapalham a visão do leitor. Faça mais de um gráfico até encontrarum que seja informativo, claro, e que não possua objetos desnecessários.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 15/72

 

14

0

10

20

30

40

50

60

70

80

90

100

primeiro segundo terceiro quarto

Distribuição das vendas do produto X por trimestre

segundo as zonas

Leste

Oeste

Norte

 Não apresente gráficos supérfluos. Se retirarmos a figura abaixo, toda a

informação poderá ser transmitida textualmente, com uma simples frase: “20% dasrespostas foram positivas e 80% negativas”.

Observe que o efeito 3-D dificulta o julgamento das porcentagens relativas decada categoria da variável. A retirada do efeito 3-D ajudará o leitor a julgar melhor asproporções relativas observadas em cada amostra.

7.   MEDIDAS DE POSIÇÃO CENTRAL

As distribuições de frequências e os gráficos fornecem mais informações sobre ocomportamento de uma variável do que a própria série original de dados. Mas,queremos resumir ainda mais esses dados. Com esse objetivo usaremos métodos da

Estatística Descritiva que ensinam a reduzir a informação contida em uma grandequantidade de dados a um pequeno número de medidas, substitutas e representantes

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 16/72

 

15

daquela massa de dados. Vamos agora estudar as medidas da Estatística Descritiva,agrupadas em medidas de posição (ou de locação ou de localização) central: média,mediana e moda.Exemplo de aplicação: (Azulejos) 

Uma fábrica de azulejos nos últimos meses passou a receber reclamações de seusclientes. A maioria das reclamações era relativa aos seguintes problemas:

•  Os azulejos, ao serem manuseados, quebravam-se facilmente.•  O assentamento dos azulejos, quando era utilizada argamassa, não produzia um

resultado uniforme em relação ao nível da parede.

Em vista dessa situação, a indústria decidiu formar um grupo de trabalho para resolveresses problemas. Na etapa de identificação do problema, o grupo de trabalho concluiuque a produção de azulejos com espessura não adequada poderia estar provocando asreclamações dos clientes. Esta conclusão resultou do conhecimento dos seguintes fatos:

•  Azulejos com espessura muito fina quebram-se facilmente.•  A falta de uniformidade na espessura dos azulejos provoca dificuldades durante o

seu assentamento.

Para avaliar se estavam ocorrendo problemas com a espessura dos azulejos produzidos,o grupo decidiu retirar uma amostra aleatória dos azulejos fabricados pela empresa,medir a espessura destes azulejos e comparar os resultados obtidos com asespecificações. Como a empresa empregava duas turmas de trabalho (turmas A e B) epoderia haver diferença na qualidade dos azulejos produzidos por cada turma, foi

utilizada uma estratificação, sendo então retirada uma amostra de 80 azulejosproduzidos pela turma A e 80 fabricados pela turma B. Os dados coletados, jáordenados, estão na Tabela 7.1.

Ao observarmos o conjunto de dados já fazemos alguma ideia sobre o comportamentodas duas turmas de trabalho, em termos da espessura dos azulejos que produzem.Entretanto, claramente necessitamos calcular algumas medidas que resumam ainformação contida nos dados. Vamos começar tentando responder: Qual o valor típicoda turma A? E da turma B? A primeira ideia para obter um valor típico é a de calcularuma média.

Tabela 7.1: Medidas da Espessura (mm) de 160 Azulejos do Estoque (dados ordenados)TURMA A TURMA B2,3 3,1 3,8 4,5 4,9 5,6 5,8 6,22,4 3,1 3,9 4,5 4,9 5,6 5,8 6,22,4 3,3 3,9 4,5 5,0 5,6 5,8 6,32,4 3,3 3,9 4,5 5,1 5,7 5,8 6,32,6 3,4 4,0 4,5 5,1 5,7 5,9 6,42,7 3,4 4,0 4,6 5,1 5,7 5,9 6,42,7 3,5 4,0 4,6 5,3 5,7 5,9 6,42,8 3,5 4,0 4,7 5,3 5,7 5,9 6,4

2,8 3,5 4,0 4,7 5,3 5,7 5,9 6,42,8 3,5 4,1 4,9 5,3 5,7 5,9 6,5

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 17/72

 

16

2,9 3,5 4,1 4,9 5,3 5,7 6,0 6,52,9 3,5 4,1 5,1 5,3 5,7 6,0 6,52,9 3,6 4,2 5,2 5,3 5,7 6,0 6,53,0 3,6 4,2 5,4 5,4 5,7 6,1 6,63,0 3,7 4,2 5,4 5,4 5,7 6,1 6,7

3,0 3,7 4,3 5,5 5,4 5,7 6,1 6,73,1 3,7 4,3 5,6 5,4 5,8 6,1 6,73,1 3,7 4,3 5,6 5,4 5,8 6,1 6,83,1 3,8 4,4 5,7 5,5 5,8 6,2 6,93,1 3,8 4,4 5,9 5,5 5,8 6,2 7,0

Fonte: Dados fictícios

7.1. Média aritmética simples

A média aritmética simples de n números n x x x ,...,, 21 é um valor  x tal que

 xn x... x x x... x x n =+++=+++ 21  logo temos que,

n

 x

n

 x x x x

n

ii

n∑

==+++

= 121 ... 

Podemos pensar na média aritmética como o valor “típico” do conjunto de dados e éconsiderada a principal medida de posição central. Algumas das razões que fazem comque seja a medida de posição mais recomendada são:

• É definida rigorosamente e pode ser interpretada sem ambigüidades;

• Leva em consideração todas as observações efetuadas;

• Calcula-se com facilidade.

Entretanto, esta medida apresenta alguns inconvenientes como o fato de ser muitosensível a valores extremos, isto é, a valores excessivamente pequenos ouexcessivamente grandes, em relação às demais observações do conjunto de dados.

Exemplo 7.1 Estamos interessados em conhecer o salário médio mensal de certaempresa com cinco funcionários. Temos o seguinte conjunto de salários mensais, emreais: 123 - 145 - 210 - 225 - 2.500. Podemos observar que quatro dos cinco saláriosapresentam valores entre 123 e 225 reais, porém a média salarial de 640,6 reais ébastante distinta desse conjunto pela influência do salário de 2.500 que puxou o valormédio para cima.

Em algumas situações, os números que queremos sintetizar têm graus deimportância diferentes. Utiliza-se então uma média ponderada. Vamos ver a seguir adefinição da média aritmética ponderada.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 18/72

 

17

A média aritmética ponderada dos números n x x x ,...,, 21 , n com pesos p1 , p2 ,

..., pn é definida por

=

== n

ii

n

i

ii

 p

 p

.p x

 x

1

1 , ou simplesmente por∑∑=  p

 x.p x p .

Obs: Quando os dados estão agrupados por frequências (absolutas ou relativas) osponderadores serão as frequências.

Exemplo 7.2: Em um grupo de pessoas, 70% são adultos e 30% são crianças. O pesomédio dos adultos é 70 kg e o peso médio das crianças é 40 kg. Qual o peso médio dogrupo?

Solução: É a média aritmética ponderada dos dois subgrupos. A resposta é

kg613070

30407070=

+×+×

= , ,

 , , x p  

Exemplo de aplicação: (Azulejos)

Para responder à questão do valor típico da espessura dos azulejos produzidos pelasTurmas A e B calculamos então as médias aritméticas, pois o desejado é obter aespessura média M tal que se a espessura de cada azulejo fosse sempre igual a M a

soma total seria a mesma.

Resumindo em uma tabela as médias aritméticas (em mm), temos:

Tabela 7.2: Valor da média aritmética por turma para dados da espessura dos azulejosTurma Média aritmética

A 3,8575B 5,8725

Observando as médias aritméticas das amostras observadas, parece existir diferença, emtermos médios, entre as espessuras dos azulejos que estão sendo continuamente

produzidos pelas turmas A e B.

7.2. Moda

A moda é outra medida de locação, mas diferentemente da média, não utiliza em seucálculo todos os valores do conjunto de dados analisado.

A moda é o valor que ocorre com maior frequência no conjunto de dados.

Notação: Mo = moda

Exemplo 7.3:

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 19/72

 

18

a) X = {2, 3, 3, 5, 5, 5, 6, 7} ⇒   Mo = 5b) Y = {10, 12, 17, 21, 32} ⇒   Mo = não existe, a distribuição é amodal.c) Z = {2, 2, 5, 5, 7, 7} ⇒   Mo = não existed) W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21} ⇒ A distribuição apresenta doisvalores modais: 12 e 18 (distribuição bimodal).

Obs: A moda é a única medida de posição central que pode ser usada em tabelas comvariáveis qualitativas.

Quando o conjunto de dados apresenta mais de uma moda damos o nome dedistribuição plurimodal.

A moda é uma medida mais adequada ao caso de dados agrupados. Quando adistribuição de frequências está organizada por classes de valores, devemos identificar aclasse modal (classe em que observamos a maior frequência). O ponto médio da classemodal será o valor estimado para a moda que é denominada moda bruta.

2i

nf i

hl Mo +=  

em que: linf = limite inferior da classe modal;

hi = amplitude da classe modal;

No caso de dados não agrupados, a moda nem sempre tem utilidade com elementorepresentativo ou sintetizador do conjunto. Consideremos por exemplo o seguinteconjunto de dados:

Tabela 7.3: Quantidade de operários das empresas de telemarketing na cidade deSalvador - 2010.

Quantidade deoperários

Quantidade deempresas

7 111 115 117 219 121 1

25 3Fonte: Dados fictícios 

De acordo com a definição a moda é 25, entretanto este valor não é representativo doconjunto de dados e, portanto a moda não é uma boa medida de locação neste caso.

Exemplo de aplicação: (Azulejos)

Para obtermos a moda bruta é necessário construir uma distribuição de frequência.(número de classes definido arbitrariamente)

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 20/72

 

19

Tabela 7.4: Espessura (em mm) dos azulejos fabricados pela Turma AEspessura Nº de

azulejos2,25  2,75 72,75   3,25 15

3,25  3,75 163,75  4,25 174,25  4,75 144,75  5,25 45,25  5,75 65,75  6,25 1

Fonte: Dados fictícios

Tabela 7.5: Espessura (em mm) dos azulejos fabricados pela Turma B Espessura Nº de

azulejos4,75  5,25 65,25  5,75 305,75   6,25 266,25  6,75 156,75  7,25 3

Fonte: Dados fictícios 

Resumindo em uma tabela os valores modais (em mm), temos:

Tabela 7.6: Valor da moda por turma para dados da espessura dos azulejos

Turma ModaA 4,0B 5,5

7.3.  Mediana

Notação: Md = mediana

Definição: Chamamos de mediana o elemento do conjunto que ocupa a posição centralna distribuição ordenada (crescente ou decrescente). Isto é, divide a distribuição em

duas partes iguais de modo que 50% dos valores observados são inferiores ao valormediano e 50% superiores a esse valor.Notação: X(i)= elemento que ocupa a i-ésima posição da série ordenada.

n =número de elementos da série.

1)2

XX

Md1

2

n

2

  

 

 

  

  +

= , n é par

2) 

  

  +=2

1nXMd , n é ímpar

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 21/72

 

20

A mediana é uma medida de posição resistente, pois é pouco afetada por mudanças depequena porção dos dados, ao contrário da média aritmética que é sensível a valoresatípicos.

Exemplo 7.4: Comparação entre a média aritmética e a mediana para os conjuntos de

salários (em reais) dados.

 X = { 200, 250, 250, 300, 450, 460, 510} ⇒  X  = 345,7;  Md  X  = 300.

Y = { 200, 250, 250, 300, 450, 460, 2.300} ⇒  Y  = 601,0;  Md Y  = 300.

Podemos observar que no caso do conjunto Y a média não sintetiza adequadamente oconjunto de dados, pois apenas um valor é superior a ela.

Exemplo de aplicação: (Azulejos) 

As mesmas comparações feitas para a média podem ser feitas para a mediana para onosso conjunto de dados. Resumindo em uma mesma tabela as médias e as medianas(em mm), temos:

Tabela 7.7: Medidas- resumo por turma para dados da espessura dos azulejosTurma Média aritmética Mediana

A 3,857 3,8B 5,865 5,8

Fonte: Dados fictícios

Para ambas as turmas, a média aritmética e a mediana apresentam valores semelhantes.A mediana indica que 50% dos azulejos produzidos pela turma A estão com espessurainferior a 3,8mm e 50% dos produzidos pela turma B apresentam espessuras superior a5,8mm.

7.4.  Indicações para utilização das três principais medidas de posição central 

Vimos que as três principais medidas de posição - a média aritmética, a mediana e amoda - têm o mesmo objetivo: determinar um valor típico do conjunto de dados. Surge,então, a seguinte questão: quando deveremos utilizar cada uma dessas medidas?

De maneira geral, a moda é a menos empregada e a mais difícil de calcularsatisfatoriamente. No entanto, é adequada para caracterizar situações onde estejam emcausa os casos ou valores mais usuais. Por exemplo, em estudos de mercado, oempresário pode estar interessado nas medidas que mais se vendem.

Correntemente a escolha é feita entre a média e a mediana, dependendo da natureza doproblema a estudar e de outros fatores, muitos dos quais não podem abordar-se a nívelelementar.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 22/72

 

21

A mediana tem vantagem: é mais resistente do que a média, isto é, a alteração drásticade um só valor do conjunto de dados reflete-se substancialmente no valor da média epode não refletir-se, ou refletir-se muito pouco, no valor da mediana.

A média tem vantagens: quando a curva de frequências tem forma de sino, mais ou

menos simétrica, com abas decaindo rapidamente (valores erráticos muito improváveis),a média é mais eficiente do que a mediana; a média é uma função linear dasobservações, propriedade que também pode pesar na sua adoção.

Por fim, uma vantagem da mediana e da moda em relação à média aritmética é que estaúltima não pode ser calculada quando ocorrem classes de frequências com limitesindefinidos (classes abertas). Entretanto, nesta situação, a moda e a mediana podem serencontradas sem qualquer dificuldade.

8.  SEPARATRIZES

As separatrizes são medidas que permitem calcularmos valores da variável que dividemou separam a distribuição em partes iguais. Temos três tipos de separatrizes, tambémchamadas de quantis: os quartis; os decis; e os percentis.

As medidas de posição denominadas quartis, decis e percentis têm construção análoga ada mediana. Enquanto a mediana separa a distribuição em duas partes iguais, acaracterística principal de cada uma dessas medidas é:

•  Quartis: dividem a distribuição em quatro partes iguais;•  Decis: dividem em dez partes iguais;

•  Percentis: dividem em cem partes iguais.

Notações:Q

i= quartil de ordem i;

 Di = decil de ordem i;

Pi = percentil de ordem i

Observações:

i) Temos a seguinte igualdade: C 50 = D5 = Q2 = Md 

ii) O cálculo para os decis e os percentis é análogo ao dos quartis.

iii) O intervalo interquartil ou interquartílico, definido por (Q1; Q3), contém 50% do

total de observações localizadas mais ao centro da distribuição.

iv) Podemos também ter idéia sobre a forma da distribuição utilizando apenas seusquartis:

•  Se ( Md - Q1) < (Q3 - Md ) => assimetria à direita ou positiva;•  Se ( Md - Q1) > (Q3 - Md ) => assimetria à esquerda ou negativa;

•  Se ( Md - Q1) = (Q3 - Md ) => distribuição simétrica;

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 23/72

 

22

As Figuras a seguir ilustram uma distribuição simétrica e distribuições assimétricas,respectivamente.

Figura 7.1: Distribuição Simétrica:  X =Md=Mo

Fonte: Bussab e Morettin (2002)

Figura 7.2: Distribuições Assimétricas:

Mo ≤Md≤  X     X ≤ Md≤ Mo

Fonte: Bussab e Morettin (2002)

Cálculo dos percentis

A posição do percentil de ordem i no conjunto de dados ordenado será definida como:

100

n.iPosi = , em que Posi = posição do percentil de ordem i; e n = número de

elementos da série

1)  Se Posi = valor inteiro, então o percentil é definido como a média dos valores queocupam a posição Posi  e Posi + 1.

2)  Se Posi = valor não inteiro, então o percentil é definido como o valor que ocupa aposição u + 1 , em que u = inteiro mais próximo que seja menor que Posi  .

Exemplo 8.1: Calcule Q1 para o seguinte conjunto de dados:

21 23 18 25 24 28

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 24/72

 

23

Resolução: Lembrar que Q1 corresponde ao percentil de ordem 25.1. Ordenar os valores: 18 21 23 24 25 28

2. Pos 25 = 25 (6/100) = 1,5 (valor não inteiro) ⇒ u = 1 e portanto o Q1 é o valor queocupa a 2ª posição na série ordenada.

3. Q1 = 21

Exemplo de aplicação: (Azulejos) Verificar por meio dos quartis o tipo de assimetria para os dados de espessura deazulejos.

Medidas Turma A Turma BQ1 3,10 5,55Md 3,80 5,80Q3 4,45 6,20

Md – Q1 0,70 0,25Q3 – Md 0,65 0,40

Assimetria  Negativa Positiva

9.   MEDIDAS DE DISPERSÃO

Exemplo 9.1: Duas máquinas foram reguladas para encher cada pacote de café com500g. Com o objetivo de verificar a regulagem dessas máquinas, um fiscal de área

anotou o peso dos 5 primeiros pacotes produzidos por cada máquina e calculou o pesomédio dos pacotes. Os resultados encontram-se abaixo:

Máquinas Peso dos pacotes Peso1° 2° 3° 4° 5° médio

 A 500 497 498 500 495 498 B 490 500 505 510 495 500

Observando apenas o peso médio dos pacotes, poderíamos concluir que a máquina  B apresentou melhor desempenho do que A. Porém, quando observamos cada informação

separadamente, verificamos que o peso dos pacotes vindos da máquina  A variou entre495 e 500g, enquanto que o da B variou entre 490 e 510g. Isto quer dizer que a máquina A enche os pacotes mais uniformemente que a máquina B.

As medidas de dispersão servem para avaliar o grau de variabilidade dos valores deum conjunto de dados. Estas medidas permitem estabelecer comparações entrefenômenos de mesma natureza ou de natureza distinta e, em geral, essa variabilidade éobservada em torno de uma medida de posição central. Essas medidas podem serabsolutas ou relativas.

9.1.  Amplitude total  ( medida de dispersão absoluta)

Notação: AT = Amplitude Total

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 25/72

 

24

Definição: A amplitude total de um conjunto de números é a diferença entre os valoresextremos do conjunto.

Exemplo 9.2: Calcular as amplitudes totais do exemplo anterior e identificar qual a

máquina que apresentou a menor dispersão no peso dos pacotes de café.

Resolução:  A : AT = 500 - 495 = 5 gramas; B: AT = 510 - 490 = 20 gramas;

A máquina A apresentou uma menor variabilidade nos pesos dos pacotes de café.

Observações:

1ª) A amplitude total é a medida mais simples de dispersão.2ª) A desvantagem desta medida de dispersão é que leva em conta apenas os valores

mínimo e máximo do conjunto. Se ocorrer qualquer variação no interior doconjunto de dados, a amplitude total não nos dá qualquer indicação dessa mudança.

3ª) A amplitude total também sofre a influência de um valor "atípico" na distribuição(um valor muito elevado ou muito baixo em relação ao conjunto).

Exemplo de aplicação: (Azulejos)Vamos observar no nosso conjunto de dados as médias aritméticas e as amplitudestotais ( ranges) para termos uma primeira ideia sobre a variabilidade das espessuras dosazulejos para as diferentes turmas.

Tabela 9.1: Medidas-resumo para dados da espessura dos azulejosTurma Média aritmética Amplitude total

A 3,8575 3,6B 5,8725 2,1

Podemos observar que a amplitude total para a turma B é menor que a da turma A.

9.2.  Desvio-padrão amostral (medida de dispersão absoluta)

Notação: s = desvio-padrão

Vejamos a seguinte ilustração: Cinco pessoas são levadas a um laboratório para medir

suas respectivas taxas de colesterol. O laboratório sugere utilizar dois métodosdiferentes de medição para efeitos de controle. Os resultados são dados abaixo:

 X =200

* * * * *177 193 195 209 226

* * * * *192 196 201204 207

 

Método A

Método B

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 26/72

 

25

Pode-se observar que em média os métodos de medição do colesterol são iguais porém,se analisarmos melhor os dados percebemos que no método A os valores estão maisafastados da média do que no método B. Este fato, nos leva a pensar numa medida quepossa avaliar a dispersão dos dados em torno de sua média. Tal medida é conhecidacomo desvio padrão e veremos sua definição a seguir.

Definição: Sejam  x x xn1 2, ,..., , n valores que a variável  X  assume. O desvio padrãoamostral é definido como:

( )

11

2

−=

∑=

n

 x x

S

n

ii

 

Exercício: Calcule o desvio padrão para as taxas de colesterol: método A e método B.SA = 18,43909 SB= 6,041523

Exemplo de aplicação: (Azulejos)

Da mesma maneira que trabalhamos com a amplitude total, vamos observar no nossoconjunto de dados as médias aritméticas e os desvios padrões (S) para termos umaprimeira idéia sobre a variabilidade nas espessuras dos azulejos produzidos pelas turmasA e B.

Tabela 9.2: Medidas-Resumo para dados da espessura dos azulejos

Turma Média Aritmética Desvio PadrãoA 3,8575 0,8706B 5,8725 0,4802

Podemos observar que a Turma B apresenta maior média que a da turma A e além dissoa sua variabilidade é menor. Parece que esta turma atinge mais os objetivos, ou seja,uniformidade na espessura (menor dispersão) e azulejos com espessura mais grossa.

9.3. Variância ( medida de dispersão absoluta) 

Definição: A variância é o quadrado do desvio padrão.

Notação: s2

Observações: 

i)  O desvio padrão tem a unidade de medida igual a unidade de medida original da

variável, enquanto que a variância apresentará a unidade de medida elevada aoquadrado.ii)  Ao trabalharmos com os dados de toda a população calculamos a variância e o

desvio padrão populacional dividindo por N (tamanho da população) e não porN-1.

9.4. Coeficiente de variação de pearson (medida de dispersãorelativa)

Quando se deseja comparar a variabilidade de duas ou mais distribuições, mesmoquando essas se referem a diferentes fenômenos e sejam expressas em unidades demedida distintas, podemos utilizar o coeficiente de variação de Pearson (medida dedispersão relativa).

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 27/72

 

26

Notação: CV = coeficiente de variação de Pearson ou apenas coeficiente de variação.

Definição: O coeficiente de variação para um conjunto de n observações é definidocomo o quociente entre o desvio padrão e a média aritmética da distribuição.

CV  =

S

 X  ,em que S = desvio padrão amostral. Observe que esta é uma medida adimensional.Normalmente é expressa em porcentagem.

Exemplo de aplicação:(Azulejos) Considerando o exemplo anterior para calcularmos o coeficiente de variação:

Tabela 9.3: Medidas-Resumo para dados da espessura dos azulejosTurma Média Aritmética Desvio Padrão Coeficiente de Variação (%)

A 3,8575 0,8706 22,57

B 5,8650 0,4855 08,28Os azulejos produzidos pela turma B são mais homogêneos quanto a espessura.

10.  Box-plotO Box-plot é um método alternativo para representar os dados e está ilustrado na

Figura 10.1. O  Box-plot fornece informações sobre as seguintes características de umconjunto de dados: locação, dispersão, assimetria e outliers (observações discrepantes).

Mediana

Quartil 3

Quartil 1

Ponto exterior

Máximo

Mínimo

Figura 10.1 Box Plot

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 28/72

 

27

O centro da distribuição é indicado pela linha da mediana. A dispersão érepresentada pela altura do retângulo (Q3-Q1), o qual contém 50% dos valores doconjunto de dados. A posição da linha mediana no retângulo informa sobre a assimetriada distribuição. Uma distribuição simétrica teria mediana no centro do retângulo. Se amediana é próxima de Q1 então os dados são positivamente assimétricos. Se a mediana

é próxima de Q3 os dados são negativamente assimétricos.

Os valores fora de Q1–1,5(Q3-Q1), denotado por limite inferior, e Q3+1,5(Q3-Q1),denotado por limite superior, geralmente são chamados de  pontos exteriores e devemser investigados como possíveis outliers ou valores atípicos. Pontos exteriores não sãonecessariamente outliers, mas um outlier usualmente aparece no gráfico como um pontoexterior .

Exercício de aplicação: (Azulejos) Observemos os Box plots para as turmas A e B.

Temos que para turma A, o limite inferior é Q1–1,5(Q3-Q1)= 3,1-1,5(4,45-3,1)= 1,075 e

o limite superior é Q3+1,5(Q3-Q1)= 4,45+1,5(4,45-3,1)=6,475. E para a turma B, olimite inferior é 5,55-1,5(6,2-5,55)=4,575 e o superior é 6,2+1,5(6,2-5,55)=7,175.Então, não há pontos exteriores. Os Box-plots correspondentes as turmas A e B estão naFigura 6.2. Podemos perceber que a distribuição da espessura dos azulejos fabricadospela turma A aparentemente apresenta assimetria negativa. Enquanto que para a turmaB observa-se assimetria positiva.

Figura 10.2: Box-plot para as espessuras (mm) dos azulejos por turma

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 29/72

 

28

Observações sobre a construção e interpretação de Box-plots:

1.  Quando a distribuição dos dados é simétrica, a linha que representa a medianaestará localizada mais ou menos no centro do retângulo e as duas linhas quepartem das extremidades do retângulo terão aproximadamente os mesmos

comprimentos.2.  De modo geral, quando a distribuição dos dados é assimétrica à direita, a linhaque representa a mediana estará mais próxima de Q1 do que de Q3. Isto aconteceporque a metade inferior dos dados está dispersa em uma faixa de comprimentomenor que o comprimento da região ocupada pela metade superior do conjuntode dados.

3.  Quando a distribuição dos dados é assimétrica à esquerda, a linha que representaa mediana estará mais próxima de Q3 do que de Q1. Isto acontece porque ametade superior dos dados está dispersa em uma faixa de comprimento menorque o comprimento da região ocupada pela metade inferior do conjunto dedados.

4.  O Box-plot também pode ser desenhado na posição vertical.5.  Os Box-plots são muito úteis para a comparação de dois ou mais conjuntos de

dados.

Exercício de aplicação: (Azulejos)

Utilizando agora todos os novos conhecimentos que você adquiriu, responda:

a)  Sabendo que os limites de especificação para a espessura dos azulejos são (5,0 ± 1,5) mm, você considera que a espessura não adequada dos azulejos pode estarprovocando as reclamações dos clientes? Por que?

b)  A forma do histograma construído para todos os dados considerados em conjuntoestá indicando que pode haver diferença na qualidade dos azulejos produzidos emdiferentes níveis dos fatores de manufatura do processo de fabricação dos azulejos?Por quê?

c)  Você considera que as duas turmas trabalham do mesmo modo ou existe diferençaentre a qualidade dos azulejos produzidos pelas duas turmas? Justifique suaresposta.

d)  O problema de quebra dos azulejos parece ser comum aos azulejos produzidos porambas as turmas de trabalho da empresa ou parece estar associado a uma turmaespecífica? Por que?

e)  O problema de falta de uniformidade no assentamento dos azulejos parece sercomum aos azulejos fabricados por ambas as turmas de trabalho da empresa ouparece estar associado a uma turma específica? Por que?

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 30/72

 

29

1ª LISTA DE EXERCÍCIOS

Elaborada pelos professores: Giovana Silva, Maurício Lordelo, Rosana CastroRevisada: Giovana Silva

1) Classifique cada uma das variáveis abaixo em qualitativa (nominal/ordinal) ou quantitativa(discreta/contínua):a)  Ocorrência de hipertensão arterial em grávidas com mais de 35 anos (sim ou não são

possíveis respostas para esta variável).b)  Intenção de voto para presidente (possíveis respostas são os nomes dos candidatos, além de

“indeciso”).c)  Perda de peso de maratonistas na Corrida de São Silvestre, em quilos.d)  Intensidade da perda de peso de maratonistas na Corrida de São Silvestre (leve, moderada,

forte).e)  Grau de satisfação da população brasileira com relação ao trabalho de seu presidente

(valores de 0 a 5, com 0 indicando totalmente insatisfeito e 5 totalmente satisfeito).

2) Um questionário foi aplicado aos dez funcionários do setor de contabilidade de uma empresafornecendo os dados apresentados na tabela:

Funcionário Sexo Curso(completo)

Idade Salário (R$) Anos deempresa

1 masculino superior 34 1100,00 52 feminino superior 43 1450,00 83 feminino médio 31 960,00 64 masculino médio 37 960,00 85 masculino médio 24 600,00 36 feminino médio 25 600,00 27 masculino médio 27 600,00 58 feminino médio 22 450,00 29 masculino fundamental 21 450,00 3

10 feminino fundamental 26 450,00 3a)  Classifique cada uma das variáveis;b)  Faça uma representação gráfica para a variável curso;c)  Faça uma tabela para a variável curso por sexo.

3) Uma empresa do ramo automobilístico apresentou nos últimos anos os seguintes dados:Ano Veículos Vendidos Gastos com propaganda (R$) Renda per capita

(US$)1990 116002 1713 429

1991 154972 2835 4551992 178179 3585 4821993 233011 5566 5141994 295725 7251 5561995 343533 8146 5961996 379370 9148 632

Dados fictíciosa)  represente graficamente cada série separadamente;b)  analisando essas tabelas e gráficos pode-se concluir que os gastos com propaganda foram

compensados com o aumento da quantidade de veículos vendidos? Justifique.

4) Uma indústria automobilística verificou que, nos últimos meses, ocorreu um aumento no

número de reclamações sobre a ocorrência de defeitos no suporte da lanterna traseira de ummodelo de automóvel por ela fabricado. A empresa desejava eliminar esta situação indesejável e

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 31/72

 

30

para isto iniciou estudos para melhorar resultados. Na etapa de identificação do problema, ostécnicos da indústria classificaram o número total de peças defeituosas encontradas em umaamostra de peças produzidas durante uma semana de trabalho, segundo os tipos de defeitos queforam detectados. Os dados obtidos são apresentados na tabela abaixo.

Defeitos encontrados em uma amostra de suportes da lanterna traseirade um modelo de automóvel durante uma semana de produção de uma indústria.

Tipo de defeito Quantidade dedefeitos

Moldagem solta 14Solda quebrada 01Centro da moldagemdeslocado

04

Lateral da moldagemdeslocada

24

Moldagem arranhada 01Moldagem dentada 44

Plástico arranhado 07Limpeza incompleta 79Orifício deslocado 01Pino deslocado 05Total 180

a)  Construa um gráfico adequado para esta série.b)  Identifique os tipos de defeitos que os técnicos da empresa deveriam “atacar” em primeiro

lugar, com o objetivo de melhorar os resultados que vinham sendo obtidos pela indústria.Justifique sua resposta.

5) De acordo com uma pesquisa, vê-se que dos 36 empregados da seção de orçamentos

da Cia. Milsa, 12 têm o primeiro grau de educação, 18 o segundo e 6 possuem títulouniversitário. Apresente esta distribuição em uma tabela (com as proporções) e em umgráfico.

6) Uma empresa procurou estudar a ocorrência de acidentes com seus empregados, tendo, paraisso, realizado um levantamento abrangendo um período de 36 meses, onde foi observado onúmero de operários acidentados para cada mês. Os dados correspondentes são:1 2 2 3 3 3 3 4 4 4 4 45 5 5 5 5 5 5 6 6 6 6 66 7 7 7 7 7 8 8 8 9 9 10a) Construa uma distribuição de freqüência adequada;

b) Represente graficamente a distribuição do item a;c) Em qual porcentagem de meses houve, exatamente, seis acidentes?d) Em qual porcentagem de meses houve até quatro acidentes?

7) Contou-se o número de erros de impressão da primeira página de um jornal durante 50 dias,obtendo-se os resultados abaixo:08 11 08 12 14 13 11 14 14 05 06 10 14 13 06 12 0705 08 08 10 16 10 12 12 08 11 06 07 12 07 10 14 0512 07 09 12 11 09 14 08 14 08 12 10 12 13 07 15a) Construa uma distribuição de freqüência adequada;b) Represente a distribuição graficamente;c) Calcule o número médio de erros de impressão por primeira página;

d) Calcule a mediana;e) Determine a moda.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 32/72

 

31

8) A distribuição de freqüências do salário anual dos moradores do bairro A que têm algumaforma de rendimento é apresentada na tabela abaixo:

Faixa Salarial(x10 S.M.)

 fi

0 − 210.000

2 − 4 3.9004 − 6 2.0006 − 8 1.1008 − 10 800

10 − 12 70012 − 14 2.000

a) Construa um histograma da distribuição e identifique o tipo de assimetria;b) A média é uma boa medida para representar estes dados? Justifique sua resposta.

9) Os dados abaixo se referem ao diâmetro, em polegadas, de uma amostra de 40 rolamentos deesferas produzidas por uma companhia:

0,738 0,729 0,743 0,740 0,736 0,741 0,735 0,731 0,726 0,7370,728 0,737 0,736 0,735 0,724 0,733 0,742 0,736 0,739 0,7350,745 0,736 0,742 0,740 0,728 0,738 0,725 0,733 0,734 0,7320,733 0,730 0,732 0,730 0,739 0,734 0,738 0,739 0,727 0,735

a) construa uma tabela de distribuição de frequência por intervalos de classe;b) represente graficamente a distribuição do item a.

10) Coloque V(verdadeiro) e F(falso) e justifique:a) ( ) 50% dos dados de qualquer amostra situam-se acima da média;b) ( ) Numa turma de 50 alunos onde todos tiraram a nota máxima, o desvio padrão é zero;c) ( ) Quando queremos verificar a questão de uma prova que apresentou maior número de

erros, utilizamos a média;d) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos elementos de umconjunto de dados, a média aritmética fica adicionada (ou subtraída) dessa constante.e) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um doselementos de um conjunto de dados, a média aritmética fica multiplicada (ou dividida) por essaconstante.f) ( ) Somando-se (ou subtraindo-se) um valor constante e arbitrário a cada um dos elementos de umconjunto de dados, o desvio padrão fica adicionado (ou subtraído) dessa constante.e) ( ) Multiplicando-se (ou dividindo-se) um valor constante e arbitrário a cada um doselementos de um conjunto de dados, o desvio padrão fica multiplicado (ou dividido) por essaconstante.

11) Na companhia A, a média dos salários é 10.000 unidades e o 75

0

percentil é 5.000.Justifique.a)  Se você se apresentasse como candidato a essa firma e se o seu salário fosse escolhido ao

acaso entre todos os possíveis salários, o que seria mais provável: ganhar mais ou menosque 5.000 unidades?

b)  Suponha que na companhia B a média dos salários é 7.000 unidades e a variância épraticamente zero, e lá o seu salário também seria escolhido ao acaso. Em qual companhiavocê se apresentaria para procurar emprego?

12) Uma indústria de alimentos estava interessada em analisar seu processo de produção dedeterminado alimento. Existem nesta indústria duas máquinas responsáveis pelo controlam oprocesso de desidratação do alimento. Um importante item de controle do processo é a umidade

do produto final, que segundo as especificações, deve estar na faixa de 8,0% a 12%. Foidetectado incapacidade do processo em atender às especificações. A equipe técnica suspeitavade que podia haver diferenças na forma de funcionamento das duas máquinas de desidratação.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 33/72

 

32

Com o objetivo de observar o funcionamento das máquinas foram feitas medidas do teor deumidade do produto final, estratificadas por máquina de desidratação. Os resultados estãoapresentados a seguir:

Máquina 111,7 11,8 12,1 10,7 11,7 10,9 10,7 11,6 12,5 10,7 11,5 11,1 11,2 11,2 11,8 11,2 11,011,7 11,1 11,3 11,0 12,2 10,7 12,2 11,9 11,1 11,4 10,7 11,2 11,6 11,0 10,9 11,2 11,211,3  12,1 10,9 11,7 11,3  11,5

Máquina 211,4 11,5 11,5 10,4 11,0 9,9 10,5 10,8 11,4 11,5 10,9 10,2 11,1 11,0 10,2 11,2 11,910,8 11,2 11,0 10,2 10,9 11,5 10,9 10,1 11,2 10,7 11,8 11,1 10,4 11,8 11,9 10,7 10,810,8 10,4 10,8 11,2 10,8 10,6

Para cada máquina, calcule a média, a mediana, o desvio padrão, o coeficiente de variação e ointervalo interquartil da variável teor de umidade e construa o histograma e box plot . A partirdas medidas descritivas e dos histogramas e box plots, compare o desempenho das duas

máquinas comentando os aspectos de posição e variabilidade dos dados.

13) Construa a planilha e em seguida o gráfico de Pareto para a tabela abaixo:

Tipo de Defeito Quantidade de DefeitoMoldagem Solta 14Solda Quebrada 01

Centro de Moldagem Deslocado 04Lateral de moldagem deslocado 24

Moldagem Arranhada 01Plástico Arranhado 08

Limpeza Imcompleta 28

Total 80

Gabarito da 1ª lista de exercícios

1) a)Qualitativa Nominal b) Qualitativa Nominal c)Quantitativa Contínuad)Qualitativa Ordinal e) Qualitativa Ordinal

2) a)sexo- qualitativa nominal curso- qualitativa ordinal idade- quantitativacontinua salario- quantitativa continua anos de empresa- quantitativa continua

b)grafico colunas , barras , setorc) Tabela: Funcionários do setor de contabilidade de uma empresa por sexo e grau deinstrução.

Grau de InstruçãoSexo

Fundamental Medio Superior Total

Feminino

Masculino

1

1

3

3

1

1

5

5Total 2 6 2 10

Fonte: exercicio

3) a) Gráfico em colunas ou barras ou linhas.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 34/72

 

33

b) sim. Quanto mais gasto com propaganda, maior foi o número de carros vendindose teve aumento na renda.

4) a)grafico em colunas ou barras ou pareto (preferência).

b)limpeza incompleta, moldagem dentada. Prioridade para os que apresentam maiorocorrência.

5) Tabela: Grau de instrução empregados da seção de orçamentos da cia. Milsa.Grau deinstrução

Frequênciasimples absoluta

Frequênciasimples relativa

1 grau

2 grau

3 grau

12

18

6

0,33

0,50

0,17

Total 36 1,00Fonte: exercicio

b) grafico barra ou coluna

6) Tabela: Nº de acidentes ocorridos, por mês, com empregados da empresa no periodode trinta e seis meses.

Nº de acidentesNúmeros de meses

( fi) fr i 

1

2345678910

1

245765321

0,028

0,0550,1110,1390,1950,1670,1390,0830,0550,028

Total 36 1,00Fonte: exercicio

b) colunas  c)1/6 d)1/3 

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 35/72

 

34

7) Tabela: Número de erros de impressão da primeira página do jornal.Nº de erros Números de

páginas( fi)%

(100x fr i)5

678910111213141516

3

35725493711

6

610144

108

186

1422

Total 50 100Fonte: exercicio

b) grafico barras ou colunas. c)10,24 d)10,5 e)128) a) positiva ou à direita b) não. Devido a assimetria.9) a) n= 40 k= 6,32 AT = 0,021 h=0,004

Tabela: Diâmetro (mm) de rolamentos de esferas produzidas por uma companhia.Diametro

rolamentosNúmeros de

rolamentos( fi)%

(100x fr i)

0,724− 0,7280,728 − 0,7320,732 − 0,7360,736 − 0,7400,740 − 0,7440,744 − 0,748

46111261

101527,530152,5

Total 40 100,0Fonte: exerciciob) histograma

10) F,V,F,V,V,F,V 11) a) ganhar menos. b) B

12)Maquina 1 Maquina 2Média=11,365Mediana=11,25Desvio Padrão=0,4715CV=0,0415Quartil 1: 11,0Quartil 3: 11,7

Média=10,95Mediana=10,9Desvio Padrão=0,5109CV=0,0467Quartil 1: 10,7Quartil 3: 11,3

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 36/72

 

35

11.  Noções de Inferência Estatística

11.1.   Introdução

O objetivo principal da inferência estatística é fazer afirmações sobre característicasde uma população, baseando-se em resultados de uma amostra.

Na inferência estatística a incerteza está sempre presente. No entanto, se oexperimento foi feito de acordo com certos princípios, essa incerteza pode ser medida.

Uma função da estatística é fornecer um conjunto de técnicas para fazer inferênciase medir o grau de incerteza destas inferências. Esta incerteza é medida em termos deprobabilidades.

Exemplo 1: Flores brancas

Sementes (10.000.000)

(POPULAÇÃO) Flores vermelhas 

Suponha que em um celeiro existam 10 milhões de sementes de flores que podemproduzir flores brancas ou flores vermelhas. Deseja-se a seguinte informação: queproporção, dessas 10 milhões de sementes, produzirá flores brancas?Não é de interesse plantar todas as sementes para verificar a cor das flores produzidas.

Vamos plantar algumas poucas e com base nas cores dessas poucas, fazer algumaafirmação sobre a proporção (das 10 milhões) que produzirá flores brancas. Nãopodemos fazer esta generalização com certeza, mas podemos fazer uma afirmaçãoprobabilística, se selecionarmos as sementes que pertencerão à amostra de formaadequada.

Suponha que foi retirada uma amostra aleatória (ao acaso) composta de 200 sementes dapopulação acima. Observou-se que dessas sementes 120 eram de flores brancas e 80 deflores vermelhas. A proporção de flores brancas encontrada na amostra foi então de60% .

Como poderíamos utilizar o resultado de uma amostra para estimar a verdadeiraproporção de sementes de flores brancas?

Analisando o problema em questão com auxílio da teoria das probabilidades, pode-seencontrar um intervalo em torno da proporção observada na amostra (60%) e afirmarcom bastante segurança que a proporção populacional de sementes de flores brancasestará contida neste intervalo. Por exemplo, no problema acima, se admitíssemos umachance de erro de 5%, com o tamanho de amostra utilizado (n=200), a teoria estatísticapermite afirmar que a proporção populacional de flores brancas está entre 53% e 67%.Se os métodos estatísticos forem corretamente utilizados podemos garantir que é deapenas 5% a probabilidade de estarmos fornecendo um intervalo que não contenha a

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 37/72

 

36

verdadeira proporção populacional. Mais tarde veremos como calcular este tipo deintervalo.

11.2.   Estatísticas, Parâmetros e Estimadores

Alguns conceitos básicos são necessários para o desenvolvimento da InferênciaEstatística:

Parâmetro: qualquer valor calculado com base em todos os elementos da população.

Estatística: qualquer valor calculado com base (apenas) nos elementos da amostra.

Estimador:  uma estatística destinada a estimar um parâmetro populacional.

Estimativa: é o valor numérico do estimador com base nas observações amostrais.

Alguns exemplos de estatísticas que são também estimadores:

n

 X ... X  X  X  n+++

= 21   (média amostral)

(variância amostral)

Símbolos mais comuns

11.3.  Introdução à Amostragem 

Usualmente é impraticável observar toda uma população, seja pelo alto custo,seja por dificuldades diversas. Examina-se então uma amostra da população. Se essaamostra for bastante representativa, os resultados obtidos poderão ser generalizados

para toda a população.Uma amostra muito grande pode implicar em custos desnecessários enquanto que

uma amostra pequena pode tornar a pesquisa inconclusiva. Assim, deve-se procurar dentro das restrições impostas pelo orçamento, desenhar uma amostra que atinja osobjetivos, produzindo estimativas com menor imprecisão possível. 

A experiência com amostragem é fato corrente no cotidiano. Basta lembrar comoum cozinheiro verifica o tempero de um prato que está preparando, como alguém testa atemperatura de um prato de sopa, ou ainda como um médico detecta as condições de umpaciente através de exames de sangue. Porém, o uso inadequado de um procedimentoamostral pode levar a um viés de interpretação do resultado. Por exemplo, não mexerbem a sopa antes de retirar uma colher para experimentar, pode levar a sub-avaliação datemperatura do prato todo, com consequências desagradáveis para o experimentador.

Estimador Parâmetro

Média X    µ 

Variância S 2   σ 2  

Proporções  p̂    p ou π  

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 38/72

 

37

O uso de amostras que produzam resultados confiáveis e livres de vieses é o ideal.Assim, a maneira de se obter a amostra é tão importante que constitui uma especialidadedentro da Estatística, conhecida como Amostragem. Os vários procedimentos de seescolher uma amostra podem ser agrupados em dois grandes grupos: os chamados

planos probabilísticos e planos não-probabilísticos. O primeiro grupo reúne todas astécnicas que usam mecanismos aleatórios de seleção dos elementos da amostra,atribuindo a cada um deles uma probabilidade, conhecida a priori, de pertencer àamostra. No segundo grupo estão os demais procedimentos, tais como: amostrasintencionais, onde os elementos são selecionados com auxílio de especialistas, eamostras de voluntários, como ocorre em alguns testes sobre novos remédios.

Ambos os procedimentos têm suas vantagens e desvantagens. Os estatísticospreferem trabalhar com as amostras probabilísticas pois, têm toda teoria deprobabilidade e de inferência estatística para dar suporte às conclusões. Dessa forma, épossível medir a precisão dos resultados, baseando-se na informação contida da própriaamostra. Planos de amostragem probabilísticos podem ser exemplificados pela

amostragem aleatória simples e pela amostragem estratificada.

Amostragem Aleatória SimplesQuando o sistema de referência (lista ou descrição das unidades da população) é

“perfeito”, isto é, quando ele lista uma a uma todas as unidades da população, é possívelentão usar um procedimento onde cada unidade é sorteada diretamente, com igualprobabilidade de pertencer a amostra. A melhor maneira para definir este plano édescrevendo o processo de sorteio, que seria o seguinte: - “da relação de unidades dosistema de referência sorteie, com igual probabilidade o primeiro elemento da amostra,repita o processo para o segundo, e assim sucessivamente até sortear o último elementoprogramado para a amostra”. As amostras assim obtidas definem o plano deAmostragem Aleatória Simples que pode ser concebido com ou sem reposição.

Amostragem EstratificadaInformações adicionais podem aprimorar um desenho amostral. Por exemplo,

em uma pesquisa sobre renda familiar média, conhece-se de antemão as regiões dacidade onde predominam moradias de diferentes classes de renda. Este conhecimentopode ser usado para definir sub-populações homogêneas segundo a renda, e aí entãosortear amostras dentro de cada uma dessas regiões. Este procedimento é conhecidocomo a divisão da população em estratos, e consequentemente, definem os planos deAmostragem Estratificada.

11.4.   Erros amostrais e Não-amostrais

O uso de um levantamento amostral introduz um tipo de erro, que pode ser resumido nadiferença entre o valor de certa característica na amostra e o parâmetro de interesse napopulação. Esta diferença pode ocorrer apenas devido à particular amostra selecionada, ou entãodevido a fatores externos ao plano amostral. Quando o erro é devido à amostra selecionada échamado de erro amostral e quando é devido à fatores independentes do plano amostral (errosde medida, digitação, etc) é chamado de erro não-amostral.

Considera-se um erro amostral aquele desvio que aparece porque o pesquisador

não levantou a população toda. Cada amostra possível de um plano acarreta em umdesvio. Vejamos o esquema que se segue que considera a média como a característica

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 39/72

 

38

de interesse. Vamos denotar por µ e X  a média populacional e a média amostral davariável, respectivamente.

População ou Amostras possíveisUniverso de tamanho n

1 A1 => 1X  

23

A2 => 2X  .

. ………………… |X - µµµµ | = E = erro

.

Ai => i X   N…………………

Ak => kX  

 No caso da média, o estudo do erro amostral consiste basicamente em estudar o

comportamento da diferença ( X - µ ) quando  X  percorre todas as possíveis amostrasque poderiam ser formadas através do plano amostral escolhido. Conhecendo-se a

distribuição amostral de X pode-se avaliar sua média e seu desvio padrão. Neste

caso particular o desvio padrão recebe o nome de erro padrão de X . 

11.5.  Distribuições Amostrais 

Diferentes amostras extraídas da população irão originar valores distintos para aestatística considerada. Por este motivo, dizemos que as estatísticas são variáveisaleatórias, já que seu valor não pode ser predito com certeza antes da amostra ter sidoextraída. Além disso, as estatísticas, como funções de variáveis aleatórias, são tambémvariáveis aleatórias, e, portanto, têm uma distribuição de probabilidade, esperança e

variância.

A distribuição de probabilidade de uma estatística quando consideramos todas asamostras possíveis de tamanho n é denominada de distribuição amostral.

11.5.1.  Distribuição Amostral da Média 

A distribuição amostral da média   X  , de amostras aleatórias simples de

tamanho n, extraída de uma população que tem média µ e desvio padrão  σ, tem as

seguintes características:E( X ) = µ 

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 40/72

 

39

V( X ) = σ2/n

Caso a população tenha distribuição normal com média µ e desvio padrão σ, a

distribuição amostral da média X  , é normal com média µ e desvio padrão σ/ n .

A distribuição amostral da média   X  , de amostras aleatórias simples detamanho n extraída de uma população não-normal, com média µ e desvio padrão σ, éaproximadamente normal com média  µ  e desvio padrão  σ/ n , quando n ésuficientemente grande. Este resultado é uma aplicação de um importante teorema deprobabilidade, chamado Teorema Central do Limite. Para a utilização deste resultado,é usual considerar que o tamanho n da amostra é suficientemente grande quando n épelo menos 30.

Exercícios:

1) A máquina de empacotar um determinado produto o faz segundo uma distribuiçãonormal, com média µ e desvio padrão de 10g.a)  Em quanto deve ser regulado o peso médio  µ  para que apenas 10% dos pacotes

tenham menos do que 500g. Resp.:512,8 gb)  Com a máquina assim regulada, qual a probabilidade de que o peso total de 4

pacotes escolhidos ao acaso seja inferior a 2 Kg? Resp.:0,0052

2) No exemplo anterior, e após a máquina estar regulada, programou-se uma carta decontrole. De hora em hora, será retirada uma amostra de 4 pacotes, e estes serãopesados. Se a média da amostra for inferior a  495g ou superior a 520g  para-se aprodução para reajustar a máquina, isto é reajustar o peso médio.a)  Qual a probabilidade de ser feita uma parada desnecessária? Resp.: 0,0749b)  Se o peso médio da máquina desregulou-se para 500g, qual a probabilidade de

continuar-se a produção fora dos padrões desejados? Resp.: 0,8413

3) Para uma população com desvio padrão igual a 10, qual deve se o tamanho daamostra para que a diferença da média amostral para a média populacional, em valorabsoluto, seja menor que 1, com probabilidade igual a 0.99 ? Resp.: 666

11.5.2. 

Distribuição Amostral da Proporção Considere que a proporção de elementos numa população com determinada

característica é p.Assim, para cada elemento da população podemos definir uma variável  X , tal

que

X =

 ticacaracterísdaportadorénãoelementoose0,

ticacaracterísdaportadoréelementoose,1 

Isto é, X ~Bernoulli(p) = Binomial (1,p) , e portanto E(X ) = p e V(X ) = p(1-p).

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 41/72

 

40

Seja X 1  , X 2  , ... , X n   uma amostra aleatória simples retirada dessa população,

e seja ∑=n

in  X 1

S  o total de elementos portadores da característica na amostra. Tem-se

que Sn ~ Binomial (n,p).

Defina como  p̂    a proporção de elementos portadores da característica na

amostra, isto é,   X n

 X n

i

===∑1n

n

Sp̂ .

Utilizando o Teorema Central do Limite, tem-se que a distribuição amostral de

p̂  é aproximadamente  

  

  −n

p)p(1p,N , quando n é suficientemente grande (np≥5 e n(1- 

 p)≥5 ).

Exercícios

1)  Um procedimento de controle de qualidade foi planejado para garantir um máximode 10% de itens defeituosos na produção. A cada 60 minutos sorteia-se uma amostrade 50 peças, e, havendo mais de 15% de defeituosos, pára-se a produção paraverificações. Qual a probabilidade de uma parada desnecessária? Resp.: 0,119

2)  Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva

aplicar uma vacina, de modo que a proporção de indivíduos imunizados na amostradifira de menos de 2% da proporção verdadeira de imunizados na população, comprobabilidade de 90%. Qual tamanho da amostra a escolher? Resp: 1702

11.5.3.   Distribuição Amostral de S 2 

Considere uma amostra aleatória de tamanho n que é retirada de uma populaçãonormal com média µ e variância σ2, e seja S2 a variância amostral. Então a estatística 

tem distribuição qui-quadrado com  ν=n-1 graus de liberdade. A variávelaleatória Z tem função de densidade dada por:

( )

>−=

  

  

riocasocontrá 0,

0z , 2z-ez 122Γ2 2

1

f(z)ν 

ν ν   

diz-se que Z segue uma distribuição qui-quadrado com  ν graus de liberdade, denotada por  A média e a variância para a distribuição  são, respectivamente, ν e 2 ν.

A distribuição qui-quadrado é contínua e assimétrica e como a distribuição

normal padronizada, também é tabelada. A tabela fornece os valores de  para vários 

graus de liberdade sendo . A seguir, é mostrado como usar a tabelada distribuição qui-quadrado:

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 42/72

 

41

.

A tabela completa é fornecida no final da apostila.

Exercícios1) Para uma distribuição qui-quadrado, determine: a) b) c) Resp: 20,48; 18,48 e 36,42

2) Determine a probabilidade de que uma amostra aleatória de 25 observações, de umapopulação normal com variância σ2 =6, terá uma variância amostral S2:

a) maior que 9,1; Resp: 0,05b) entre 3,642 e 10,745. Resp.: 0,94

11.5.4.  Outra distribuição amostral 

Em muitas situações, o conhecimento do valor de  σ não é razoável Frequentemente, uma estimativa para σ é fornecida pela amostra. Suponha que X1, ...,Xn seja uma amostra aleatória de uma população normal, com média µ e variância σ2, e

sejam  e S2 a média e a variância amostrais, respectivamente. Então

) segue uma distribuição t ou t de Student, com  ν=n-1 graus deliberdade A função de densidade de T é dada por: 

A média e a variância da distribuição t são 0 e  ν/( ν+2) para ν<2, respectivamente.

Graus deliberdade

Probabilidade de ser maior que

determinado valor 

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 43/72

 

42

Figura 1: Gráficos da função densidade da distribuição t de Student para algunsvalores de graus de liberdade.

n=1 grau de liberdade

0,000

0,125

0,250

0,375

0,500

-3,50 -1,75 0,00 1,75 3,50

n=5 graus de liberdade

0,000

0,125

0,250

0,375

0,500

-3,50 -1,75 0,00 1,75 3,50

 

A distribuição t de Student é contínua e simétrica com média igual a zero. Suaaparência é bastante parecida com a normal padrão, veja Figura  1. Ambas asdistribuições tem forma de sino, mas a distribuição t tem mais probabilidade nosextremos. A qualificação “com n-1 graus de liberdade” é necessária, porque para cadavalor diferente do tamanho da amostra n existe uma distribuição t de Student específica.O número de graus de liberdade (gl) é o parâmetro da distribuição t de Student.

Assim como a distribuição normal padrão a distribuição t de Student também étabelada. A tabela fornece valores de  para vários graus de liberdade sendo 

. A seguir, é mostrado como usar a tabela da distribuição t de Student:  

A tabela completa é fornecida no final da apostila.

Exercícios1) Para uma distribuição T, determine:a) P(T<2,365) quando ν= 7 b) P(-1,356<T<2,179) quando ν= 12 Resp: 0,975 e 0,875

Graus deliberdade

Probabilidade de T ser maiorque determinado valor 

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 44/72

 

43

2) Um engenheiro químico afirma que a média populacional do rendimento de certolote do processo é 500 gramas por mililitro de matéria-prima. Para verificar essaafirmação, ele amostra 25 lotes a cada mês. Se o valor t calculado ficar entre –t0,05;24 et0,05;24, ele fica satisfeito com sua afirmação. A que conclusão ele deveria chegar emrelação a uma amostra que tem média  gramas por mililitro e desvio padrão 40gramas? Assuma que a distribuição dos rendimentos é aproximadamente normal.

12.   Estimação

Os parâmetros em geral são desconhecidos. A inferência estatística consiste em,através de uma amostra, “estimar” os valores dos parâmetros, ou também testar sealgumas hipóteses são válidas sobre determinados parâmetros. Estes são os problemasda inferência paramétrica conhecidos como problemas de estimação e testes dehipóteses, respectivamente.

Exemplos:Problemas de estimação1)  Estimar a proporção de peças defeituosas num lote.2)  Estimar o peso médio de um determinado produto de uma linha de produção.

Problemas de testes de hipóteses1)  Testar a afirmação de que o peso médio de um determinado produto de uma linha de

produção é 500 g.2)  Testar a afirmação de que a proporção de peças defeituosas é menor que 4% do lote.

Exemplo 12.1: Queremos investigar a duração de vida de um novo tipo de lâmpada,pois acreditamos que ela tenha duração maior do que as fabricadas atualmente.

Cem lâmpadas são deixadas acesas até queimarem. A duração em horas decada lâmpada (T) é registrada.

POPULAÇÃO:  todas as lâmpadas fabricadas ou que venham a ser fabricadaspor esta fábrica.

 AMOSTRA: cem lâmpadas selecionadas.Em geral, neste tipo de problema é adotada a função de densidade exponencial

para duração T ~ exp (α).

Objetivo : Fazer inferência sobre α. Vale lembrar que E(T) = 1/ α.

Existem dois tipos de estimação de um parâmetro populacional: estimaçãopontual e a estimação intervalar.

12.1.   Estimação Pontual  

Procura encontrar um valor numérico único que esteja bastante próximo doverdadeiro valor do parâmetro. Este procedimento não permite julgar a magnitude doerro que podemos estar cometendo.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 45/72

 

44

ESTIMADORES PONTUAIS RAZOÁVEIS DOS PRINCIPAIS PARÂMETROSPOPULACIONAISParâmetro EstimadorMédia (µ)

∑=

=n

1i

iXn

1X  

Variância (σ2)

Desvio padrão

Proporção (p)n

Xp̂ = onde

X = número de elementos da amostra que possuem acaracterístican = tamanho da amostra 

Podem existir outros estimadores pontuais para esses parâmetros. Assim, é necessáriodefinir propriedades desejáveis para os estimadores de maneira que se possa escolherqual estimador pontual de um determinado parâmetro é o melhor a ser usado. Esteassunto não será abordado nesta apostila.

Muito provavelmente uma estimativa pontual não coincide exatamente com o valorverdadeiro do parâmetro populacional que está sendo estimado e, além disto, estaestimativa não traz associada a ela uma medida de sua precisão. A estimação intervalar

que será apresentada a seguir ajuda a resolver este tipo de dúvida.

12.2.   Estimação Intervalar

Procura determinar um intervalo que abranja o valor do parâmetro, com certamargem de segurança. Este procedimento permite julgar a magnitude do erro quepodemos estar cometendo.

Como mencionado anteriormente, os estimadores pontuais especificam um únicovalor para o estimador e este procedimento não permite julgar qual a possível

magnitude do erro. Daí surge à idéia de construirmos os intervalos de confiança. De ummodo geral, nos basearemos na amostra para construir um intervalo que com alto grau(ou nível) de confiança contenha o verdadeiro valor do parâmetro.

Grau de confiança é a probabilidade do intervalo de confiança conter o verdadeiro valordo parâmetro. É também chamado de nível de confiança e geralmente expresso emporcentagem.

Formalizando um pouco, se denotarmos o parâmetro de interesse por θ, desejamos obterum intervalo com limite inferior I e limite superior S tal que

P(I < θ < S) = 1 - α,

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 46/72

 

45

em que α é um valor pequeno, ou seja 1-α é próximo de 1. Os limites deste intervalosão variáveis aleatórias pois dependem da amostra selecionada. Um intervalo deste tipoé denominado intervalo de 1-αααα(××××100)% confiança para o parâmetro θ.

Valores de α mais comumente usados são 

α = 0,10 1 – α = 0,90 ou 90%α = 0,05 1 – α = 0,95 ou 95%α = 0,01 1 – α = 0,99 ou 99%

A precisão com que se conhece θ depende da amplitude deste intervalo dada por S – I.Quanto menor esta amplitude melhor determinado estará o valor do parâmetro.

Para esclarecer o conceito de intervalo de confiança, suponha que retiremos um grandenúmero de amostras de tamanho n (fixo) da população em estudo e para cada amostra,construamos um intervalo. Os limites dos intervalos resultantes variarão de amostra

para amostra.Por exemplo, ao desejar um intervalo de confiança de 90% para estimar a média de umapopulação, uma pessoa pode retirar uma amostra que dê um intervalo entre 48,5 e 51,5.Por outro lado, uma segunda pessoa, baseada em outra amostra retirada da mesmapopulação, calculou o intervalo entre 47,9 e 52,9, aparentemente gerando uma dúvidasobre qual dos intervalos contém o verdadeiro valor da média. Ocorre que se 100 dessesintervalos fossem calculados a partir de 100 amostras diferentes, deve-se esperar queem torno de 90 desses intervalos contenham o valor da verdadeira média, embora não sesaiba quais são estes intervalos, uma vez que a média é desconhecida. Na práticatrabalhamos em geral com apenas uma amostra e obtemos um único intervalo. 

A figura a seguir ilustra bem o conceito de intervalo de confiança.

O verdadeiro valor do parâmetro estará contido em 1-αααα(××××100)% desses intervalos.

Observe que algumas estimativas intervalares incluem e outras não incluem overdadeiro valor do parâmetro da população. Quando se retira uma amostra e se calculaum intervalo de confiança, não se sabe na verdade, se o parâmetro da população seencontra naquele intervalo calculado. O importante é saber que se está utilizando um

método com 1-αααα(××××100)% de probabilidade de sucesso.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 47/72

 

46

Os intervalos de confiança são construídos a partir da distribuição amostral de umaestatística. A seguir são descritos alguns intervalos.

12.2.1.   Intervalo de Confiança para a Média de uma População

A média é uma importante característica da população. Vejamos como obterintervalos de confiança para este parâmetro populacional. Temos que distinguir algumassituações que podem surgir na prática:

1.  Amostras pequenas (n < 30)

  População Normal

  População não Normal

2.  Amostras grandes (n ≥ 30)

  População Normal

  População não Normal

Para pequenas amostras os procedimentos estatísticos de inferência paramétricaexigem que se verifique a normalidade da população e outras distribuições deprobabilidade (por exemplo a distribuição t de Student) devem ser estudadas a fim deutilizar os procedimentos adequados. Além disso, se a normalidade não for aceitável, nocaso de amostras pequenas, devemos utilizar procedimentos alternativos, por exemplo,inferência não-paramétrica. 

Para amostras suficientemente grandes os procedimentos simplificam bastante emesmo sem conhecermos a distribuição da população, as inferências podem ser feitascom base na distribuição normal mesmo que a população não seja normal.

•  Amostras pequenas

1) Distribuição normal, σ σσ σ  2 = σ σσ σ  o2 (conhecido)

Esta situação é um tanto quanto rara na prática, pois embora a hipótese denormalidade seja razoável em muitos casos, dificilmente se conhece a variância de umapopulação quando sua média é desconhecida. Algumas vezes o conhecimento                  podeprovir de dados históricos sobre a população de interesse ou de resultados obtidos emestudos similares ao que está sendo realizado.

Sabemos que segue uma distribuição normal padrão. Assim,

α σ 

 µ α α α α  −=

 

 

 

 <

−<−=

 

  

  <<− 1 /  2222

 zn

 X  zP z Z  zP

 

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 48/72

 

47

Neste caso o Intervalo de Confiança de 1-α(×100)% para µ é dado por:

+−n

 z X n

 z X  oo σ σ α α 

22 ,

Ilustração do nível de confiança de 95%. 

0

0,95

0,0250,025

Distribuição Normal (0,1)

-1,96 1,96

 

Exemplo 12.2: Um pesquisador está estudando a resistência média de um determinadomaterial. Ele sabe que esta variável é normalmente distribuída com desvio padrão de 2unidades. Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,2; 5,7; 6,2 unidades obtidosde uma amostra de tamanho 9, determine o intervalo de confiança para a resistênciamédia com um nível de confiança de 95%.Temos que 2,6= X  , n=9, σ0=2 e para obtermos um intervalo de 95% de confiançazα/2= 1,96. Substituindo estes valores na fórmula acima, obtemos

[6,222 – 1,969

2; 6,222 + 1,96

9

2] = [4,915 , 7,529]

Então podemos afirmar com 95% de confiança que a resistência média (µ) do materialestá entre 4,915 e 7,529 unidades.

2) Distribuição normal, σ σσ σ  2 desconhecido

Neste caso, utilizamos que a distribuição amostral da estatística ) éa distribuição t com n-1  graus de liberdade. O intervalo de confiança para a média  éobtido de

α  µ 

α α α α  −=

 

 

 

 <

−<−=

 

 

 

 <<−

−−−−1

1,2

1,2

1,2

1,2

nnnnt 

nS

 X t Pt T t P  

Neste caso o Intervalo de Confiança de 1-α(×100)% para µ é dado por:

+−−− n

st  X nst  X 

nn 1,2

1,2

;α α 

 

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 49/72

 

48

Exemplo 12.3: O consumo diário de alimentos observado em certa amostra dapopulação é, em calorias (x100), igual a: 10 11 11 12 13 13 13 13 13 14 14 14 15 15 1616. Construir um intervalo de confiança para a média com um nível de confiança de90%.

Solução:

+−

−− n

st  X 

n

st  X 

nn 1,2

1,2

;α α 

= [13,3125 − 1,7534

7404,1; 13,3125 + 1,753

4

7404,1]

= [ 12,543 ; 14,073 ]

Com 90% podemos afirmar que o consumo médio de calorias, na população da qualessa amostra foi retirada, está entre 12,543 e 14,073.

•  Amostras Grandes - População normal ou não-normal

Se n é suficientemente grande (em geral, n > 30), mesmo sem conhecermos adistribuição da população, os limites do Intervalo de Confiança para a média (µ)poderão ser calculados com base na distribuição Normal padrão. Da mesma formapodemos utilizar o desvio padrão amostral s no lugar de σ (desvio-padrãopopulacional). Neste caso o Intervalo de Confiança para a média µ é dado por:

+−

n

s z X 

n

s z X 

22

;α α 

 

Exemplo 12.4: Resistência à tração de 31 corpos de prova (ordenados).131; 132; 134; 135; 136; 135; 138; 139; 140; 142; 143; 144; 144; 145; 146; 146; 147;147; 148; 149; 150; 150; 151; 151; 152; 152; 153; 153; 154; 160; 160.Estabelecer um intervalo de confiança de 95% para a média populacional.Solução:Temos que,  X = 145,39 e s = 7,75Como o tamanho da amostra já pode ser considerado suficientemente grande para umaaproximação normal, o intervalo de confiança para a média populacional é:

+− n

s

 z X n

s

 z X  22 ;α α  = [145,39 − 1,96 31

75,7

; 145,39 + 1,96 31

75,7

] =

= [ 142,66 ; 148,12 ] 

Podemos então afirmar que com nível de confiança de aproximadamente de 95% aresistência média do concreto está entre 142,66 e 148,12 kg/cm2.

Exemplo 12.5 (Werkema, 1996): Um dos principais produtos de uma empresasiderúrgica é a folha-de-flandes com têmpera T4 RC, que é uma folha de aço de baixoteor de carbono, revestida em ambas as faces com uma camada de estanho, empregadaprincipalmente na fabricação de recipientes utilizados para o acondicionamento dealimentos.Os limites de especificação para a dureza final das folhas-de-flandres são:

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 50/72

 

49

LIE = 58,0 HR e LSE = 64,0 HR,em que LIE e LSE representam os limites inferior e superior de especificação,respectivamente, e HR representa a unidade de dureza definida como índice de durezaRockwell.Nos últimos meses ocorreu um aumento da produção de folhas-de-flandres com dureza

final fora da faixa de especificação. A empresa concentrou sua atenção no processo deRECOZIMENTO CONTÍNUO (RC), por ser este o principal processo responsável peladureza das folhas-de-flandres. Como foi verificado que o processo estava sob controleestatístico, a indústria decidiu estimar a dureza média das folhas-de-flandres (µ), avariabilidade das medidas de dureza (σ), a proporção de folhas-de-flandres com durezafora da faixa de especificação. Com este objetivo, foram coletados 50 observações dadureza das folhas-de-flandres produzidas pela empresa, que estão listadas abaixo:Medidas de dureza (HR) das folhas-de-flandres fabricadas pela indústria siderúrgica

61,0 61,0 60,3 60,2 58,7 60,0 60,0 60,9 61,2 59,160,0 59,3 59,8 60,1 58,6 59,6 60,5 60,5 60,2 60,5

60,5 60,1 60,7 60,3 60,8 59,9 60,1 60,2 60,6 61,060,0 61,1 59,8 60,1 60,8 60,7 60,0 59,8 59,0 60,060,2 60,8 61,6 59,8 60,4 60,2 59,7 60,3 60,4 60,2

  Dureza média das folhas-de-flandres: ∑=

=n

1iix

n

1x = 60,212 HR

  Desvio padrão: = 0,6107 HR  Proporção amostral de folhas-de-flandres com dureza fora da faixa de especificação 

(58,0 – 64,0 HR): 00,0p̂ =  

A equipe de trabalho da empresa suspeita que a dureza média da folha-de-flandres (µ),resultante do processo de recozimento contínuo, é diferente do valor nominal daespecificação (61,0 HR).

A equipe técnica da indústria passou a ter a seguinte dúvida: a obtenção do resultado  61,060,2x <=    já era suficiente para que se pudesse concluir, com bastante segurança,

que o processo de recozimento contínuo estava centrado abaixo do valor nominal daespecificação ?

Essa dúvida pode ser solucionada por meio da construção de um intervalo de confiançapara a dureza média (µ) das folhas-de-flandres produzidas pelo processo:

60,21 ± 1,96 x50

61,0  ⇒ [60,04 ; 60,38] HR

O intervalo de confiança não contém o valor nominal da especificação (61,0 HR).Portanto, a equipe técnica da indústria pode concluir, com 95% de confiança, que oprocesso estava centrado abaixo do valor nominal e então, deve-se passar a estudar oprocesso de recozimento contínuo para descobrir as causas deste deslocamento.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 51/72

 

50

12.2.2.   Intervalo de Confiança para uma Proporção Populacional 

Em muitas situações pode ser de interesse construir um intervalo de confiançapara a proporção de elementos da população que possuem alguma característica deinteresse (p).

Seja X o no de elementos de uma amostra de tamanho n que apresenta acaracterística de interesse. Já vimos que um estimador de p é :

n

Xp̂ =  

Se o tamanho da amostra for suficientemente grande, é possível construir um

intervalo de (1-α)×100% de confiança para p, baseado em  que segueuma distribuição normal padrão. Portanto, temos que

α α α α α  −=

 

 

 

 −<

−−

<= 

  

  <<− 1)1(

)(2 / 2 / 

22 z

 p p

 p pn zP z Z  zP

)

 

Como o valor de p não é conhecido, uma solução é substituir por

. Assim, o intervalo de confiança de 1-α(×100)%  para a proporçãopopulacional p é dado por:

−+

−− αα n

)p̂1(p̂zp̂;

n

)p̂1(p̂zp̂

22.

Exemplo 12.6: Examinam-se 98 animais, encontrando-se 53 infectados comdeterminado vírus. Construir um intervalo de 95% de confiança para a proporção p deanimai infectados.

Solução:n = 98 (pode ser considerada grande)

541,09853

ˆ == p   459,0)ˆ1( =− p  

α = 0,05 e  96,12

=α  z 

12.2.3.   Intervalo de Confiança para a Variância e o Desvio Padrão de uma População Normal 

Suponha que a população de interesse tenha distribuição normal com média evariância 2 e que desta população foi extraída uma amostra aleatória de tamanho n. A

partir do resultado que a distribuição amostral da estatística é a

distribuição qui-quadrado com n-1 graus de liberdade. Temos que,

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 52/72

 

51

.

Neste contexto, um intervalo de confiança para 2 de 100(1- )% de confiançaé

O intervalo de confiança para o desvio padrão é obtido extraindo a raiz quadrada doslimites de confiança do intervalo para a variância.

Exemplo 12.7: Voltando ao exemplo 12.5. Construa um intervalo de confiança para odesvio padrão da dureza de folhas-de-flandres. Suponha que a dureza siga umadistribuição normal. ( =5%)Solução: Intervalo de confiança para a variância

HR2.

Então, é o intervalo de confiança para o desvio padrão. Assim, podemos

afirmar com 95% de confiança que o desvio padrão da dureza está entre eHR.

Observação: No gerenciamento de processos são muito comuns as situações em que  desejamos comparar dois grupos de interesse, mantendo o controle dos riscos associados ao estabelecimento de conclusões incorretas. Consideremos por exemplo

uma indústria que opera duas linhas de produção. Muito provavelmente os técnicos da empresa terão interesse em comparar as duas linhas, com o objetivo de verificar seestão trabalhando de forma similar. As comparações de dois grupos geralmente

  podem ser traduzidas, na linguagem estatística, em comparações de duas médias, duas variâncias ou duas proporções. Este assunto não será abordado nesta apostila.

13.  Noções de Testes de Hipóteses

Outro tipo de problema da Inferência Estatística é o de testar se uma conjecturasobre determinada característica de uma ou mais populações é, ou não, apoiada pelaevidência obtida de dados amostrais.

Conjectura → hipótese estatísticaRegra de decisão → teste de hipóteses

Alguns exemplos:1.  Testar se um novo tipo de fertilizante é melhor que o fertilizante padrão.2.  Testar se um novo método de fabricação de lâmpadas aumentará o tempo médio

de vida das lâmpadas.3.  Testar se um método de preservar alimentos é melhor que outro, no que diz

respeito à retenção de vitaminas.

4.  Determinar qual de dois tratamentos é mais eficiente (problema de duasamostras)

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 53/72

 

52

Consideremos o exemplo das lâmpadas. Suponha que no processo padrão o

tempo de vida médio é conhecido de 1400 horas.

Objetivo: testar o novo processo de fabricação.

Modelo:Duas populações de lâmpadas:POP1 – lâmpadas fabricadas pelo processo padrão;POP2 – lâmpadas fabricadas pelo novo processo.

Informação anterior: Tempo de vida médio das lâmpadas fabricadas pelo processopadrão é de 1400 horas.

Pergunta: O tempo de vida médio das lâmpadas fabricadas pelo novo processo é maior

que 1400 horas?

Procedimento:1.  Estabelecer duas hipóteses:

H0) o novo processo não é melhor que o padrão; H1) o novo processo é melhor que o padrão. 

2.  Selecionar lâmpadas fabricadas pelo procedimento novo, medir seus tempos de vida

e calcular o tempo de vida médio,  X , observado na amostra.

3.  Suponha que a média da amostra selecionada é  1550X =   horas. O resultadoparece indicar que o novo procedimento é melhor.

Calculando-se o intervalo de confiança de 95% para o tempo de vida médio do processonovo obteve-se:

(1300; 1800)Ou seja, não temos evidência de que o novo processo é melhor, uma vez que a média1400 é um valor possível para a média do novo processo (está contido no intervalo).Logo, tomaríamos a decisão de não rejeitar a hipótese H0.

Vamos supor agora, que o intervalo de confiança de 95% tivesse os seguintes limites:

(1500; 1600). Neste caso, teríamos forte evidência para rejeitar H0 e afirmar que o novoprocesso é superior.Obs: Note que os testes de hipóteses são muito relacionados com o problema deestimação por intervalo.

13.1.   Hipótese nula e hipótese alternativa

Em geral devemos decidir entre duas hipóteses. Denominaremos essas hipóteses deH0  →  hipótese nulaH1 → hipótese alternativa

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 54/72

 

53

No exemplo das lâmpadas se µ é a média do tempo de vida das lâmpadas fabricadaspelo novo processo, então

H0) µ ≤1400H1) µ > 1400

13.2.   Erro tipo I e Erro tipo II 

Qualquer que seja a decisão tomada em um teste de hipóteses, estamos sujeitos acometer erros, devido à presença da incerteza.

Conclusão Situação da populaçãodo teste H0 verdadeira H0 falsa

Não rejeitar H0 Correto Erro tipo IIRejeitar H0 Erro tipo I Correto

É fundamental que, em cada caso, se saiba qual são os erros possíveis e que se decida a priori qual é o mais sério. Não é possível controlar ambos os erros ao mesmo tempo.Quando diminuímos muita a probabilidade de erro tipo I, aumentamos a probabilidadedo erro tipo II e vice-versa.

Assim, a decisão de rejeitar H0 é equivalente à opinião “H0 é falsa” e a decisão deaceitar H0 não é equivalente à opinião “H0 é verdadeira”. Neste caso a opiniãoadequada é a de que os dados não contêm evidência suficientemente forte contra H0.

Exemplo 13.1: No caso das lâmpadas, o erro tipo I seria aprovar o novo processo de

fabricação quando na realidade ele não é superior. O erro tipo II seria rejeitar o novoprocesso de fabricação quando é, de fato, melhor.

13.3.   Nível de significância e Poder

O valor de  α é fixado pelo pesquisador. Esta probabilidade recebe o nome denível de significância do teste. Usualmente, esses valores são fixados em 5%, 1% ou0,1%. O valor 1- β é chamado poder do teste. O poder do teste é a capacidade deste de

detectar que H0 é falsa quando de fato esta hipótese é falsa. No caso das lâmpadas, opoder do teste seria a probabilidade deste aceitar o novo processo de fabricação (rejeitar  H0) quando este for realmente melhor.

Como a probabilidade do erro tipo  I (α) é fixada em valores pequenos, estedeveria ser o tipo de erro mais grave.

13.4.   Estatística de teste e região crítica

A decisão entre as hipóteses é tomada com base nos dados de uma amostraextraída da população. No nosso exemplo, suspeitamos que o tempo de vida médio daslâmpadas é maior que  1400. Colhe-se uma amostra aleatória de 100 lâmpadas edetermina-se o valor da média amostral para, através dela, comprovar ou refutar talhipótese.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 55/72

 

54

Suponha que o pesquisador decide adotar a seguinte regra de decisão:Rejeitar Ho se X for maior que 1800

Neste exemplo,  X  está sendo usada como estatística de teste e a região crítica ou regiãode rejeição aos valores que forem maiores que 1800.

13.5.   Nível Descritivo ou p-valor

O procedimento descrito anteriormente é conhecido como procedimento clássicode testes de hipóteses. Um outro procedimento que vem sendo muito adotadoconsiste em apresentar o p-valor do teste. A diferença básica entre esses doisprocedimentos é que, trabalhando-se com o p-valor não é necessário construir a regiãocrítica. Vejamos o seguinte exemplo:Suponha que no caso das lâmpadas foi obtido  X = 1550 para uma amostra de 100lâmpadas. O pesquisador calcula a seguinte probabilidade:

1400)|1550( =≥  µ  X P .

O valor desta probabilidade é chamado de p-valor e neste exemplo, indica aprobabilidade de uma população com média 1400 gerar uma amostra de tamanho 100que tenha média igual ou maior que o resultado observado. Caso esta probabilidade sejamuito pequena devemos suspeitar da veracidade da hipótese e portanto “rejeitar” que  µ= 1400.

Procedimento para a decisão com o p-valor1.  Escolher o máximo valor de tolerável para o erro do tipo I ( α).

2.  Se o p-valor for menor que o α adotado, então deve-se rejeitar a hipótese nula .

Regra de decisão

p-valor > αααα ⇒⇒⇒⇒ não rejeitar Η ΗΗ Η 0000 

p-valor ≤ α ⇒ rejeitar Η 0 

A saída dos pacotes estatísticos apresenta o p-valor.

13.6.  Testes de Hipóteses para Média Populacional 

A média de uma população é uma de suas características mais importantes efrequentemente temos que tomar decisões a seu respeito. Vamos denotar um valor fixoqualquer por µ0.

Consideremos as diversas hipóteses que podem ocorrer num teste de hipóteses paramédias:

Hipóteses unilaterais    

Η 0) µ ≤ µ0 (ou µ = µ0)  versus H1) µ > µ0 

Η 0) µ ≥ µ0 (ou µ = µ0 ) versus H1) µ < µ0 

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 56/72

 

55

Hipótese Bilateral Η 0) µ = µ0 versus H1) µ ≠ µ0 

•  Distribuição normal, σ σσ σ  2 desconhecido

Neste caso, como vimos em Intervalo de Confiança precisamos usar o desvio padrãoamostral s  para estimar σ , e utilizaremos a distribuição t de Student para encontrar a

região crítica do teste ou calcular o p-valor. A estatística de teste é:

n

sµx 0−  

Vejamos as regras de decisão para cada tipo de hipótese considerada:

1. Η ΗΗ Η 0000) µ) µ) µ) µ ≤≤≤≤ µµµµ0000 (ο(ο(ο(οu µ = µµ = µµ = µµ = µ0000)))) versus H1) µ > µµ > µµ > µµ > µ0000 ....

Rejeitar H0 se 1-nα,0 t

n

sµx

>−

 

2. Η 2. Η 2. Η 2. Η 0000) µ) µ) µ) µ ≥≥≥≥ µµµµ0000 ((((ou µ = µµ = µµ = µµ = µ0000 )))) versus H1) µ < µµ < µµ < µµ < µ0000 

Rejeitar H0 se 1-nα,

0

tns

µx

−<

 

3. Η 3. Η 3. Η 3. Η 0000) µ = µ) µ = µ) µ = µ) µ = µ0000 versus H1) µµµµ ≠≠≠≠ µµµµ0000 

Rejeitar H0 se1;2

0 t

n

sµx

−>−

nα   

Exemplo 13.2: O tempo médio, por operário, para executar uma tarefa, tem sido 100minutos. Introduziu-se uma modificação para diminuir esse tempo, e, após certoperíodo, sorteou-se uma amostra de 16 operários, medindo-se o tempo de execução decada um. O tempo médio da amostra foi 85 minutos, e o desvio padrão foi 12 minutos.Estes resultados trazem evidências estatísticas da melhora desejada? Apresente assuposições teóricas usadas para resolver problema. 

    s hipóteses a serem testadas são

Η 0) µ ≥ 100 versus H1) µ < 100

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 57/72

 

56

Vejamos as estatísticas descritivas da amostra: média 85 e desvio padrão 12.Temos que α = 0,05 e n = 16. Portanto 1,t −nα 

= 1,753. A região crítica é

Rejeitar H0 se 1,0 t

n

sµx

−−<−

nα  

Vamos substituir os valores:

Rejeitar H0 se  -1,753

16

1200185

<−  

Como o valor observado foi -5 e pertence à região crítica, a decisão deve ser de rejeitar H0, e concluímos que existe evidência de que o tempo médio de execução é menor que

100 minutos.Suposição: Variável tempo segue distribuição Normal.

•  Tamanho da amostra é suficientemente grande 

Assim como vimos no caso dos Intervalos de Confiança, podemos utilizar adistribuição normal para encontrar a região crítica do teste ou calcular o p-valor.Vejamos as regras de decisão para cada tipo de hipótese considerada:1. Η ΗΗ Η 0000) µ) µ) µ) µ ≤≤≤≤ µµµµ0000 (ο(ο(ο(οu µ = µµ = µµ = µµ = µ0000)))) versus H1) µ > µµ > µµ > µµ > µ0000 

Rejeitar H0 se α0 z

n

sµx >−  

2. Η 2. Η 2. Η 2. Η 0000) µ) µ) µ) µ ≥≥≥≥ µµµµ0000 ((((ou µ = µµ = µµ = µµ = µ0000 )))) versus H1) µ < µµ < µµ < µµ < µ0000 

Rejeitar H0 se α0 z

n

sµx

−<−

 

3. Η 3. Η 3. Η 3. Η 0000) µ = µ) µ = µ) µ = µ) µ = µ0000 versus H1) µµµµ ≠≠≠≠ µµµµ0000 

Rejeitar H0 se2

0 z

n

sµx

α >

− 

Exemplo 13.3: Uma rede de pizzarias deseja testar com nível de 5% de significância seo teor médio de gordura em peças de salame produzidas por determinada indústria de

alimentos é igual a 15%. De um grande lote retirou uma amostra de 50 peças de salamee os resultados estão a seguir:

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 58/72

 

57

19,8 23,4 13,6 6,6 13,7 5,2 14,3

13,3 12,2 14,3 8,5 15,8 16,0 18,3

28,7 11,6 16,4 14,4 26,2 17,0 6,5

10,0 24,5 34,9 19,1 6,9 19,5 11,0

8,9 10,6 9,5 14,0 6,0 18,0 10,8

16,7 18,4 10,1 12,3 6,5 25,4 15,312,1 13,1 7,7 17,4 10,7 24,1 14,0

21,4

As hipóteses a serem testadas são

Η 0) µ = 15 versus H1) µ ≠ 15

Vejamos as estatísticas descritivas da amostra:

Teor de Gordura 

Média 14,894Desvio padrão 6,3871

Temos que α = 0,05 e portanto 2

α  z = 1,96. A região crítica é 

Rejeitar H0 se2

0 z

n

sµx

α >

−  

Vamos substituir os valores:

Rejeitar H0 se 2

z

50

6,387115894,14

α >

− 

Assim, rejeitaremos H0 se 2

z1174,0α 

>−  

Como o valor observado foi 0,1174, que não pertence à região crítica, a decisão deve ser de nãorejeitar H0, e concluímos que não existe evidência de que o teor de gordura nas peças de salameproduzidas pela indústria seja diferente de 15%.

Usando um pacote estatístico:Variável n Média erro padrão t p-valorTeor de Gordura 50 14,894 0,903 -0,12 0,91

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 59/72

 

58

 Exemplo 13.4: Iremos utilizar teste de hipótese para solucionar a dúvida da equipe técnica da indústria siderúrgica: pode-se concluir, com bastante segurança, que o processo de recozimento contínuo estava centrado abaixo do valor nominal daespecificação (61,0 HR)? Essa dúvida pode ser solucionada por meio da realização de

 teste de hipótese para a dureza média (  µ  µµ  µ  ) das folhas-de-flandres produzidas pelo

 processo:

As hipóteses a serem testadas são

Η 0) µ ≥ 61 versus H1) µ <61

Temos que α = 0,05 e portanto  α  z = 1,65. A região crítica é 

Rejeitar H0 se  α0 z

ns

µx−<

−  

Vamos substituir os valores: α  z−<−

50

0,61116212,06  

Assim, rejeitaremos H0 se  α z12,9 −<−  

Como o valor observado foi -9,12, que pertence à região crítica, a decisão deve ser de rejeitar 

H0, e concluímos que existe evidência de que a dureza média nas peças produzidas pelaindústria seja inferior a 61. 

13.7.  Teste para Proporções

Quando trabalhamos com grandes amostras vimos que a distribuição amostral das

proporções se aproxima da distribuição normal. Se  p  é a proporção populacional e  p 0  um valor

fixo. A estatística de teste é :

n

qp pp̂00

0−  

Vamos considerar os seguintes testes:

1. Η ΗΗ Η 0000)))) p ≤≤≤≤ p0000 (((( p ====p0000)))) versus H1) p >>>> p 

Rejeitar H0 se α

00

0 z

n

qp

pp̂>

− 

2. Η ΗΗ Η 0000)))) p ≥≥≥≥ p0000 (ο(ο(ο(οu p ====p0000)))) versus H1) p <<<< p0000 

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 60/72

 

59

Rejeitar H0 se α

00

0 z

n

qp

pp̂−<

− 

3. Η ΗΗ Η 0000)))) p ==== p0000 versus H1) p ≠≠≠≠ p0000 

Rejeitar H0 seα /2

00

0 z

n

qp

pp̂>

−  

Exemplo 13.5: A fábrica A de automóveis afirma que 60% dos consumidores compramcarros produzidos por ela. Uma fábrica concorrente deseja testar a veracidade destaafirmação. Para isso decide realizar uma pesquisa por amostragem com 300proprietários de veículos.

Hipóteses a serem testadasH0) p = 0,60H1) p < 0,60

 p = proporção de consumidores que compram carros produzidos pela fábrica A.

A hipótese alternativa foi definida desta forma, pois se espera uma proporção menor,nunca maior. Observe que a hipótese alternativa não foi influenciada pelo resultado dapesquisa.

Vamos fixar α= 5% e como a amostra é grande podemos utilizar aproximação normal eo teste 2 dado acima.

Suponha agora que os resultados da pesquisa apontaram 165 proprietários de carros dafábrica A, isto equivale a uma proporção amostral ( p̂  ) de 55% pois

 p̂  = 550300

165 ,=  

Portanto devemos rejeitar H0 se α

00

0 z

n

qp

pp̂−<

−.

Como α= 5%, zα = 1,645 e 645,177,1

300

40,060,0

60,055,0

n

qp

pp̂

00

0 −<−≅×

−=

− 

logo rejeitamos H0 e concluímos que há evidências de que a proporção deconsumidores da fábrica A é inferior a 60% com 95% de confiança.

13.8.  Teste de Hipóteses para a variância de uma População

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 61/72

 

60

Considere que uma amostra aleatória de tamanho n tenha sido extraída de umapopulação com distribuição normal com média  e variância σ 2. O interesse é testaruma hipótese sobre a variância σ 2, que é estimada por:

Suponha as seguintes hipóteses do tipo bilateral

1. Η ΗΗ Η 0000)))) versus H1)

A estatística de teste a ser usada é:

em que  tem distribuição Qui-Quadrado com (n-1) graus de liberdade, supondo que ahipótese nula seja verdadeira.

Para um nível de significância α, a regra de decisão é dada por:

Rejeitar Η ΗΗ Η 0000 se

Para a realização dos testes unilaterais é análogo ao que foi apresentado para o testebilateral.

2. Η ΗΗ Η 0000)))) versus H1)

Rejeitar H0 se

3. Η ΗΗ Η 0000)))) versus H1)

Rejeitar H0 se

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 62/72

 

61

  Exemplo 13.8: Uma linha de montagem produz peças cujos pesos, em gramas,obedecem ao modelo normal com variância de 30 g2. Os equipamentos forammodernizados e, para verificar se o processo continua sob controle, foi tomada umaamostra de 23 peças, que forneceu uma variância de 40 g2. Existem evidênciasindicando que a variância mudou, considerando α=5%?

As hipóteses a serem testadas são:

Η 0) σ2 = 30 g2 versus H1) σ

2 ≠ 30 g2. 

Temos que,

Usando α = 5% é obtido a partir da tabela da distribuição qui-quadradro os seguintesresultados: 

Portanto Η 0 deve ser rejeitada se

ou

Como o valor observado foi 29,33, que não pertence à região crítica, a decisão deve serde não rejeitar H0, e concluímos que não existem evidências de que a variância do pesodas peças mudou para um valor diferente de 30 g2.

6

a

LISTA DE EXERCICIOS

1) De sua opinião sobre os tipos de problemas que surgirão no seguinte plano deamostragem.Para investigar a proporção de estudantes da UFU, favoráveis à mudança do início dasatividades das 7:10 h para as 8:00 h, decidiu-se entrevistar os 30 primeiros estudantesque chegassem no bloco 4K, na segunda – feira.

2) Uma população encontra-se dividida em 3 estratos, com tamanhos, respectivamente, N1 = 80, N2 =120 e N3 = 60. Pretende-se retirar uma amostra de 50 elementos da

população. Por que não é recomendada uma amostra aleatória simples?

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 63/72

 

62

3) A capacidade máxima de um elevador é de 500 kg. Se a distribuição dos pesos dosusuários é suposta N(70, 100). Qual a probabilidade de 7 passageiros ultrapassaremeste limite?

4) Uma empresa fabrica cilindros com diâmetro médio de 50mm e desvio padrão de 2,5mm. A distribuição dos diâmetros é normal. Os diâmetros de uma amostra de 4cilindros são medidos a cada hora. A média da amostra é usada para decidir se oprocesso de fabricação está operando satisfatoriamente. Aplica-se a seguinte regra dedecisão: se o diâmetro médio da amostra de 4 cilindros é igual a 53,7mm ou mais, ouigual a 46,3 ou menos, deve-se parar o processo. Se o diâmetro médio estiver entre 46,3e 53,7 mm, o processo deve continuar.a) Qual a probabilidade de se parar o processo se a média (µ) for igual a 50 mm?b) Qual a probabilidade do processo continuar se a média se deslocar para µ = 53,7?

5) Um distribuidor de sementes determina, através de testes, que 5% das sementes não

germinam. Ele vende pacotes de 200 sementes com garantia de 90% de germinação.Qual a probabilidade de um pacote não satisfazer a garantia?

6) Para uma distribuição qui-quadrado, determine , de modo que:

a)  )=0,99 b) )=0,045

7) Dada uma amostra de tamanho 24 de uma distribuição normal, determine k de modo

que: a) P(-2,069<T<k)=0,965 b) P(k<T<2,807)=0,095 c) P(-k<T<k)=0,90

8) Se recolhesse 200 amostras de dimensão 40 a partir da mesma população, de modoque com elas construísse 200 intervalos de confiança a 99%, quantos destes intervalosesperaria que contivessem o verdadeiro valor da proporção de estudantes em análise?

9) Num estudo de mercado foi encontrado o seguinte intervalo de confiança a 95% paraa proporção de pessoas receptivas a um novo tipo de espuma de banho a lançar embreve no mercado: ]0.52; 0.61[ . Comente as seguintes afirmações, indicando se estaslhe parecem corretas ou incorretas:a)95% das pessoas vão passar a usar a nova espuma de banho.b) A probabilidade da nova espuma de banho alcançar uma quota de mercado de 50%,

é de 0.95.c) A quota de mercado poderá ser, com 95% de confiança, de 56.5% (valor intermédiodo intervalo); d) O resultado obtido indica apenas que é oportuno proceder ao lançamento da novaespuma de banho. 

10) A força de compressão de concreto está sendo testada por um engenheiro civil.Suponha normalidade. Ele testa 12 amostras e obtém os seguintes dados:2216 2237 2249 2204 2225 2301 2281 2263 2318 2255 2275 2295a) Construir o intervalo de 95% para a força média;

b) Construir o intervalo de 99% para a força média;

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 64/72

 

63

c) Ao nível de 5% de significância, verificar se a verdadeira média da força decompressão difere de 2280.d) Repetir o item c, usando α=1%.e) Repetir o item c, porém verificando se a verdadeira média da força decompressão difere de 2300.f) Compare as conclusões obtidas usando IC e teste de hipóteses.

11) A experiência com trabalhadores de certa indústria indica que o tempo necessáriopara que um trabalhador, aleatoriamente selecionado, realize uma tarefa éaproximadamente normal, com desvio padrão de 12 minutos. Uma amostra aleatória de25 trabalhadores forneceu  x = 140 minutos. Determinar os limites de confiança de 95%para a média µ da população de todos os trabalhadores que fazem aqueledeterminado serviço.

12) Em uma linha de produção de certa peça mecânica, colheu-se uma amostra de 100

itens, constatando-se que 4 peças eram defeituosas. Construir o IC para a proporção pdas peças defeituosas ao nível de 10%.

13) Um fabricante sabe que a vida útil das lâmpadas que fabrica tem distribuiçãoaproximadamente normal com desvio padrão de 200 horas. Para estimar a vida médiadas lâmpadas, tomou uma amostra de 400 delas, obtendo vida média de 1.000 horas.a)  Construir um IC para µ ao nível de 1%; b)  Qual o valor do erro de estimação cometida em a?c)  Qual o tamanho da amostra necessária para se obter um erro de 5 horas, com 99%

de probabilidade de acerto?

14) Uma amostra de 10.000 itens de uma produção foi inspecionada e o número dedefeitos por peça foi registrado na tabela abaixo:

Número deDefeitos

0 1 2 3 4

FrequênciaAbsoluta

6000 3200 600 150 50

a)  Chamando de p a proporção de itens defeituosos nessa produção, determinar oslimites de confiança de 98% de p; Resp.: [38,86% ; 41,14% ]

b)  Qual o erro de estimação cometido em a? Resp.: 1,14%

15) De 50.000 válvulas fabricadas por uma companhia retira-se uma amostra de 400válvulas, e obtém-se a vida média de 800 horas e o desvio padrão de 100 horas.a) Qual o intervalo de confiança de 99% para a vida média da população? Resp.:[787,1;812,9]b) Com que confiança dir-se-ia que a vida média é 800 ± 0,98? Resp.:0.16c) Que tamanho deve ter a amostra para que seja de 95% a confiança na estimativa 800± 7,84? Resp.: 625

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 65/72

 

64

16) Antes de uma eleição, um determinado partido está interessado em estimar aproporção p de eleitores favoráveis ao seu candidato. Uma amostra piloto de tamanho100 revelou que 60% dos eleitores eram favoráveis ao candidato em questão.

a) Determine o tamanho da amostra necessário para que o erro cometido na estimação

seja de no máximo 0,01 com probabilidade de 0,80. Resp.: 3932b) Se na amostra final, com tamanho igual ao obtido em ‘a’, observou-se que 55% doseleitores eram favoráveis ao candidato em questão, construa um intervalo de confiançade 95% para a proporção p. Resp.: [0,5345 ; 0,5655]

17) Um aditivo para gasolina está sendo testado para ver se aumenta a quilometragem.Vinte e cinco carros recebem 5 galões de gasolina e são postos a andar até que agasolina termine. No fim do experimento, calcula-se a quilometragem média para cadacarro. Os cálculos forneceram uma média de 18,5 milhas por galão e um desvio padrãode 2,2 milhas por galão para os 25 carros. Suponha que a quilometragem segue uma

distribuição normal. Encontre um IC de 95% para µ. Resp.: [17,59 ; 19,41]

18) Uma amostra de 30 peças , forneceu os seguintes pesos:250 265 267 269 271 275 277 281 283 284287 289 291 293 293 298 301 303 306 307307 309 311 315 319 322 324 328 335 339

Considere que a variável peso seja normalmente distribuída. Por meio da construção doIC, responder se esta amostra satisfaz a especificação pela qual o peso médio deve ser300 Kg. Resp.:[288,33 ; 309,95] Sugestão: Adote α = 2,5% .

19) a) Supor uma amostra aleatória de 10 contas correntes em uma grande loja de umacadeia, com um saldo devedor médio de 27,60 dólares. Admitindo que o desvio padrãode todos os saldos é de 12,00 dólares, calcular um intervalo de 95% de confiança para amédia de todos os saldos. Suponha normalidade. Resp.:[20.16 ; 35.04]b) Explicar ao vice-presidente da firma o significado de sua resposta (a), em termos tãosimples quanto possíveis.

20) Uma empresa de embalagens que presta o serviço de envelopamento de revistas,decidiu reduzir a proporção de embalagens defeituosas produzidas.A empresa tomou como meta reduzir para menos de 2% a proporção de embalagensdefeituosas até o final do ano. Para alcançar esta meta foram adotadas ações corretivas.

Foram coletadas 2000 revistas embaladas, para confirmar a efetividade das ações.Dentre estas revistas 50 foram consideradas defeituosas. Construa um intervalo de 99%de confiança para a proporção de defeituosas (p). A partir da interpretação do intervalo,a empresa pode concluir que a meta de melhoria foi alcançada?

21) Um hospital vinha recebendo diversas queixas de seus pacientes quanto ao elevadotempo de espera para a realização de exames no setor de diagnóstico cardiovascular.Diante desta situação, o departamento administrativo do hospital resolveu melhorar esteresultado, tendo como meta reduzir para 10 minutos ou menos o tempo médio de esperados pacientes para a realização de exames no setor de diagnóstico cardiovascular, até o

final do mês.Fez-se uma ação corretiva e para avaliar se esta ação foi realmente efetiva, isto é,se esta ação foi capaz de reduzir o tempo médio de espera dos pacientes para 10 minutos

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 66/72

 

65

ou menos. Para a realização da avaliação da efetividade da ação, a equipe de trabalhoregistrou os tempos de espera de 25 pacientes atendidos após a implementação da açãode bloqueio, obtendo média de 8,712 e desvio padrão de 2,73. Admita que os tempos deespera seguem distribuição normal.a) Construa um intervalo de 95% de confiança para o tempo médio de espera e diga se a

meta estabelecida foi alcançada.b) Construa um IC para o desvio padrão do tempo de espera ( α = 1%) .

22) Uma companhia de seguros decidiu avaliar qual era a proporção de formulários deapólices de seguro preenchidos incorretamente (p) pelos operadores responsáveis poresta tarefa. A empresa considerava um resultado indesejável descobrir que p ≥ 5%, oque implicaria na necessidade de ser iniciado um trabalho para melhorar o nível dequalidade que vinha sendo alcançado. De uma amostra de 200 formulários examinados,foram encontrados 9 que apresentavam erros no preenchimento. A partir desteresultado, os técnicos da empresa desejam tomar uma decisão. Construa um intervalo de

confiança para p e diga qual a decisão. (α = 5%)

23) As fibras óticas são instrumentos ideais para transmissão de sons e imagens e sãolargamente utilizadas em redes de telecomunicações, computadores e redes de TV. Paraque uma fibra ótica seja de boa qualidade, ela deve possuir alta capacidade paratransportar rápidos impulsos de luz através de uma rede de longo comprimento. Paraisso, é necessário que o diâmetro ou espessura da fibra seja bastante pequeno, da ordemde 125 mícrons ou 1/8 milímetro (o fio de cabelo é da ordem de ¼ de milímetro). Assim,um dos itens de controle do processo de produção é a espessura das fibras óticas, cuja faixa deespecificação é 125,0 ± 3,0 mícrons. Admita distribuição normal.

a) Sabendo que a diferença máxima que será permitida entre a verdadeira espessuramédia das fibras produzidas pelo processo e a espessura média amostral é igual a 0,3mícrons e que, historicamente, o desvio padrão da espessura é igual a 0,9 mícrons,determine o tamanho da amostra necessária para a construção de um intervalo de99% de confiança para a espessura média das fibras óticas.a)  Os técnicos da empresa mediram a espessura de 60 fibras óticas e obtiveram

média de 125,18 e desvio padrão de 0,89. Construa o intervalo de 99% deconfiança para a espessura média das fibras e interprete o resultado obtido.

24) O tempo de vida (em horas) das lâmpadas da marca X tem distribuição

aproximadamente normal. Uma amostra de 16 lâmpadas forneceu os dados:1.200 ; 1100 ; 900 ; 1.250 ; 1.300 ; 1.290 ; 1.100 ; 1.060 ; 1.180 ; 1.120 ; 1.160 ; 1.140 ;1.190 ; 1.110 ; 1.100 e 1.220 horas. Construir um intervalo com 90% de confiança paraa variância da população.25) Quantas residências com TV a Nielsen deve pesquisar para estimar a percentagemdas que estão sintonizadas no programa Jô Soares Onze e Meia? Adote a margem de97% de confiança em que sua percentagem amostral tenha uma margem de erro de doispontos percentuais. Admita também que nada se sabe sobre a percentagem deresidências sintonizadas para qualquer show de TV após 11 horas da noite.

26) A cadeia de hotéis American Resort dá um teste de aptidão aos candidatos aemprego, e considera fácil uma questão do tipo múltipla escolha se ao menos 80% das

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 67/72

 

66

respostas são corretas. Uma amostra aleatória de 6503 respostas a determinada questãoapresenta 84% de respostas corretas. Construa o intervalo de confiança de 99% para averdadeira percentagem de respostas corretas. É admissível que a questão seja realmentefácil? Justifique.

27) Obtém-se uma amostra de 15 crânios de homens egípcios que viveram por volta de1850 A.C . Mede-se a largura máxima de cada crânio, como resultado = 134,5 mm S =3,5 mm (com base em dados de Ancient Races of Thebaid, porThomson e Randall-Maciver). Com esses dados amostrais, construa um intervalo de 95% de confiança parao desvio-padrão populacional.

28) Os valores relacionados são tempos de espera (em minutos) de clientes no JeffersonValley Bank, onde os clientes entram em uma fila única que é atendida por três guichês.Construa um intervalo de 95% de confiança para o desvio-padrão populacional.

6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7

29) A associação dos proprietários de industrias metalúrgicas está muito preocupadacom o tempo perdido com acidentes de trabalho, cuja média, nos últimos tempo, temsido da ordem de 60 h/homem por ano e desvio padrão de 20 h/homem. Tentou-se umprograma de prevenção de acidentes e após o mesmo, tomou-se uma amostra de 9indústrias e mediu-se o número de horas/homens perdidas por acidentes que foi 50horas. Você diria, ao nível de 5%, que há evidência de melhoria?

30) O salário médio dos empregados das indústrias siderúrgicas é de 2,5 saláriosmínimos. Se uma firma particular emprega 49 empregados com salário médio de 2,3

salários mínimos e com um desvio padrão de 0,5 salário mínimo, podemos afirmar queestá indústria paga salários inferiores, ao nível de 5% ?

31) O consumidor de um certo produto acusou o fabricante, dizendo que mais de 20%das unidades fabricadas apresentam defeito. Para confirmar sua acusação, ele usou umaamostra de tamanho 50, onde 27% das peças eram defeituosas. Mostre como ofabricante poderia retirar acusação. Utilize um nível de significância de 10%.

32) Os produtores de um programa de televisão pretendem modificá-lo se for assistidoregularmente por menos de um quarto dos possuidores de televisão. Uma pesquisaencomendada a uma empresa especializada mostrou que, de 400 famílias entrevistadas

80 assistem ao programa regularmente. Baseado nos dados, qual deve ser a decisão dosprodutores? 33) A Debug Company vende um repelente de insetos que chega a ser eficiente peloprazo de 400 horas no mínimo. Uma análise de nove itens escolhidos aleatoriamenteacusou uma média de eficiência de 380 horas com um desvio de 60 horas. A duraçãomédia de eficiência ao repelente é inferior ao fornecido pela companhia? (α = 1%).

34) Estudos efetuados sobre a densidade (em kg/dm3) do betão numa estrutura de betãoarmado levam a supor que a resistência à compressão (aos 28 dias) desta estrutura seencontra frágil. Suspeitando que a densidade média real se encontrasse abaixo do nível

ótimo (0,3 kg/dm3), decidiu-se recolher uma amostra de 10 densidades tendo-se obtidoos seguintes resultados.

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 68/72

 

67

( ) 00081,0X e 93,210

1i

2

i

10

1

=−= ∑∑==

 X  X i

i  

Efetuando um teste de hipóteses ao nível de 90% de confiança, indique se rejeita, ounão, a hipótese de densidade média real ser significativamente inferior ao nível ótimo(0,3 kg/dm3).

35) Um restaurante alega que a variância para a duração do intervalo entre umatendimento e outro é inferior a 8,41 minutos. Uma amostra aleatória de 23 intervalosde tempo até o serviço tem um desvio padrão de 4,41 minutos. Sendo α=10%, háevidência suficiente que sustente a alegação do restaurante? Suponha que a populaçãoseja normalmente distribuída.

36) Avaliou-se em 240 kg o desvio padrão das tensões de ruptura de certos cabosproduzidos por uma fábrica. Depois de ter sido introduzida uma mudança no processode fabricação desses cabos, as tensões de ruptura de uma amostra de 8 cabos

apresentaram o desvio padrão de 300 kg. Verifique se houve aumento aparente davariância, ao nível de significância de 5%. Suponha que a população seja normalmentedistribuída.

37) Numa linha de produção é importante que o tempo gasto numa determinadaoperação não varie muito de empregado para empregado. Em operários bem treinados avariabilidade fica em 100 segundos2. A empresa colocou 11 novos funcionários paratrabalhar na linha de produção, supostamente bem treinados, e observou os seguintesvalores, em segundos:

Testar se a tempo despendido por estes funcionários pode ser considerado mais variáveldo que os demais funcionários. Suponha que a população seja normalmente distribuídae utilize 5% de significância.

38) Um comprador, ao receber de um fornecedor um grande lote de peças, decidiuinspecionar 200 delas. Decidiu, também, que o lote será rejeitado se ficar convencido,ao nível de 5% de significância, de que a proporção de peças defeituosas no lote ésuperior a 4%. Qual será sua decisão (não rejeitar ou rejeitar o lote) se na amostra foramencontradas onze peças defeituosas    Passos: defina as hipóteses, faça o teste, tome a

decisão.

39) É conhecido, como experiência de muitos anos de uso, que o tempo médio de vidade uma lâmpada de um aparelho odontológico sob condições normais de funcionamentoé de 356 horas. Uma nova lâmpada apareceu recentemente no mercado, com um custode 5% a mais, e o dentista testou dez delas. Obteve como valor médio dessas dezlâmpadas o tempo de 380 horas e como desvio padrão estimado de 30,3 horas. Qualdeve ser a decisão dele? É o caso de substituir a velha lâmpada por essa nova? Use p-valor da saída de um programa computacional dada a seguir para tomar uma decisão.

Test of µ = 356 vs not = 356

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 69/72

 

68

N Mean StDev SE Mean T p-value

10 382.000 30.300 9.582 2.71 0.024

40) Os seguintes dados vêm de um estudo que examina a eficácia da cotinina na salivacomo um indicador para a exposição à fumaça do tabaco. Em uma parte do estudo, a

sete indivíduos – nenhum dos quais grandes fumantes e todos eles se abstiveram defumar pelo menos uma semana antes do estudo – foi solicitado fumar um único cigarro.Foram tomadas amostras da saliva de todos os indivíduos 12 e 24 horas depois de teremfumado o cigarro.

Os níveis de cotinina obtidos são mostrados adiante*:

Indivíduo Níveis de Cotinina (mmol/l)Depois de 12 horas Depois de 24 horas

1 73 24

2 58 273 67 494 93 595 33 06 18 117 147 43

*DIGIUSTO, E. e ECKHARD, I. Some Properties of Saliva Continine Measurements inIndicating Exposure To Tobacco Smoking, American Journal of Public  Health , v. 76, out.,1986, p. 1245-1246.

A partir da saída de um programa computacional a seguir, teste a hipótese nula deque as médias da população sejam idênticas ao nível de significância de 5%. O quevocê conclui?

Paired T-Test

N Mean StDev SE Mean

Doze 7 69.8571 42.2154 15.9559

VinteQuatro 7 30.4286 21.1176 7.9817

Difference 7 39.4286 31.3946 11.8660

95% CI for mean difference: (10.3934, 68.4637)

T-Test of mean difference = 0 (vs not = 0):

T-Value = 3.32

P-Value = 0.016

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 70/72

 

69

Respostas da lista 6

1)  Não representa a população. Somente um dia, em um prédio e único horário.2)  População não é homogênea3)  0,352 4) a) 0,003 b) 0,5 5) 0,0006 6) a) 0,297 b)

46,9287)  a) 2,5 b) 1,319 c) 1,7139 8) 1989)  a) incorreta b) incorreta c) incorreta d) correta10) a) [2237,32 ; 2282,52] b) [ 2228,02; 2291,89 ] c) Não. A verdadeira

média da força de compressão não difere de 2280, com 95% de confiança.d) Não. A verdadeira média da força de compressão não difere de 2280,com 99% de confiança e) com 95% de confiança difere de 2300. f) .

11)  [135,3; 144,1] 12) [ 0,78%; 7,214% ] 13) a) [972,4 ; 1025,8 ] b)

25,8 hs c) 10651 14) a) [ 0,3886 ; 0,4114 ] b)1,14%

15)  a) [787,1 ; 812,9 ] b)0,16 c) n=62516) a) 3932 b) [ 0,5345 ; 0,5655] 17) [ 17,59 ; 19,40 ]18) [ 288,33 ; 309,95 ] 19) [ 20,16 ; 35,04 ] 20) [ 0,016 ; 0,034]21) a) [ 7,58 ; 9,85] b) [ 1,98 ; 4,25 ] 22) [ 0,016; 0,0737]23) a) n= 60 b) [ 124,87; 125,49] 24) [ 14358,779 ; 22709,003]25) 294426) [ 82,8% ; 85,2%] . Sim. 27) [2,56; 5,52] 28) [ 0,33 ; 0,87 ]29) Não. Região crítica (-∞;-1,645] 30) Sim. Região crítica (-∞;-1,645]31) Não se rejeita Ho. Região crítica [1,28; ∞) 32) Modificá-lo. (-∞;-1,28 ]

33) Não se rejeita Ho. Região crítica (-∞;-2,9]34) Rejeita-se H0. Região crítica (-∞;-1,833].

35) Rejeita se Ho , pois

36) Não se Rejeita Ho, pois

37) Não se rejeita Ho, pois38) Rejeita-se Ho. Região crítica [1,64; ∞)

39)  p-valor = 0,024. Rejeita-se Ho. Existe evidências que o nível de cotinina

depois de12 horas difere do nível depois de 24 horas, ao nível de 5%.

Bibliografia:

MONTGOMERY, Douglas C.; RUNGER, George C.; HUBELE, Norma Faris. Estatísticaaplicada à engenharia. Rio de Janeiro: LTC, 2004. 335 p.

MORETTIN, Pedro Alberto; BUSSAB, Wilton de Oliveira. Estatística básica. 5. ed.São Paulo: Saraiva, 2006. 526 p.

WERKEMA, Maria Cristina Catarino. Como estabelecer conclusoes comconfianca: entendendo inferencia estatistica. Belo Horizonte, MG: UFMG. Escola de

Engenharia, [1996]. 309 p. (Ferramentas da qualidade 4) .

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 71/72

 

70

5/11/2018 Apostila_MAT236 Segunda Unidade - slidepdf.com

http://slidepdf.com/reader/full/apostilamat236-segunda-unidade 72/72

 

71