Probabilidade e Estatística(2)

75
1 Estatística Descritiva 1.1 Definições e Conceitos em Estatística a) Estatística: é a ciência que se preocupa em tirar conclusões de um todo com base em uma parte do todo. Por meio dela é possível coletar, apresentar, analisar e interpretar um conjunto de dados. b) Censo: é um estudo estatístico que resulta da observação de todos os indivíduos da população relativamente a diferentes atributos pré-definidos. Teoricamente, no censo, tem-se a informação precisa de uma variável em estudo, enquanto na estatística tem-se uma previsão da ocorrência da variável. c) Divisão da Estatística: A estatística básica pode ser dividida em duas áreas: Estatística descritiva: descreve resumidamente um conjunto de dados, utilizando ta- belas, gráficos, medidas de posição e de dispersão. Exemplos: Velocidade de processamento de um computador; tempo de espera para ser atendido em uma loja; opinião das pessoas quanto a violência no país; temperatura mensal de uma cidade. Estatística Indutiva ou Inferência Estatística: representa o estudos dos dados de amostras com o objetivo de entender ou tirar conclusões sobre o comportamento da população a partir das amostras. Exemplo: Suponha que se deseja calcular a voltagem necessária para que um dispositivo elétrico chegue a falhar. Para isso, submete-se uma amostra de tais dispositivos a voltagens cada vez mais elevadas, até falhar cada dispositivo da amostra. Com base nos resultados, pode-se estimar a probabilidade de falha nos dispositivos, a cada voltagem. d) Dados de observação: são valores (realizações) assumidos por uma variável e observada pelo pesquisador e) População: conjunto de indivíduos ou objetos que possuem pelo menos uma característica comum observável. Exemplos: X Todos os eleitores do Brasil; X Todos os cidadãos que possui TV; f ) Amostra: é um subconjunto finito da população que mantém as mesmas características desta população. Exemplos: X 3000 eleitores; X Cidadãos entrevistados pelo serviço de televisão; g) Variável: é uma característica que pode assumir diferentes valores de indivíduo para indivíduo. Variáveis qualitativas: são aquelas para as quais uma medição numérica não é pos- sível e, apresentam como possíveis realizações uma qualidade ou atributo do indivíduo pesquisado. Variáveis quantitativas: são aquelas para as quais é possível realizar uma contagem ou mensuração. Variáveis nominais: utilizadas quando não existe nenhuma ordenação nas possíveis realizações. 1

Transcript of Probabilidade e Estatística(2)

Page 1: Probabilidade e Estatística(2)

1 Estatística Descritiva

1.1 Definições e Conceitos em Estatística

a) Estatística: é a ciência que se preocupa em tirar conclusões de um todo com base em uma partedo todo. Por meio dela é possível coletar, apresentar, analisar e interpretar um conjunto dedados.

b) Censo: é um estudo estatístico que resulta da observação de todos os indivíduos da populaçãorelativamente a diferentes atributos pré-definidos. Teoricamente, no censo, tem-se a informaçãoprecisa de uma variável em estudo, enquanto na estatística tem-se uma previsão da ocorrênciada variável.

c) Divisão da Estatística: A estatística básica pode ser dividida em duas áreas:

• Estatística descritiva: descreve resumidamente um conjunto de dados, utilizando ta-belas, gráficos, medidas de posição e de dispersão.Exemplos: Velocidade de processamento de um computador; tempo de espera para ser

atendido em uma loja; opinião das pessoas quanto a violência no país; temperaturamensal de uma cidade.

• Estatística Indutiva ou Inferência Estatística: representa o estudos dos dados deamostras com o objetivo de entender ou tirar conclusões sobre o comportamento dapopulação a partir das amostras.

Exemplo: Suponha que se deseja calcular a voltagem necessária para que um dispositivoelétrico chegue a falhar. Para isso, submete-se uma amostra de tais dispositivos avoltagens cada vez mais elevadas, até falhar cada dispositivo da amostra. Com basenos resultados, pode-se estimar a probabilidade de falha nos dispositivos, a cadavoltagem.

d) Dados de observação: são valores (realizações) assumidos por uma variável e observada pelopesquisador

e) População: conjunto de indivíduos ou objetos que possuem pelo menos uma característicacomum observável.

Exemplos: X Todos os eleitores do Brasil;X Todos os cidadãos que possui TV;

f) Amostra: é um subconjunto finito da população que mantém as mesmas características destapopulação.

Exemplos: X 3000 eleitores;X Cidadãos entrevistados pelo serviço de televisão;

g) Variável: é uma característica que pode assumir diferentes valores de indivíduo para indivíduo.

• Variáveis qualitativas: são aquelas para as quais uma medição numérica não é pos-sível e, apresentam como possíveis realizações uma qualidade ou atributo do indivíduopesquisado.• Variáveis quantitativas: são aquelas para as quais é possível realizar uma contagem

ou mensuração.• Variáveis nominais: utilizadas quando não existe nenhuma ordenação nas possíveis

realizações.

1

Page 2: Probabilidade e Estatística(2)

Exemplos: Sexo (Feminino ou masculino), estado civil (Solteiro, casado, divorciado,viúvo), naturalidade (Uberlândia, Monte Alegre, Araguari), etc.

• Variáveis ordinais: utilizadas quando os seus possíveis resultados podem ser ordenadospor algum critério especifico.Exemplos: Grau de instrução de um indivíduo (Ensino Médio, graduação, pós-graduação),

classe social (Baixa, média, alta), classificação de um produto (regular, bom, ótimo)etc.

• Variáveis discretas: assumem valores específicos, e geralmente estão relacionadas adados de contagem e associadas com o conjunto dos números inteiros.Exemplos: Número de filhos de um casal, número de acidentes ocorridos em uma

determinada rodovia, número de moradores de uma residência, etc.• Variáveis contínuas: assumem infinitos valores dentro de um intervalo, e estão asso-

ciadas em geral, com os números reais e relacionadas a medições.Exemplos: Estatura de um indivíduo, temperatura de uma cidade, produção de uma

cultura, etc.

h) Dados Brutos: são os dados de observação sem nenhuma observação lógica.

i) Dados elaborados ou rol: são os dados de observação em ordem crescente ou decrescente.

j) Amplitude Total(A): é a diferença entre o maior valor observado e o menor valor observado.

A = X(n) −X(1) = maior valor observado - menor valor observado.

Apresentação dos dados

A organização, sumarização e descrição de dados podem ser feitas por meio dos métodos tabularese gráficos.

1.2 Distribuição de Frequências:

Uma distribuição de frequência é um sumário tabular dos dados que mostra o número (frequência)de itens em cada uma das classes ou categorias não sobrepostas.

• Tipos de frequências

a) Frequência Absoluta (fi): é o número de vezes que o indivíduo aparece na amostrab) Frequência Relativa (fr): fr = fi

n , em que n é o número de observações, ou seja,

n =

k∑i=1

fi, sendo k o número de classes ou categorias.

c) Frequência Percentual (fp): fp = fr × 100:d) Frequência Acumulada (Fi): indica o número de dados que possuem valores menores

ou maiores, ou então iguais ao limite superior de cada classe.

• Algoritmo para construção da distribuição de frequências para variáveis quantita-tivas

a) Calcular a Amplitude Total (A): A = X(n) −X(1);b) Calcular o número de classes (k): k =

√n se n ≤ 100; k = 5logn se n > 100. Em ambos

os casos deve-se escolher o número inteiro mais próximo;

2

Page 3: Probabilidade e Estatística(2)

c) Calcular a amplitude da Classe (C): C = Ak−1 ;

d) Calcular o limite inferior da primeira classe (LI1a): LI1a = X(1);

e) Organizar as classes e contar as frequências;

• Observações:

1. Os intervalos das classes podem se classificar em: abertos(]a,b[ ou a − b) de modo queos limites da classe não pertencem a ela; fechados ([a,b] ou a a b) em que os limites daclasse pertencem a ela ou mistos ([a,b[ ou a ` b)no qual um dos limites pertence à classe,e o outro, não;

2. Por questões de ordem prática e estética, sugere-se utilizar de 5 a 20 classes;

3. As frequências simples são representadas por letras minúsculas e as frequências acumula-das por letras maiúsculas;

4. No caso de variáveis discretas, quando a amplitude total das observações é pequena, cadavalor é adotado como sendo uma classe, e nestes casos, o algoritmo apresentado não éutilizado;

5. Para determinados cálculos estatísticos, todos os pontos de uma classe podem ser repre-sentados pelo ponto médio da classe. O ponto médio da classe i (xi) é calculado pelamédia dos limites da classe. Esse critério é conhecido como hipótese tabular básica.

• Exemplos:

1. Uma pesquisa foi realizada para verificar a preferência dos consumidores em uma cidade quantoaos cinco tipos de refrigerantes: coca-cola(C), fanta(F), pepsi-cola(P), sprite(S) e Guaraná(G),obtendo os seguintes dados:

F C C F P P C G C FC S C F C F C S P CC P C S G P F P C CP G P C P G S C C P

a) Classificar a variável;

b) Obter a distribuição de frequências;

2. Para facilitar um projeto de ampliação da rede esgoto de um certo bairro, as autoridadestomaram uma amostra de tamanho 36 dos 270 quarteirões que compõem a região em estudo,e foram encontrados os seguintes números de casas por quarteirão:

15 27 22 36 13 2923 45 15 18 16 2526 10 34 23 27 4420 30 21 32 16 3414 20 17 24 25 2617 25 36 22 42 29

a) Classificar a variável;

b) Colocar os dados em rol;

c) Construir a distribuição de frequências;

d) Obter as frequencias acumuladas “Abaixo de” e “Acima de”;

3

Page 4: Probabilidade e Estatística(2)

3. Um estudo apresentou informações sobre a tecnologia dos aparelhos domésticos e sua utilizaçãopor pessoas de 12 anos ou mais. Os dados a seguir referem-se ao número de horas de uso decomputadores pessoais durante uma semana para uma amostra de 50 pessoas:

1,5 1,6 1,6 2,0 2,8 3,0 3,1 3,1 3,1 3,33,4 3,5 3,7 3,7 3,9 3,9 4,0 4,1 4,1 4,14,1 4,2 4,3 4,4 4,7 4,8 5,4 5,6 5,7 5,75,7 5,9 5,9 6,1 6,1 6,1 6,2 7,1 7,2 7,68,8 9,5 10,3 10,3 10,4 10,4 10,8 11,1 12,1 12,9

a) Classificar a variável em estudo;

b) Construir a distribuição de frequências;

1.3 Representações gráficas:

• Variáveis contínuas:

a) Histogramas: é um gráfico de colunas justapostas, no qual a variável contínua, divididaem classes, é representada no eixo horizontal. No eixo vertical, marcam-se as freqüênciasrelativas ou percentuais de cada classe, construindo as colunas.

b) Polígono de frequências: são segmentos de retas que tem suas extremidades correspon-dentes ao ponto médio da classe e a coordenada y da extremidade será proporcional afrequência da classe.

c) Gráfico da frequência acumulada (ogiva): são gráficos construídos a partir da dis-tribuição de frequências acumuladas. No caso das variáveis continuas, utiliza-se linhascontínuas.

d) Histogramas com amplitudes de classes desiguais: se a distribuição de frequênciaspossuir amplitudes de classes desiguais, deve-se fazer um ajuste de frequências antes deconstruir o histograma. Esse procedimento garante a proporcionalidade das áreas entreas diferentes classes. As correções das frequências são realizadas por meio das densidadesde frequências (d.f), ou seja, substituindo a frequência da classe i pela dfi, dada por:dfi = fi/Ci.

• Exemplos:

1. A distribuição de frequências abaixo refere-se ao preço em reais das refeições por quilo de25 restaurantes próximo a UFU:

Preço das refeições (R$) fi fr fp10 ` 13 1 0,04 413 ` 16 4 0,16 1616 ` 19 12 0,48 4819 ` 22 6 0,24 2422 ` 25 2 0,08 8Total 25 1,00 100

Pede-se:a) Interpretar a distribuição de frequências;b) Construir o histograma e o polígono de frequências;c) Calcular as frequências acumuladas e construir o gráfico correspondente (ogivas).

4

Page 5: Probabilidade e Estatística(2)

2. Considere a seguir a distribuição de 130 empresas classificadas segundo o número deempregados:

Número de Empregados fi0 ` 20 1020 ` 40 3040 ` 80 6080 ` 160 30

Construir o histograma para esses dados;

• Variáveis discretas:

a) Gráfico de linhas: para as variáveis discretas a representação gráfica conveniente paraas frequências simples é o gráfico de linhas, pois só ocorre frequências nos pontos fixos,ou seja, não existe a continuidade.

b) Gráfico de frequências acumuladas: são gráficos construídos a partir das frequênciasacumuladas e no caso discreto, assume um aspecto de escadas.

• Exemplos:

1. O setor pessoal de uma empresa brasileira registrou os seguintes números de faltas defuncionários em uma semana do mês de julho/2010:

Número de faltas fi2 23 34 85 56 2

Total 20

Com base nestes dados:a) Construir o gráfico de linhas;b) Obter as frequências acumuladas e representar graficamente as frequências acu-

muladas;

• Outras representações gráficas:

a) Gráfico de setores: compara as partes estudadas com o todo, sendo apresentado emporcentagens sobre a forma de setores em circulo e indicado para representar variáveisqualitativas.

b) Ramos e folhas: são os gráficos construídos com os valores observados. Trata-se da dis-posição em rol dos dados, com base no isolamento de um algarismo mais significativo,denominado galho (por exemplo, dezena), e de algarismos menos significativos, denomi-nados folhas (por exemplo, unidades).

c) Gráfico de barras: similar ao histograma, possuindo o objetivo de apresentar as frequên-cias sob a forma de barras horizontais ou verticais, separadas entre si. Os dados podemser nominais ou quantitativos (agrupados em classes ou não).

d) Gráficos de pontos (dispersão): é usado em estudos de correlação, permitindo vi-sualizar o grau de associação entre duas variáveis quantitativas medidas em um mesmoindivíduo. Cada par de observações é representado por um ponto (x,y) do sistema decoordenadas cartesianas.

5

Page 6: Probabilidade e Estatística(2)

e) Gráfico Box-plot: é um dos mais usados gráficos da estatística e fornece ideias sobre asmedidas de posição, dispersão, assimetria, caudas e dados discrepantes.

• Exemplos:1. Uma pesquisa foi realizada com o objetivo de verificar o estado de procedência dos alunos

matriculados na área de exatas na UFU, obtendo os seguintes resultados:Estado fp Ângulo(graus)MG 62SP 17GO 14

Outros 7Total 100

Representar essas informações em um gráfico de setores.2. Os dados abaixo referem-se ao número de quartos ocupados diariamente num hotel de

praia durante o mês de janeiro:

55 49 37 57 46 40 64 35 73 6261 43 72 48 54 69 45 78 46 5940 58 56 49 42 62 53 46 81 52

Represente os dados através de um gráfico de ramos e folhas.3. Utilizando as informações do exemplo 1, construa um gráfico de barras.4. Um estudo realizado em 5 cidades mineiras verificou que o número de filhos de 50 famílias

pode ser representado pela tabela a seguir:Número de filhos fi fr fp

1 14 0,28 282 18 0,36 363 12 0,24 244 6 0,12 12

Total 50 1 100

Esboçar o gráfico de barras para esses dados.5. Os dados a seguir foram obtidos num estudo sobre a relação entre a resistência (ohms) e

o tempo (min) que certos resistores sobrecarregados levam para falhar.

Resistência 33 36 30 44 34 25 40 28 40 46Tempo 39 36 34 51 36 21 45 25 45 36

Verifique, por meio do diagrama de dispersão, a relação existente entre a resistência e otempo de falha.

1.4 Interpolações em tabelas de distribuição de frequências:

• Exemplo: A tabela a seguir representa a distribuição de salários em uma empresa:

Salários fa7,50 ` 10,50 14

10,50 ` 13,50 1713,50 ` 16,50 1116,50 ` 19,50 8

Total 50

a) Qual a % de funcionários que ganham mais de 13,50 salários?b) Qual a % de funcionários que ganham entre 8 e 12 salários?

6

Page 7: Probabilidade e Estatística(2)

1.5 Natureza da distribuição de frequências:

a) Simétrica: 50% das observações estão abaixo do valor central e 50% acima.

b) Assimétrica à direita: maioria dos valores estão concentrados à esquerda da distribuição.

c) Assimétrica a esquerda: maioria dos valores estão concentrados a direita da distribuição.

d) Multimodal: vários picos de frequência.

1.6 Técnicas de somatório

Dada as variáveis Xi e Yj (i = 1,2, · · · , n), (j = 1,2, · · · ,m) e a constante k, temos:

a)n∑i=1

Xi = x1 + x2 + · · ·+ xn

b)n∑i=1

m∑j=1

XiYj = x1y1 + x1y2 + · · ·+ xnym

c)n∑i=1

Xi

m∑j=1

Yj = (x1 + x2 + · · ·+ xn)(y1 + y2 + · · ·+ ym)

d)n∑i=1

X2i = x2

1 + x22 + · · ·+ x2

n

e) (n∑i=1

Xi)2 = (x1 + x2 + · · ·+ xn)2

f)n∑i=1

k = k + k + · · ·+ k = nk

g)n∑i=1

kXi = kx1 + kx2 + · · ·+ kxn = kn∑i=1

Xi

1.7 Medidas de posição

As medidas de posição ou de tendência central constituem uma forma mais sintética de apresentaros resultados contidos nos dados observados, pois representam um valor central, em torno do qual osdados se concentram. Portanto, constitui como objetivo ao obter as medidas de posição, encontrarum único valor, em um conjunto de valores observados, que seja representante desse conjunto. Asmedidas de posição mais empregadas são a média, a mediana e a moda.

a) Média aritmética (x): É uma medida de fácil compreensão, mais comum e simples de sercalculada.

i) Dados não agrupados: x =

n∑i=1

xi

n

ii) Dados agrupados: x =

k∑i=1

xifi

n , em que xi é o ponto médio da classe i;

7

Page 8: Probabilidade e Estatística(2)

• Observação:1. Nas distribuições de frequências, assume-se a hipótese de que todas as observações

contidas em uma classe são consideradas iguais ao ponto médio da classe.

• Exemplos:1. O número de peças defeituosas observado em amostras retiradas diariamente da linha

de produção de uma indústria, durante uma semana foi de: 10, 14, 13, 15, 16, 18 e 12peças. Calcular o número médio de peças defeituosas por dia desta semana avaliada.

2. Considere os números de gols por partida em um determinado campeonato de futebol,agrupados e apresentados na sequência. Calcule o número médio de gols por partida.

No de gols por partida fi0 71 122 163 124 95 26 2

Total 603. Para a distribuição de frequências que representa a força de ruptura em libras por

polegada quadrada (psi) da garrafas descartáveis de um litro de refrigerante, calculara média.

Classes fi86,6 ` 147 1147 ` 208 6208 ` 269 13269 ` 330 8330 ` 390 2Total 30

• Propriedades da média aritmética:1. A soma dos desvios (SD) de um conjunto de dados em relação a sua média é nula.2. A soma dos quadrados dos desvios de um conjunto de dados em relação a uma

constante k é mínima se e somente se k= x.3. Somando ou subtraindo uma constante k a cada valor observado, a média do novo

conjunto de dados ficará somada ou subtraída da constante k, em relação a médiainicial.

4. Multiplicando ou dividindo-se cada valor observado por uma constante k a novamédia ficará multiplicada ou dividida por k.

b) Outros tipos de média:

1. Média Ponderada (xp): essa média associa as observações x1, x2, · · · , xn determinadasponderações ou pesos que dependem da importância atribuída a cada uma das observa-ções.

xp =

n∑i=1

wixi

n∑i=1

wi

=w1x1 + w2x2 + · · ·+ wnxn

w1 + w2 + · · ·+ wn,

8

Page 9: Probabilidade e Estatística(2)

sendo wi o peso da observação i.

2. Média Geométrica (G): utilizada para representar variáveis assimétricas a direita, poisnestes casos, a média aritmética, por ser muito inflacionada pelos valores extremos, nãorepresenta bem a variável.

G = n√x1.x2. · · · .xn ou ainda logG =

1

n(logx1 + logx2 + · · · logxn)

3. Média Harmônica (H): utilizada para variáveis que apresentam periodicidade, ou seja,uma variação harmônica como por exemplo, ondas de rádio, variação de preços, entresoutros.

H =n

n∑i=1

1/xi

• Exemplos:

1. Suponha que uma indústria realizou ao longo dos últimos três meses cinco comprasde determinada matéria prima:

Compra Custo por quilo (R$) Quantidade Quilos1 3 12002 3,40 5003 2,80 27504 2,90 10005 3,25 800

Deseja-se obter informações sobre o custo médio por quilo da matéria prima.Qual é esse custo médio?

2. Sabe-se que os multiplicadores de crescimento anual de consumo de um determinadoserviço telefônico foram iguais a 1,2; 1,8; 2,7; 0,9; 1,5; 2,3 e 0,7. Calcular a médiaaritmética, geométrica e harmônica.

c) Mediana(Md): é a realização que ocupa a posição central de um conjunto de dados ordenados.Ou seja, abaixo da mediana deverão estar 50% dos elementos analisados e acima da medianadeverão estar 50% dos dados analisados.

i) Dados não agrupados: O valor da mediana depende da quantidade n de elementospresentes no conjunto de dados. Se o número de dados for ímpar a mediana será igualao valor central. No caso de números de dados par a mediana será dada pela médiaaritmética entre os dois valores centrais.Matematicamente, a mediana é definida como:

Md =

x(n+1)/2 se n é ímparx(n2 )+x(n+2

2 )

2 se n é par

ii) Dados agrupados:

Md = LI + 0,5n−FifMd

.C

em que:LI é o limite inferior da classe mediana;Fi é a frequência acumulada das classes anteriores a classe mediana;

9

Page 10: Probabilidade e Estatística(2)

fMd é a frequência da classe mediana;C é a amplitude da classe mediana;n é o número de observações e classe mediana é a classe onde se encontra o indivíduomediano.

• Exemplos:

1. Os preços em reais para uma amostra de aparelho de ar condicionado são: 500, 840,470, 480, 420, 440 e 440. Calcular a mediana.

2. O peso de mancais produzidos por um processo de fundição está sendo estudado.Uma amostra de seis mancais foi medida, resultando nos seguintes pesos: 1,18; 1,21;1,19; 1,17; 1,20 e 1,21. Obter a mediana.

3. Utilizando novamente os dados referente aos números de gols por partida em umcampeonato de futebol, calcular a mediana desses valores:

No de gols por partida fi0 71 122 163 124 95 26 2

Total 604. Suponha que a renda familiar em salários mínimos de uma amostra com 72 traba-

lhadores pudesse ser representada segundo a tabela:Classe fi1 ` 2 132 ` 4 224 ` 6 186 ` 8 78 ` 10 8

10 ` 12 4Total 72

Calcular a mediana.

d) Moda(Mo): é o valor que ocorre com maior frequência entre os valores observados. Em umconjunto de dados, pode existir mais de uma moda ou não ter nenhum valor modal.

i) Dados não agrupados: é o valor que aparece repetido mais vezes.ii) Dados agrupados: Se os dados encontram-se em uma distribuição de frequência, procede-

se das seguintes formas:

X utilização de fórmula:

Mo = LI +∆1

∆1 + ∆2.C,

em que: LI é o limite inferior da classe modal;∆1 é a diferença entre a frequência da classe modal e a frequência da classe imediatamenteinferior;∆2 é a diferença entre a frequência da classe modal e a frequência da classe posterior;C amplitude da classe modal e classe modal é a classe de maior frequência.

10

Page 11: Probabilidade e Estatística(2)

X utilização do ponto médio da classe modal:

Mo =LI + LS

2,

em que: LI é o limite inferior da classe modal e LS é o limite superior da classe modal

X utilização do método geométrico:

• Observações:

1. Quando o método geométrico é utilizado, a moda tenderá para o limite inferior ousuperior da classe modal a medida que o valor da frequência da classe anterior formaior que a d posterior ou a frequencia da classe posterior for maior que a da anterior,respectivamente. Se as classes anterior e posterior a classe modal tiverem a mesmafrequência, então a moda será o ponto médio da classe.

2. As propriedades (3) e (4) da média aritmética também são válidas para a mediana ea moda.

• Exemplos:

1. Durante o mês de setembro de um certo ano, o número de acidentes por dia em umcerto trecho da rodovia, apresentou os seguintes valores:

0 0 0 0 0 1 1 1 1 11 1 1 1 1 1 2 2 2 22 2 2 2 3 3 3 4 4 6

Qual é a moda de acidentes por dia?2. Determine a moda para os seguintes conjuntos de dados:

a) 150, 155, 157, 160, 160, 163, 165, 165, 170b) 10, 12, 14, 15, 16, 19, 21

3. Considere os dados amostrais do número de circuitos defeituosos em um sistemacomposto por 4 circuitos. Uma amostra de 19 sistemas foi coletada, obtendo osseguintes dados:

Número de circuitos defeituosos fi1 102 73 14 1

Total 19Determinar a moda, ou seja, o número modal de circuitos defeituosos por sistema.

4. O quadro a seguir representa a distribuição de frequências do peso (kg) de pessoasde uma certa faixa etária:

Peso fi40 ` 45 345 ` 50 850 ` 55 1655 ` 60 1260 ` 65 765 ` 70 370 ` 75 1Total 50

Calcular a moda e interpretar.

11

Page 12: Probabilidade e Estatística(2)

1.8 Relação entre, x, Md e Mo

a) Se x = Md = Mo: Distribuição simétrica

b) Se x > Md > Mo : Distribuição assimétrica à direita.

c) Se x < Md < Mo: Distribuição assimétrica à esquerda.

1.9 Separatrizes (Quartis)

Se um conjunto de dados é organizado em rol, o valor central ou a média entre os dois valorescentrais foi definido como a mediana. Por extensão desse conceito de mediana, pode-se pensar nosvalores que dividem o conjunto em quatro partes iguais, e teremos os quartis (Q1, Q2, Q3). O quartilQ2 coincide com a mediana. Podemos ainda ter os decis que dividem os dados ordenados em 10 (D1,D2 , ..., D9 ) conjuntos iguais, ou os percentis que os dividem em 100 partes iguais (P1, P2, ..., P99).

Desse modo, segue que: Q2 = D5 = P50 = Md; P75 = Q3; P25 = Q1.

• Cálculo do p-ésimo percentil:

1. Organize os dados em rol e calcule o índice (i): i =( p

100

)n, em que p é o percentil

procurado e n o número de observações.

2. Se i não for um número inteiro, arredonde-o para cima. Esse número denomina a posiçãodo p-ésimo percentil.

3. Se i for um número inteiro, o p-ésimo percentil será a média dos valores nas posições i ei+ 1.

• Exemplos:

1. As notas finais de nove alunos em uma determinada disciplina são iguais a: 89,88, 94, 65,42, 73, 66, 66 e 35. Calcular e interpretar os quartis.

2. Os sálarios dos empregados de uma indústria são: 2710, 2755, 2850, 2880, 2880, 2890,2920, 2940, 2950, 3050, 3130 e 3325. Determine os quartis e o 85o percentil.

1.10 Medidas de dispersão

Sabemos que sucessivas realizações de um fenômeno não produzem o mesmo resultado. Porexemplo, o desempenho de consumo do carro não é o mesmo para cada tanque de combustível.Existe uma variabilidade nos resultados que nesse caso pode depender de vários fatores como tipode estrada, marca do combustível, condições climáticas, desgaste do veiculo com o tempo, entreoutras. Dessa forma, resumindo o conjunto de dados em uma única medida de posição, não se temideia dessa variabilidade. Assim, é necessário obter uma medida que nos indique o quanto os dadosse encontram dispersos em torno da região central, ou da média, sendo a medida de dispersão usadapara esse fim.

• Exemplo:

Três grupos de alunos submeteram-se a um teste, obtendo as seguintes notas:Grupo A: 1, 8, 10, 10, 11, 12, 18 xA = 10; MdA = 10; MoA = 10

Grupo B: 1, 2, 10, 10, 10, 13, 24 xB = 10; MdB = 10; MoB = 10

Grupo C: 10, 10, 10, 10, 10, 10, 10 xC = 10; MdC = 10; MoC = 10

12

Page 13: Probabilidade e Estatística(2)

A média, a mediana e a moda são iguais, mas os três grupos apresentam comportamento dife-renciado. O grupo C é mais homogêneo e o grupo B é o que apresenta a maior variação das notas.Nesse caso a variabilidade que é distinta nos três grupos não pode ser identificada apenas com asmedidas de posição, seria necessário uma medida de dispersão. As principais medidas de dispersãosão: a amplitude total, a variância e o desvio padrão, o coeficiente de variação e o erro padrão damédia.

a) Amplitude total (A): corresponde a diferença entre a maior (máximo) e a menor observação(mínimo) de um conjunto de dados.

i) Dados não agrupados: A = X(n) −X(1);ii) Dados agrupados: A = xk−x1, em palavras, é a diferença entre o ponto médio da última

classe e o ponto médio da primeira classe.

• Exemplos:

1. Encontre a amplitude total do conjunto de dados: 2, 3, 3, 5, 5, 5, 8, 10 e 12.2. Utilizando o exemplo da distribuição de frequências do peso (kg) de pessoas de uma

certa faixa etária, calcular a amplitude total:Peso fi

40 ` 45 345 ` 50 850 ` 55 1655 ` 60 1260 ` 65 765 ` 70 370 ` 75 1Total 50

• Problemas associados a esta medida:

1. Não considera todas as observações no cálculo;2. Não se tem ideia do comportamento dos dados entre os extremos;3. Apresenta muita variação de uma amostra para outra, mesmo que ambas sejam

extraídas da mesma população.

• Características desejadas em uma medida de dispersão:

1. Considera todas as observações no cálculo;2. É facilmente calculável e compreensível;3. Deve estar exposta o menos possível as flutuações das amostras.

b) Variância(s2) e desvio padrão(s):

i) Dados não agrupados: s2 = Soma de quadrados dos desvios (SQD)n−1 =

n∑i=1

(xi − x)2

n−1 ;Desenvolvendo a soma de quadrados dos desvios e aplicando algumas propriedades algébricas,

obtém-se que: s2 =

n∑i=1

x2i −

(n∑i=1

xi

)2

n

n−1 .

13

Page 14: Probabilidade e Estatística(2)

ii) Dados agrupados: s2 =

k∑i=1

x2i fi −

(k∑i=1

xifi

)2

n

n−1

• Observações:

1. O desvio padrão (s) é definido como sendo a raiz quadrada positiva da variância, ouseja, s =

√s2;

2. Quanto as unidades dessas medidas de dispersão, tem-se que o desvio padrão possuia mesma unidade dos dados, enquanto a variância tem a unidade dos dados elevadaao quadrado. Para a variância a unidade não tem significado físico por estar aoquadrado, o que dificulta a interpretação

• Exemplos:

1. Os dados a seguir referem-se a produção, em toneladas, de um certo produto de umaindústria:

50 280 560 170 180 500 250 200 1050 240180 1000 1100 120 420 510 480 90 870 360

Calcular a produção média da indústria, variância e desvio padrão.2. Uma inspeção feita em uma amostra de 30 embalagens, cada uma contendo uma dúzia

de ovos, ao serem transportados de uma granja até o local destinado, apresentou osseguintes número de ovos danificados:

Número de ovos quebrados fi0 131 92 33 34 15 1

Total 30Determinar a variância.

3. Um estudo foi realizado para investigar a quantidade (em milhões) de passageirostransportados em diferentes épocas do ano por uma grande empresa de transporteurbano:

Classes fi1,5 ` 4,5 54,5 ` 7,5 107,5 ` 10,5 1210,5 ` 13,5 613,5 ` 16,5 7

Total 40Pede-se: Determinar a média e o desvio padrão.

• Propriedades da variância e do desvio padrão:

1. Somando-se ou subtraindo-se uma constante k a cada observação, a variância e odesvio padrão não se alteram.

2. Multiplicando-se ou dividindo-se cada observação por uma constante k, a nova vari-ância ficará multiplicada ou dividida por k2, e o novo desvio por k.

14

Page 15: Probabilidade e Estatística(2)

3. A variância de uma constante é igual a zero.4. A variância e o desvio padrão são sempre positivos, e são usados todos os valores

observados em seu cálculo.

c) Coeficiente de variação: Conjuntos de dados com diferentes unidades de medida, ou mesmopara uma única unidade, se os conjuntos de dados possuem médias diferentes, suas variabilida-des não podem ser comparadas pela variância ou desvio padrão. Uma medida de variabilidadeque não depende desses fatores é o coeficiente de variação, que não possui unidade de medidae pode ser calculado pela fórmula:

CV =s

x100.

• Exemplos:

1. Uma pesquisa sobre temperatura (oC) e pressão (atm) em uma caldeira industrialmostrou os seguintes resultados:

T(oC) 400 450 350 500 600 550P(atm) 40 52 37 67 70 72

a) Calcular a média e o desvio padrão para cada variável;b) Que atributo apresenta maior variabilidade?

2. Numa empresa, o salário médio dos homens é de R$4000, com desvio padrão deR$1500, e o das mulheres e em média R$3000, com desvio padrão de R$1200. Qualsalário apresenta maior variabilidade?

d) Erro padrão da média (sx): é uma medida de dispersão que mede a precisão com que a médiaamostral foi calculada. Quanto menor for seu valor, mais provável será a chance de obter amédia da amostra nas proximidades da média da população. O erro padrão da média é dadopor:

sx =s√n

Observe que se n→∞ sx → 0

• Exemplo:

1. Em um estudo sobre a acidez de algumas soluções, o ph de um certo produto foimedido, obtendo os seguintes resultados:

5,1 5,3 5,2 5,5 4,96,2 6,0 5,8 5,3 5,05,1 5,4 5,1 6,1 5,65,4 5,8 5,7 5,5 5,1

a) Calcular o erro padrão da média usando as duas primeiras linhas dos dados;b) Agora, utilize todos os dados;

15

Page 16: Probabilidade e Estatística(2)

2 Probabilidade

Neste capítulo serão abordados os conceitos de probabilidade que dão suporte para o estudo deestatística e experimentação. Quando fala-se de probabilidade, pretende-se identificar a chance deocorrência de um determinado resultado de interesse, em situações nas quais não é possível calcularcom exatidão o valor real do evento. Desta forma, trabalha-se com chances ou probabilidades.

2.1 Conceitos

a) Experimento aleatório: consiste em um experimento que pode ser efetuado repetidas vezes,sob as mesmas condições de realização, mas cujos resultados não são essencialmente os mesmosem todas as repetições.

• Exemplos:

1. Lançamento de uma moeda ou dado;2. Tempo de vida útil de um componente eletrônico;3. Número de chamadas telefônicas que chegam a uma central em um intervalo de

tempo;

b) Espaço amostral (Ω) : conjunto formado por todos os resultados possíveis de um experimento.

c) Evento: é um subconjunto do espaço amostral.

• Exemplos:

1. Uma fábrica produz determinado artigo. Da linha de produção são retirados trêsartigos, e cada um é classificado como bom (B) ou defeituoso (D). Qual o espaçoamostral associado a esse experimento? Se A é definido como sendo “dois artigosbons”, quais são os elementos pertencentes a esse evento?

2. Qual o espaço amostral associado a um experimento que consiste em determinaro tempo de decomposição industrial em um aterro sanitário? Se A é o evento “otempo de decomposição está entre dois e doze anos”, como pode ser representadoesse evento?

2.2 Operações de conjuntos

As operações com conjuntos podem ser aplicadas aos eventos. Então define-se:

a) Evento interseção (A∩B): é o conjunto formado pelos resultados que pertencem aos eventosA e B simultaneamente.

b) Evento união (A ∪B): é o evento formado pelos resultados de A ou B, ou seja, os resultadosque pertencem a pelo menos um dos eventos.

c) Evento complementar (A ou Ac): é o evento formado pelos resultados que não pertencemao evento considerado.

d) Evento mutuamente exclusivo: Dois eventos são mutuamente exclusivos se e somente seA ∩B = ∅.

Se a união de n eventos mutuamente exclusivos é o próprio Ω, temos que tais eventos formamuma partição de Ω.

16

Page 17: Probabilidade e Estatística(2)

2.3 Definição e axiomas de probabilidade

Probabilidade: a definição clássica de probabilidade nos diz que a probabilidade de ocorrer oevento A é definida como:

P (A) =números de casos favoráveisnúmeros de casos possíveis =

A

Ω=

n

N

• Exemplos:

1. Qual a probabilidade de se retirar dois ou mais artigos bons, no experimento que tem porfinalidade classificar os artigos da linha de produção de uma fábrica?

2. Qual a probabilidade de obter duas caras em duas jogada de uma moeda?

• Axiomas de Probabilidade:

Axioma 1: A probabilidade de um certo evento ocorrer corresponde a um número não ne-gativo, ou seja, P (A) ≥ 0.

Axioma 2: A probabilidade de ocorrer todo o espaço amostral é igual a um, isto é, P (Ω) = 1.

Axioma 3: Se A1, A2, · · · , An são eventos mutuamente exclusivos, P (A1 ∪ A2 ∪ An) =P (A1) + P (A2) + · · ·+ P (An)

A partir desses axiomas, pode-se enunciar as seguintes propriedades, que são úteis no cálculo deprobabilidades:

Propriedade 1: 0 ≤ P (A) ≤ 1, ∀ evento A .

Propriedade 2: P (∅) = 0

Propriedade 3: Se A1 ⊂ A2, então P (A1) ≤ P (A2)

Propriedade 4: P (Ac) = 1− P (A)

Propriedade 5: P (A1 ∪A2) = P (A1) + P (A2)− P (A1 ∩A2)

• Exemplos:

1. Suponha que o seguinte quadro represente uma possível divisão de alunos matriculadosna UFU em um determinado semestre:

SexoCursos Masculino (M) Feminino (F) Total

Engenharia (E) 70 40 110Matemática (MT) 15 15 30Química (Q) 10 20 30Computação (C) 20 10 30

Total 115 85 200

Calcular:a) A probabilidade de uma pessoa selecionada aleatoriamente estar matriculada em

engenharia;

17

Page 18: Probabilidade e Estatística(2)

b) P(M)?c) P(MT ∪ M)?d) P(E ∪ C)?e) P(Qc)?

2. Considere um experimento e os eventos A e B associados a este experimento. SejaP(A)= 1/2; P(B)= 1/3 e P (A∩ B)= 1/4. Calcule:

a) P (Ac);b) P (A ∪B);c) P (Ac ∩Bc);d) P (Ac ∪Bc);e) Qual a probabilidade que B ocorra e A não ocorra.

2.4 Análise Combinatória

Nem sempre é possível enumerar o espaço amostral. Nestes casos, deve-se usar a análise combi-natória como processo de contagem. Nas combinações estamos interessados somente em selecionarobjetos sem nos preocuparmos com a ordem. Assim, o número total de combinações de n objetosselecionados dentre os N objetos distintos, denotado por

(Nn

)é:(Nn

)= N !

n!(N−n)! .

• Exemplos:

1. Em um congresso científico existem 15 engenheiros e 12 arquitetos. Qual a probabili-dade de se formar uma comissão com cinco membros, na qual figurem 3 engenheiros e 2arquitetos?

2. Suponha que num lote com 20 peças existam 5 defeituosas, e escolhemos 4 peças do loteao acaso. Qual é a probabilidade de se escolher duas peças defeituosas na amostra?

2.5 Probabilidade Condicional e Independência

2.5.1 Probabilidade Condicional

Algumas vezes, as probabilidades necessitam ser reavaliadas à medida que informações adicionaisse tornam disponíveis. Uma maneira de incorporar informação adicional em um modelo de probabi-lidade é considerar que o resultado gerado é um elemento de um dado evento. Esse evento, denotadopor B, define as condições em que se sabe que o resultado é satisfatório. Então, as probabilidadespodem ser revistas de modo a incluir esse conhecimento. A probabilidade de um evento A, sabendoqual será o resultado do evento B, é dada por P (A/B) e é chamada de probabilidade condicional deA dado B.

Desse modo, a probabilidade condicional P (A/B) é definida como:

P (A/B) =P (A ∩B)

P (B)com P (B) 6= 0

Analogamente,

P (B/A) =P (B ∩A)

P (A)com P (A) 6= 0

Dessas expressões é possível definir a regra do produto de probabilidade:

P (A ∩B) = P (B)P (A/B) = P (A)P (B/A)

18

Page 19: Probabilidade e Estatística(2)

• Exemplos:

1. Utilizando os dados dos alunos matriculados em uma universidade, determine: Sabendoque uma pessoa selecionada ao acaso está matriculada em matemática, qual a probabili-dade que ela seja do sexo masculino?

2. Num certo colégio, 4% dos homens e 1% das mulheres têm mais de 1,75 de altura. 60%dos estudantes são mulheres. Um estudante é escolhido ao acaso e tem mais de 1,75m.Qual é a probabilidade de que seja homem?

2.5.2 Eventos independentes

Da regra do produto de probabilidades, surge a definição de eventos independentes.Dois eventos A e B são independentes se e somente se P (A/B) = P (A) ou P (B/A) = P (B).

Assim, se A e B forem independentes, temos:

P (A/B) =P (A ∩B)

P (B)=⇒ P (A ∩B) = P (A/B)P (B) =⇒ P (A ∩B) = P (A)P (B)

Generalizando, vários eventos são independentes entre si, se forem independentes dois a dois, ouainda: P (A ∩B ∩ · · · ∩W ) = P (A)P (B) · · ·P (W )

• Exemplos:

1. Suponha que três componentes de um sistema elétrico funcionam em série. O sistemafuncionará se os componentes, 1, 2 e 3 funcionam simultaneamente. Suponha ainda quecada componente funcione independentemente e que pi é a probabilidade do componentei funcionar, qual a probabilidade do sistema funcionar?

2. Suponha agora que um outro sistema é constituído por 4 componentes. Neste sistemaos componentes 1 e 2 funcionam em série, e estes mesmos componentes funcionam emparalelo com os componentes 3 e 4, que por sua vez funcionam em série. A probabilidadede cada um dos componentes funcionar é de 0,90. Determinar a confiabilidade destesistema funcionar.

3. A probabilidade de que um homem esteja vivo daqui a 30 anos é 2/5; a de sua mulher éde 2/3. Determinar a probabilidade de que daqui 30 anos:

a) ambos estejam vivos;b) somente o homem esteja vivo;c) pelo menos um esteja vivo;

2.6 Teorema de Bayes

É um importante teorema que expressa uma probabilidade condicional em função de outras pro-babilidades condicionais.

Teorema de Bayes: Sejam B1, B2, · · · Bn uma partição de Ω, ou seja, Bi ∩ Bj = ∅, i 6= j eB1 ∪ B2 ∪ · · · ∪ Bn = Ω. Considerando A um evento qualquer e conhecendo-se P (Bi) e P (A/Bi),temos que:

P (Bi/A) =P (Bi)P (A/Bi)

n∑i=1

[P (Bi)P (A/Bi)]

19

Page 20: Probabilidade e Estatística(2)

• Exemplos:

1. Durante o mês de dezembro, a probabilidade de chover é de 10%. Um time ganha um jogoem um dia chuvoso, com 40% de probabilidade, e em um dia sem chuva, com 60% de pro-babilidade. Tendo esse time ganho um jogo em um dia de dezembro, qual a probabilidadede ter chovido nesse dia?

2. Considere cinco urnas cada uma com seis bolas. Duas dessas urnas (tipo C1), tem trêsbolas brancas, duas outras urnas (tipo C2), tem duas bolas brancas e a última (tipo C3)tem seis bolas brancas. Escolhe-se uma urna ao acaso e retira-se uma bola desta. Qual aprobabilidade de que a urna escolhida seja do tipo C3, sabendo-se que a bola retirada ábranca?

3. Para selecionar seus funcionários, uma empresa oferece aos candidatos um curso de trei-namento. Ao final eles são submetidos a uma prova e 25% são classificados como bons(B), 50% como médios (M) e os restantes 25% como fracos (F). Para facilitar a seleção,a empresa pretende substituir o treinamento por um teste contendo questões de conhe-cimentos gerais e específicos. Para isso, gostaria de conhecer qual a probabilidade deum indivíduo aprovado no teste ser considerado fraco, caso fizesse o curso. De acordocom os resultados receberam os conceitos aprovado (A) ou reprovado (R). Sabendo queP (A/B) = 0,80; P (A/M) = 0,50; e P (A/F ) = 0,20, encontrar P (F/A).

20

Page 21: Probabilidade e Estatística(2)

3 Variáveis aleatórias unidimensionais

Neste capítulo será apresentado o conceito de variável aleatória unidimensional, tanto para ocaso discreto quanto para o caso contínuo, e também será definida as principais funções que regemas variáveis aleatórias.

3.1 Definição de Variáveis Aleatórias Unidimensionais

Considere um experimento aleatório e o espaço amostral associado a esse experimento. Umafunção que associa valores reais aos eventos do espaço amostral é definida como uma variável aleatória(v.a.). Geralmente, as letras maiúsculas são utilizadas para representar a variável aleatória, e as letrasminúsculas os valores que esta variável aleatória pode assumir. Por exemplo, se a variável aleatória érepresentada porX, as realizações dessa variável aleatória é representada pelos valores x1, x2, · · · , xn.As variáveis aleatórias podem se classificar em discretas e contínuas. A variável aleatória discreta éaquela que assume valores finitos, ou infinito enumerável, de valores, já a variável aleatória contínuaé aquela que assume um número infinito não enumerável de valores, ou seja, são valores oriundos degrandezas mensuradas em uma escala real.

3.1.1 Variável Aleatória Discreta

Uma variável discreta X pode ser definida como aleatória discreta se a cada um de seus valoresse associa uma probabilidade P (X).

• Exemplos:

1. Se um experimento consiste no lançamento de um dado, a função: X: “o dobro do valorobtido menos um”, define uma variável aleatória discreta, que pode assumir seis valorespossíveis: 1, 3, 5, 7, 9 e 11 com probabilidade igual a 1/6.

2. Se um experimento consiste em observar o número de carros vendidos durante um dia emuma garagem, conforme tabela abaixo:

Vendas de carros Dias P (X)

0 54 54/300 = 0,181 117 117/300 = 0,392 72 72/300 = 0,243 42 42/300 = 0,144 3 3/300 = 0,015 12 12/300 = 0,04

Total 300 1,00

e Y for definido como sendo “o número de carros vendidos em um dia”, Y poderá assumir osvalores 0, 1, 2, 3, 4 e 5 com probabilidade 0,18; 0,39; 0,24; 0,14; 0,01 e 0,04, respectivamente.

• Distribuição de Probabilidade

Para cada valor x1, x2, · · · , xn que a variável aleatória X assume serão atribuídos números reais,representando as probabilidades de a variável aleatória X ser igual a esses valores. Essas proba-bilidades serão denotadas por P (X = x1) = p1, P (X = x2) = p2, · · · , P (X = xn) = pn, e devemsatisfazer às seguintes condições:

a) 0 ≤ pi ≤ 1 ∀i = 1,2, · · · , n.

21

Page 22: Probabilidade e Estatística(2)

b)n∑i=1

pi = 1.

As probabilidades pi, i = 1,2, · · · , n formam o que se denomina função de probabilidade davariável aleatória X.

Para quaisquer valores de a e b, tem-se que P (a < X < b) =

b∑xi>a

P (X = xi).

Para os exemplos dados anteriormente, as distribuições de probabilidade nestes casos são:

X 1 3 5 7 9 11P (X = x) 1/6 1/6 1/6 1/6 1/6 1/6 1,00

Y 0 1 2 3 4 5P (Y = y) 0,18 0,39 0,24 0,14 0,01 0,04 1,00

3.1.2 Variável Aleatória Contínua

A variável aleatória é dita contínua se corresponder a dados de medida, pertencentes aos R. Oconceito de v.a. contínua será mais bem entendido por meio dos seguintes exemplos:

1. Se um experimento consiste em verificar as alturas de 30 universitários, a função: X: “Altura deum universitário”, define uma variável aleatória contínua, que pode assumir quaisquer valoresentre 130 e 220 cm.

2. Se um experimento consiste em mensurar os pesos dos 30 universitários, a função: Y : “Peso deum universitário”, define uma variável aleatória contínua, que pode assumir quaisquer valoresentre 60 e 130 kg.

3. Se um experimento consiste em verificar a durabilidade de um lote de 50 pneus, a função:Z: “tempo de vida útil de um pneu”, define uma v.a. contínua, que pode assumir quaisquervalores entre 50.000 e 70.000 km.

Com base nos exemplos apresentados, a variável aleatória contínua está vinculada a dados oriun-dos de uma mensuração que resultam a um intervalo de números reais.

• Função Densidade de Probabilidade

Se a variável aleatória X é contínua, define-se uma função, denotada por f(x), e denominadafunção densidade de probabilidade (f.d.p.) da variável aleatória X, que representa, fisicamente,a curva das probabilidades de todos os infinitos valores de X. Deste modo, áreas serão usadas pararepresentar as probabilidades, e probabilidades são valores numéricos positivos, portanto, a funçãodensidade deve estar inteiramente acima do eixo x.

Uma função de densidade de probabilidade é construída de modo que a área abaixo da curvaaté o eixo x seja igual a 1, quando calculada para a amplitude de X para o qual f(x) foi definida.Se essa amplitude de X for um intervalo finito, é sempre possível estender o intervalo para incluir oconjunto inteiro dos reais, definindo-se f(x) como sendo igual a zero em todos os pontos nas porçõesestendidas do intervalo. Isso é válido pois uma variável contínua X tem uma probabilidade zerode assumir exatamente qualquer um de seus valores. Essa função f(x) deve satisfazer às seguintespropriedades:

a) f(x) ≥ 0, para todo x ∈ R

22

Page 23: Probabilidade e Estatística(2)

b)∫ +∞

−∞f(x)dx = 1

c) P (a ≤ x ≤ b) = P (a ≤ x < b) = P (a < x ≤ b) = P (a < x < b) =

∫ b

af(x)dx, ∀ a e b.

• Exemplo:

1. Suponha que o erro na temperatura de reação (em 0C), para um experimento de labo-ratório controlado, seja a variável aleatória contínua X, que tem a seguinte função dedensidade de probabilidade:

f(x) =

x2

3 , se −1 < x < 20, caso contrário

a) Verifique se as propriedades (a) e (b) de f(x) são satisfeitas;b) Determine a P (0 < X ≤ 1)

3.2 Função Repartição ou Função de Distribuição Acumulada

A função de distribuição acumulada nos fornece a probabilidade de que a variável em questãoesteja abaixo de um determinado valor. Em geral, ela é representada por F (X) ou φ(X). Assim,F (X) = P (X ≤ x).

• Variável Aleatória Discreta:

Para uma variável aleatória discreta a função de distribuição acumulada será definida como:F (x) = P (X ≤ x) =

∑xi<x

P (X = xi) para −∞ < x < +∞.

• Variável Aleatória Contínua:

Para uma variável aleatória contínua a função de distribuição acumulada será definida como:

F (x) = P (X ≤ x) =

∫ x

−∞f(t)dt para −∞ < x < +∞.

• Propriedades da Função Repartição ou Função de Distribuição Acumulada

i) 0 ≤ F (X) ≤ 1

ii) F (−∞) = limx→−∞

F (x) = 0

iii) F (+∞) = limx→+∞

F (x) = 1

iv) F (x) é sempre crescentev) P (a ≤ x ≤ b) = F (b)− F (a), se b > a

• Exemplos:

1. Um carregamento de oito microcomputadores similares para um ponto-de-venda contémtrês que apresentam defeitos. Se uma escola faz uma compra aleatória de dois dessesmicrocomputadores, pede-se:

a) Determinar a distribuição de probabilidade para o número de microcomputadoresdefeituosos;

b) P (0 ≤ X ≤ 1);c) Obter a função de distribuição acumulada.

23

Page 24: Probabilidade e Estatística(2)

2. O diâmetro X de um cabo elétrico é uma v.a. contínua definida pela seguinte função:

f(x) =

0 para x < 0k(2x− x2) para 0 ≤ x ≤ 10 para x > 1

a) Encontre o valor de k para que f(x) seja uma função densidade de probabilidade;b) Calcular a probabilidade de x ser menor que 0,5;c) Obter a distribuição acumulada F (X).

3.3 Parâmetros característicos de uma Distribuição de Probabilidade

3.3.1 Esperança Matemática

Muitas vezes tem-se o interesse em estimar parâmetros característicos de uma distribuição deprobabilidade de uma variável aleatória qualquer. Um desses parâmetros é a Esperança Matemática,que representa uma média aritmética ponderada ou um valor esperado de uma variável aleatória.Na prática, a esperança pode ser entendida como um “centro de distribuição de probabilidade”, istoé, a média de uma distribuição de probabilidade.

A Esperança Matemática é definida da seguinte forma:

• Se X é uma variável aleatória discreta:

µx = E(X) =n∑i=1

xiP (X = xi)

• Se X é uma variável aleatória contínua:

µx = E(X) =

∫ +∞

−∞xf(x)dx

• Propriedades da Esperança Matemática

i) E(k) = k, sendo k uma constante

ii) E(kX) = kE(X)

iii) E(X ± Y ) = E(X)± E(Y )

iv) E(X ±K) = E(X)±Kv) E(XY ) =E(X)E(Y ) se X e Y são variáveis aleatórias independentes.

3.3.2 Variância e desvio padrão

Anteriormente foi apresentado que a esperança matemática fornece a média de uma distribuiçãode probabilidade. Porém, nestas situações não se tem a informação a respeito do grau de dispersãodas probabilidades em torno da média. Portanto, a medida que será utilizada para estimar o graude dispersão (ou de concentração) de probabilidade em torno da média será a variância.

A variância é definida da seguinte forma:

V (X) = σ2x = E(X2)− [E(X)]2 = E(X2)− µ2

24

Page 25: Probabilidade e Estatística(2)

• Se X é uma variável aleatória discreta, então a esperança matemática E(X2) édada por :

E(X2) =

n∑i=1

x2iP (X = xi)

• Se X é uma variável aleatória contínua, então a esperança matemática E(X2) é:

E(X2) =

∫ +∞

−∞x2f(x)dx

O desvio padrão é obtido por meio da seguinte expressão: σx =√σ2x.

• Propriedades da Variância

i) V (k) = 0, sendo k uma constante;

ii) V (kX) = k2V (X)

iii) V (X ±K) = V (X)

iv) V (X ± Y ) = V (X)± V (Y ), se X e Y são variáveis aleatórias independentes

• Exemplos:

1. Um estudo do número de carros alugados em uma operadora durante certo período doano foi realizado e obteve se a seguinte função de probabilidade:

X 0 1 2 3 4P (X = x) 0,05 0,25 0,36 0,21 0,13

Obter a média e o desvio padrão para esses dados.

2. Dada a v.a. contínua com a seguinte função densidade de probabilidade:

f(x) =

0 para x < 0k para 0 ≤ x < 1k(2− x) para 1 ≤ x < 20 para x ≥ 2

a) Determinar o valor de k para que f(x) seja uma função densidade de probabilidade;b) Esboce o gráfico de f(x);c) Encontre a distribuição acumulada F (X);d) Construa o gráfico de F (X)

e) Calcular a esperança, a variância e o desvio padrão de f(x).

25

Page 26: Probabilidade e Estatística(2)

4 Variáveis Aleatórias Bidimensionais

Em muitas situações, pode-se estar interessado em observar duas características simultanea-mente. Neste casos, deve-se tratar cada característica como uma variável aleatória, e, portanto, asduas variáveis aleatórias conjuntamente como uma variável bidimensional.

4.1 Definição de Variáveis Aleatórias Bidimensionais

Considere um experimento aleatório e o espaço amostral associado a esse experimento. Sejam Xe Y duas variáveis aleatórias. Então, (X,Y ) define uma variável aleatória bidimensional. Os valoresda variável aleatória bidimensional (X,Y ) são representados pelos pares ordenados (x,y). Se tanto avariável aleatória X quanto a variável aleatória Y assumirem um número finito ou infinito numerávelde valores, então dizemos que a variável aleatória bidimensional é discreta. Caso a variável aleatóriaX e a variável aleatória Y assumirem, cada uma, um número infinito não enumerável de valores,então a variável bidimensional é considerada uma variável aleatória contínua.

Pode acontecer o caso de uma variável aleatória ser discreta e a outra variável aleatória sercontínua. No entanto, somente os casos em que ambas as variáveis são discretas ou ambas sãocontínuas será abordado neste curso.

4.2 Variável Aleatória Discreta

Seja (X,Y ) uma variável aleatória bidimensional discreta. A cada valor possível (x, y) associa-se um número real, denotado por p(x,y), representando a probabilidade de a variável aleatória Xassumir o valor x, ao mesmo tempo em que a variável aleatória Y assume o valor y, isto é, p(x, y) =P (X = x, Y = y). O conjunto de todas as probabilidades p(x, y), para todos os valores válidos paraas variáveis aleatórias X e Y , é definido como a função conjunta de probabilidades da variávelaleatória bidimensional discreta (X,Y ). Esses números p(x, y), como representam probabilidades,devem satisfazer às seguintes condições:

a) 0 ≤ p(x, y) ≤ 1 para todo (x, y)

b)∑x

∑y

p(x, y) = 1

• Exemplos:

1. Uma fábrica produz determinado tipo de peça. A peça pode ser produzida por duaslinhas de produção distintas. A capacidade de produção da linha I é de 4 peças por hora,e a capacidade de produção da linha II é de 3 peças por hora. Representando o númerode peças realmente produzidas pelas duas linhas em uma determinada hora através deuma variável aleatória bidimensional (X,Y ), então o número de peças produzidas pelalinha I representará a variável X e o número de peças produzidas pela linha II a variávelY . Sendo assim, tem-se a seguinte função conjunta de probabilidades:

Y \ X 0 1 2 3 4 Total0 0,01 0,01 0,05 0,08 0,11 0,261 0,01 0,02 0,06 0,09 0,06 0,242 0,01 0,03 0,06 0,07 0,08 0,253 0,01 0,02 0,05 0,09 0,08 0,25

Total 0,04 0,08 0,22 0,33 0,33 1

Determinar a probabilidade de a linha I produzir um número maior de peças do quea linha II em uma determinada hora.

26

Page 27: Probabilidade e Estatística(2)

2. A função de probabilidade conjunta da variável aleatória bidimensional discreta (X,Y ) ép(x, y) = c(2x+ y), em que 0 ≤ x ≤ 2 e 0 ≤ y ≤ 3.

a) Determinar o valor da constante c e obter a função conjunta da variável bidimen-sional (X,Y );

b) Calcular a P (X ≥ 1;Y ≤ 2);

4.2.1 Distribuições de Probabilidades Marginais

Se mais de uma variável aleatória for definida em um experimento aleatório, será importantedistinguir entre a distribuição de probabilidades conjuntas de X e Y e a distribuição de probabili-dades de cada variável individualmente. A distribuição individual de probabilidade de uma variávelaleatória é referida como a distribuição de probabilidades marginais.

Em geral, a distribuição de probabilidades marginais de X pode ser determinada a partir dadistribuição de probabilidades conjuntas de X e de outras variáveis aleatórias.

Se X e Y são variáveis aleatórias discretas, com função de probabilidade conjunta P (X,Y ), entãoas funções de probabilidades marginais de X e Y são:

p(x) = P (X = x) =∑Todo y

p(x, y) e p(y) = P (Y = y) =∑Todo x

p(x, y)

É importante lembrar que, como p(x) e p(y) são funções de probabilidade, então as condições0 ≤ p(x) ≤ 1 e

∑x

p(x) = 1 devem ser satisfeitas, e, analogamente, 0 ≤ p(y) ≤ 1 e∑y

p(y) = 1.

Voltando ao exemplo anterior das linhas de produção, tem-se que as probabilidades marginaisde X e Y são dados, respectivamente, por:

x 0 1 2 3 4p(x) 0,04 0,08 0,22 0,33 0,33 1

y 0 1 2 3p(y) 0,26 0,24 0,25 0,25 1

• Observação:

1. A E(X), E(Y ), V (X) e V (Y ) podem ser obtidas calculando as distribuições marginaisde X e Y , e em seguida, determinando as esperanças e variâncias pelo método usual.

4.2.2 Distribuições de Probabilidades Condicionais

A probabilidade condicional de variáveis aleatórias bidimensionais é calculada de forma seme-lhante à probabilidade condicionada de eventos, vista no capítulo de probabilidades. Desse modo, afunção de probabilidade condicionada de X dado que Y = y, denotada por p(x|y), é definida por:

P (X = x|Y = y) =P (X = x;Y = y)

P (Y = y)

• Exemplos:

1. Utilizando novamente o exemplo das duas linhas de produção, calcule:a) P(X=0|Y=0)b) P(X=2|Y=1)c) P(X=4|Y=3)

27

Page 28: Probabilidade e Estatística(2)

2. Sejam X e Y duas variáveis aleatórias, representando, respectivamente, o número de golsmarcados pela equipe A e o número de gols marcados pela equipe B em um campeonato defutebol. Portanto, é possível expressar a função de probabilidade conjunta dessa variávelaleatória bidimensional discreta por meio da seguinte tabela:

Y \ X 0 1 2 3 p(y)

0 0,04 0,08 0,04 0,04 0,21 0,08 0,16 0,08 0,08 0,42 0,08 0,16 0,08 0,08 0,4

p(x) 0,2 0,4 0,2 0,2 1

a) Qual a probabilidade do número de gols marcados pela equipe A, sabendo que aequipe B marcou um gol?

4.2.3 Variáveis Aleatórias independentes

Diz-se que X e Y são variáveis aleatórias independentes quando o resultado de X, por exemplo,de modo algum não influencia o resultado de Y , e vice-versa, ou seja, p(x|y) = p(x) para todo x ey, ou equivalentemente, se p(y|x) = p(y) para todo x e y.

Assim, se (X,Y ) é uma variável aleatória bidimensional discreta, diz-se que X e Y são variáveisindependentes se, e somente se,

p(x, y) = p(x)p(y)

para quaisquer x e y. Essa relação é consequência do conceito de probabilidade condicionada, poispor exemplo, como P (X = x|Y = y) = P (X=x;Y=y)

P (Y=y) e, no caso de independência, p(x|y) = p(x),segue que p(x, y) = p(x)p(y).

• Exemplo:

1. Verifique se as variáveis bidimensionais (X, Y) do exemplo das linhas de produção etambém das equipes do campeonato de futebol são independentes.

4.2.4 Funções de Variáveis Aleatórias

Seja (X,Y ) uma variável aleatória bidimensional discreta. Seja W = H(X,Y ) uma função davariável aleatória bidimensional discreta (X,Y ). Então, W será uma variável aleatória unidimensi-onal discreta, e neste caso, tem-se o interesse em obter a sua função de probabilidade p(w), que éobtida a partir da função H(X,Y ) e dos valores assumidos pelas variáveis X e Y .

• Exemplos:

1. Utilizando os dados do exemplo das linhas de produção considere a variável W = X + Yque representa o número total de peças produzidas pelas duas linhas, em uma determinadahora.

a) Determinar a função de probabilidade da variável aleatória Wb) Calcular a E(X), E(Y ), E(W )

2. Sejam X e Y variáveis aleatórias que representam o número de carros importados e onúmero de carros nacionais, respectivamente, que uma concessionária vende ao longo deuma semana, conforme a tabela a seguir:

yx 0 1 2 30 0,015 0,06 0,045 0,031 0,05 0,20 0,15 0,102 0,035 0,14 0,105 0,07

28

Page 29: Probabilidade e Estatística(2)

a) Calcule as distribuições marginais das variáveis X e Y ;b) Obtenha a distribuição da variável Z = X.Y

c) Calcule E(X), E(Y ), E(Z)

4.2.5 Covariância de duas variáveis aleatórias

A covariância entre duas variáveis aleatórias é uma medida de relação linear entre as variáveis.Se X e Y são duas variáveis aleatórias, a covariância de X e Y é definida por:

cov(X,Y ) = E[(X − E(X))(Y − E(Y ))].

Para a variável aleatória discreta esta fórmula pode ser reescrita como:

cov(X,Y ) =∑x

∑y

[Xi − E(Xi)][Yi − E(Yi)]P (xi, yi)

ou ainda,cov(X,Y ) = E(XY )− [E(X)E(Y )]

.

• Exemplos:

1. Verifique se as variáveis do exemplo das linhas de produção e também do exemplo dasvendas dos carros importados e nacionais são correlacionadas;

• Definição:

Quando a cov(X,Y ) = 0, tem-se que X e Y são variáveis aleatórias não correlacionadaslinearmente.

• Proposição:

Se X e Y são duas variáveis aleatórias independentes, cov(X,Y ) = 0. No entanto, a recíprocanão é verdadeira.

• Teorema:

Para duas variáveis aleatórias X e Y tem-se que:a) V(X+Y)=V(X)+V(Y)+2cov(X,Y);b) Se X e Y são independentes, então: V(X+Y)=V(X)+V(Y)

4.2.6 Coeficiente de correlação

Há uma outra medida da relação entre duas variáveis aleatórias que é frequentemente mais fácilde interpretar que a covariância.

A correlação entre as variáveis aleatórias X e Y , denotada por ρ(X,Y ) é:

ρ(X,Y ) =cov(X,Y )√V (X)V (Y )

=σX,YσXσY

• Observações:

1. Para quaisquer duas variáveis aleatórias X e Y , −1 ≤ ρ(X,Y ) ≤ +1.

2. Quando ρ(X,Y ) = 1 existe uma relação linear perfeita entre X e Y (direta).

29

Page 30: Probabilidade e Estatística(2)

3. Quando ρ(X,Y ) = −1 existe uma relação linear inversa perfeita entre X e Y .

4. Na equação de regressão linear (Y = ax+ b), temos: Se a > 0 então ρ(X,Y ) é positivo ese a < 0 então ρ(X,Y ) é negativo.

• Exemplo:

1. Para os exemplos das linhas de produção e das vendas dos carros importados e nacionaiscalcule o coeficiente de correlação;

4.3 Variável aleatória contínua

Seja (X,Y ) uma variável aleatória bidimensional contínua. Isso significa que tanto a variávelaleatória X quanto a variável aleatória Y assumem, cada uma, um número infinito não enumerávelde valores. Portanto, a variável aleatória bidimensional contínua (X,Y ) pode assumir um númeroinfinito não enumerável de valores.

A função densidade de probabilidade conjunta da variável aleatória bidimensional contínua(X,Y ), denotada por f(x,y) e representando a superfície de probabilidades dos valores (x,y) que avariável aleatória (X,Y ) assume é, uma função que deve satisfazer às seguintes condições:

a) f(x,y) ≥ 0 para todo par (x,y);

b)∫ +∞

−∞

∫ +∞

−∞f(x,y)dxdy = 1

O cálculo da probabilidade de a ≤ X ≤ b e c ≤ Y ≤ d é dado por:

P (a ≤ X ≤ b, c ≤ Y ≤ d) =

∫ b

a

∫ d

cf(x,y)dydx

• Exemplos:

1. Suponha que a variável aleatória bidimensional contínua (X,Y ) tenha a função densidadede probabilidade conjunta dada por: f(x,y) = x2 + xy

3 , 0 ≤ x ≤ 1 e 0 ≤ y ≤ 2.a) Verifique se f(x, y) é uma função densidade de probabilidade conjunta.b) Calcular P (X ≤ 1/2;Y ≥ 1/2)

4.3.1 Função densidade de probabilidade marginal

De modo análogo as variáveis discretas, pode-se estar interessado na função densidade de proba-bilidade da variável aleatória X ou na função de densidade de probabilidade da variável aleatória Y ,determinadas, respectivamente, função densidade de probabilidade marginal de X denotada g(x), efunção densidade de probabilidade marginal de Y , denotada por h(y). Essas funções são definidasda seguinte maneira:

g(x) =

∫ +∞

−∞f(x,y)dy e h(y) =

∫ +∞

−∞f(x,y)dx.

É importante lembrar que, como g(x) e h(y) são funções densidade de probabilidade, g(x) ≥ 0

para todo x e∫ +∞

−∞g(x)dx = 1, assim como h(y) ≥ 0 para todo y e

∫ +∞

−∞h(y)dy = 1.

Por meio destas funções g(x) e h(y), pode-se calcular a probabilidade de ocorrer x ou a proba-bilidade de ocorrer y.

30

Page 31: Probabilidade e Estatística(2)

• Exemplos:

1. Voltando ao exemplo anterior:a) Determine a função de densidade de probabilidade marginal da variável X e da

variável Y .b) Qual a probabilidade de x estar entre 0,2 e 0,4?c) Qual a probabilidade de y estar entre 0,5 e 0,75?

4.3.2 Distribuições de Probabilidade Condicionais

Sejam X e Y variáveis aleatórias contínuas com função densidade conjunta f(x,y) e distribuiçõesmarginais g(x) e h(y).

A função densidade de probabilidade condicional de X, dado que Y = y é definida por:

f(X|Y = y) =f(x,y)

h(y), h(y) > 0,

e função densidade de probabilidade condicional de Y , dado que X = x é dada por:

f(Y |X = x) =f(x,y)

g(x), g(x) > 0,

• Exemplos:

1. Utilizando o exemplo da variável aleatória bidimensional contínua (X,Y ), com funçãodensidade de probabilidade conjunta dada por: f(x,y) = x2 + xy

3 , 0 ≤ x ≤ 1 e 0 ≤ y ≤ 2,pede-se:

a) Determinar f(x|y) e f(y|x);b) Calcular P (Y < 1/2|X < 1/2)

2. Seja (X,Y ) uma variável aleatória bidimensional contínua com função densidade de pro-babilidade conjunta dada por: f(x,y) = cx(1− y), 0 < x < 1 e 0 < y < 1. Calcular:

a) O valor da constante c.b) A função densidade de probabilidade condicionada f(x|y).c) A função densidade de probabilidade condicionada f(y|x).

4.3.3 Variáveis Aleatórias Independentes

Diz-se que X e Y são variáveis aleatórias contínuas independentes quando o resultado de X,por exemplo, de modo algum não influencia o resultado de Y , e vice-versa, ou seja, X e Y serãoindependentes se g(x|y) = g(x), ou equivalentemente, se h(y|x) = h(y), para todo x e y.

Então seja (X,Y ) uma variável aleatória bidimensional contínua. Diz-se que X e Y são variáveisaleatórias contínuas independentes se, e somente se,

f(x,y) = g(x)h(y)

para todo x e y, em que f(x,y) é a função densidade de probabilidade conjunta da variável aleatóriabidimensional (X,Y ), e g(x) e h(y) são as funções densidade de probabilidade marginais de X eY , respectivamente. Essa relação é consequência do conceito de probabilidade condicionada: comog(x|y) = f(x,y)

h(y) , para todo x e y, logo f(x,y) = g(x)h(y) e, no caso de independência, g(x|y) = g(x),

para todo x e y, logo f(x,y) = g(x)h(y); analogamente, como h(y|x) = f(x,y)g(x) e, no casos de

independência, h(y|x) = h(y), para todo x e y, logo f(x,y) = g(x)h(y).

31

Page 32: Probabilidade e Estatística(2)

• Exemplos:

1. Utilizando novamente o exemplo da variável aleatória bidimensional contínua (X,Y ), comfunção densidade de probabilidade conjunta dada por: f(x,y) = x2 + xy

3 , 0 ≤ x ≤ 1 e0 ≤ y ≤ 2, verificar se as variáveis X e Y são independentes.

2. O consumo de gasolina de uma marca de carro em determinada viagem é representado poruma variável aleatória X com função densidade de probabilidade dada por: f(x) = x

2 ,0 < x < 2, e consumo de óleo representado por uma variável aleatória Y com funçãodensidade de probabilidade dada por g(y) = y3

4 , 0 < y < 2. Supondo que o consumo degasolina e o consumo de óleo sejam independentes, qual a probabilidade de o consumo deóleo ser menor que o consumo de gasolina?

32

Page 33: Probabilidade e Estatística(2)

5 Distribuição de variáveis aleatórias discretas

Neste capitulo serão considerados alguns modelos probabilísticos específicos que desempenhamimportante papel na estatística.

5.0.4 Distribuição Uniforme discreta

É a mais simples das distribuições de variáveis aleatórias discretas, e cada valor particular dessavariável assume probabilidade constante.

Dessa forma, se X assume os valores x1, x2, · · · , xk com igual probabilidade, então a distribuiçãouniforme discreta é dada por:

P (X = xi) =1

k, ∀i = 1,2, · · · , k em que k é o número de possibilidades.

• Média e variância:

E(X) = µx =

k∑i=1

xi1

k=

1

k

k∑i=1

xi e

V (X) = σ2x =

(k + 1)(k − 1)

12

• Exemplo:

1. Uma caixa contém quatro lâmpadas, sendo uma de 40, uma de 60, uma de 75 e uma de100 watts. Se X representa a intensidade da voltagens das lâmpadas:

a) Monte a distribuição de probabilidade, caso seja selecionada uma lâmpada aleato-riamente.

5.1 Distribuição Bernoulli

Considere uma única realização de um experimento aleatório, em que podem ocorrer dois resul-tados possíveis: sucesso ou fracasso.

• Exemplos:

1) O jogador de basquete pode acertar ou não o arremesso de uma bola na cesta;

2) Um consumidor pode comprar ou não um produto em uma certa loja;

3) Uma peça produzida por uma indústria pode ser perfeita ou defeituosa;

Associando-se uma variável aleatória X aos possíveis resultados do experimento, de forma que:

X =

1 se ocorrer o sucesso,0 se ocorrer o fracasso,

segue que a variável aleatória X, terá uma distribuição de Bernoulli, com probabilidade de sucessop e probabilidade de fracasso q, com p + q = 1. Nessas condições, a sua função de probabilidade édada por:

P (X = x) = pxq1−x,

sendo q = 1− p.

33

Page 34: Probabilidade e Estatística(2)

• Média e variância:

E(X) = µx =1∑i=0

xP (X = x) = 0.q + 1.p = p

V (X) = p(1− p) = p.q

• Exemplos:

1. Em uma competição ganha aquele que indicar um número qualquer da face de um dadoe após lançá-lo obter aquele número, em uma única jogada. Qual a probabilidade médiaesperada, assim como sua variância?

2. Uma urna tem 30 bolas brancas e 20 verdes. Retira-se uma bola dessa urna. Seja X onúmero de bolas verdes. Calcular P (X = 1), E(X) e σ2

x.

5.2 Distribuição Binomial

É uma generalização da distribuição de Bernoulli. É a mais importante das distribuições teóricasde probabilidade para variáveis discretas. São realizadas n tentativas independentes de um mesmoexperimento. Cada tentativa é um ensaio de Bernoulli, ou seja, podem ocorrer apenas dois resultadospossíveis: o sucesso ou fracasso. A probabilidade de sucesso (p) em cada ensaio é constante. Como asprobabilidades p de sucesso se mantêm constantes em cada ensaio, a distribuição binomial é indicadapara os casos em que a amostragem é feita com reposição.

Seja a variável aleatória X que conta o número total de sucessos obtidos numa sequência de nensaios independentes de Bernoulli. A variável X segue uma distribuição binomial com parâmetrosn e p, denotada por X ∼ B(x;n, p), e tem função de probabilidade:

P (X = x) =(nx

)pxqn−x, x = 1, 2, 3, · · · , n,

em que: n é o número de repetições do experimento;x é o número desejado de sucessos;n− x é o número esperado de fracassos;p é a probabilidade de sucesso num ensaio individual;1− p é a probabilidade de fracasso num ensaio individual;

• Média e variância:

E(X) = µx = np

σ2x = npq

• Função Probabilidade Acumulada F (X):

F (X) = P (X ≤ x) =

n∑i=1

P (X = xi)

• Exemplos:

34

Page 35: Probabilidade e Estatística(2)

1. Sabendo-se que a probabilidade de um certo tipo de componente sobreviver a um testede choque é 3/4, qual é a probabilidade de que dentre 3 componentes testados:

a) Nenhum sobreviva ao teste;b) Apenas um sobreviva;c) Dois sobreviva;d) Todos os três sobreviva.e) Se X representa o número de componentes que sobrevivem ao teste de choque,

determine a função de probabilidade de X e seu respectivo gráfico.f) Determine a distribuição acumulada de X e seu respectivo gráfico.g) Determine a esperança matemática e a variância de X.

2. Num determinado processo de fabricação, 10% das peças produzidas são consideradasdefeituosas. As peças são acondicionadas em caixas com cinco unidades cada uma.

a) Qual é a probabilidade de haverem exatamente três peças defeituosas em umacaixa?

b) Qual é a probabilidade de haverem exatamente duas ou mais peças defeituosas emuma caixa?

c) Qual a probabilidade de uma caixa não apresentar nenhuma peça defeituosa?d) Supondo que uma empresa pague uma multa de R$10,00 por caixa que apresente

peças defeituosas, qual valor esperado dessa multa em um lote de 1000 caixas?

5.3 Distribuição Poisson

A distribuição de Poisson ocorre quando se tem o interesse em contar o número de sucessosocorridos em um experimento, em um intervalo de tempo, de superfície (área) ou volume. Umavariável aleatória X com distribuição de Poisson pode assumir infinitos valores no conjunto dosinteiros positivos (v.a. discreta).

• Exemplos:

1) Número de telefonemas recebidos por hora em um escritório;

2) Número de bactérias por unidade de área em uma lâmina;

3) Número de erros de digitação por página;

4) Número de veículos que passam num cruzamento por hora;

5) Número de mortes por ataque de coração por ano em Uberlândia;

A variável aleatória X com distribuição Poisson tem função de probabilidade dada por:

P (X = x) =e−λλx

x!,

sendo: X o número de sucessos em um intervalo;e = 2,718;λ a média de ocorrência de sucessos (tempo, área ou volume).

• Média e variância:

E(X) = µx = λ

35

Page 36: Probabilidade e Estatística(2)

V (X) = σ2x = λ

A distribuição de Poisson tem aplicação também nos casos em que os parâmetros n e p dadistribuição binomial dificultam o cálculo por essa distribuição (eventos raros). Isso acontece quandoa probabilidade de sucesso é muito pequena e quando o número de experiências n é muito grande(p → 0 e n → ∞). Nestes casos a distribuição de Poisson é usada como uma aproximação dadistribuição binomial, sendo a aproximação considerada adequada quando (n ≥ 50 e p < 0,1). Nestecaso, a média da Poisson será: λ = µ = n.p

• Exemplos:

1. Durante um experimento de laboratório, o número médio de partículas que passam nocontador em um milésimo de segundo é quatro.

a) Qual é a probabilidade de que seis partículas entrem em um dado contador, emum específico milésimo de segundo?

b) Qual é a probabilidade de que 10 partículas entre no contador, em 5 milésimos desegundo?

c) Qual é a probabilidade de que no mínimo uma partícula entre em um dado conta-dor, em dois milésimos de segundo?

2. Em certa instalação industrial, acidentes ocorrem com baixa frequência. Sabe-se que aprobabilidade de um acidente em certo dia é de 0,005, e os acidentes são independentesuns dos outros.

a) Qual é a probabilidade de que, em qualquer período de 400 dias, haja 1 acidenteem um dia?

b) Qual é a probabilidade de que haja no máximo três dias com acidentes?

5.4 Distribuição Geométrica

Suponha que um experimento aleatório seja realizado e que exista o interesse apenas na ocorrênciade algum evento A de interesse. O experimento aleatório pode ser realizado repetidas vezes, eas repetições são independentes. Em cada repetição do experimento, a probabilidade do sucessopermanece constante. O experimento será repetido até que o evento de interesse ocorra pela primeiravez.

Assim, se a variável aleatória X for definida como sendo o número de fracassos ao primeirosucesso ou o tempo de espera para a ocorrência do primeiro sucesso, então a variável aleatória Xsegue a distribuição geométrica com parâmetro p, ou seja, X ∼ geom(p), e tem função função deprobabilidade dada por:

P (X = x) = qx−1p,

sendo: x = 1,2,3,..., n;p a probabilidade de ocorrer o sucesso;q a probabilidade de ocorrer o fracasso.

• Média e variância:

E(X) = µx =1

p

V (X) = σ2x =

q

p2

36

Page 37: Probabilidade e Estatística(2)

• Exemplos:

1. A probabilidade de que um sinal de trânsito esteja aberto numa esquina é de 0,20. Quala probabilidade de que seja necessário passar pelo local dez vezes, para encontrar o sinalaberto pela primeira vez?

2. As linhas telefônicas em um sistema de reservas de uma companhia aérea estão ocupadas40% do tempo. Suponha que os eventos em que as linhas estejam ocupadas em sucessivaschamadas sejam independentes. Qual é a probabilidade de terem de ser realizadas cincochamadas até a primeira chamada não estar com a linha ocupada?

5.5 Distribuição Pascal

É uma generalização da distribuição geométrica. Neste caso, suponha que um experimentoseja realizado e que exista o interesse apenas na ocorrência de algum evento A. O experimentoaleatório pode ser realizado repetidas vezes, e as repetições são independentes. Em cada repetiçãodo experimento, a P (A) = p e a P (Ac) = 1−p permanecem as mesmas. O experimento será repetidoaté que o evento A de interesse ocorra exatamente r vezes.

Desse modo, definindo a variável aleatória X como o número de repetições independentes doexperimento aleatório necessárias para que o evento A possa ocorrer exatamente r vezes, essa variávelsegue uma distribuição de Pascal, com parâmetros p e r, ou seja, X ∼ Pascal(p, r). Evidentemente,se r = 1, a variável aleatória X terá distribuição geométrica.

Sabe-se, então, que X assume o valor x se, e somente se, o evento A de interesse tiver ocorridoexatamente (r − 1) vezes nas (x − 1) repetições anteriores. Assim, a função de probabilidade davariável aleatória X é dada por:

P (X = x) =

(x− 1

r − 1

)pr(1− p)x−r, x = r, r + 1, ...

• Média e variância:

E(X) =r

p

V (X) =r(1− p)p2

A distribuição de Pascal é comumente chamada de distribuição binomial negativa, denominaçãoesta que pode ser explicada pelo seguinte: a distribuição binomial surge quando tem-se um númerofixo de repetições de um experimento aleatório e o interesse está no número de ocorrências; já adistribuição de Pascal é encontrada quando fixa-se o número de ocorrências a ser obtido e entãoregistra-se o número necessário de repetições do experimento aleatório para alcançar tal objetivo.

• Exemplos:

1. Considerando o exemplo dado anteriormente do sinal de trânsito, qual a probabilidade deque seja necessário passar pelo local dez vezes para encontrá-lo aberto pela quarta vez?

2. Determinar o número esperado de vezes que um experimento deve ser repetido, de modoa se obterem quatro resultados bem sucedidos, sabendo-se que a probabilidade de esseexperimento ser bem sucedido em qualquer repetição é 0,8.

37

Page 38: Probabilidade e Estatística(2)

5.6 Distribuição Hipergeométrica

Essa distribuição é adequada quando consideramos extrações casuais feitas sem reposição de umapopulação dividida segundo dois atributos. Para ilustrar considere uma população de N objetos,r dos quais têm o atributo A e N − r têm o atributo B. Um grupo de n elementos é escolhido aoacaso, sem reposição. Em geral, tem-se o interesse em calcular a probabilidade de que esse grupocontenha x elementos com o atributo A. Assim, a função de probabilidade da variável aleatória Xé dada por:

P (X = x) =

(rx

)(N−rn−x

)(Nn

) , 0 ≤ x ≤ n, x ≤ r

em que: N é o tamanho da população;n é o tamanho da amostra;r é o número de sucessos na população;x é o número de sucessos na amostra

• Média e variância:

E(X) = np

V (X) = npq

(N − nN − 1

),

sendo p = rN .

Se N é grande em relação a n ( nN < 0,05), então as probabilidades dadas pela distribuiçãohipergeométrica serão aproximadamente iguais às probabilidades dadas pela binomial.

• Exemplos:

1. Em um controle de qualidade, lotes de 100 peças são examinados, e suponha que 10 peçassão defeituosas. Escolhendo-se 5 peças sem reposição:

a) Qual a probabilidade de não obter peças defeituosas?b) Qual a probabilidade de obter pelo menos uma peça defeituosa?

2. Um agricultor planta seis sementes escolhidas aleatoriamente de uma caixa com cincosementes de tulipa e quatro de crisântemo. Qual a probabilidade de ele plantar duassementes de crisântemo e quatro de tulipa?

5.7 Distribuição Multinomial

Outra distribuição de probabilidade que desempenha um importante papel na estatística é adistribuição multinomial que é uma generalização da distribuição binomial. Ela é utilizada quandoem cada tentativa ocorre mais de dois resultados possíveis. Assim, como na binomial, as proba-bilidades permanecem constantes em cada tentativa, e as tentativas são independentes umas dasoutras. Desse modo, seja A1, A2, · · · , Ak eventos mutuamente exclusivos, que formam uma partiçãodo espaço amostral do experimento, e p1, p2, · · · , pk, as correspondentes probabilidades associadasas ocorrências desses eventos em um dado ensaio. Seja Xi a variável aleatória correspondente aonúmero de ocorrências no evento Ai e xi o número de realizações do evento Ai (i = 1,2, · · · , k).

Então,k∑i=1

xi = n,k∑i=1

pi = 1 e a função de probabilidade da distribuição multinomial é dada por:

P (X1 = x1, X2 = x2, · · · , Xk = xk) =n!

x1!x2! · · ·xk!px11 p

x22 · · · p

xkk

38

Page 39: Probabilidade e Estatística(2)

• Média e variância:

E(Xi) = npi

V (Xi) = npi(1− pi), i = 1,2, · · · , k

• Exemplos:

1. Qual a probabilidade de que, em um grupo de 10 pessoas, tenhamos 5 com sangue dotipo O, 2 do tipo B, 2 do tipo A e 1 com tipo AB. Sabe-se que as probabilidades dos tipossanguíneos são, respectivamente, 60%, 20%, 15% e 5%.

2. Quando um pacote é enviado pelo correio uma das seguintes condições pode ocorrer: che-gar em perfeito estado, chegar danificado ou perder-se pelo caminho. Se as probabilidadesdestes acontecimentos são, respectivamente, iguais a 0,7; 0,2 e 0,1 e se uma pessoa enviourecentemente 8 pacotes pelo correio, qual a probabilidade de que 5 chegaram corretamenteao destino, 1 for perdido e os outros dois avariados?

• Exercícios:

1. Em um determinado cruzamento entre duas plantas de milho, a probabilidade de se obteruma planta com genótipo MM é igual a 0,25, com genótipo Mm, 0,50 e com genótipo mm0,25. De dez descendentes deste cruzamento, qual a probabilidade de qu se obtenhamrespectivamente 2, 5 e 3 indivíduos com genótipos MM, Mm e mm? R: 0,07690

2. Pequenos motores elétricos são expedidos em lotes de 50 unidades. Antes que uma remessaseja aprovada, um inspetor escolhe 5 desses motores e o inspeciona. Se nenhum dosmotores inspecionados for defeituosos, o lote é aprovado. Se um ou mais forem verificadosdefeituosos, todos os motores da remessa são inspecionados. Suponha que existam, defato, três motores defeituosos no lote. Qual é a probabilidade de que a inspeção 100%seja necessária? R: 0,2760

3. Um novo remédio tem efeito colateral indesejável em 5% das pessoas que o tomam. Se13 pacientes tomam o remédio, qual a probabilidade de ocorrer:

a) nenhuma reação negativa; R: 0, 5133b) pelo menos três reações negativas; R: 0,02489c) no máximo uma reação negativa. R: 0,8642

4. Por experiência, você sabe que a probabilidade de que você fará uma venda em qualquertelefone dado é 0,23. Encontre a probabilidade de que sua primeira venda, em qualquerdia, ocorra na quarta ligação ou quinta ligação. R: 0,186

5. Os passageiros de uma empresa aérea chegam aleatória e independentemente ao balcãode controle de passageiros de um importante aeroporto. A taxa média de chegada são 10passageiros por minuto.

a) Calcule a probabilidade de ninguém chegar no período de umminuto; R: 0,00004539b) Calcule a probabilidade de três ou mais passageiros chegarem no período de um

minuto; R: 0,01033c) Calcule a probabilidade de dois passageiros chegarem em um período de 15 segun-

dos; R: 0,2565d) Calcule a probabilidade de pelo menos um passageiro chegar em um período de

15 segundos. R: 0,01796. Qual a probabilidade de que no 25o¯ lançamento de um dado ocorra a face quatro pela 5a¯

vez? R: 0,0356

39

Page 40: Probabilidade e Estatística(2)

6 Distribuição de variáveis aleatórias contínua

6.1 Distribuição Uniforme Contínua

A distribuição uniforme contínua é uma das mais simples distribuições contínuas. Essa distribui-ção é caracterizada por uma função de densidade que é plana e, portanto, a probabilidade é uniformeem um intervalo fechado [a,b].

Uma variável aleatória contínua X tem distribuição uniforme no intervalo [a,b] se sua funçãodensidade de probabilidade é dada por:

f(x) =

k para a ≤ x ≤ b0 para outros valores de x

O valor de k é dado por: ∫ a

−∞0dx+

∫ b

akdx+

∫ +∞

b0dx = 1

0 +

∫ b

akdx+ 0 = 1

kx|ba = 1⇒ k(b− a) = 1⇒ k =1

b− aLogo,

f(x) =

1b−a para a ≤ x ≤ b0 para outros valores de x

• Função Probabilidade Acumulada F (X):

A distribuição acumulada de uma variável X com distribuição uniforme contínua é dada por:

F (X) =

∫ x

a

1

b− adt =

1

b− a|xa =

x

b− a− a

b− a=x− ab− a

,

Portanto,

F (X) =

0 para x < ax−ab−a para a ≤ x ≤ b1 para x > b

• Média e Variância:

E(X) =b+ a

2

V (X) =(b− a)2

12

• Exemplos:

1. Suponha que uma grande sala de conferência usada por certa empresa não possa ficarreservada por mais do que quatro horas. No entanto, o uso da sala é tal que conferênciaslongas e curtas ocorrem com muita frequência. Na verdade, pode-se assumir que a duraçãoX de uma conferência tem distribuição Uniforme no intervalo [0,4].

a) Qual é a função de densidade de probabilidade?b) Qual é a probabilidade de que qualquer conferência dada dure pelo menos três

horas?

40

Page 41: Probabilidade e Estatística(2)

2. Devido à presença de quantidades variáveis de impureza, o ponto de fusão de certa subs-tância pode ser considerado uma variável aleatória contínua distribuída uniformementeno intervalo de [100, 125]. Qual a probabilidade de a substância fundir-se entre 110 e115?

6.2 Distribuição Exponencial

Uma variável contínua X tem distribuição exponencial com parâmetros α > 0 se sua funçãodensidade de probabilidade for do tipo:

f(x) =

αe−αx para x ≥ 00 x < 0

• Média e variância:

E(X) =1

α

σ2x =

1

α2

• Função Probabilidade Acumulada F (X):

F (X) =

0 para x ≥ 01− e−αx x < 0

• Exemplos:

1. A duração, em horas, de um certo equipamento eletrônico, segue a distribuição exponen-cial com função densidade de probabilidade dada por:

f(x) =

1

500e− x

500 para x ≥ 00 x < 0

a) Qual a probabilidade de um equipamento durar mais de 500 horas?b) Calcular a duração média e o desvio padrão.

2. Se o tempo médio entre o pedido e o atendimento em um restaurante é uma variávelaleatória com distribuição exponencial de média igual a 10 minutos, determine:

a) A probabilidade de espera superior a 10 minutos;b) A probabilidade de espera inferior a 10 minutos;

6.3 Distribuição Normal

A distribuição normal ou de Gauss ou Gaussiana é uma das mais importantes distribuições daestatística. Além de descrever uma série de fenômenos físicos, naturais, financeiros, nas indústrias enas pesquisas em geral, possui grande uso na estatística inferencial. É inteiramente descrita por seusparâmetros média µ e desvio padrão σ, ou seja, conhecendo-se estes é possível determinar qualquerprobabilidade em uma distribuição Normal.

41

Page 42: Probabilidade e Estatística(2)

Uma variável aleatória contínua X tem uma distribuição normal ou gaussiana se a função densi-dade de probabilidade for dada por:

f(x) =1

σ√

2πexp−

12

(x−µσ

)2 , x ∈ R,

em que µ e σ representa a média e o desvio-padrão, respectivamente, da distribuição de probabilidade;π corresponde a 3,1415 e exp a uma função exponencial.

• Notação: X ∼ N(µ, σ2), o que implica que X tem distribuição normal com média µ = E(X)e variância Var(X)= σ2.

• Propriedades da Curva normal:

1. Seu gráfico tem a forma campanular (sino);

2. É uma distribuição simétrica em relação à média;

3. O desvio padrão fornece a dispersão dos dados em torno da média;

4. As três medidas de posição (média, mediana e moda) são coincidentes e se localizam noponto máximo da curva;

5. É duplamente assintótica em relação ao eixo das abscissas, pois limx→−∞

f(x) = 0 e limx→+∞

f(x) =

0;

6. Tem dois pontos de inflexão que correspondem à média ± desvio padrão.

7. A área compreendida entre a curva e o eixo x é igual a 1, ou seja,∫ +∞

−∞f(x)dx = 1.

• Função Probabilidade Acumulada:

A função distribuição de probabilidade acumulada da normal F(X), também pode ser repre-

sentada por φ(X) e é dada por: F (X) = φ(X) =

∫ x

−∞f(t)dt.

• Cálculo de probabilidades:

Suponha que X ∼ N(µ, σ2) e desejamos calcular P (a < X < b).

P (a < X < b) =

∫ b

af(x)dx =

∫ b

a

1

σ√

2πexp−

12

(x−µσ

)2

Essa integral não pode ser resolvida pelos métodos tradicionais (só pode ser resolvida por aproxi-mação numérica). Para cada valor de µ e σ e para cada intervalo (a,b), teríamos que resolver estaintegral. A dificuldade para processar esse tabelamento se prendeu na infinidade de valores que µ(media) e σ (desvio padrão) poderiam assumir. Neste caso, teria que se dispor de uma tabela paracada uma das infinitas combinações de µ e σ, ou seja, em cada situação que se quisesse calcular umaprobabilidade. O problema foi solucionado mediante a padronização da distribuição normal.

6.3.1 Distribuição normal padrão (ou reduzida)

A variável normal padronizada Z é obtida subtraindo cada valor de X por sua média e dividindoesse resultado pelo desvio padrão σ, ou seja, Z = X−µ

σ . Das propriedades da média e do desviopadrão tem-se que essa nova variável Z tem média zero e variância igual a 1. Portanto, Z terádistribuição Normal padronizada com média 0 e variância 1, ou seja, Z ∼ N(0,1).

42

Page 43: Probabilidade e Estatística(2)

A variável Z tem-se a seguinte função de probabilidade: f(Z) = 1√2πexp−

(z)2

2 , Z ∈ R. Nestecaso, o cálculo da probabilidade só dependerá de Z. Portanto, pode-se calcular uma única vez aprobabilidade no intervalo (a,b) e montar uma tabela com essas probabilidades.

A probabilidade referente ao intervalo entre µ = 0 e um valor z genérico, representada porP (0 < Z < z), encontra-se na tabela da distribuição normal reduzida.

• Exemplos:

1. Calcular as seguintes probabilidades:

a) P (0 < Z < 1,64)

b) P (−1,33 < Z < 0)

c) P (−1 < Z < 2,23)

d) P (Z > 1,96)

e) P (Z > −2,51)

f) P (Z = 2,7)

g) P (Z < −1,0)

h) P (Z > 0)

i) P (1,0 < Z < 2,0)

j) P (Z > 5,2)

2. Dada as probabilidades encontre o valor de z:a) P (0 < Z < z) = 0,4357

b) P (Z > z) = 0,10

c) P (z1 < Z < z2) = 0,95 com z1 e z2 simétricosd) P (Z > z) = 0,90

3. Os depósitos efetuados em determinado banco durante o mês de agosto de 2010 são dis-tribuidos normalmente, com média R$10000 e desvio padrão de R$1500,00. Um depósitoé selecionado ao acaso dentre todos os referentes ao mês em questão. Encontrar a proba-bilidade de que o depósito seja:a) R$ 10000 ou menos;b) pelo menos R$ 13000;c) um valor entre R$12000 e R$15000d) maior que R$20000

4. Uma fábrica de carros sabe que os motores de sua fabricação têm duração normal commédia de 150000km e desvio padrão de 5000km. Qual a probabilidade de que um carro,escolhido ao acaso, dos fabricados por essa firma, tenha um motor que dure:a) Menos de 170000 km?b) Entre 140000km e 165000km?c) Se a fábrica substitui o motor que apresenta duração inferior à garantia, qual deve ser

esta garantia para que a porcentagem de motores substituídos seja inferior a 0,2 %?

6.3.2 Aproximação normal das distribuições Binomial e Poisson

Quando n é grande o cálculo de probabilidades usando a binomial e a Poisson se torna trabalhoso.Neste caso, a normal pode ser utilizada para realizar cálculos aproximados de probabilidade, sendoµ = np e σ2 = npq na binomial e µ = λ e σ2 = λ na Poisson.

A substituição da binomial pela normal é recomendada quando np e nq forem maiores ou iguaisa 5. A substituição da Poisson pela normal é recomendada quando λ ≥ 15.

A binomial e a Poisson são distribuições discretas e a normal contínua, então deve se fazer umacorreção de continuidade, ou seja, a probabilidade no ponto x na binomial e na Poisson será iguala probabilidade em x ± 0,5 na normal. Isso é feito para incluir todos os possíveis valores de x nointervalo.

43

Page 44: Probabilidade e Estatística(2)

• Exemplos:

1. Cinquenta e um por cento dos adultos de um determinado país fizeram a promessa dese exercitar mais e alcançaram seus objetivos. Você seleciona aleatoriamente 65 adultosdesse país que fizeram tal promessa e lhes pergunta se eles cumpriram a promessa. Quala probabilidade de que:

a) Exatamente 50 desses adultos respondam sim;b) Menos de quarenta deles respondam sim.

2. Pequenos defeitos em chapas de metal ocorrem ao acaso, com média de um defeito pormetro quadrado. Determinar a probabilidade de uma chapa de 1,5 m × 50 m apresentarmais de 70 pequenos defeitos. R: 0,69847

• Exercícios:

1. Sabe-se que a variável aleatória X, referente ao tempo gasto na solução de uma deter-minada prova, tem distribuição normal com média 40 minutos e desvio padrão de 10minutos.

a) Qual a probabilidade de uma pessoa gastar de 30 a 50 minutos na solução da prova?R: 68,26%

b) Qual a probabilidade de que uma pessoa gaste gaste mais de 60 minutos? R: 2,28%c) Deseja-se fazer um agrupamento das pessoas da seguinte forma:

Grupo A: 30% das pessoas que realizaram a prova no menor tempo;Grupo B: 50% seguintes;Grupo C: 20% restantes;

Quais os limites de tempo esperado para a classificação dos grupos? R: X1 = 34,8 eX2 = 48,4

2. Um pesquisador analisou o consumo diário de calorias por um grupo formado por 3200crianças. Encontrou um média igual a 1800kcal/dia, com um desvio padrão igual a400kcal/dia. Sabe-se que esta variável segue uma distribuição aproximadamente normal.Encontre a probabilidade de uma criança escolhida ao acaso apresentar um consumo:

a) entre 1800 e 2300 kcal/dia; R: 39,44%b) entre 1650 e 1800 kcal/dia; R: 14,8%c) entre 1500 e 1700 kcal/dia; R: 17,47%d) entre 1350 e 1650 kcal/dia; R: 22,28%e) maior que 2250 kcal/dia; R: 12,92%f) menor que 1450 kcal/dia; R: 18,94%g) caso uma amostra formada por 10% das crianças com maiores consumos precisasse ser

extraída, qual seria o consumo calórico mínimo para inclusão neste grupo? R: 2312

3. Uma viagem de ônibus apresenta duração normalmente distribuída com média a 120minutos e desvio padrão igual a 20 minutos. Pergunta-se:

a) Qual a probabilidade de uma viagem durar menos de 110 minutos? R: 30,85%b) Durar mais de 90 minutos? R: 93,32%c) Qual a duração mínima de 88% das viagens? R: 96,6

4. Em um posto de grande movimento, os automóveis entram à razão de três a cada doisminutos, em média. Determinar a probabilidade de mais de 100 automóveis procuraremo posto no período de uma hora. R: 0,1335

44

Page 45: Probabilidade e Estatística(2)

5. Sabe-se que hotéis sempre garantem reservas além de sua capacidade, para assegurarlotação. Suponha que as estatísticas feitas por um hotel mostrem que, em média, 10%dos hóspedes não respondem às reservas feitas. Se este hotel aceitar 250 reservas e ti-ver somente 230 acomodações, qual a probabilidade de todos os hóspedes que tiveremrespondido às reservas conseguirem acomodação quando chegarem ao hotel? R: 0,87698

45

Page 46: Probabilidade e Estatística(2)

7 Técnicas de Amostragem

A amostragem tem por objetivo principal determinar meios e métodos de estudar as populaçõespor meio de amostras. Observe que quando obtemos informações a partir de amostras e tentamosatingir a população estamos realizando uma inferência.

7.1 Como selecionar uma amostra

É preciso garantir que as amostras que serão utilizadas para se fazer a inferência sejam obtidasde forma adequada. Não adianta nada o uso de técnicas refinadas de estatística se a amostra nãofor representativa da população.

Uma amostra representativa significa que, a menos de certas pequenas discrepâncias ineren-tes à aleatoriedade sempre presente, a amostra dever possuir as mesmas características básicas dapopulação, no que diz respeito a variável que desejamos pesquisar.

7.2 Amostragem com reposição e sem reposição

Na amostragem com reposição o objeto ou indivíduo selecionado volta à população antes de umnovo sorteio. Nesse caso, o número de amostras possíveis de tamanho n retiradas de uma populaçãode tamanho N é dada por: Nn. Por exemplo de uma população de tamanho 10 é possível retirar100 amostras de tamanho 2.

Na amostragem sem reposição o objeto ou indivíduo selecionado não retorna à população antesde um novo sorteio. Nesse caso o número de amostras possíveis de tamanho n retiradas de umpopulação de tamanho N é dada por

(Nn

). Por exemplo, de uma população de tamanho 10 será

possível retirar 45 amostras de tamanho 2.

7.3 Definições

• População: conjunto de indivíduos com pelo menos uma característica observável em comum.

• Amostra: porção ou fração da população, retirada segundo algumas técnicas específicas, quematem as mesmas características de interesse da populacão.

• Parâmetro: é uma medida associada à uma característica populacional. Ex: Média (µ),variância (σ2), etc.

• Estatística ou estimador: é uma medida associada à uma característica amostral. Ex:Média (x), variância (s2).

• Estimativa: é um valor numérico obtido por meio do estimador.

7.4 Por que amostrar?

i) Economia: menor custo;

ii) Rapidez: menor quantidade de trabalho, ou seja, menor tempo;

iii) Precisão: melhor qualidade no treinamento proporciona entrevistadores mais homogêneos pos-síveis, consequentemente maior precisão nos resultados.

46

Page 47: Probabilidade e Estatística(2)

7.5 Etapas no processo de amostragem

1. Objetivos da pesquisa: escrever ou estabelecer de forma clara os objetivos.

2. População que fornecerá as amostras: definição da população que se quer estudar.

3. Dados a serem coletados: decidir quais os dados serão coletados, ou seja, definir as variáveisbaseando-se nos objetivos da pesquisa (atender ao item 1).

4. Definir o método de medição: entrevistador, a própria pessoa selecionada responde ao ques-tionário, telefonemas, etc.

5. Grau de precisão desejado: dimensionar o tamanho da amostra, ou seja, definir n.

6. Listagem das unidades amostrais: escolha da unidade amostral (pessoa, família, um únicoobjeto, vários objetos, etc).

7. Processo de amostragem mais adequado: a escolha da técnica de amostragem depende dacaracterística da população.

8. Organização do trabalho de campo: questionário (perguntas abertas, fechadas, etc) e estudopiloto (está ligado com a precisão).

9. Processamento e análise de dados: planejamento da tabulação dos dados e análise.

7.6 Principais processos de amostragem

7.6.1 Amostragem Simples ao Acaso ou Amostragem Aleatória Simples (AAS)

A ASA é o processo de amostragem mais simples e é utilizada quando se necessita obter umaamostra representativa cujos elementos da população são todos homogêneos. Normalmente, esteprocesso de amostragem é utilizado em associação com outros processos de amostragem, pois nemsempre é possível de forma imediata identificar todos os elementos da população como sendo ho-mogêneos. Todos os elementos da população têm a mesma probabilidade de pertencer à amostra,ou seja, a probabilidade de selecionar um indivíduo específico da população para uma amostra é 1/N .

• Procedimento para realizar a AAS

Enumeram-se todos os indivíduos da população (1, 2, · · · , N) e sorteiam-se por meio de um dis-positivo aleatório (computador, calculadora, tabela de números aleatórios, etc) os indivíduos queirão fazer parte da amostra.

Exemplos de onde deve ou não aplicar a AAS:

• Estudar a opinião de alunos de um determinado curso com relação a necessidade de acrescentaruma disciplina de física na grade curricular; (AAS)

• Estudar a opinião de alunos de uma determinada universidade com relação a necessidade deacrescentar uma disciplina física avançada na grade curricular; (outro tipo de amostragem)

47

Page 48: Probabilidade e Estatística(2)

7.6.2 Amostragem Estratificada

Quando a variável de interesse apresenta uma heterogeneidade na população e esta heterogenei-dade permite a identificação de grupos homogêneos, pode-se dividir a população em grupos (estratos)mutuamente exclusivos, de modo que se tenha o máximo de homogeneidade dentro de cada estrato.Desse modo, para obter a representatividade de cada estrato na amostra, realiza-se uma AAS emcada estrato. Por exemplo, nas pesquisas eleitorais existe uma grande heterogeneidade em relação àintenção de votos, quando considera-se a faixa salarial ou o nível de escolaridade. Então, para estecaso é recomendado fazer uma amostragem aleatória simples dentro de cada uma dessas categorias,para se ter uma amostra representativa da população a ser estudada, que neste caso é a intenção devotos.

Tipos de estratificação

• Uniforme: Para realizar uma estratificação uniforme o tamanho das amostras de cada estratodeve ser o mesmo. Esse tipo de estratificação raramente é utilizado, devendo ser recomendadoapenas para situações em que os estratos populacionais possuirem tamanhos iguais. Então, otamanho da amostra de cada estrato pode ser obtido da seguinte forma: nh = n/h, em que né o tamanho da amostra e h a quantidade de estratos.

• Proporcional: Esta estratificação é recomendada quando o tamanho dos estratos são distintose a variabilidade dos estratos é homogênea. Nesse caso, as amostras retiradas em cada estrato éproporcional ao tamanho do estrato. A proporção do estrato h em relação à população é igualao número de elementos presentes neste estrato (Nh) dividido pelo tamanho da população N ,multiplicado pelo tamanho desejado da amostra, ou seja,nh = Nh

N n.

7.6.3 Amostragem sistemática

A amostragem sistemática é usada quando os elementos da população são heterogêneos e nãopodem ser agrupados em subpopulações homogêneas. Sendo assim, para realizar este tipo de amos-tragem os elementos da população devem estar de alguma maneira ordenados.

Procedimento para realizar a amostragem sistemáticaEnumeram-se todos os elementos da população (1, 2, · · · , N) e sorteia-se um primeiro elemento

“i” para formar parte da amostra. Os demais são retirados em uma progressão aritmética, saltando“k” elementos, até completar o total da amostra (n). O valor “k” é chamado passos de amostrageme é determinado por: k = N/n elementos. O primeiro elemento deve ser sorteado entre os “ k ”primeiros.

7.7 Exemplos

1. Um pesquisador deseja selecionar 30 estudantes que estão ingressando na UFU para avaliar aexpectativa quanto a UFU. Que tipo de amostragem poderia ser utilizada?

2. Um hotel mantém um arquivo contendo os registros de antigos hospedes em ordem alfabética,num total de 10.000 fichas das quais serão amostradas 1.000 fichas para verificar a satisfaçãodos hospedes quanto a hospedagem. Isso poderia ser feito utilizando qual amostragem?

3. Uma estação de TV planeja conduzir uma pesquisa em 4 cidades, para estimar a proporçãode moradores que assistem regularmente a determinado programa. Sabendo que as cidadesA, B, C e D possuem, respectivamente, 48000, 20000, 12500 e 6500 residências, que tipo deamostragem você indicaria para selecionar uma amostra de tamanho 100?

48

Page 49: Probabilidade e Estatística(2)

8 Distribuição amostral

Considerem-se todas as amostras possíveis de tamanho “n” que podem ser retiradas de umapopulação de tamanho “N ” (com ou sem reposição). Para cada amostra pode-se calcular umagrandeza estatística, como a média, o desvio padrão etc., que varia de amostra para amostra. Comos valores obtidos para determinada grandeza, pode-se construir uma distribuição de probabilidades,que será denominada de distribuição amostral. Para cada distribuição amostral é possível calculara sua média, o seu desvio padrão, etc.

Dessa forma, por meio das distribuições amostrais, é possível inferir propriedades de um agregadomaior (a população) a partir de um conjunto menor (a amostra), ou seja, inferir sobre parâmetrospopulacionais, dispondo apenas de estatísticas amostrais. Assim, torna-se necessário um estudodetalhado das distribuições amostrais, que são base para intervalos de confiança e testes de hipóteses.

8.1 Distribuição amostral da média

Para entender a distribuição amostral da média, considere uma população N = 3 e a variávelaleatória X assumindo os valores 1, 2 e 3. A probabilidade associada a cada um desses valores é 1/3.Dessa forma tem-se que:

X 1 2 3P(X=x) 1/3 1/3 1/3 1,00

Retirando todas as amostras possíveis de tamanho n = 2 com reposição, o número possívelde amostras que podem ser selecionadas é dado por: Nn = 32 = 9 e cada amostra tem 1/9 deprobabilidade de ser selecionada. Com isso tem-se que:

Amostras x P (x)

(1,1) 1,0 1/9(1,2) 1,5 1/9(1,3) 2,0 1/9(2,1) 1,5 1/9(2,2) 2,0 1/9(2,3) 2,5 1/9(3,1) 2,0 1/9(3,2) 2,5 1/9(3,3) 3,0 1/9

E a distribuição amostral de x é:

x 1 1,5 2 2,5 3P(x) 1/9 2/9 3/9 2/9 1/9 1,00

Comparando as duas distribuições (x e x) verifica-se diferenças, conforme pode-se verificar nosgráficos abaixo:

1.0 1.5 2.0 2.5 3.0

0.0

0.1

0.2

0.3

0.4

x

P(x)

1 2 3 4 5

0.0

0.1

0.2

0.3

0.4

Média de x

P(M

édia

de x)

49

Page 50: Probabilidade e Estatística(2)

Portanto, a partir do comportamento da estatística amostral, pode-se aplicar um teorema muitoconhecido na estatística como Teorema do Limite Central.

Teorema do Limite Central (TLC): Considere uma população de tamanho N com média µxe variância σ2

x. Se for retiradas n possíveis amostras de tamanho n desta população, a média amostral(x) terá uma distribuição aproximadamente normal, com µx = µx e σ2

x = σ2xn se a amostragem for

realizada com reposição, ou σ2x = σ2

xnN−nN−1 se a amostragem for realizada sem reposição em uma

população finita ( população pequena). N−nN−1 é conhecido como fator de correção para população

finita. Essa aproximação torna se progressivamente melhor com o aumento do tamanho da amostra(n).

• Observações

1. Quanto maior o n (tamanho da amostra), melhor a aproximação normal.

2. Se n ≥ 30 a aproximação normal é adequada, qualquer que seja a distribuição populacional.

3. A amostragem sem reposição é recomendada quando (n/N > 0,05), e neste caso, deve-se fazera seguinte correção para população finita: σ2

x = σ2xnN−nN−1

4. Quando N é muito maior do que n, a relação N−nN−1 tende a 1.

Diante do exposto, temos duas situações:

i) População infinita: x ∼ N(µx = µx, σ

2x = σ2

xn

)ii) População finita: x ∼ N

(µx = µx, σ

2x = σ2

xnN−nN−1

)Portanto, considerando a distribuição amostral de médias, quando se conhece a variância ou a

amostra é grande (n ≥ 30), utiliza-se a estatística z da distribuição normal vista anteriormente,independente da distribuição da população. Então, por meio do TLC, a estatística será dada por:

z =x− µxσx

8.2 Distribuição amostral da diferença entre médias para amostras grandes (n1

e n2 ≥ 30)

(x1 − x2) ∼ N(µx1−x2 = µx1 − µx2 ;σ2

x1−x2 =σ2x1

n1+σ2x2

n2

)• Exemplo:

1. Um tratamento químico A garante duração média de uma peça de 1400h com desviopadrão de 200h. O tratamento B, garante duração média de 1200h com desvio padrãode 100h. Se forem ensaiadas amostras aleatórias simples de 125 elementos de cada trata-mento químico:

a) Qual a probabilidade de um elemento selecionado do tratamento A durar mais de1600h?

b) Qual a probabilidade da média da amostra A ser maior que 1420h?c) Qual a probabilidade dos elementos de A ter vida média superior a B em pelo

menos 160h?

50

Page 51: Probabilidade e Estatística(2)

8.3 Distribuição amostral da média em pequenas amostras (n < 30)- Distribui-ção t-Student

Muitas das vezes não se conhece σ2 e trabalha-se com amostras pequenas, ou seja, menoresou iguais a 30. Nestes casos, conhece-se apenas a estimativa s do desvio padrão populacional σ,denominado de desvio padrão amostral. Substituindo σ por seu estimador s, na expressão da variávelpadronizada, obtém-se a variável:

t =x− µxs2x

=x− µxsx/√n,

a qual segue uma distribuição t de Student com (n− 1) graus de liberdade.Assim, tem-se que:

x ∼ t(µx = µx, s

2x =

s2x

n

).

A distribuição t apresenta as seguintes características:

• é simétrica em relação à média, que é zero;

• tem forma campanular (semelhante à normal);

• quando n tende para infinito, a distribuição t tende para a distribuição normal, na prática, aaproximação é considerada boa quando n ≥ 30;

• possui ν = n− 1 graus de liberdade.

Para aprender a utilizar a tabela t, vamos calcular algumas probabilidades.

• Exemplos:

1. Dado os valores de t encontre as probabilidades:a) P (t > 1,093) com 10 graus de liberdadeb) P (t < −2,086) com ν = 20

c) P (1,341 < t < 2,131) n = 16

d) P (t > −1,325) n = 21

e) P (−1,071 < t < 1,071) ν = 16

f) P (−1,476 < t < 2,571) ν = 5

2. Dados os valores de probabilidade encontre o valor de t:a) P (t > t1) = 0,010 com ν = 13

b) P (t < t1) = 0,95 com ν = 20

c) P (t < t1) = 0,10 com ν = 8

3. A temperatura média em uma certa região tem sido de 260C em certo mês do ano. Se odesvio padrão de uma amostra aleatória de 16 dias for igual a 50C:

a) Qual a probabilidade da média da amostra:a1) Ser maior do que 23,3360C?

a2) Estar entre 22,316 e 29,684?b) Qual é o valor de x que deixa uma probabilidade de 1% de ocorrência acima dele?

51

Page 52: Probabilidade e Estatística(2)

8.4 Distribuição amostral das proporções

Dada uma população X que tem A elementos com uma certa característica e X − A elementoscom outra característica. A proporção p na amostra de tamanho n, com a característica A, é dadapor: p = A

n e tem distribuição binomial com parâmetros p sucessos e q fracassos. Pela aproximaçãoda distribuição normal a binomial, podemos escrever a distribuição de p como:

p ∼ N(µp = p, σ2

p =pq

n

).

• Exemplo:

1. Acredita-se que 30% das encomendas feitas a uma firma são provenientes de clientes quecompram pela primeira vez. Uma amostra aleatória simples de 100 pedidos será usadapara estimar a proporção de clientes que compram pela primeira vez.

a) Qual a probabilidade de a proporção amostral estar entre 0,20 e 0,40?b) Qual é a probabilidade de a proporção amostral ser maior do que 0,35?

8.5 Distribuição amostral da diferença das proporções

Suponha que temos duas populações 1 e 2, com proporções p1 e p2. Destas populações retiram-seamostras n1 e n2, então:

(p1 − p2) ∼ N(µp1−p2 = p1 − p2;σ2

p1−p2 =p1q1

n1+p2q2

n2

)E a estatística é dada por:

z =(p1 − p2)− (p1 − p2)√

p1q1n1

+ p2q2n2

• Exemplo:

1. As especificações técnicas do medicamento A informa que 95% das pessoas que fazemuso desse medicamento ficam curadas, já as especificações do medicamento B diz que85% dos usuários são curados. Qual a probabilidade de se realizar uma pesquisa com 100indivíduos de cada grupo e a diferença entre as proporções de curados ser de no máximo5%?

8.6 Distribuição amostral da variância - Distribuição de Qui-Quadrado (χ2)

Ao retirar uma amostra de n elementos de uma população normal com media µ e variânciaσ2, tem-se que a distribuição amostral da variância amostral (s2) segue uma distribuição de χ2

(qui-quadrado) com n − 1 graus de liberdade. A variável da estatística de qui-quadrado será dadapor:

χ2 =(n− 1)s2

σ2

tem distribuição de χ2 com n − 1 graus de liberdade. Esta distribuição parte sempre da origem, éassimétrica e está associada a n− 1 graus de liberdade.

• Exemplos:

1. Para aprender a utilizar a tabela χ2, calcule as seguintes probabilidades:a) P(χ2 > 17,275)b) P(χ2 < 11,345)c) P(12,592 < χ2 < 18,548)

52

Page 53: Probabilidade e Estatística(2)

2. Uma máquina está regulada para encher pacotes de macarrão com desvio padrão de 10ge média de 500g. Em uma amostra de 16 pacotes, qual a probabilidade da variância ser:

a) Maior que 48,407g2?

b) Menor que 121,63g2?

3. O tempo de vida de um certo aparelho apresenta distribuição normal com média de 480horas e desvio padrão de 50 horas. Em uma amostra de 25 aparelhos, qual a probabilidadede se obter uma variância maior que 2448 horas? R: 0,5

8.7 Distribuição amostral de duas variâncias - Distribuição F

A distribuição de F de Snedecor corresponde à distribuição da razão de duas variâncias. Temos,então, duas populações que apresentam variâncias populacionais e delas são retiradas amostras, nasquais são calculadas variâncias amostrais. A relação entre essas variâncias é que nos dá a distribuiçãode F . A estatística da distribuição é apresentada a seguir:

F =σ2

2

σ21

s21

s22

,

com ν = n1 − 1 e ν = n2 − 1 graus de liberdade, sendo n1 e n2 os tamanhos amostrais retirados dapopulação 1 e 2, respectivamente.

A distribuição F sempre parte da origem, é assimétrica e apresenta uma tabela específica paracada valor de probabilidade (α). Se Fα(ν1, ν2) é o valor de F com ν1 e ν2 graus de liberdade, temosque: F1−α(ν1, ν2) = 1

Fα(ν2,ν1) .

• Exemplos:

1. Para aprender a utilizar a tabela da distribuição F , calcule as seguintes probabilidades:a) P (F > 3,12) com ν1 = 9 e ν2 = 15

b) P (F < 4) com ν1 = 12 e ν2 = 6

c) P (F > F1) = 0,10 com ν1 = 5 e ν2 = 25

d) P (F < F1) = 0,90 com n1 = 6 e n2 = 26

2. Se s21 e s2

1 representam variâncias de amostras aleatórias de tamanho n1 = 21 e n2 = 31,cuja população tem σ2

1 = 35 e σ22 = 25, encontre:

a) P (s21s22< 2,702)

b) P (0,594 <s21s22< 3,094)

3. Sabe-se que a variância das alturas das mulheres adultas em uma população X é de100cm2, já a variância das alturas dos homens nesta mesma população é de 225 cm2.Retira-se, dessa população, uma amostra de 12 mulheres e uma amostra de 16 homens.Qual a probabilidade de que nesta amostra a variabilidade das alturas dos homens seja6,12 maior que a das mulheres?

53

Page 54: Probabilidade e Estatística(2)

9 Teoria da estimação

Um dos principais objetivos da estatística inferencial consiste em estimar os valores de parâmetrospopulacionais desconhecidos (estimação de parâmetros) utilizando dados amostrais. Então, qualquercaracterística de uma população pode ser estimada a partir de uma amostra aleatória, desde que estaamostra represente bem a população. Os parâmetros populacionais mais comuns a serem estimadossão a média, o desvio-padrão e a proporção. A inferência estatística é de grande relevância, umavez que na maioria das decisões que um pesquisador deve tomar, estão associadas à utilização dedados amostrais. Essa parte da estatística consiste em tirar conclusões de uma população a partirde amostra representativa dela, tendo uma grande importância em muitas áreas do conhecimento.

Antes de abordar a teoria da estimação vamos procurar entender o que vem a ser estimador eestimativa. Um estimador, θ, do parâmetro θ é uma função qualquer dos elementos da amostra.Estimativa é o valor numérico assumido pelo estimador quando os valores observados são conside-rados.

Assim, x =

n∑i=1

xi

n , é um estimador da média populacional µ , e x = 150, é por exemplo, umaestimativa da média populacional.

9.1 Tipos de Estimativas

9.1.1 Estimativa por ponto ou estimação pontual

Quando a estimativa de um parâmetro populacional é dado por um único valor, tem-se umaestimativa por ponto do parâmetro populacional, ou seja, na estimação por ponto é fornecido comoestimativa do parâmetro, apenas um valor numérico.

• Exemplo: A partir de uma amostra de 800 clientes (escolhidos aleatoriamente entre todosos clientes que abasteceram na primeira quinzena de um determinado mês) de um posto degasolina que possuem carros populares, verificou-se que o gasto médio de gasolina foi de R$200,00 por quinzena, ou seja, x = 200 reais. Logo, 200 é uma estimativa por ponto para µ

Do exposto, segue que s2 é uma estimativa por ponto de σ2; s é uma estimativa por ponto de σ;p é uma estimativa por ponto de p, dentre outras.

• Desvantagem: A estimação pontual não fornece nenhuma ideia de quão próximo é o valordessa estimativa em relação ao valor do parâmetro. Sendo assim, essas estimativas por pontonão nos dão uma ideia sobre a confiança e as margens de erro que deveriam ser aplicadas aoresultado. Por exemplo, o que se sabe do gasto médio de gasolina é que ele foi estimado comoR$ 200,00 por quinzena, independente do tamanho da amostra e da variabilidade inerente dosdados. Se fosse usado um tamanho grande de amostra e houvesse pouca variabilidade, teria-segrandes razões para acreditar no resultado. Mas não se pode afirmar nada se for conhecidoapenas a estimativa pontual. Em função disso, existe outra maneira de obter uma estimativade um parâmetro, conhecido como estimativa por intervalo ou intervalo de confiança, queprocura suprir essa desvantagem.

9.1.2 Estimativa por intervalo ou intervalo de confiança

Na distribuição amostral, ao selecionar k amostras de tamanho n da população, é possível obterk estimativas pontuais de um parâmetro. Estas estimativas seguirão uma determinada distribuição.Conhecida esta distribuição pode-se determinar o limite inferior e o limite superior, dentro do qualse espera que o valor real do parâmetro populacional desconhecido (média, variância, proporção)

54

Page 55: Probabilidade e Estatística(2)

esteja contido. Quando a estimativa é obtida dessa forma, tem-se a estimativa por intervalo e,ao associar uma probabilidade ou um nível de confiança a este intervalo, obtém-se o intervalo deconfiança. Neste caso, pode-se afirmar, por exemplo, com uma confiança de 95%, que o gasto médiocom gasolina dos carros populares que abastecem no posto varia entre R$ 180,00 a R$ 220,00.

De modo geral as estimativas (pontual ou intervalar) devem ser bastante confiáveis, e para issoé necessário que os estimadores que as fornecerão apresentem boas propriedades, aliado ao fato deserem obtidas a partir de amostras representativas. A seguir serão apresentadas as propriedades deum bom estimador.

9.2 Propriedades dos Estimadores

• Estimador não tendencioso; não viesado ou não viciado: Um estimador θ é dito umestimador não tendencioso do parâmetro θ se E(θ) = θ.

– Exemplo: x =

n∑i=1

xi

n é um estimador não tendencioso da média populacional µ.

• Consistência: A consistência é uma propriedade de grande amostras.Um estimador θ é dito um estimador consistente do parâmetro θ se:

i) limn→∞

E(θ) = θ

ii) limn→∞

σ2(θ) = 0.

• Eficiência: Se θ1 e θ2 são dois estimadores não tendenciosos de θ, então, θ1 é mais eficienteque θ2 se: σ2(θ1) < σ2(θ2).

– Eficiência Relativa: A eficiência relativa do estimador θ1, em relação ao estimador θ2

é dada por:

ERθ1, θ2 =σ2(θ2)

σ2(θ1)

Observação: Quanto menor for a variância de um estimador maior será a sua eficiência.– Se θ1 for menos eficiente que θ2 então ERθ1, θ2 < 1;

– Se θ1 for mais eficiente que θ1 então ERθ1, θ2 > 1.

• Suficiência ou precisão: Um estimador é suficiente se contém o máximo de informação comrelação ao parâmetro por ele estimado.

– Quantidade de informação ou precisão = 1σ2(θ)

9.3 Construção dos Intervalos de confiança (IC)

Com uma confiança (1 − α) pode-se determinar, com o auxílio das distribuições amostrais, umlimite inferior e superior, no qual espera-se que o verdadeiro valor do parâmetro populacional estejacontido.

Resumidamente tem-se que:

• Intervalo de confiança para médias em grandes amostras (n ≥ 30): usa-se a distribuição normal(Z).

• Intervalo de confiança para médias em pequenas amostras (n < 30): usa-se a distribuiçãot-Student (t).

55

Page 56: Probabilidade e Estatística(2)

• Intervalo de confiança para proporções: usa-se a distribuição normal (Z).

• Intervalo de confiança para uma variância: usa-se a distribuição de qui-quadrado (χ2).

• Intervalo de confiança para duas variâncias: usa-se a distribuição F .

9.3.1 Intervalo de Confiança para µ de uma população Normal, considerando grandesamostras (n ≥ 30):

• Variância Populacional (σ2) conhecida:

Para determinar o IC para a média da população µ, considere uma população X da qual seráretirada uma amostra n ≥ 30. Das distribuições amostrais, tem-se que:

z =x− µxσ/√n

Isolando µx, colocando o sinal de desigualdade e associando uma propriedade P de ocorrência,obtém-se:

P

(x− Zα/2

σ√n< µx < x+ Zα/2

σ√n

)= (1− α).

Assim, tem-se que: IC (µ)1−α: x± e, sendo e = zα2

σ√n

• Variância Populacional (σ2) desconhecida:

IC (µ)1−α: x± e, sendo e = zα2

s√n

9.3.2 Intervalo de Confiança para µ de uma população Normal, considerando pequenasamostras (n ≤ 30):

IC (µ)1−α: x± e, sendo e = t(n−1,α2

)s√n

9.3.3 Intervalo de Confiança para diferença entre médias, considerando grandes amos-tras (n ≥ 30):

IC (µ1 − µ2)1−α: (x1 − x2)± e

• Variâncias Populacionais conhecidas: e = zα2

√σ21n1

+σ22n2

• Variâncias Populacionais desconhecidas: e = zα2

√s21n1

+s22n2

9.3.4 Intervalo de Confiança para diferença entre médias, considerando pequenasamostras (n ≤ 30):

IC (µ1 − µ2)1−α: (x1 − x2)± e

• Amostras independentes e variâncias populacionais estatísticamente iguais:

e = tα2sp

√1n1

+ 1n2; ν = n1 + n2 − 2 sp =

√(n1−1)s21+(n2−1)s22

n1+n2−2

56

Page 57: Probabilidade e Estatística(2)

• Amostras independentes e variâncias populacionais estatísticamente desiguais:

e = tα2

√s21n1

+s22n2; ν =

(s21n1

+s22n2

)2

(s21/n1)2

n1−1+

(s22/n2)2

n2−1

• Amostras dependentes, dados aparecem em pares (Ex: antes e depois):

IC (µD)1−α: (D)± e D =

n∑1=1

di

n di = X1i −X2i

e = tα2

sD√n

sD =

√√√√√√√√ n∑1=1

d2i −

(n∑

1=1

di

)2

n

n−1

9.3.5 Intervalo de Confiança para uma proporção

IC (p)1−α: p± e em que e = zα2.√

pqn

9.3.6 Intervalo de Confiança para diferença entre proporções

IC (p1 − p2)1−α: (p1 − p2)± e em que e = zα2.√

p1.q1n1

+ p2.q2n2

9.3.7 Intervalo de Confiança para uma variância

IC(σ2)1−α :

((n−1).s2

χ2α/2

; (n−1).s2

χ21−α/2

)ν = n− 1

9.3.8 Intervalo de Confiança para duas variâncias

IC(σ21

σ22

)1−α

:(s21s22

1Fα/2(ν2, ν1) ;

s21s22Fα/2(ν1, ν2)

)

9.4 Regras de decisão envolvendo intervalo de confiança (IC) para a diferençaentre duas médias ou duas proporções:

a) Se o intervalo possui um extremo positivo e outro negativo, ou seja, se o 0 ∈ IC, temos µ1 = µ2

ou p1 = p2

b) Para o IC(µ1 − µ2) ou IC(p1 − p2), se os extremos são positivos, temos:µ1 − µ2 > 0 ⇒ µ1 > µ2 ou p1 − p2 > 0 ⇒ p1 > p2

c) Para o IC(µ1 − µ2) ou IC(p1 − p2), se os extremos são negativos, temos:µ1 − µ2 < 0 ⇒ µ1 < µ2 ou p1 − p2 < 0 ⇒ p1 < p2

57

Page 58: Probabilidade e Estatística(2)

9.5 Regras de decisão envolvendo intervalo de confiança (IC) para duas variân-cias:

Dado o IC(σ21

σ22

)1−α

, temos:

a) Se 1 ∈ IC, temos σ21 = σ2

2;

b) Se os extremos do IC são maiores do que 1, temos: σ21 > σ2

2;

c) Se os extremos do IC são menores do que 1, temos: σ21 < σ2

2;

• Exemplos:

1. Uma máquina produz rolamentos que apresentam desvio padrão de 0,042 polegadas emseu diâmetro. Desejando-se conhecer o diâmetro médio dos rolamentos produzidos poresta máquina extraiu-se uma amostra de 100 rolamentos, observando-se uma média iguala 0,824 polegadas.

a) Qual é a estimativa por ponto de µ?b) Obter o intervalo de confiança com 0,90 de confiança para o verdadeiro diâmetro

médio dos rolamentos.

2. Os conteúdos de ácido sulfúrico em sete contêineres similares são: 9,8; 10,2; 10,4;9,8;10;10,2e 9,6 litros.

a) Qual é a estimativa por ponto da média e da variância dos conteúdos de ácidosulfúrico dos contêineres.

b) Utilize um IC de 95% para estimar a média de todos os contêineres.c) Construa um IC de 95% para a variância populacional dos conteúdos de ácido

sulfúrico em todos os contêineres.

3. Em uma linha de produção de certa peça mecânica, colheu-se uma amostra de 100 ítens,constatando-se que 4 peças eram defeituosas. Construir o IC para a proporção “p” daspeças defeituosas ao nível de 10%.

4. Foi realizada uma pesquisa para verificar a preferência por recheios de pastéis. Umaamostragem de tamanho 20 revelou que 70% das pessoas entrevistadas preferem o recheiode carne. Uma outra amostragem de tamanho 25, foi realizada em outro local, e mostrouque 87% das pessoas também preferem o recheio esse mesmo recheio. Use um IC de 95%para verificar se existe diferença entre a proporção de pessoas que preferem o recheio decarne no local A e no local B.

5. Para verificar a conservação de um alimento em duas embalagens, um pesquisador utilizouuma amostra de tamanho 36 de cada embalagem. Ele obteve os seguintes resultados parao tempo de conservação, em dias:

Embalagem x s2 s

A 12 4 2B 15 7 2,65

Verifique, utilizando um IC de 95%, se existe diferença entre os tempos médios deconservação.

6. Em uma pesquisa sobre dois métodos de ensino, selecionou-se uma amostra aleatória de15 alunos que receberam o método A e uma amostra aleatória de 10 alunos que receberamo método B. Os resultados são apresentados a seguir. Utilizando um IC de 90%, pode-sedizer que B é estatisticamente superior a A?

58

Page 59: Probabilidade e Estatística(2)

Método n x s

A 15 5,7 0,7B 10 6,6 1,2

7. Uma companhia fabrica propulsores para uso em motores de turbinas de avião. Uma dasoperações envolve esmerilhar o acabamento de uma superfície particular para um com-ponente de liga de titânio. Dois processos diferentes para esmerilhar podem ser usados,podendo produzir peças com iguais rugosidades médias na superfície. Uma amostra ale-atória de n1 = 11 peças, proveniente do primeiro processo, resulta em um desvio padrãode s1 = 5,1 micro polegadas. Uma amostra aleatória de n1 = 16 peças, proveniente dosegundo processo, resulta em um desvio padrão de s1 = 4,7 micro polegadas. Conside-rando que os dois processos sejam independentes e que a rugosidade na superfície sejanormalmente distribuída, encontre um intervalo de confiança de 90% para a razão de duasvariâncias. Existe variabilidade da rugosidade da superfície para os dois processos?

8. Um grupo de 10 pessoas é submetido a um tipo de dieta por 10 dias, estando os pesosantes e depois marcados na tabela abaixo. Construa um intervalo de confiança ao nívelde 5% de significância. Interprete os resultados.

Pessoas Peso antes em kg Peso depois em kg1 120 1162 104 1023 93 904 87 835 85 866 98 977 102 988 106 1089 88 8210 90 85

59

Page 60: Probabilidade e Estatística(2)

I) INTERVALO DE CONFIANÇA PARA UMA MÉDIA

1o CASO: Amostras grandes (n ≥ 30)

i) IC: IC (µ)1−α: x± e

ii) erro da estimativa: e = zα2. σ√

n; e = zα

2. s√

n

2o CASO: Amostras pequenas (n < 30)

i) IC: IC (µ)1−α: x± e

ii) erro da estimativa: e = tα2. s√

n

II) INTERVALO DE CONFIANÇA PARA DIFERENÇAENTRE MÉDIAS

1o CASO: Amostras grandes (n ≥ 30)

i) IC: IC (µ1 − µ2)1−α: (x1 − x2)± e

ii) erro da estimativa: e = zα2.√

σ21n1

+σ2

2n2

; e = zα2.√

s21n1

+s22n2

2o CASO: Amostras pequenas (n < 30), independentes e variânciaspopulacionais estatisticamente iguais

i) IC: IC (µ1 − µ2)1−α: (x1 − x2)± e

ii) erro da estimativa: e = tα2.sp.√

1n1

+ 1n2

; ∴ ν = n1+n2−2

sp =√

(n1−1).s21+(n2−1).s2

2n1+n2−2

3o CASO: Amostras pequenas (n < 30), independentes e variânciaspopulacionais estatisticamente desiguais

i) IC: IC (µ1 − µ2)1−α: (x1 − x2)± e

60

Page 61: Probabilidade e Estatística(2)

ii) erro da estimativa: e = tα2.√

s21n1

+s22n2

; ∴ ν =

(s21n1

+s22n2

)2

(s21/n1)2

n1−1 +(s22/n2)

2

n2−1

4o CASO: Amostras dependentes, dados aparecem em pares(Ex.: antes e depois)

i) IC: IC (µD)1−α: (D)±e ∴ D =

n∑1=1

di

n ∴ di = X1i−X2i

ii) erro da estimativa: e = tα2. sD√

n; ∴ sD =

√√√√√√√√ n∑1=1

d2i −

(n∑

1=1

di

)2

nn−1

III) INTERVALO DE CONFIANÇA PARA UMA VARIÂNCIA

IC(σ2)1−α :

((n−1).s2

χ2α/2

; (n−1).s2

χ21−α/2

); ν = n− 1

IV) INTERVALO DE CONFIANÇA PARA DUAS VARIÂNCIA

IC(σ2

1

σ22

)1−α

:(s21

s22. 1Fα/2(ν2, ν1);

s21

s22.Fα/2(ν1, ν2)

)

V) INTERVALO DE CONFIANÇA PARA UMA PROPORÇÃO

i) IC: IC (p)1−α: p± e

ii) erro da estimativa: e = zα2.√

pqn

61

Page 62: Probabilidade e Estatística(2)

VI) INTERVALO DE CONFIANÇA PARA DIFERENÇAENTRE PROPORÇÕES;

i) IC: IC (p1 − p2)1−α: (p1 − p2)± e

ii) erro da estimativa: e = zα2.√

p1.q1n1

+ p2.q2n2

;

• Regras de decisão envolvendo intervalo de confiança (IC) para adiferença entre duas médias ou duas proporções:

a) Se o intervalo possui um extremo positivo e outro negativo, ou seja, se o 0∈ IC, temos µ1 = µ2 ou p1 = p2

b) Para o IC(µ1 − µ2) ou IC(p1 − p2), se os extremos são positivos, temos:µ1 − µ2 > 0 ⇒ µ1 > µ2 ou p1 − p2 > 0 ⇒ p1 > p2

c) Para o IC(µ1 − µ2) ou IC(p1 − p2), se os extremos são negativos, temos:µ1 − µ2 < 0 ⇒ µ1 < µ2 ou p1 − p2 < 0 ⇒ p1 < p2

• Regras de decisão envolvendo intervalo de confiança (IC) paraduas variâncias:

Dado o IC(σ21

σ22

)1−α

, temos:

a) Se 1 ∈ IC, temos σ21 = σ2

2;

b) Se os extremos do IC são maiores do que 1, temos: σ21 > σ2

2;

c) Se os extremos do IC são menores do que 1, temos: σ21 < σ2

2;

62

Page 63: Probabilidade e Estatística(2)

9.6 Determinação dos tamanhos das amostras

Uma questão que aparece frequentemente no planejamento de experimentos é “qual deve sero tamanho da amostra para se ter determinada precisão na estimação da média populacional?” Aresposta para essa questão pode ser dada a partir do intervalo de confiança. Da teoria da estimação épossível perceber que o aumento do tamanho da amostra melhora a precisão da estimativa e diminuio comprimento de confiança.

Para entender como esse processo de determinação do tamanho de amostras, considere o intervalode confiança para µ de uma população Normal, considerando grandes amostras (n ≥ 30) e σ2

conhecida:x± Zα/2

σ√n.

A quantidade Zα/2 σ√n

é a margem de erro(e). Desse modo, se o pesquisador fixar um erro deestimação e possuir uma estimativa da variância populacional, é possível estimar o tamanho amostraladequado, considerando um coeficiente de confiança 1 − α também fixado. Neste caso, isolando nna expressão da margem de erro, obtém-se a seguinte expressão do tamanho da amostra:

n =z2α/2σ

2

e2.

Esse tamanho de amostra fornece a margem de erro desejada, ao nível de confiança escolhido.Essa equação necessita de um valor para o desvio pardrão σ da população. Entretanto, mesmoque σ seja desconhecido, essa equação pode ser utilizada para determinar o tamanho da amostra,desde que se tenha um valor preliminar para σ. Na prática esse valor é obtido por meio de pesquisapassadas, estatísticas (informações) ou amostras piloto.

Nas situações que se deseja obter o tamanho da amostra com base na estimativa da proporçãopopulacional, esse tamanho da amostra deve ser encontrado por meio da seguinte expressão:

n =z2α/2pq

e2

Para utilizar a equação acima é preciso saber quanto vale p e q, para isso deve se substituir p e qpor p e q. Mas se estes também forem desconhecidos, deve se substituir p e q por 0,5. Isso possibilitamaximimizar o valor do produto p.q e do tamanho da amostra a ser analisado.

• Exemplos:

1. Os sistemas de escapamento de uma aeronave funcionam devido a um propelente sólido.A taxa de queima desse propelente é uma característica importante do produto. Asespecificações requerem que a taxa média de queima seja de 50 cm/s. Sabemos que odesvio-padrão da taxa de queima é σ = 2 cm/s. Suponha que quiséssemos um erro naestimação da taxa média de queima do propelente do foguete menor do que 1,5 cm/s,com uma confiança de 95%. Qual deveria ser o tamanho apropriado da amostra?

2. Suponha que uma amostra aleatória de tamanho 10 da variável renda familiar apresenteos seguintes valores: 12, 18, 12, 18, 18, 30, 12, 12, 18, e 30. Determine o tamanho daamostra que apresente uma estimativa com erro máximo de

√2 e uma confiança de 90%.

3. Uma determinada pessoa está interessada em se candidatar a prefeito de uma cidade.Suponha que ela queira determinar o tamanho da amostra necessária para que a suaporcentagem de eleitores seja estimada com uma precisão de 2 pontos percentuais e comuma probabilidade de acerto de 95%.

a) Qual deveria ser o tamanho amostral?

63

Page 64: Probabilidade e Estatística(2)

b) Suponha que cada entrevista custa R$ 80,00 e que há um custo operacional fixo,de R$50000,00. Quanto custaria a realização dessa pesquisa?

Suponha agora que esta pessoa só dispõe de R$180000 para custear a pesquisa. Nestascondições:

c) Que tamanho de amostra ele deveria usar?d) Supondo a mesma probabilidade de confiança de 95%, qual a precisão que ele pode

conseguir com esse tamanho de amostra?

64

Page 65: Probabilidade e Estatística(2)

10 Teoria da decisão - Testes de hipóteses

O teste de hipótese é uma regra de decisão para aceitarmos ou rejeitarmos uma hipótese esta-tística com base nos dados amostrais. O objetivo do teste de hipóteses é fornecer uma metodologiaque nos permita verificar se os dados amostrais trazem evidência que apóiem ou não uma hipóteseformulada.

10.1 Definições

10.1.1 Hipótese estatística

Trata-se de uma suposição quanto ao valor de um parâmetro populacional, ou quanto à naturezada distribuição de probabilidade de uma variável populacional.

• Exemplos

1) A taxa média de queima de um propelente de sódio é 50 centímetros por segundo;

2) O número de peças defeituosas em uma produção segue a distribuição Poisson;

3) A proporção de eleitores favoráveis a um candidato é de 50%.

10.1.2 Tipos de hipóteses

a) Hipótese nula ou de nulidade: denotada por H0 é uma afirmação sobre o valor de umparâmetro populacional. Geralmente é uma igualdade ou afirmativa positiva com relação aoparâmetro. Ex: H0 : θ = θ0

b) Hipótese alternativa: denotada por H1 é a afirmação que deve ser verdadeira se a hipótesenula for falsa. Geralmente é uma desigualdade e contradiz H0. Ex: H1 : θ 6= θ0; H1 : θ < θ0

ou H1 : θ > θ0

Com base na hipótese alternativa H1 e no valor obtido na tabela (Z, t, χ2, F ) ao nível de signifi-cância α, define-se a região de rejeição de H0, conhecida como região crítica (RC). Supondo que umaindústria química tem o interesse em verificar se a quantidade média de impurezas presentes em umdeterminado produto é igual a 16 gramas e, sabendo que essa quantidade de impurezas é normal-mente distribuída, então o parâmetro de interesse que deve ser testado é a média, e as hipóteses aserem formuladas, bem como, a determinação da região crítica podem ser definidas de acordo comos seguintes tipos de testes:

• Teste de hipótese bilateralH0: µ = 16 g

H1: µ 6= 16 g

Se −Zα2≤ Zc ≤ Zα

2−→ não se pode rejeitar

H0.

Se Zc > Zα2ou Zc < Zα

2−→ rejeita-se H0

• Teste de hipótese unilateral à direitaH0: µ = 16 g

H1: µ > 16 g

Se Zc < Zα −→ não se pode rejeitar H0

Se Zc > Zα −→ rejeita-se H0

• Teste de hipótese unilateral à esquerdaH0: µ = 16 g

H1: µ < 16 g

Se Zc > −Zα −→ não se pode rejeitar H0

Se Zc < −Zα −→ rejeita-se H0

65

Page 66: Probabilidade e Estatística(2)

10.2 Tipos de erros

Existem dois possíveis erros associados ao teste de uma hipótese estatística, comumente deno-minados de erros do tipo I e II. Pode-se rejeitar uma hipótese quando ela é verdadeira ou aceitarquando ela é falsa.

A rejeição de uma hipótese verdadeira é chamada erro Tipo I. A não rejeição de uma hipótesefalsa constitui o erro Tipo II. As probabilidades de ocorrência do erro tipo I e II são denotadas,respectivamente por α e β.

Sendo assim tem-se que: α = P (erro tipo I) = P (rejeitar H0/H0 é verdadeira). α é um valordeterminado pelo pesquisador e é conhecido como “nível de significância” do teste de hipótese. Ocomplementar do nível de significância é chamado de nível de confiança e é dado por 1−α. β = P (errotipo II) = P (não rejeitar H0/H0 é falsa).

Desse modo, quando se realiza um teste de hipótese, busca-se reduzir ao mínimo as probabilida-des de cometerem os erros tipo I e II, que são relacionados, ou seja, uma redução na probabilidadede um geralmente resulta num aumento da probabilidade do outro. Uma maneira de reduzir simul-tâneamente esses dois erros é aumentando o tamanho da amostra.

Um outro conceito muito importante que se relaciona com as probabilidades de erro é a noçãode poder de um teste. O poder de um teste é a probabilidade de se rejeitar H0 dado que H0 é falsa.

Na Tabela a seguir relacionam-se os dois tipos de erros e as decisões corretas com as respectivasprobabilidades:

TABELA 1: Tipos de erros e probabilidades associadas.Realidade

Decisão H0 verdadeira H0 falsaNão rejeitar H0 Decisão correta (1− α) Erro Tipo II (β)Rejeitar H0 Erro Tipo I (α) Decisão correta (1− β)

10.3 Algoritmo para a realização de um teste de hipóteses

1. Estabelecer a hipótese nula (H0 : θ = θ0)

2. Estabelecer a hipótese alternativa (H1 : θ 6= θ0; H1 : θ < θ0 ou H1 : θ > θ0)

3. Determinar o nível de significância (α)

4. Selecionar a estatística do teste

5. Determinar a região crítica (RC)

6. Calcular a estatística

7. Concluir

10.4 Testes de hipóteses para médias, variâncias e proporções

• Exemplos:

1. A vida média de uma amostra de 100 lâmpadas produzidas por uma firma foi calculcadaem 2570 horas, com desvio padrão de 120 horas. Sabe-se que a duração das lâmpadasdessa firma tem distribuição normal com média de 1600 horas. Ao nível de 1% testar sehouve alteração na duração média das lâmpadas.

66

Page 67: Probabilidade e Estatística(2)

2. Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação eacredita que aumentará a resistência média, que é de 206kg. A resistência das lajotastem distribuição normal com desvio padrão de 12kg. Retira-se uma amostra de 30 lajotas,obtendo x = 210kg. Ao nível de 10%, pode-se o fabricante aceitar que a resistência médiade suas lajotas tenha aumentado?

3. Uma máquina é projetada para fazer esferas de aço de 1cm de raio. Uma amostra de10 esferas é produzida e tem o raio médio de 1,004cm, com s = 0,003. Há razões parasuspeitar que a máquina esteja produzindo esferas com raio menor que 1cm, ao nível de10%?

4. Dois tipos de tinta foram testados sob as mesmas condições meteorológicas. O tipo Aregistrou uma média de 80 com um desvio padrão de 5 em 5 partes. O tipo B, uma médiade 83 com um desvio padrão de 4 em 6 partes. Adotando α = 0,05, testar a hipótese deque a tinta A possui média inferior a tinta B, considerando que as populações possuemvariâncias iguais.

5. Um teste para verificar a emissão de poluentes no ar, foi realizada com 6 automóveis queutilizaram o gás A como combustível, e 13 carros que utilizaram a gás B. Mediu-se aquantidade de monóxido de carbono CO (g/mi). Os resultados foram:

Gás n x s

A 6 3,7 0,5B 13 4,55 1,2

Existe diferença significativa na emissão de CO, entre os dois combustíveis? Use α = 0,05

6. Realizou-se um estudo para investigar a eficácia do hipnotismo na redução da dor. Atabela a seguir nos fornece os resultados de 8 pessoas selecionadas. Ao nível de 5%de significância, teste a afirmação de que as medidas sensoriais são inferiores após ohipnotismo, ou seja, o hipnotismo é eficaz na redução da dor. (Os valores se referem aantes e depois da hipnose, medidas em centímetros em uma escala de dor)

Pessoas Antes Depois1 6,6 6,82 6,5 2,43 9,0 7,44 10,3 8,55 11,3 8,16 8,1 6,17 6,3 3,48 11,6 2,0

7. Sabe-se por experiência que 5% da produção de um determinado artigo é defeituosa. Umnovo empregado é contratado. Ele produz 600 peças do artigo com 82 defeituosas. Aonível de 15%, verificar se o novo empregado produz peças com maior índice de defeitosque o existente.

8. Avaliou-se em 240 kg o desvio padrão de tensões de ruptura de certos cabos produzidospor uma fábrica. Depois de ter sido introduzida uma mudança no processo de fabricaçãodesses cabos, as tensões de ruptura de uma amostra de 8 cabos apresentaram o desviopadrão de 300kg. Investigar a significância do aumento aparente da variância, ao nívelde 5%.

10.5 Testes Não Paramétricos

A maioria dos procedimentos para testes de hipóteses vistos até o momento é baseada na supo-sição de que amostras aleatórias são selecionadas de populações normais. E mesmo que pequenos

67

Page 68: Probabilidade e Estatística(2)

desvio da normalidade sejam detectados, a maioria destes testes ainda é confiável quando o tamanhoamostral é grande. Tradicionalmente, esses procedimentos de testes são chamados de métodos pa-ramétricos. Na sequencia serão apresentados alguns testes alternativos que podem ser considerados,chamados de métodos de livres distribuição ou não parámetricos, que frequentemente presume-senão ter conhecimento sobre as distribuições que fundamentam as populações.

10.6 Teste de Qui-Quadrado (χ2) para independência entre variáveis e aderência

A estatística de χ2 é muito utilizada para verificar independência e aderências de dados experi-mentais. O teste baseia-se na ideia de que, se as variáveis são independentes ou se um conjunto dedados se ajusta a uma certa distribuição, a diferença ao quadrado entre a frequência observada (fo)e a frequência esperada (fe), tende a zero.

Para verificar independência ou aderência utiliza-se as seguintes hipóteses devem ser formuladas:

• Para independência:

H0 : a variável X é independente da variável Y .

H1 : a variável X é dependente da variável Y .

• Para aderência:

H0 : a variável X segue determinada distribuição.

H1 : a variável X não segue determinada distribuição.

Com base nas hipóteses e no nível de significância α, determina-se a estatística e a região críticado teste:

• Aderência: χ2 =k∑i=1

(foi − fei)2

fei, em que k é o número de classes ou colunas; ν = k− p− 1

sendo p o número de parâmetros estimados na distribuição e fe = np.

• Indepêndencia: χ2 =k∑i=1

(foi − fei)2

fei, em que k é o número de classes ou colunas; ν =

(k − 1)(h− 1) sendo p o número de linhas e fe = (Total da linha)(Total da coluna)(Total geral) .

• Região Crítica dos testes de aderência e de independência: χ2 > χ2α(ν)

• Exemplos:

1. Um estudo sobre acidentes de trabalho numa indústria revelou que, 150 acidentes ocor-reram nos seguintes dias da semana:

Dia S T Q Q S Totalfo 32 40 20 25 33 150

Testar a hipótese de que os acidentes ocorrem com igual frequência nos diferentes dia dasemana, considerando α = 5%

68

Page 69: Probabilidade e Estatística(2)

2. O impacto das bombas V-1 na Segunda Guerra Mundial foi avaliado em várias regiões doSul de Londres, onde verificou-se o número de impactos em cada região. Um indíviduoacredita que o número de impactos nas regiões, segue uma distribuição de Poisson e calcu-lou o número esperado de regiões com um determinado número de impactos (frequênciasesperadas). Com base nos resultados apresentados, teste se as frequências observadas seajustam a uma distribuição de Poisson, usando α = 5%.

Número de ataques de bomba 0 1 2 3 4 ou maisNúmero real de regiões 229 211 93 35 8

Número esperado de regiões (Poisson) 227,5 211,4 97,9 30,5 8,7

3. Uma pesquisa realizada para analisar os perigos das profissões foi realizada envolvendo490 pessoas, fornecendo os resultados do quadro abaixo. Verificar se existe dependênciaentre a profissão e a causa da morte, utilizando α = 10%.

Causa da morte Polícia Caixa Taxistas Guardas TotalHomicídio 82 107 70 59 318

Não homicídio 92 9 29 42 172Total 174 116 99 101 490

4. Um estudo foi realizado com 150 pessoas para verificar a preferência pelo tipo de cervejaem relação ao sexo do consumidor. Os resultados foram:

Sexo Light Comum Escura TotalMasculino 20 40 20 80Feminino 30 30 10 70Total 50 70 30 150

Ao nível nominal de significância de 5%, verifique por meio de um teste de independênciase a preferência pelo tipo de cerveja independe do sexo do consumidor.

69

Page 70: Probabilidade e Estatística(2)

10.7 Regressão Linear Simples

10.7.1 Diagrama de dispersão

Antes de realizar a análise de regressão, é comum construir um gráfico bidimensional denominado,diagrama de dispersão, para identificar padrões que possibilitem verificar:

• Se há evidência de correlação entre as variáveis;

• Caso exista correlação, qual é a sua força e direção;

• Possível ajuste de um modelo de regressão aos dados, de maneira a descrever o relacionamentoentre as variáveis.

Cada valor das variáveis X e Y é marcado em função das coordenadas x e y do plano cartesiano.

10.8 Modelo de regressão linear simples

O modelo de regressão linear simples relata o estudo de como a variável dependente y se relacionacom uma variável independente x. O modelo estatístico de uma regressão linear simples é:

yi = β0 + β1xi + εi, (1)

em que:yi é o valor da variável dependente na i-ésima observação;β0 é o primeiro parâmetro da equação de regressão, denominado intercepto ou coeficiente linear, oqual indica o valor de y quando x = 0;β1 é o segundo parâmetro da equação de regressão, chamado coeficiente angular de regressão, queindica a inclinação da reta;xi é o valor especificado da variável independente na i-ésima observação, i = 1,2, · · · , n;εi é o erro não observável associado a i-ésima observação;

• Pressuposições do modelo de regressão

1) A relação entre x e y é linear;

2) Os valores de x são fixos, isto é, x não é uma variável aleatória;

3) A média do erro é zero, isto é, E(εi)= 0, ∀i = 1,2, · · · , n;

4) Para um dado valor de x, a variância do erro εi é sempre constante, isto é, V(εi)= σ2, ∀ i =1,2, · · · ,n. Diz-se, então, que o erro é homocedástico;

5) Cov(εi, εj) = 0, i 6= j;

6) O erro tem distribuição Normal com média zero e variância constante (σ2), isto é, εi ∼ N(0,σ2);

• Estimação dos parâmetros

O objetivo na regressão é determinar estimadores de β0 e β1 de tal forma que as distânciasmédias entre a reta de regressão e os valores observados sejam minimizadas, ou seja, o erro cometidodeve ser o menor possível. A partir do modelo (1) pode-se definir o erro da seguinte forma:

70

Page 71: Probabilidade e Estatística(2)

εi = yi − β0 − β1xi. (2)

O método que será utilizado para determinar os estimadores de β0 e β1 é denominado de Métodode Mínimos Quadrados. Esse método consiste em minimizar a soma de quadrados do erro ou resíduodo modelo (1) ao longo de todos os n pares (xi, yi). A partir da equação (2) pode-se definir a somade quadrados dos resíduos (Q) como:

Q =n∑i=1

ε2i =n∑i=1

(yi − β0 − β1xi)2 (3)

Para obter os estimadores de mínimos quadrados basta derivarmos a expressão (3) em relaçãoaos parâmetros β0 e β1 e posteriormente, igualarmos essas derivadas parciais a zero. Primeiramente,vamos obter as derivadas parciais (Sistema de Equações Normais, SEN):

∂Q∂β0

= −2n∑i=1

(yi − β0 − β1xi)

∂Q∂β1

= −2n∑i=1

(yi − β0 − β1xi)xi

Igualando essas derivadas a zero e substituindo β0 e β1, pelos respectivos estimadores β0 e β1

tem-se:

−2

n∑i=1

(yi − β0 − β1xi) = 0

−2n∑i=1

(yi − β0 − β1xi)xi = 0

n∑i=1

(yi − β0 − β1xi) = 0

n∑i=1

(yi − β0 − β1xi)xi = 0

n∑i=1

yi − nβ0 − β1

n∑i=1

xi = 0

n∑i=1

xiyi − β0

n∑i=1

xi − β1

n∑i=1

x2i = 0

(4)

Isolando β0 na primeira equação de (4) tem-se que:

n∑i=1

yi − nβ0 − β1

n∑i=1

xi = 0

β0 =

n∑i=1

yi

n− β1

n∑i=1

xi

n

Logo, o estimador de mínimos quadrados para β0 será:

β0 = y − β1x. (5)

71

Page 72: Probabilidade e Estatística(2)

Substituindo o resultado (5) na segunda equação de (4), e resolvendo em relação a β1 obtém-se:n∑i=1

xiyi − β0

n∑i=1

xi − β1

n∑i=1

x2i = 0

n∑i=1

xiyi − (y − β1x)

n∑i=1

xi − β1

n∑i=1

x2i = 0

n∑i=1

xiyi −

n∑i=1

yi

n− β1

n∑i=1

xi

n

n∑i=1

xi − β1

n∑i=1

x2i = 0

n∑i=1

xiyi −

n∑i=1

xi

n∑i=1

yi

n+ β1

(n∑i=1

xi

)2

n− β1

n∑i=1

x2i = 0

n∑i=1

xiyi −

n∑i=1

xi

n∑i=1

yi

n= −β1

(n∑i=1

xi

)2

n+ β1

n∑i=1

x2i

n∑i=1

xiyi −

n∑i=1

xi

n∑i=1

yi

n= β1

n∑i=1

x2i −

(n∑i=1

xi

)2

n

β1 =

n∑i=1

xiyi −

n∑i=1

xi

n∑i=1

yi

n

n∑i=1

x2i −

(n∑i=1

xi

)2

n

Logo, o estimador de mínimos quadrados para β1 é:

β1 =

n∑i=1

xiyi −

n∑i=1

xi

n∑i=1

yi

n

n∑i=1

x2i −

(n∑i=1

xi

)2

n

=

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

=SPxy

SQx(6)

Portanto, os estimadores de mínimos quadrados para β0 e β1 são respectivamente:

β0 = y − β1x e β1 =SPxy

SQx,

72

Page 73: Probabilidade e Estatística(2)

em que: x =

n∑i=1

xi

n é a média da variável independente x;

y =

n∑i=1

yi

n é a média da variável dependente y;

SPxy =

n∑i=1

xiyi −

n∑i=1

xi

n∑i=1

yi

né a soma de produtos entre x e y e

SQx =

n∑i=1

x2i −

(n∑i=1

xi

)2

né a soma de quadrados de x.

Substituindo no modelo de regressão apresentado em (1), os parâmetros, β0 e β1, pelos seusrespectivos estimadores, β0 e β1, obtém-se a equação de regressão estimada:

yi = β0 + β1xi, (7)

sendo que y é o estimador de y, e representa para um dado valor de x o valor médio de y.

• Observação:

1. A estimação da variável dependente só pode ser feita dentro da faixa de valores da variávelindependente originalmente amostrada(não há fundamento estatístico assumir que a linhade regressão é apropriada fora destes limites)

• Exemplo:

1. Uma empresa realizou um estudo para determinar qual a função que ligava a distância (km)e o tempo (em dias) de entrega de suas mercadorias, transportadas por caminhão. Foramselecionados aleatoriamente 10 carregamentos recentes para ser analisados, conforme os dadosapresentados a seguir. Com base nestes dados, obtenha a equação de regressão estimada quepossa ser usada para prever o tempo de entrega a partir da hora que o carregamento estádisponível para ser transportado.

Tempo de entrega (y) 3,5 1 4 2 1 3 4,5 1,5 3 5Distância (x) 825 215 1070 550 480 920 1350 325 670 1215

Ao analisar o gráfico de dispersão dos dados acima, pode-se tirar as seguintes conclusões prévias:

• Valores maiores de distância tendem a se relacionar com maiores tempo de entregas de mer-cadorias;

• Relação entre a distância percorrida e o tempo de entrega parece aproximar de um linha reta,ou seja, uma relação linear positiva é indicada entre x e y.

• Informações necessárias:

73

Page 74: Probabilidade e Estatística(2)

n = 10;10∑i=1

xi = 7620;10∑i=1

x2i = 7.104.300;

10∑i=1

yi = 28,5;10∑i=1

xiyi = 26370; x = 762;

y = 2,85

• Cálculo de β0 e β1

β1 =SPxy

SQx=

n∑i=1

xiyi −(n∑i=1

xi)(n∑i=1

yi)

n

n∑i=1

x2i −

(n∑i=1

xi

)2

n

=26370− (7620)(28,5)

10

7.104.300− (7620)2

10

=4653

1297860= 0,00358 ' 0,0036

β0 = y − β1x = 2,85− 0,0035851× 762 = 0,1181

• Equação de regressão linear simples estimadayi = 0,1181 + 0,0036xi

Espera-se que com o aumento de cada unidade de distância percorrida, ocorra um aumentoestimado no tempo médio de entrega das mercadorias de 0,0036 dias.

10.9 Coeficiente de determinação

O coeficiente de determinação nos dá uma medida da eficiência (ou da qualidade) doajuste do modelo, ou seja, indica o quanto da variação de y (variação total) que é “explicada”pelo modelo de regressão ajustado. Portanto, o coeficiente de determinação pode ser utilizadocomo um avaliador do modelo ajustado.

O coeficiente de determinação, denotado por R2, é dado por:

R2 =(SPxy)2

SQxSQy, 0 ≤ R2 ≤ 1,

em que: SPxy =n∑i=1

xiyi −

n∑i=1

xi

n∑i=1

yi

né a soma de produtos entre x e y e

SQx =n∑i=1

x2i −

(n∑i=1

xi

)2

né a soma de quadrados de x;

SQy =n∑i=1

y2i −

(n∑i=1

yi

)2

né a soma de quadrados de y;

• Exemplo:

74

Page 75: Probabilidade e Estatística(2)

1. Utilizando os dados do exemplo da distância e tempo de entrega, pede-se:a) Calcular o coeficiente de determinação e interpretar os resultados obtidos;

R2 =(SPxy)2

SQxSQy=

(4653)2

(1297860)(18,525)= 0,90 = 90%

Interpretação: Podemos concluir que 90% da variância no tempo de espera é estatísti-camente explicada pela distância envolvida. Os 10% restantes da variância permaneceminexplicadas (peso da carga, habilidade do motorista, rodovias, etc.)

b) Estimar o tempo de entrega de uma mercadoria que fica a 750 km de distância;

yi = 0,1181 + 0,0036xi = yi = 0,1181 + (0,0036)(750) = 2,81 ' 3 dias

10.10 Coeficiente de correlação linear de Pearson

O coeficiente de correlação mede o grau de associação linear entre as variáveis x e y, eseu domínio é dado pelo intervalo entre −1 e 1.

O estimador do coeficiente de correlação linear populacional de Pearson (ρ) é o coeficientelinear amostral, denotado por r:

r = sinal deβ1SPxy√

SQx√SQy

, −1 ≤ r ≤ 1,

Se r = 0, tem-se que as variáveis x e y são não correlacionadas linearmente, ou seja,ausência de correlação linear entre x e y. Dessa forma, pode-se dizer que não existem meioslineares acurados (precisos) para realizar previsões de valores de y conhecendo-se os valoresde x, ou vice-versa.

Se r > 0, indica que existe uma relação linear positiva entre x e y, o que significa quehá uma tendência de pequenos valores de x estarem associados a pequenos valores de y evice-versa, isto é, existe uma relação linear diretamente proporcional.

Se r < 0, indica que existe uma relação linear negativa entre x e y, o que significa quehá uma tendência de pequenos valores de x estarem associados a grandes valores de y evice-versa, isto é, existe uma relação linear inversamente proporcional.

• Exemplo

1. No exemplo da distância e do tempo, calcular o coeficiente de correlação.

r = sinal deβ1SPxy√

SQx√SQy

= sinal deβ1

√R2 = +

√0,90 = 0,9489 = 94,89%

Interpretação: O valor positivo da correlação está baseado na observação de que ainclinação de β1 da reta de regressão é positiva, e essa correlação poder ser consideradaforte, pois está próxima de 1, ou seja, a medida que a distância aumenta, o tempo deentrega também aumenta.

75