5/20/2018 Aulas de Estat stica
1/230
5/20/2018 Aulas de Estat stica
2/230
EMENTA DO CURSO
1.0 PORQUE ESTATSTICA?
2.0 PROBABILIDADE: BINOMIAL E POISSON
3.0 A DISTRIBUIO NORMAL
4.0 INTERVALO DE CONFIANA PARA A MDIA
5.0 ANLISE DE REGRESSO SIMPLES
6.0 ANLISE DE REGRESSO MLTIPLA
7.0 DATA MINING (MINERAO DE DADOS)
8.0 RVORES DE DECISO
5/20/2018 Aulas de Estat stica
3/230
1 0 PORQUE ESTATSTICA?
A estatstica utiliza teorias e distribuies de
probabilidades para entender e descrever a
ocorrncia de eventos, atravs da observao direta
de fenmenos ou atravs da realizao de
experimentos, buscando descrever modelos
matemticos que considerem a aleatoriedade e a
incerteza dos resultados, estimando ou prevendo
fenmenos futuros, conforme o caso.
5/20/2018 Aulas de Estat stica
4/230
Estatstica a cincia que se ocupa de coletar,
organizar, analisar e interpretar dados para que se
tomem decises.
A estatstica a arte de torturar os nmeros at que
eles confessem. E eles sempre confessam.
5/20/2018 Aulas de Estat stica
5/230
5/20/2018 Aulas de Estat stica
6/230
Um dos pontos principais da estatstica a coleta,
anlise e interpretao de dados, bem como tirar
concluses sobre as caractersticas das fontes de
onde estes dados foram retirados, para melhor
compreender as situaes.
5/20/2018 Aulas de Estat stica
7/230
5/20/2018 Aulas de Estat stica
8/230
O escritor H. G. Wells (1866-1945) disse que "no futuro,
o pensamento estatstico ser to necessrio para a
cidadania eficiente como saber ler e escrever."
Pois bem, estamos hoje no futuro de H. G. Wells e de
fato para compreendermos o mundo temos que saber
estatstica
5/20/2018 Aulas de Estat stica
9/230
Leonard Milodnow publicou seu mais recente livro O
Andar do
Bbado
um tratado sobre estatstica e
aleatoriedade, mostrando, atravs de exemplos
divertidos do cotidiano, o poder do acaso em reas da
nossa vida que vo de jogar futebol, conseguir
emprego e receber um diagnstico mdico.
O caso do acertador
aleatrio
da loteria que sonhou 7
dias com o nmero 7 e a 7 X 7 = 48 que estava no
final do nmero vencedor
5/20/2018 Aulas de Estat stica
10/230
1.1 A REGRESSO MDIA
Muitas
vezes elogiei entusiasticamente meus alunos por manobras
areas muito bem executadas, e na vez seguinte sempre se
saram
pior,
disse o instrutor de voo.
E
j gritei com eles por
manobras mal executadas, e geralmente melhoraram na vez
seguinte. No venha me dizer que a recompensa funciona e a
punio no. Minha experincia contradiz essa ideia.
Os outros
instrutores concordaram. Para Kahneman, a experincia deles
parecia genuna. Por outro lado, ele acreditava nos experimentos
com animais que demonstravam que a recompensa funcionava
melhor que a punio. Ele meditou sobre esse aparente
paradoxo. E ento se deu conta: os gritos precediam a melhora,
porm, ao contrrio do que parecia, no a causavam.
5/20/2018 Aulas de Estat stica
11/230
A resposta se encontra num fenmeno chamado
regresso mdia. Isto , em qualquer srie de
eventos aleatrios, h uma grande probabilidade de
que um acontecimento extraordinrio seja seguido,
em virtude puramente do acaso, por um
acontecimento mais corriqueiro.
5/20/2018 Aulas de Estat stica
12/230
5/20/2018 Aulas de Estat stica
13/230
5/20/2018 Aulas de Estat stica
14/230
5/20/2018 Aulas de Estat stica
15/230
1.2 TIPOS DE VARIVEIS E SEUS DADOS GERADOS
Varivel a caracterstica de interesse que medida em cada
elemento da amostra ou populao. Como o nome diz, seus
valores variam de elemento para elemento. As variveis podem
ter valores numricos ou no numricos.
Populao um conjunto de elementos que possuem ao menos
uma caracterstica comum entre si.
5/20/2018 Aulas de Estat stica
16/230
Variveis Quantitativas: so as caractersticas que podem ser medidas em
uma escala quantitativa, ou seja, apresentam valores numricos que
fazem sentido. Podem ser contnuas ou discretas.
Variveis contnuas: caractersticas mensurveis que assumem valores em
uma escala contnua (na reta real), para as quais valores fracionais
fazem sentido. Usualmente devem ser medidas atravs de algum
instrumento. Exemplos: peso (balana), altura (rgua), tempo (relgio),
presso arterial, idade.
Variveis discretas: caractersticas mensurveis que podem assumir
apenas um nmero finito ou infinito contvel de valores e, assim,
somente fazem sentido valores inteiros. Geralmente so o resultado de
contagens. Exemplos: nmero de filhos, nmero de bactrias por litro de
leite, nmero de cigarros fumados por dia.
5/20/2018 Aulas de Estat stica
17/230
Variveis Qualitativas (ou categricas): so as caractersticas que
no possuem valores quantitativos, mas, ao contrrio, so
definidas por vrias categorias, ou seja, representam uma
classificao dos indivduos. Podem ser nominais ou ordinais.
Variveis nominais: no existe ordenao dentre as categorias.
Exemplos: sexo, cor dos olhos, fumante/no fumante,
doente/sadio.
Variveis ordinais: existe uma ordenao entre as categorias.
Exemplos: escolaridade (1o, 2o, 3o graus), estgio da doena
(inicial, intermedirio, terminal), ms de observao (janeiro,
fevereiro,..., dezembro).
5/20/2018 Aulas de Estat stica
18/230
5/20/2018 Aulas de Estat stica
19/230
Entretanto, ao se aplicar tcnicas estatsticas de anlise de dados,
variveis contnuas podem ser representadas por distribuies
contnuas, sendo a distribuio mais comumente utilizada a distribuio
normal (em funo do teorema do limite central).
E no caso das variveis discretas, nominais e ordinais,utilizam-se com mais
frequncia as distribuies de dados discretos, como a distribuio
Binomial e a distribuio de Poisson.
5/20/2018 Aulas de Estat stica
20/230
1.3 QUANTIFICANDO DADOS CONTNUOS
As mtricas mais comuns de quantificao de dados contnuos so
a mdiae o desvio padro.
A mdia d uma medida da posio central dos dados, enquanto
que o desvio padro d uma medida de disperso, isto , o
quanto esses dados esto agrupados ou espalhados em torno
da mdia.
5/20/2018 Aulas de Estat stica
21/230
5/20/2018 Aulas de Estat stica
22/230
Observe a figura a seguir. Considere que os quadrados azuis representam
pesos iguais, distribudos em uma fina rgua de metal.
Agora tente encontrar o ponto de equilbrio dessas rguas. Em que posio
da rgua est o ponto de equilbrio de cada rgua?
5/20/2018 Aulas de Estat stica
23/230
Entretanto, observando esses grupos de dados, podemos facilmente concluir
que eles so diferentes, apesar de todos terem o mesmo valor de mdia. E
essa diferena est relacionada com o espalhamento (ou disperso) dos
dados. Tomando-se como referncia o seu
ponto
de equilbrio
foi
elaborada uma forma de medir essa disperso, atravs do clculo MDIO da
disperso em torno da mdia.
A somatria desses desvios em torno da mdia (elevados ao quadrado) e
posteriormente divididos pelo nmero de dados chamada de varincia.
Ao extrair a raiz quadrada desse resultado, tm-se o desvio padro. O
resumo desses clculos:
5/20/2018 Aulas de Estat stica
24/230
Atravs desses clculos pode-se verificar que o desvio padro pode ser visualizado
como uma mdia dos desvios dos dados em torno do ponto mdio dos dados.
5/20/2018 Aulas de Estat stica
25/230
Tm-se ento a definio dessas 2 medidas de dados contnuos, concebidas de
forma bastante intuitiva, para representar essas caractersticas bsicas de um
determinado grupo de dados contnuos.
5/20/2018 Aulas de Estat stica
26/230
1.4 AMOSTRANDO DADOS CONTNUOS
Uma das principais finalidades de representar dados de forma resumida
poder condensar a informao de uma populao inteira em poucos
valores.
Esse raciocnio deu origem a amostragem, e para tal uma notao
matemtica especfica foi desenvolvida, como mostrada a seguir.
Basicamente utilizam-se caracteres gregos para representar todos os dados
(ou populao) e algarismos romanos para representar a poro de
dados que foi observada desse todo (amostra).
5/20/2018 Aulas de Estat stica
27/230
5/20/2018 Aulas de Estat stica
28/230
1.5 ESTATSTICA DESCRITIVA DE DADOS CONTNUOS
A estatstica descritiva um ramo da estatstica dedicada a aplicao de
vrias tcnicas que objetivam descrever e resumir um conjunto de
dados.
Sua diferena da estatstica inferencial, ou indutiva que a estatstica
descritiva busca organizar e resumir os dados, o que pode ser encarado
como o passo inicial para o entendimento das caractersticas da
populao.
5/20/2018 Aulas de Estat stica
29/230
5/20/2018 Aulas de Estat stica
30/230
Considerando os dados das medidas de espessura de uma pea
apresentados nessa figura, pode-se obter uma estatstica descritiva
completa dos dados.
Como os dados apresentados so contnuos, alm de informaes
referentes a sua posio e disperso, alguns indicadores relacionados
com o formato da distribuio so considerados, como a Curtose e a
Assimetria.
5/20/2018 Aulas de Estat stica
31/230
1.6 EXERCCIOS
Classifique as variveis em qualitativa (nominal ou ordinal) ou quantitativa
(contnua ou discreta):
i. Populao: alunos de uma Universidade.
Varivel: cor dos cabelos (louro, castanho, ruivo, preto)
ii. Populao: funcionrios de uma empresa.
Varivel: escolaridade (E.Fund., E.Mdio, E.Sup., Ps-Grad.)
iii. Populao: peas produzidas por certa mquina.
Varivel: dimetro externo 2mm x 4mm
)
iv. Populao: estao meteorolgica de uma cidade.
Varivel: precipitao pluviomtrica, durante um ano. 250mm x
300mm )
v. Populao: Bolsa de Valores de So Paulo.
Varivel: nmero de aes negociadas. (0,1,2,3,..)
vi. Populao: pregos produzidos por uma mquina.
Varivel: comprimento. 1,5cm x 2,8cm )
vii. Populao: aparelhos produzidos em uma linha de montagem.
Varivel: nmero de defeitos por unidade. (0,1,2,3,..)
5/20/2018 Aulas de Estat stica
32/230
Observe as variveis constantes na planilha abaixo. Em seguida, assinale a alternativa que
identifica as variveis de acordo com sua classificao.
a) grau de instruo, funo, salrio, estado civil, gnero, idade, nmero de filhos, moradia.
b) naturalidade, grau de instruo, funo, salrio, idade, nmero de filhos, moradia.
c) naturalidade, grau de instruo, funo, salrio, estado civil, gnero, idade, moradia.
d) salrio, estado civil, gnero, idade, nmero de filhos, moradia.
e) naturalidade, grau de instruo, funo, estado civil, gnero, moradia.
5/20/2018 Aulas de Estat stica
33/230
Estatstica descritiva:
Em uma Tabela anote a altura de todos os alunos da sala de aula.
Em seguida faa uma Estatstica Descritiva desses dados.
5/20/2018 Aulas de Estat stica
34/230
5/20/2018 Aulas de Estat stica
35/230
5/20/2018 Aulas de Estat stica
36/230
5/20/2018 Aulas de Estat stica
37/230
5/20/2018 Aulas de Estat stica
38/230
2.0 PROBABILIDADE
A histria da teoria das probabilidades se deu juntamente com o inicio dos
jogos de cartas, dados e de roleta. Por essa razo, muitos exemplos de
probabilidade so relacionados e esses tipos de jogos. Os estudos de
probabilidade possibilitam o calculo da chance de ocorrncia de certo
resultado especfico de um
espao
amostral
em um evento chamado
experimentoaleatrio.
Experimento Aleatrio
aquele experimento que, quando repetido em
iguais condies, podem fornecer resultados diferentes (dentro de um
espao amostral), ou seja, so resultados explicados ao acaso.
Espao Amostral
o conjunto de todos os resultados possveis de um
experimento aleatrio.
5/20/2018 Aulas de Estat stica
39/230
2.1 O PROBLEMA DE MONTY HALLA questo a seguir, proposta originalmente por Marilyn Vos Savant, escritora e
colunista da revista Parade estadunidense, que em 9 de setembro de 1990,
talvez tenha se tornado o caso mais conhecido envolvendo sua coluna.
Suponha que voc esteja em um game show, e dada a voc a escolha de trs
portas. Atrs de uma porta est um carro, atrs das outros, cabras. Voc escolhe
uma porta, por exemplo, a No. 3. O anfitrio, que sabe o que est por trs das
portas, abre a porta No. 1, que tem uma cabra. E ele pergunta: Voc quer
escolher a porta No. 2? vantajoso mudar a sua escolha de porta?
5/20/2018 Aulas de Estat stica
40/230
Marilyn Vos Savant respondeu argumentando que a seleo deve ser trocar para a
porta No. 2 porque ela tem 2/3 de chance de sucesso, enquanto a porta No. 3
tem apenas 1/3. Esse clculo utiliza uma forma elementar do cmputo de
probabilidade:
Esta resposta provocou cartas de milhares de leitores, quase todas argumentando
que as portas No. 2 e No. 3 cada um tem uma chance igual de sucesso. Uma
coluna de sequncia reafirmando sua posio serviu apenas para intensificar o
debate e logo se tornou um artigo na primeira pgina do The New York Times.
Entre as fileiras dos argumentos contrrios quase mil PhDs escreveram cartas, e
muitos deles eram professores de matemtica e pareciam especialmente irados.
Um desses, que trabalhava no Instituto de Pesquisa do Exrcito dos Estados
Unidos afirmou:
5/20/2018 Aulas de Estat stica
41/230
Mas o fato que Marilyn estava certa, como pode ser visto no quadro a
seguir.
Considere que o participante sempre escolhe inicialmente a porta 2 e o
apresentador abre uma das outras 2 portas, eliminando-a. A
probabilidade de ganhar maior se fora dotada a estratgia de mudar
de opinio.
Esse acontecimento ilustra muito bem a nossa falta de capacidade de
julgar apropriadamente sobre probabilidades se no houver um
entendimento claro do espao amostral, bem como a estratgia do
experimento realizado.
2 2 EXEMPLO DE ESPAO AMOSTRAL E
5/20/2018 Aulas de Estat stica
42/230
2.2 EXEMPLO DE ESPAO AMOSTRAL EDISTRIBUIO DE PROBABILIDADES
Considere o experimento de lanamento de dados de forma aleatria. Todas os
possveis resultados do lanamento de 1 dado so mostrados na tabela a seguir,
comas suas respectivas probabilidades.
5/20/2018 Aulas de Estat stica
43/230
Considerando que o dado no est viciado, de se esperar que o resultado dos
lanamentos resulte na seguinte distribuio de probabilidades:
5/20/2018 Aulas de Estat stica
44/230
2.3 O CASO DAS PROBABILIDADES METEREOLGICASIke: Contagem Regressiva para o Dia D um filme histrico retratando os 90 dias que
antecederam a Invaso da Normandia em 4 de junho de 1944, durante a Segunda
Guerra Mundial. O filme enfatiza as decises estratgicas e relaes polticas de
Dwight Eisenhower, comandante supremo das foras Aliadas para batalhas europeias.
Destacam-se no filme as relaes com o ento primeiro-ministro ingls Winston Churchill,
com o general americano George S. Patton, com o general britnico Bernard
Montgomery e com o presidente francs Charles de Gaulle. Dwight Ike Eisenhower
interpretado por Tom Selleck e a grande qualidade do filme demonstrar o drama de
um homem com o poder de colocar milhes de vidas em risco, bem como as
dificuldades de organizar diferentes estratgias militares em uma mesma operao.
Apesar de se ter conhecimento que as foras armadas so grandes utilizadores de
estudos estatsticos, pode-se notar neste filme em particular como inmeras
informaes so tratadas com muita seriedade, em funo da seriedade das suas
consequncias.
Destaque especial pode ser dado a cena onde o protagonista pergunta ao responsvel
pelo comunicado de informaes referentes ao clima. Ao ouvir que h a uma
possibilidade metereolgica, Eisenhower retruca que no pode tomar decises
baseadas em possibilidades. Ele enfatiza que sejam reportadas a cada hora as
probabilidades metereolgicas que o permitam decidir sobre o desembarque na
Normandia, fator crucial para o sucesso da misso e da guerra.
Destaque especial pode ser dado a cena onde o protagonista pergunta ao
5/20/2018 Aulas de Estat stica
45/230
responsvel pelo comunicado de informaes referentes ao clima. Ao ouvir que
h a uma possibilidade metrolgica, Eisenhower retruca que no pode tomar
decises baseadas em possibilidades.Ele enfatiza que sejam reportadas a cada
hora as probabilidades metrolgicas que o permitam decidir sobre o
desembarque na Normandia, fator crucial para o sucesso da misso e da guerra.
2 4 QUANTIFICANDO DADOS DISCRETOS E
5/20/2018 Aulas de Estat stica
46/230
2.4 QUANTIFICANDO DADOS DISCRETOS EQUALITATIVOSFrequentemente temos a necessidade de analisar dados oriundos de
situaes onde os dados gerados so discretos ou qualitativos, tambm
chamados de dados categricos, onde sua escala pode ser ordinal,
nominal, ou simplesmente nmeros inteiros.
Dados discretos podem ser representados por quantidades, bem como
taxas, ndices ou probabilidades, que podem ser representadas atravs
de determinadas distribuies.
As distribuies comumente utilizadas para representar dados discretos
so a distribuio Binomial e a distribuio de Poisson.
5/20/2018 Aulas de Estat stica
47/230
2.4.1 A DISTRIBUIO BINOMIAL
A Distribuio Binomial uma distribuio discreta mostrando a probabilidade de um
evento que pode assumir dois valores. (Exemplo: Cara ou coroa de uma moeda,
PASSA/NO PASSA, produtos bons / defeituosos). As seguintes condies devem ser
satisfeitas para que se aplique a distribuio binomial:
1. Experimento Bernoulli - O resultado do experimento pode assumir somente dois valores,
como o lanamento de uma moeda.
2. Igualdade dos Experimentos - Uma srie de experimentos feita sob as mesmas
condies.
3. Independncia dos Experimentos - O resultado de um experimento no influencia nem
influenciado por outros.
4. Igualdade de Probabilidades - A probabilidade do resultado de um experimento a
mesma probabilidade do mesmo resultado em qualquer outro experimento.
5/20/2018 Aulas de Estat stica
48/230
Os parmetros da distribuio Binomial so:
X = Nmero de resultados esperados aps n experimentos.
(x pode assumir os valores 0, 1, 2, 3, ..., n)
n = Nmero de experimentos
p = probabilidade do resultado esperado de cada experimento individualmente
Exemplo:
Suponha que um hospital possui um ndice de absentesmo (faltas dos funcionrios)
de 5%. Qual a probabilidade de que, em uma visita surpresa, o responsvel
pelo hospital encontre presentes todos os funcionrios de um grupo de 10,
escolhidos aleatoriamente?
5/20/2018 Aulas de Estat stica
49/230
n = 10 ; x = 0 ; p = 0,0 5; P(x=0) = ?
Resposta: A probabilidade de se no encontrar nenhum
funcionrio ausente de 59,87%.
5/20/2018 Aulas de Estat stica
50/230
Calculando o valor da probabilidade de outros valores de x temos o resultado
apresentado na tabela a seguir:
De acordo com os valores apresentados acima, o grfico da distribuio de
probabilidades binomial desse evento pode ser observado a seguir.:
5/20/2018 Aulas de Estat stica
51/230
Pode-se notar que, sendo uma distribuio discreta, no h valores
de probabilidade entre os valores inteiros do eixo X.
De forma alternativa, pode-se responder a pergunta:
Qual a probabilidade de, nesse grupo de 10 funcionrios, ao
menos 1 estar ausente?
Nesse caso, procura-se a probabilidade P(x>0), que por ser uma
distribuio discreta, o mesmo valor de P(x>1).
Sendo P(x=0)=0,5987 pode-se encontrar P(x>0) da seguinte forma:
P(x > 0) = 1 P(x=0) = 1 0,5987 = 0,4013 40,13%
Pode-se ento concluir que, ao fazer essa visita surpresa, a probabilidade
de se encontrar algum funcionrio ausente, em uma amostra de 10,
de aproximadamente 40%.
5/20/2018 Aulas de Estat stica
52/230
Em estudos estatsticos, normalmente toma-se decises com base em um
valor de probabilidade igual ou superior a 80%.
Nesse caso, sugere-se que haja um aumento no tamanho da amostra para
uma lista de 32 funcionrios, o que daria o seguinte resultado:
P(x = 0) = 0,1937 P(x > 0) = 0,8063
5/20/2018 Aulas de Estat stica
53/230
2.4.2 A DISTRIBUIO DE POISSON
A Distribuio de Poisson uma distribuio discreta mostrando a
probabilidade de um nmero de ocorrncias de um evento em um
intervalo.
Alguns Exemplos:
Nmero de clientes chegando loja, por hora;
Nmero de acidentes de trnsito, por dia;
Nmero de acertos de passes de um jogador, por partida;
Nmero de falhas em um rolo de papel, por metro;
Nmero de acidentes em uma estrada, por dia.
5/20/2018 Aulas de Estat stica
54/230
A distribuio de Poisson se encaixa em eventos discretos que ocorrem de
forma aleatria
Os parmetros da distribuio de Poisson so:
X = Nmero de resultados por intervalo (x pode assumir os valores 0, 1, 2,
3, ...,
= taxa mdia de ocorrncia por intervalo.
Frmula:
5/20/2018 Aulas de Estat stica
55/230
EXEMPLO:
Esta a histria de um tcnico de um determinado processo. Em mdia
trs chamados de inspeo acontecem por dia. Baseado em um
levantamento anterior dois tcnicos podem atender a esses trs
chamados. Se mais de trs chamados acontecerem em um dia temos
que considerar a opo de aumentar o nmero de tcnicos.
Encontre a probabilidade de que quatro ou mais chamados por dia
aconteam.
5/20/2018 Aulas de Estat stica
56/230
x = 4 chamados
= 3 chamados por dia
P (x4) = ?
Sendo a distribuio de Poisson uma distribuio de dados discretos, a
probabilidade P(X
4) pode ser obtida da seguinte forma:
P(x 4) = 1 [P(x =0) + P(x=1) + P(x=2) + P(x=3)]
Atravs da equao de probabilidade de Poisson, os valores de P(X=0),
P(X=1), P(X=2) e P(X=3) podem ser calculados.:
5/20/2018 Aulas de Estat stica
57/230
Calculando o valor da probabilidade de outros valores de x temos o
resultado apresentado na tabela a seguir:
Tabela 2.2 Probabilidades de x seguindo uma distribuio de
Poisson.
Logo, a probabilidade de 4 ou mais chamados ocorrerem igual a:
P(x 4) = 1 (0,0498 + 0,1494 + 0,2240 + 0,2240) = 0,3528
Ou seja, 35,28%
x 0 1 2 3 4 5 6P(X=x) 0,0498 0,1494 0,224 0,224 0,168 0,1008 0,0504
5/20/2018 Aulas de Estat stica
58/230
O grfico mostrado na figura a seguir representa as probabilidades de
Poisson para os valores de x igual a 0, 1, 2, 3, 4, 5 e 6:
2 5 EXERCCIOS
5/20/2018 Aulas de Estat stica
59/230
2.5 EXERCCIOS
Estudo De Caso Binomial
O seu fornecedor de materiais alega que est cumprindo com as exigncias
contratuais de fornecimento com uma taxa de defeito no maior que
1%. Suponha que durante uma auditoria no seu estoque, voc colha
uma amostra de 20 itens, aleatoriamente. Considerando que a taxa de
defeito 0,01 qual a probabilidade de que voc no encontre nenhum
defeito nessa amostra de 20 itens?
5/20/2018 Aulas de Estat stica
60/230
Estudo De Caso Poisson 01
Tubos de plstico so produzidos com a mdia de um defeito (falha)
a cada 30 metros. Se os tubos so cortados em tiras de 3
metros, qual ser a proporo de tiras que contenham defeito?
5/20/2018 Aulas de Estat stica
61/230
Estudo De Caso Poisson 02
O Problema do Enfermeiro
Em um determinado hospital, os enfermeiros trabalham em turnos de 8
horas na enfermaria.
Se h em mdia, 6 situaes de emergncia por dia, nos pacientes
internados nessa enfermaria, e caso acontea, o enfermeiro fica em
torno de 1 hora atendendo a emergncia.
Quantos enfermeiros so necessrios, em qualquer turno, para que se
tenha no mais que 1% de chance de uma situao de emergncia no
ser atendida?
5/20/2018 Aulas de Estat stica
62/230
5/20/2018 Aulas de Estat stica
63/230
5/20/2018 Aulas de Estat stica
64/230
3.0 A DISTRIBUIO NORMAL
Exemplo: Observamos o peso, em kg, de 1500 pessoas adultas selecionadas ao
acaso em uma populao.
O histograma por densidade o seguinte:
60
45
15
30
5/20/2018 Aulas de Estat stica
65/230
a distribuio dos valores aproximadamente simtrica em torno de 70kg;
A anlise do histograma indica que:
- a maioria dos valores (88 ) encontra-se no intervalo (55 - 85);
- existe uma pequena proporo de valores abaixo de 48kg (1,2 ) e acima de 92kg
(1 ).
Vamos definir a varivel aleatria:
A curva contnua da figura denomina-se curva Normal.
Como se distribuem os valores da varivel aleatria X, isto , qual a distribuio de
probabilidades de X ?
X: peso, em kg, de uma pessoa adulta escolhida ao acaso da populao.
A distribuio normal uma das mais importantes distribuies contnuas de
5/20/2018 Aulas de Estat stica
66/230
probabilidade pois muitos fenmenos aleatrios comportam-se de forma
prxima a essa distribuio.
Exemplos de dados contnuos que obedecem a uma distribuio normal so:
Medies do peso de pes;
Peso de uma poro de carne;
Comprimento de vrios lpis;
Confirmao da real quantidade de suco em uma garrafa;
Tempo de realizao de uma determinada tarefa;
Tempo de resposta de certo exame;
Consumo de gua de certa residncia.
Em todos esses casos, se espera que os valores estejam em torno de um valor
central, mas admite-se certa variabilidade em torno desse valor central.
5/20/2018 Aulas de Estat stica
67/230
Considere o seguinte exemplo:
Dados do consumo de gua, em litros por dia, em uma determinada residncia. Qual
a estimativa mdia de consumo por dia? Qual a faixa de consumo mnimo?
Qual a faixa de consumo mximo?
Para responder essa pergunta, temos que distribuir esses valores em faixas, e para
fazer essa distribuio, vamos utilizar a tcnica de distribuio que se aplica
distribuio normal.
Inicialmente tem-se que saber a quantidade total de dados, nesse caso 50 (n=50).
5/20/2018 Aulas de Estat stica
68/230
Em seguida, encontram-se os valores mximo e mnimo dessa amostra, e a
amplitude, que a diferena do valor mximo pelo valor mnimo. Nesse caso os
valores so:
Mximo = 47 Mnimo = 6 Amplitude = 41
Ento se estima a largura de cada faixa a ser observada utilizando-se da seguinte
equao:
Largura de Faixa = Amplitude / raiz (n)
Neste caso, a largura de cada faixa ser igual a [41/raiz(50)] = 5,80. Esse valor ser
arredondado, por questes prticas, para 6. Nesse caso, tm-se ento as faixas
de dados mostradas a seguir. Contando-se os valores dos dados
correspondentes a cada faixa, utilizando a conveno de incluir os dados nos
limites superiores das faixas, para que no haja contagem duplicada, tm-se os
resultados apresentados na coluna de frequncia observada.
5/20/2018 Aulas de Estat stica
69/230
Nesse exemplo de cmputo dos dados em cada faixa considerando o valor
do limite superior na faixa na prpria faixa, chama-se, em notao
matemtica, de intervalos abertos para o valor inferior da faixa e
intervalos fechados no valor superior da faixa.
Com os dados resumidos da tabela do consumo de gua, pode-se montar
um grfico da distribuio do consumo como apresentado a seguir.
5/20/2018 Aulas de Estat stica
70/230
Pode-se ento estimar que a faixa de consumo mdio entre
18 e 24 litros, que a faixa de consumo mnimo at 6
litros e que a faixa de consumo Mximo entre 42 e
48litros de gua por dia nessa residncia em particular.
5/20/2018 Aulas de Estat stica
71/230
Analisando os dados de consumo de gua atravs de uma estatstica
descritiva, obtm-se os seguintes resultados.
3 1 A DISTRIBUIO NORMAL PADRONIZADA
5/20/2018 Aulas de Estat stica
72/230
3.1 A DISTRIBUIO NORMAL PADRONIZADA
A distribuio Normal Padronizada representa uma distribuio normal
genrica, com mdia no ponto zero ( = 0) e desvio padro unitrio (
=
1).
Essa distribuio utilizada para que se faam estimativas relacionadas s
distribuies de dados coletados, bem como comparaes entre
distribuies diferentes.
A v. a. tem distribuio normal com parmetros e
2
se sua funo
densidade de probabilidade dada por
5/20/2018 Aulas de Estat stica
73/230
Pode ser mostrado que:
1. o valor esperado (mdia) de X ( - < < );
2.
2
a varincia de X (
2
> 0).
Propriedades de
X~ N ;
2
)
E(X) = (mdia ou valor esperado);
Var X) =
2
(e portanto, DP(X) =
);
x= ponto de mximo de f (x);
f x) 0 quando x
- e + so pontos de inflexo de f (x);
a curva Normal simtrica em torno da mdia
.
5/20/2018 Aulas de Estat stica
74/230
Considerando, atravs da estatstica descritiva obtida, os valores da mdia e desvio
padro do consumo de gua como sendo 22,88 e 7,93, respectivamente, as
faixas de + 1 desvio padro, +2 desvio padro e +3 desvio padro so:
5/20/2018 Aulas de Estat stica
75/230
A Distribuio Normal Padronizada dividida em faixas, onde cada faixa
tem o tamanho do desvio padro. Os estudos da distribuio normal
estabeleceram a probabilidade de concentrao de resultados em cada
faixa da distribuio. Essas probabilidades podem ser aplicadas a
quaisquer distribuies de dados contnuos, desde que se verifique que
eles obedecem s caractersticas da distribuio normal.
Tomemos como exemplo os dados de consumo de gua anteriormente
apresentados. Ao observar o grfico da faixa de consumo de gua,
verificamos um formato muito semelhante ao formato da distribuio
normal padronizada. Para ter-se certeza dessa afirmao necessrio
que se faa um teste de hiptese de normalidade, mas vamos
considerar que esse teste j foi feito e que os dados apresentados
obedecem a uma distribuio normal.
5/20/2018 Aulas de Estat stica
76/230
3 2 O TEOREMA DO LIMITE CENTRAL
5/20/2018 Aulas de Estat stica
77/230
3.2 O TEOREMA DO LIMITE CENTRAL
Para muitos estatsticos como o conceito mais importante de toda a teoria
estatstica o teorema do limite central, ligao entre a distribuio
normal e as distribuies de amostragem, considerado como a chave da
estocstica.
O teorema do lime central postula que, para quase todos os tipos de
populao de dados, a distribuio das mdias das amostras pode ser
aproximada por uma distribuio normal, desde que o tamanho das
amostras seja suficientemente grande.
5/20/2018 Aulas de Estat stica
78/230
5/20/2018 Aulas de Estat stica
79/230
Consideremos um exemplo prtico do teorema do limite central a anlise de uma
populao de dados, cujo formato esperado de sua distribuio o de uma
5/20/2018 Aulas de Estat stica
80/230
distribuio uniforme.
Para confirmar isso, vamos realizar alguns lanamentos de dados, digamos 200, em
20 sries de 10 lanamentos. O resultado desses lanamentos pode ser
observado na tabela a seguir.
Computando-se os valores dos resultados iguais a 1, 2, 3, 4, 5 e 6, temos na tabela a
5/20/2018 Aulas de Estat stica
81/230
seguir o resumo das observaes.
Representando graficamente as propores das observaes, pode-se ver que a
distribuio da quantidade dos valores observados se aproxima de uma
distribuio uniforme.
Entretanto, ao avaliar a coluna representando a mdia de cada srie de 10
lanamentos, tem-se o seguinte resultado:
5/20/2018 Aulas de Estat stica
82/230
Desta forma, a distribuio da mdia das 20 sries de 10 lanamentos fica conforme
o grfico da figura a seguir, o que notadamente se encaixa com o formato de
uma distribuio normal.
3 3 O HISTOGRAMA
5/20/2018 Aulas de Estat stica
83/230
3.3 O HISTOGRAMA
Suas aplicaes no se encerram na observao do formato da distribuio. Utiliza-
5/20/2018 Aulas de Estat stica
84/230
se o histograma tambm para se observar algum padro que possa dar um
maior entendimento do processo que originou os dados coletados. Alguns pontos
de observao mais comuns podem ser exemplificados na figura a seguir.
Entretanto, para melhor se observar as caractersticas dos dados representados no
5/20/2018 Aulas de Estat stica
85/230
histograma, um adequado ajuste de escala deve ser feito. Esse ajuste de escala
depende da faixa de valores utilizada para computar as frequncias observadas.
Essas faixas so tambm chamadas de intervalo de classe ou w (do termo ingls
width, que significa largura).
3.4 EXERCCIOS
5/20/2018 Aulas de Estat stica
86/230
1. Altura dos Alunos
Com os dados do Exerccio de Estatstica Descritiva da Aula 01
construa um histograma das alturas dos alunos da sala de aula.
Comente os resultados.
5/20/2018 Aulas de Estat stica
87/230
2. Produo de Leite
Os dados relacionados a seguir, referem-se a produo diria de
leite de vacas da raa Holandesa obtida em duas ordenhas, em
Kg.
Faa a Estatstica Descritiva e o Histograma desses dados. Comente
os resultados.
3. Tanques de leo
5/20/2018 Aulas de Estat stica
88/230
Os dados que seguem (j ordenados) referem-se tonelagem (em milhares
de toneladas) de grandes tanques de leo.
a. Construa uma tabela de frequncias (absolutas, relativas e acumuladas) para
esses dados utilizando sete classes e intervalo constante.
b. Represente graficamente o conjunto de frequncias relativas.
c. Indique no grfico o local aproximado da mediana e da moda.
5/20/2018 Aulas de Estat stica
89/230
5/20/2018 Aulas de Estat stica
90/2304.0 INTERVALO DE CONFIANA PARA A MDIADA POPULAO
5/20/2018 Aulas de Estat stica
91/230
DA POPULAO
Estimar qual a mdia da populao com base na mdia da amostragem
um dos problemas mais comuns na estatstica inferencial. O fato de isso
ser um problema corriqueiro e importante pode ser evidenciado por
alguns dos cenrios apresentados a seguir, onde a obteno do valor
mdio da populao pode ser invivel (por razes de custo ou tempo) ou
at mesmo por ser impossvel.
a) O gerente regional de uma rede de lojas necessita saber qual o tempo mdio de
5/20/2018 Aulas de Estat stica
92/230
permanncia dos clientes nas filas dos caixas aps ter instalado um novo
sistema de cdigo de barras nos produtos.
b) Uma empresa area gostaria de saber qual o tempo mdio de vida dos trens de
pouso das aeronavesde sua frota.
c) Uma empresa preocupada com o nvel de estresse dos seus funcionrios quer
estimar qual a presso sangunea mdiadeles.
d) O departamento de trnsito gostaria de estimar o trfego mdio em um
determinado horrio (em nmero de carros) de um importante cruzamento da
cidade.
e) Um gerente de frota de veculos de uma empresa de transporte coletivo gostaria
de estimar o consumo mdio de gasolina dos nibusde sua frota.
f) Um hospital particular gostaria de estimar a proporo mdia de atrasos nas
cobranasem funo de erros do seu pessoal interno.
g) Uma empresa de software gostaria de estimar o nmero mdio de desvios a cada
1000 linhas de cdigo de programa.
5/20/2018 Aulas de Estat stica
93/230
Vamos ilustrar agora como dados amostrados podem ser utilizados para
estimar a mdia da populao. Consideremos o cenrio do
supermercado apresentado anteriormente. Atravs de uma amostra
aleatria de 36 clientes e do registro do tempo que permaneceram no
caixa do supermercado, temos os dados presentados na tabela a seguir.
Desses dados amostrados ns gostaramos de estimar a mdia da
5/20/2018 Aulas de Estat stica
94/230
populao (), isto , a verdadeira, mas desconhecida, mdia de tempo
de permanncia no caixa de todos os clientes. A mdia da amostra
desses dados = 14 minutos, e certamente pode ser utilizada para
se estimar a mdia . Este tipo de estimativa chamado de estimativa
de ponto, porque um simples nmero utilizado para a estimativa.
Com o conceito de distribuio da mdia das amostras do teorema do
limite central, podemos quantificar o erro associado com a essa
estimativa. Isso pode ser feito atravs do desenvolvimento de um
mtodo chamado de estimativa de intervalo para a mdia da
populao.
O teorema do limite central postula que a distribuio de onde foi obtida a
mdia = 14 minutos umcenrio de uma distribuio normal. Ento,
a mdia da populao est no centro dessa distribuio, apesar de
no sabermos o seu valor
5/20/2018 Aulas de Estat stica
95/230
Dessa forma, intuitivamente foi estabelecida seguinte equao: =
erro
Onde esse erro, depende de algumas consideraes estatsticas. Aps
algum desenvolvimento matemtico com base na distribuio normal
padronizada, tambm chamada de distribuio Z, esse erro foi
estabelecido como sendo:
erro = Z . (
/
)
Onde Z um valor padronizado em funo do nvel de confiana (chamado
na estimativa, o desvio padro e n o tamanho da amostra.
Essa estimativa de erro considera que o desvio padro
da populao
conhecido, entretanto, se o tamanho da amostra n maior ou igual a
30, pode-se utilizar o desvio padro da amostra como estimativa do
desvio padro da populao.
A tabela a seguir mostra os valores de Zmais utilizados para a estimativa
5/20/2018 Aulas de Estat stica
96/230
de intervalo, em funo do nvel de confiana
.
Estimativas de intervalo normalmente utilizam um desses nveis de
confiana para
.Caso seja necessrio um nvel de confiana diferente
desses valores apresentados, deve ser consultada uma tabela
detalhada dos valores
e Z.
Desta forma, considerando os 36 dados de minutos de permanncia dos clientes no
5/20/2018 Aulas de Estat stica
97/230
caixa do supermercado, um valor
de 95% de confiana, e considerando
= 5,0
como o desvio padro conhecido da populao, pode ser feita a seguinte
estimativa de intervalo:
= Z . (
/
)
= 14 1,96 . ( 5,0 /36)
= 14 1,63
Dessa forma, podemos afirmar que a mdia da populao est entre o seguinte
intervalo, com uma probabilidade de 95% = 12,37 < < 15,63
Sabendo que o estabelecimento de uma probabilidade envolve variveis aleatrias,
e um valor desconhecido, no uma varivel, os estatsticos preferem utilizar o
termo
confiana
ao invs de
probabilidade
.
Dessa forma, a declarao que pode ser feita nesse caso :
4.2 INTERVALO DE CONFIANA PARA A MDIADA POPULAO ( DESCONHECIDO)
5/20/2018 Aulas de Estat stica
98/230
DA POPULAO (DESCONHECIDO)
O clculo do intervalo de confiana para a mdia da populao
considerando o desvio padro
da populao desconhecido, difere
ligeiramente da condio anterior, com a substituio da distribuio Z
pela distribuio t-student, conforme mostrado na equao a seguir.
= t (n-1 ,/2) . ( s /)
onde s o desvio padro da amostra, et o valor da distribuio t-student
determinado em funo do grau de liberdade (n-1) e do risco /2)
estabelecido para o teste.
Considerando o mesmo exemplo da seo anterior, o clculo do intervalo de
5/20/2018 Aulas de Estat stica
99/230
confiana fica da seguinte forma:
t (36-1 , 0.05/2) = 2,34 (valor obtido de uma tabela ou software estatstico)
S = 4,2
= 14 2,34 . ( 4,2
/
36)
= 14 1,64
Dessa forma, podemos afirmar que a mdia da populao est entre o seguinte
intervalo, com uma probabilidade de 95%.
12,36 < < 15,64
5/20/2018 Aulas de Estat stica
100/230
4.3 INTERVALO DE CONFIANA PARA APROPORO DA POPULAO
5/20/2018 Aulas de Estat stica
101/230
PROPORO DA POPULAO
Na seo anterior foi apresentada uma estratgia para se determinar
estimativas da mdia de uma populao de dados contnuos. Quando
os dados so discretos h interesse em estimativas da proporo
da
populao, com base na proporo p da amostra, pode-se utilizar a
seguinte equao alternativa.
Onde p a proporo da amostra e n o tamanho da amostra.
Essa equao pode ser utilizada se n for
suficientemente
grande
. Em
termos prticos pode se considerar atravs da verificao se n.p > 5 e
n(1-p) > 5.
Considere o seguinte exemplo.
5/20/2018 Aulas de Estat stica
102/230
Nas proximidades de uma eleio, certa empresa de pesquisa de opinio
entrevistou 2.400 eleitores de forma aleatria e perguntou sobre as
preferncias de voto, sendo computados 42% de inteno de votar no
candidato que estava atualmente no cargo.
Calcule, com um nvel de confiana de 95%, qual o intervalo de confiana
para a verdadeira, mas desconhecida, proporo de votos que esse
candidato pode ter.
5/20/2018 Aulas de Estat stica
103/230
Resposta: Sendo p = 0,42 ; n = 2.400 e Z = 1,96, pode- se calcular
4.4 TESTE DE HIPTESES
5/20/2018 Aulas de Estat stica
104/230
Uma hiptese estatstica uma afirmao sobre algum estado real da natureza que
no completamente compreendido. Alguns exemplos podem ser:
a) A mdia de consumo de combustvel difere em funo do uso do tipo de
combustvel A ou B;
b) O tipo de analgsico determina a quantidade de alvio dor;
c) A probabilidade de morte em acidentes de carro difere, dependendo se os
passageiros utilizam cinto de segurana ou no;
d) A filtragem de elementos txicos melhor se utilizar o mtodo 1 ao invs do
mtodo 2;
e) A variabilidade na espessura da pea depende do tipo de ferramenta utilizada;
f) Estudantes oriundos de regies urbanas tem melhor desempenho na escola que
estudantes oriundos de regies rurais;
g) A fora de compresso de um determinado tipo de concreto est dentro das
especificaes;
h) A qualidade do produto depende do fornecedor de matria prima;
Uma hiptese a ser testada consiste de duas afirmaes complementares sobre um
5/20/2018 Aulas de Estat stica
105/230
estado real da natureza. Por exemplo, para um dado processo de medio de
tempo de resposta de um grupo de alunos, as seguintes hipteses podem ser
estabelecidas:
Ho= O tempo mdio de resposta dos alunos igual a 20 minutos.
H1= O tempo mdio de resposta dos alunosno igual a 20 minutos.
Essas duas afirmaes complementares so definidas como hiptese nula (Ho) e
hiptese alternativa (H1). Como o estado real da natureza raramente
conhecido com 100% de certeza, essas duas afirmaes podem ser
argumentadas e testadas.
Uma analogia ao teste de hipteses pode ser feita com o sistema legal onde um
acusado em julgamento pressuposto inocente at que os acusadores
apresentem evidencias irrefutveis que convenam o contrrio. Nesse exemplo,
as hipteses a serem testadas so:
Ho = O ru inocente.
H1 = O ru culpado.
Independente da concluso do jri, eles nunca realmente tem certeza
5/20/2018 Aulas de Estat stica
106/230
sobre o estado real da natureza. Concluir Ho: O ru inocente no
significa que o ru de fato inocente. Uma concluso Ho simplesmente
significa que no se tem evidencias suficientes para justificar sua
condenao. Por outro lado, concluir H1 no prova que ele culpado,
ao invs disso, implica somente que as evidencias so irrefutveis e d
ao jri certo nvel de confiana em declarar o ru como culpado.
Considerando que os vereditos so dados com menos de 100% de certeza,
h uma probabilidade de erro em qualquer uma das duas concluses.
Considere a tabela a seguir, a probabilidade de cometer um erro Tipo I definida
5/20/2018 Aulas de Estat stica
107/230
como
(0
Top Related