Estatística: Revelando o Poder dos Dados Lock5
Seção 3.3
Construção de Intervalosde Confiança Bootstrap
Estatística: Revelando o Poder dos Dados
Sumário
Amostras bootstrap
Distribuição bootstrap
Erro-padrão de uma distribuição bootstrap
Intervalo de confiança de 95% com base em erro-padrão bootstrap
Estatística: Revelando o Poder dos Dados
Intervalos de Confiança
População Amostra
Amostra
Amostra
AmostraAmostraAmostra
. . .
Distribuição Amostral
Erro-Padrão (EP): desvio-padrão da distribuição amostral
Margem de Erro (ME)(95% IC: ME = 2×EP)
estatística ± ME
Calcule estatísticapara cada amostra
Estatística: Revelando o Poder dos Dados
Ideal• Para criar um intervalo plausível de valores
para um parâmetro:o Pegue muitas amostras aleatórias da população e
calcule a estatística da amostra para cadao Calcule o erro-padrão como o desvio-padrão de
todas essas estatísticaso Use estatística 2EP
• Um pequeno problema…
Estatística: Revelando o Poder dos Dados
Realidade
… APENAS TEMOS UMA AMOSTRA!!!!
• Como sabemos o quanto as estatísticas amostrais variam, se temos apenas uma amostra?!?
BOOTSTRAP!
Estatística: Revelando o Poder dos Dados
Amostra: 52/100 laranja
Onde poderia estar o “verdadeiro” p?
UMA Amostra de Confetes (m&m’s)
ˆ 0.52p
Estatística: Revelando o Poder dos Dados
• Imagine que a “população” seja muitas, muitas copias da amostra original
• (O que você tem que assumir?)
“População”
Estatística: Revelando o Poder dos Dados
“População” de Confetes (m&m’s)
Amostre repetidamentedesta “população”
Estatística: Revelando o Poder dos Dados
• Para simular uma distribuição de amostragem, podemos apenas recolher amostras aleatórias repetidas desta “população” composta de muitas cópias da amostra
• Na prática, não podemos fazer cópias infinitas da amostra…
• … mas podemos fazer isso por amostragem com reposição da amostra que temos (cada unidade pode ser selecionada mais de uma vez)
Amostragem com Reposição
Estatística: Revelando o Poder dos Dados
Amostraoriginal
Uma “população” simulada para fazer amostras
Estatística: Revelando o Poder dos Dados
Amostra Bootstrap: Amostra com
reposição da amostra original, usando o mesmo tamanho de amostra.
Amostra original Amostra Bootstrap
Estatística: Revelando o Poder dos Dados
• Como você pegaria uma amostra bootstrap da sua amostra de m&m’s?
Confetes (m&m’s)
Estatística: Revelando o Poder dos Dados
Sua amostra original possui valores de dados
18, 19, 19, 20, 21
A seguinte é uma possível amostra bootstrap?
18, 19, 20, 21, 22
Amostra Bootstrap
Não. 22 não é um valor da amostra original
Estatística: Revelando o Poder dos Dados
Sua amostra original possui valores de dados
18, 19, 19, 20, 21
A seguinte é uma possível amostra bootstrap?
18, 19, 20, 21
Amostra Bootstrap
Não. Amostras bootstrap deve ter o mesmo tamanho da amostra original
Estatística: Revelando o Poder dos Dados
Sua amostra original possui valores de dados
18, 19, 19, 20, 21
A seguinte é uma possível amostra bootstrap?
18, 18, 19, 20, 21
Amostra Bootstrap
Sim. De mesmo tamanho, pode ser sido obtida por amostragem com reposição
Estatística: Revelando o Poder dos Dados
Bootstrap
Uma amostra bootstrap é uma amostra aleatória tirada com reposição da amostra original, do
mesmo tamanho da amostra original
Uma estatística bootstrap é a estatística calculada de uma amostra bootstrap
Uma distribuição bootstrap é a distribuição de muitas estatísticas bootstrap
Estatística: Revelando o Poder dos Dados
AmostraOriginal
AmostraBootstrap
AmostraBootstrap
AmostraBootstrap
.
.
.
EstatísticaBootstrap
EstatisticaAmostral
EstatísticaBootstrap
EstatísticaBootstrap
.
.
.
DistribuiçãoBootstrap
Estatística: Revelando o Poder dos Dados
Distribuição Bootstraplock5stat.com/statkey/
Estatística: Revelando o Poder dos Dados
“Pull yourself up by your bootstraps”
Porque “bootstrap”?
• Levante-se no ar simplesmente puxando para cima os laços de suas botas
• Metáfora para realização de uma tarefa “impossível” sem ajuda externa
Estatística: Revelando o Poder dos Dados
Distribuição Amostral
População
µ
MAS, na prática, não vemos a "árvore" ou todas as "sementes" -só temos UMA semente
Estatística: Revelando o Poder dos Dados
Distribuição Bootstrap
Bootstrap“População”
O que podemos fazer com apenas uma semente?
Cultive umaNOVA árvore!
ҧ𝑥
Estimar a distribuição e a variabilidade (EP) dos ҧ𝑥’s das amostrasbootstraps
µ
Estatística: Revelando o Poder dos Dados
As estatísticas bootstrap estão para a estatística amostral original
assim como
a estatística amostral original está para o parâmetro da população
Regra de Ouro do Bootstrap
Estatística: Revelando o Poder dos Dados
Centro
•A distribuição amostral é centrada em torno do parâmetro populacional
• A distribuição bootstrap é centrada em torno da estatística da amostra
•Felizmente, não nos importamos com o centro… nos preocupamos com a variabilidade!
Estatística: Revelando o Poder dos Dados
Erro-Padrão
• A variabilidade da estatística bootstrap é semelhante à variabilidade das estatísticas amostrais
• O erro-padrão de uma estatística pode ser estimado usando o desvio-padrão da distribuição bootstrap!
Estatística: Revelando o Poder dos Dados
Intervalos de Confiança Bootstrap
AmostraAmostrabootstrap
Amostrabootstrap
AmostrabootstrapAmostra
bootstrap
Amostrabootstrap . . .
Distribuição Bootstrap
Erro-Padrão (EP): desvio-padrão da distribuição bootstrap
Margem de Erro (ME)(95% IC: ME = 2×EP)
estatística ± ME
Calcule estatísticapara cada amostrabootstrap
Estatística: Revelando o Poder dos Dados
Quanto a Outros Parâmetros?Estime o erro-padrão e/ou um intervalo de confiança para ...
• proporção (𝑝)
• diference nas médias (µ1 − µ2 )
• diference nas proporções (𝑝1 − 𝑝2 )
• Desvio-padrão (𝜎)
• correlação (𝜌)
• ... Gere amostras com reposiçãoCalcule a estatística da amostraRepita...
Estatística: Revelando o Poder dos Dados
• Podemos usar bootstrap para avaliar a incerteza em torno de qualquer estatística amostral!
• Se tivermos dados amostrais, podemos usar o bootstrap para criar um intervalo de confiança de 95% para qualquer parâmetro!
(bem, quase isso…)
A Magia do Bootstrap
Estatística: Revelando o Poder dos Dados
Mustangs Usados
Qual é o preço médio de um carro usado Mustang?
Selecione uma amostra aleatória de n = 25 Mustangs de um website (autotrader.com) e registre o preço (em US $ 1.000) para cada carro.
Estatística: Revelando o Poder dos Dados
Amostra de Mustangs:
Nossa melhor estimativa para o preço médio dos Mustangsusados é de $ 15.980, mas quão exata é essa estimativa?
Price
0 5 10 15 20 25 30 35 40 45
MustangPrice Dot Plot
𝑛 = 25 ҧ𝑥 = 15.98 𝑠 = 11.11
BOOTSTRAP!
Estatística: Revelando o Poder dos Dados
Amostra Original 1. Amostra Bootstrap
2. Calcule o preço médio da amostra bootstrap
3. Repitamuitas vezes!
Estatística: Revelando o Poder dos Dados
Mustangs Usados
95% IC:
𝐸𝑠𝑡𝑎𝑡í𝑠𝑡𝑖𝑐𝑎 ± 2 ∙ 𝐸𝑃
$15.980 ± 2 ∙ $2.178
($11.624; $20.336)
Temos 95% de confiança de que o preço médio de um Mustang usado no autotrader.com esteja entre US $ 11.624 e US $ 20.336.
Estatística: Revelando o Poder dos Dados
Mobilidade em Atlanta
Qual é o tempo médio de deslocamento para trabalhadores na região metropolitana de Atlanta?
Dados: O American Housing Survey (AHS) coletou dados de Atlanta em 2004
Estatística: Revelando o Poder dos Dados
Onde poderia estar o “verdadeiro” μ?
Time
20 40 60 80 100 120 140 160 180
CommuteAtlanta Dot Plot
Amostra Aleatória de 500 Deslocamentos
PODEMOS BOOTSTRAPear PARA DESCOBRIR
Estatística: Revelando o Poder dos Dados
Mobilidade em Atlanta
Intervalo de confiança de 95% para o tempo médio de deslocamento para os atlantes:
29,11 ± 2 × 0,915 27,3 a 30,9
Estatística: Revelando o Poder dos Dados
Qual a porcentagem de americanos que acreditam no aquecimento global?
Uma pesquisa com 2.251 indivíduos selecionados aleatoriamente, realizada em outubro de 2010, descobriu que 1.328 responderam "Sim" à pergunta
“Existe evidência sólida de aquecimento global?”
Forneça e interprete um IC de 95% para a proporção de americanos que acreditam que há evidências sólidas de aquecimento global.
Aquecimento global
Source: “Wide Partisan Divide Over Global Warming”, Pew Research Center, 10/27/10. http://pewresearch.org/pubs/1780/poll-global-warming-scientists-energy-policies-offshore-drilling-tea-party
Estatística: Revelando o Poder dos Dados
Aquecimento globalwww.lock5stat.com/statkey
Temos 95% de certeza de que a verdadeira porcentagem de todos os americanos que acreditam existir evidências sólidas de aquecimento global esteja entre 57% e 61%
0.59 2(0.01)= (0.57, 0.61)
Estatística: Revelando o Poder dos Dados
A crença no aquecimento global difere por partido político?
“Existe evidência sólida de aquecimento global?”
A proporção da amostra que respondeu "sim" foi de 79% entre os democratas e 38% entre os republicanos.(números exatos para cada partido não dada, mas assuma n = 1000 para cada grupo)
Dê um IC 95% para a diferença nas proporções.
Aquecimento global
Fonte: “Wide Partisan Divide Over Global Warming”, Pew Research Center, 10/27/10. http://pewresearch.org/pubs/1780/poll-global-warming-scientists-energy-policies-offshore-drilling-tea-party
Estatística: Revelando o Poder dos Dados
Aquecimento globalwww.lock5stat.com/statkey
Temos 95% de certeza de que a diferença na proporção de democratas e republicanos que acreditam no aquecimento global esteja entre 0,37 e 0,45.
0,41 2(0,02)= (0,37; 0,45)
Estatística: Revelando o Poder dos Dados
Aquecimento global
Com base nos dados que acabamos de analisar, você pode concluir com 95% de certeza que a proporção de pessoas que acreditam no aquecimento global difere por partido político?
Sim. Temos 95% de confiança de que a diferença está entre 0,37 e 0,45 e esse intervalo não inclui o 0 (nenhuma diferença)
Estatística: Revelando o Poder dos Dados
Resumo Para gerar uma distribuição bootstrap, nós:
Gere amostras bootstrap por amostragem com reposição da amostra original, usando o mesmo tamanho de amostra
Calcule a estatística de interesse, uma estatística bootstrap, para cada uma das amostras bootstrap
Colete as estatísticas para muitas amostras bootstrap para formar uma distribuição bootstrap
Se a distribuição bootstrap é simétrica e em forma de sino, um IC 95% pode ser estimado por 𝑒𝑠𝑡𝑎𝑡í𝑠𝑡𝑖𝑐𝑎 ± 2 ∙ 𝐸𝑃, onde EP pode ser estimado como o desvio-padrão de uma distribuição bootstrap
Top Related