CURSO DE VERÃO 2013LABORATÓRIO EM PLANOS COMPLEXOS DE AMOSTRAGEM
Amostragem por conglomerados em múltiplos estágiosQuestões sobre tamanhos de amostras
Sorteio das unidades de amostragem
Efeito do delineamento na precisão das estimativas
AMOSTRAGEM POR CONGLOMERADOS EM MÚLTIPLOS ESTÁGIOS
AMOSTRA DE CONGLOMERADOS EM MÚLTIPLOS ESTÁGIOS Conglomerados: unidades de amostragem
que contém vários elementos Múltiplos estágios
sorteio de unidades dentro de unidades sorteadas anteriormente
conglomerados sorteados no 1º. Estágio UPA: áreas geográficas pequenas, que cobrem toda a população
Em inquéritos Amostras do país ou de regiões do país ou de
estados UPA município Amostras em municípios UPA setor censitário
SETOR CENSITÁRIO
FRAÇÃO DE AMOSTRAGEMAAS f = n/N = m/M
Amostragem em dois estágios f = f1* f2
Amostragem em três estágios f = f1* f2 * f3
QUESTÕES SOBRE O TAMANHO DA AMOSTRADOIS ESTÁGIOS DE SELEÇÃO
Cálculo de n – número de pessoas - considerando o parâmetro a ser estimado
Definição dos domínios – n para cada domínio
Cálculo de m – número de domicílios
Cálculo do número de setores censitários e de domicílios por setor
OBJETIVO ESTIMAR PREVALÊNCIAS
Parâmetro proporção
Estimador na AAS
N
YP
N
ii
1
n
yp
n
ii
1
TAMANHO DE AMOSTRA PARA PROPORÇÕES
AMOSTRAGEM ALEATÓRIA SIMPLES
2
96,1
)1(
d
PPn
VARIÂNCIA POR ELEMENTO P(1-P)
P 1-P variância por
elemento 0,10 0,90 0,09 0,20 0,80 0,16 0,30 0,70 0,21 0,40 0,60 0,24 0,50 0,50 0,25 0,60 0,40 0,24 0,70 0,30 0,21 0,80 0,20 0,16 0,90 0,10 0,09
ERRO DE AMOSTRAGEM
Semi-amplitude do intervalo de confiança
d d Consequência de que
1,96 indica nível de confiança de 95%
dpdpIC ;:%95
)(96,1;)(96,1:%95 pDPppDPpIC
𝑃ሾȁ�𝑝− 𝑃ȁ�< 1,96 𝐷𝑃(𝑝)ሿ= 0,95
EXEMPLOS
Para estimar a proporção de idosos com HA no município X ISA-Capital 2008 52% d=5% IC:[47%;57%] n=384
Para estimar a proporção de idosos com depressão no município X
ISA-Capital 2008 25% d=5% IC:[20%;30%] n=288
Para estimar a proporção de idosos com rinite no município X ISA-Capital 2008 12% d=5% IC:[7%;17%] ???? n=100
PASSAGEM AAS AMOSTRA COMPLEXA
deffnnc
EFEITO DO DELINEAMENTO
VARIÂNCIAS Amostragem aleatória simples
Amostragem por conglomerados de tamanhos desiguais
x
yr
n
ii
1
𝑣𝑎𝑟ሺ𝑦തሻ= σ(𝑦𝑖 − 𝑦ത)2𝑛(𝑛− 1) n
yy
n
ii
1
𝑣𝑎𝑟ሺ𝑟ሻ= 1𝑥2ሾ𝑣𝑎𝑟ሺ𝑦ሻ+ 𝑣𝑎𝑟ሺ𝑥ሻ− 2𝑟∙𝑐𝑜𝑣(𝑦,𝑥)ሿ
PREVALÊNCIA DE HIPERTENSÃO EM IDOSOSISACAMP-2008. mean ha if dominio==3 ---------------------------------------------------------------------- | Mean Std. Err. [95% Conf. Interval] -----------+---------------------------------------------------------- ha | .5385122 .0127951 .5134143 .56361 ----------------------------------------------------------------------- svy : mean ha if dominio==3 ---------------------------------------------------------------------- | Linearized | Mean Std. Err. [95% Conf. Interval] ------------+-------------------------------------------------------- ha | .5321661 .0170251 .4979529 .5663794 ---------------------------------------------------------------------- . estat effects -------------------------------------------------------- | Linearized | Mean Std. Err. DEFF -----------+-------------------------------------------- ha | .5321661 .0170251 1.76732 ---------------------------------------------------------- 𝑑𝑒𝑓𝑓= ൬
0,01702510,0127951൰2 = 1,77
NO PLANEJAMENTO DE INQUÉRITOS
deff=2
Dependerá da homogeneidade intraclasse da distribuição da amostra pelas unidades
primárias de amostragem
DOMÍNIOS
Cálculo de n deve ser feito para cada domínio.
Domínio – parte da população para a qual estimativas separadas são planejadas (Kish pág.75)
Podem ser definidos por critérios: 1) geográficos 2) demográficos
TAMANHO DE AMOSTRA EM DOMÍNIOS
Tamanho mínimo de amostra n=500 Amostra proporcional
tam.total =n/(menor prop)=500/0,10=5000 Amostras de tamanhos iguais
tam.total=5*n=2500
Região distribuição pop am.proporcional am.tam.iguais
Norte 20% 1000 500
Sul 15% 750 500
Leste 25% 1250 500
Oeste 30% 1500 500
Centro 10% 500 500
Total 100% 5000 2500
INQUÉRITOS TAMANHO DA AMOSTRA DE PESSOAS TAMANHO DA AMOSTRA DE DOMICÍLIOS
Transformação de n m
m número de pessoas a serem sorteadas dividido pela média de pessoas por domicílio na faixa etária de interesse
MNnm/
Mm
Nn
NÃO RESPOSTA
Acréscimo pela taxa de não resposta (máxima a ser tolerada)
Diminui o erro de amostragem das estimativas, mas não o vício causado pela não resposta
TNRnn inicial
1
EXEMPLO
DEFININDO NÚMERO DE SETORES CENSITÁRIOS E DE DOMICÍLIOS POR SETOR
Para um dado m busca-se menor deff
O efeito do delineamento depende: da estratégia elaborada para o processo de
sorteio - número de setores e domicílios por setor da composição interna dos conglomerados -
homogeneidade intra conglomerados
)1(1 bdeff
CORRELAÇÃO INTRACLASSEVariáveis demográfi cas
Pesquisa Variável Estimativa I dosos – MSP Sexo 0,000 I dade 0,008 Variáveis “socio-econômicas”
Pesquisa Local Variável Estimativa I dosos MSP Sabe ler e escrever 0,143 Foi a escola 0,156 I nquérito de Saúde Áreas ESP Anos estudo chefe 0,172 Equipamentos domicílio 0,282 Suicídio Campinas Renda 0,170 PNAD GSP Renda familiar per capita 0,354 Chefes com ensino superior 0,296 PNAD Alagoas Anos de estudo 0,379
Variáveis “de saúde”
Pesquisa Local Variável Estimativa I dosos MSP Hábito de f umar 0,003 Hipertensão 0,016 Auto avaliação saúde 0,034 I nquérito de Saúde Áreas ESP Morbidade (15 dias) 0,040 Uso medicamentos (3 dias) 0,050 Consulta odontológica (12 m.) 0,053 Serviço de saúde utilizado 0,091 Crônicas (20 anos) Câncer 0,007 Hipertensão 0,010 Problemas de coluna 0,020 Enxaqueca 0,024 Osteoporose 0,025 Suicídio Campinas I deação 0,010 Planejamento 0,011 Tentativa 0,022 PNAD-98 RMSP Portador de difi culdades 0,013 Uso de óculos / lente 0,100 PNAD Alagoas Crônicas (15 anos) 0,036 Hipertensão 0,011 Problemas de coluna 0,046
DETERMINAÇÃO DE b
b 5 10 15 20 0,025 1,1 1,23 1,35 1,48 0,05 1,2 1,45 1,7 1,95 0,10 1,4 1,9 2,4 1,9 0,15 1,6 2,35 3,1 2,85 0,20 1,8 2,8 3,8 3,8
TAMANHO ÓTIMO DE B
1
cCb a
ótimo
Ca custo associado ao conglomerado
c custo por elemento
Considerando a razão de custos adotada pelo SEADE (na PCV) 20
ótimob deff
0,05 19 2,0 0,10 13 2,2 0,15 11 2,5 0,20 9 2,6
NÚMERO DE SETORES CENSITÁRIOS
a = n / b
escolher a>=30
SORTEIO NO 1º. ESTÁGIOSORTEIO COM PROBABILIDADE PROPORCIONAL AO TAMANHO Metodologia de eleição da maior parte dos
inquéritos Medidas de tamanho determinam
probabilidade de seleção probabilidades diferentes para as UPAs
Probabilidades de seleção das UPAS combinadas com frações de amostragem adequadas nos estágios seguintes equiprobabilidade
Principal atrativo amostras de tamanhos aproximadamente iguais nas UPAs
FRAÇÃO DE AMOSTRAGEMPRIMEIRO ESTÁGIO
é o tamanho do setor i
M é o número total de domicílios
MMaf i1
iM
ARQUIVO DE SETORES CENSITÁRIOS DO IBGE
ID_ V01 V02 V05SITUAÇÃO TIPO DOMPP
350950205000001 1 0 160350950205000002 1 0 259350950205000003 1 0 230350950205000004 1 0 256350950205000005 1 0 152350950205000006 1 0 168350950205000007 1 0 195350950205000008 1 0 197350950205000009 1 0 249350950205000010 1 0 163350950205000011 1 0 152350950205000012 1 0 112350950205000013 1 0 140350950205000014 1 0 237350950205000015 1 0 226350950205000016 1 0 255350950205000017 1 0 236
SORTEIO NO 1º. ESTÁGIOSORTEIO PPT - PROBABILIDADE PROPORCIONAL AO TAMANHO
1º. passo – soma acumulada
considerando o setor censitário como UPA a cada setor é atribuído um intervalo de
números tamanho do intervalo = número de
domicílios de cada setor
1º. PASSO DO SORTEIO PPTID_ DomPP Acumulado Intervalo Imaginário350950205000001 160 160 1 a 160350950205000002 259 419 161 a 419350950205000003 230 649 420 a 649350950205000004 256 905 650 a 905350950205000005 152 1057 906 a 1057350950205000006 168 1225 1058 a 1225350950205000007 195 1420 1226 a 1420350950205000008 197 1617 1420 a 1617350950205000009 249 1866 1618 a 1866350950205000010 163 2029 1867 a 2029350950205000011 152 2181 2030 a 2181350950205000012 112 2293 2182 a 2293350950205000013 140 2433 2294 a 2433350950205000014 237 2670 2434 a 2670350950205000015 226 2896 2671 a 2896350950205000016 255 3151 2897 a 3151350950205000017 236 3387 3152 a 3387350950205000018 159 3546 3388 a 3546350950205000019 117 3663 3547 a 3663350950205000020 192 3855 3664 a 3855350950205000021 203 4058 3856 a 4058350950205000022 192 4250 4059 a 4250350950205000023 168 4418 4251 a 4418
SORTEIO NO 1º. ESTÁGIOSORTEIO PPT - PROBABILIDADE PROPORCIONAL AO TAMANHO
2º. Passo – Calcula-se o intervalo de amostragem(total de domicílios / número de setores da amostra)
3º. Passo – Sorteia-se um número aleatório dentro do 1º. intervalo (início casual)
4º. Passo – Acumula-se o intervalo de amostragem sucessivamente
Os setores da amostra serão os que tiverem nos seus “intervalos de números” os números sorteados
NO EXEMPLO Total de domicílios: 276080 Total de setores da amostra: 70
Intervalo de amostragem: 276080/70=3944 Início casual entre 1 e 3944: 232 Setor 02 é o primeiro setor sorteado (seu intervalo é
161 a 419)
Outros números sorteados: 232 + 3944 = 4176 (setor 22)
4176 + 3944 = 8120 (setor 44) 8120 + 3944 = 12064 (setor 68)
...
FRAÇÃO DE AMOSTRAGEMSEGUNDO ESTÁGIO
Se Mi é também o número de domicílios encontrado em campo (número atual de domicílios)
Ex: Mi=360 e b=120 f2=1/3 Será incluído na amostra 1 domicílio cada 30
𝑓2 = 𝑏𝑀𝑖
SORTEIO NO 2º. ESTÁGIO SORTEIO DE DOMICÍLIOS Calcula-se o intervalo de amostragem
domicílios do setor / b sendo b o número de domicílios a ser sorteado no setor Sorteia-se um início aleatório no 1o. intervalo
(início casual) Soma-se o intervalo de amostragem
sucessivamente Os números assim identificados correspondem
aos domicílios sorteados
FRAÇÃO DE AMOSTRAGEM GLOBAL
𝑓= 𝑓1 ∗𝑓2
𝑓= 𝑎𝑀𝑖𝑀∗ 𝑏𝑀𝑖 = 𝑎𝑏𝑀= 𝑚𝑀
SE MI NÃO É IGUAL A TAMANHO ATUAL1ª. OPÇÃO Seleção de domicílios com fração fixa (b/Mi)
é o número de domicílios sorteado no setor é o número de domicílios do censo (utilizado no sorteio do 1º. estágio) é o número de domicílios existentes no momento da pesquisa (atual)
𝑏𝑖 = 𝑏𝑀𝑖 ∗𝑀𝑖′
𝑓2 = 𝑏𝑖𝑀𝑖′ = 𝑏𝑀𝑖′𝑀𝑖𝑀𝑖′
𝑀𝑖′ 𝑀𝑖 𝑏𝑖
SE MI NÃO É IGUAL A TAMANHO ATUAL – 1ª. OPÇÃOVantagem Fração de amostragem global é a mesma
para todas as UPAs – amostra equiprobabilística
Desvantagens Sem controle do tamanho final da amostra Número de domicílios nas UPAs podem
variar muito
𝑓= 𝑎𝑀𝑖𝑀∗𝑏𝑀𝑖′𝑀𝑖𝑀𝑖′ = 𝑎𝑏𝑀
1ª OPÇÃO
No exemplo:
Mas tamanho atual é 278
Serão sorteados 46 domicílios que corresponde a 1/6 dos domicílios atualmente existentes.
𝑓2 = 43(278258)278 = 43 × 1,077278 = 46,3278 = 16
𝑓2 = 43258 = 16
SE MI NÃO É IGUAL A TAMANHO ATUAL 2ª. OPÇÃO
Fixar b (o número de domicílios é o mesmo em todos os setores)
Frações de amostragem distintas nos setores ponderação
𝑓2 = 𝑏𝑀𝑖′ 𝑓= 𝑎𝑀𝑖𝑀∗ 𝑏𝑀𝑖′
2ª OPÇÃO
No exemplo:
Mas tamanho atual é 278
Serão sorteados 43 domicílios mas a fração de amostragem nesse setor foi de 6,5
𝑓2 = 43278 = 16,5
𝑓2 = 43258 = 16
PESO DO DELINEAMENTOPESO BÁSICO
Inverso da fração de amostragem
Se amostra equiprobabilística
Se há diferenças entre probabilidades utilizadas no sorteio,
para cada elemento i
𝑤= 1/𝑓
𝑤𝑖 = 1/𝑓𝑖
PESO DO DELINEAMENTO Peso resultante da utilização de diferentes
probabilidades de seleção inverso da fração de amostragem
Causas 1) tamanhos atuais das UPAs diferentes dos
tamanhos utilizados em seu sorteio e sorteio de um número constante de domicílios nos setores
2) sorteio de números de elementos nos estratos ou domínios não proporcionais ao tamanho dos estratos/domínios
AJUSTE DE NÃO RESPOSTA Variável utilizada no ajuste – variável para a
qual há informação também para os não respondentes. Usual – geográficas.
Suposição – em cada categoria da variável de ajuste os respondentes são amostras das pessoas sorteadas – as perdas são ao acaso
Dentro das categorias – amostra de respondentes é inflada para atingir número sorteado
AJUSTE DE PÓS ESTRATIFICAÇÃO
A distribuição da amostra segundo variáveis sóciodemográficas é igualada à distribuição da população
Utilização de dados da população - externos, portanto, à pesquisa.
Top Related