Ralph dos Santos Silva - im.ufrj.brim.ufrj.br/ralph/amostragem/aula_08.pdf · Técnicas de...
-
Upload
truongtuyen -
Category
Documents
-
view
243 -
download
0
Transcript of Ralph dos Santos Silva - im.ufrj.brim.ufrj.br/ralph/amostragem/aula_08.pdf · Técnicas de...
TÉCNICAS DE AMOSTRAGEM
Ralph dos Santos Silva
Departamento de Métodos EstatísticosInstituto de Matemática
Universidade Federal do Rio de Janeiro
Técnicas de Amostragem
Sumário
Informações Auxiliares na Amostragem
Estimador da Razão
Estimador da Razão na Amostragem Estratificada
Técnicas de Amostragem
Informações Auxiliares na Amostragem
Informações Auxiliares na Amostragem
O que são informações auxiliares?I O interesse da amostragem é estimar parâmetros populacionais
relativos à uma (ou mais) determinada variável y .I A unidade i da população está associada a observação (valor) yi da
variável de interesse.I Além da variável y pode-se ter associada à unidade i uma (ou mais)
variável x correlacionada com y , que pode ser usada como variávelauxiliar.
Por que usar?I Para melhorar a precisão das estimativas!
Técnicas de Amostragem
Informações Auxiliares na Amostragem
Onde e quando?I As variáveis auxiliares podem ser usadas na definição do plano
amostral ou na definição dos estimadores.I Já vimos dois usos: estratificação e seleção PPT (ambos na definição
do plano amostral).
Exemplos:I Variável de interesse: número de cabeças de gado.I Auxiliares: área do estabelecimento rural, valor da produção em uma
pesquisa anterior, localização, área de pastagem, etc.
I Variável de interesse: valor do faturamento da empresa.I Auxiliares: pessoal ocupado, ramo de atividade, localização, quantidade
produzida, etc.
Técnicas de Amostragem
Informações Auxiliares na Amostragem
Exemplo real do Censo Demográfico
Desde 1960 o Censo do Brasil tem dois questionários:I BÁSICO (efetivamente um censo), aplicado a todos os domicílios com
poucos quesitos (variáveis): sexo, idade, alfabetização, situação ecaracterísticas básicas do domicílio
I AMOSTRA, aplicado a uma amostra de domicílios (10% nas cidadesgrandes e 20% nas cidades pequenas, no Censo 2000): todas asvariáveis do questionário básico mais outras características dodomicílio, fecundidade, cor ou raça, deficiências, nupcialidade,escolaridade, religião, migração, mão-de-obra e rendimento.
As variáveis do questionário básico são usadas como variáveis auxiliarespara a estimação das variáveis pesquisadas apenas no questionário daamostra.
I Calibração dos pesos amostrais.
Técnicas de Amostragem
Informações Auxiliares na Amostragem
Uso das informações auxiliares:I No plano amostral: estratificação, seleção com PPT.I Na estimação de parâmetros: vamos ver (ou pelo menos começar a
ver):I Estimadores de razão.I Estimadores de regressão.I Estimadores de pós-estratificação.
Técnicas de Amostragem
Estimador da Razão
Definindo uma razão
Definição de razão:I Razão é a relação (quociente) entre duas variáveis de uma população.
Exemplos:I Relação entre os gastos das famílias com saúde e a renda total das
famílias.I Produtividade da terra: razão entre a quantidade de soja colhida e a
área plantada de soja.I Renda per capita: relação entre o PIB de um país e o número de
habitantes.
Não confundir com proporção que é sempre o total de uma contagem deunidades com certa característica, dividido pelo número de unidades dapopulação.
Técnicas de Amostragem
Estimador da Razão
Estimador de uma razão
I Então, uma razão será definida como:
R =YX
=
∑Ni=1 Yi∑Ni=1 Xi
=YX.
Suponha uma AAS.I Um estimador intuitivo para R é a razão na amostra:
r = R =Y
X=
∑ni=1 yi∑ni=1 xi
=yx.
Técnicas de Amostragem
Estimador da Razão
Propriedades do Estimador da Razão
I O estimador r é tendencioso.I Exemplo prático:
I Seja uma população P3 com Y = {2, 1, 4} e X = {4, 2, 5}.I Calculando a razão entre Y e X temos R = 7/11.I Supondo AAS, temos 3 possíveis amostras de tamanho 2 e a distribuição
amostral de r é dada por:
r 1/2 2/3 5/7Pr(r) 1/3 1/3 1/3
I Portanto, E(r) = 79/126 6= R = 7/11.
I Note que os estimadores das médias de y e x são não tendenciosos,porém r é tendencioso.
Técnicas de Amostragem
Estimador da Razão
Propriedades do Estimador da RazãoI O estimador r é consistente:
I Definição: seja Θ um estimador de baseado em uma amostra de tamanhon. O estimador será dito consistente se:
ΘN = θ.
I Logo, r é consistente porque se o calcularmos sobre toda a populaçãoteremos rN = R.
I O estimador r é dito assintoticamente não tendencioso, ou seja: atendenciosidade do estimador tende a zero quando n→ N.
I Pode-se mostrar que:
T (r) = B(r) ' R(N − n)Nn
[S2
x
X2 −
Sxy
XY
]=
R(N − n)Nn
[(CVx)
2 − ρCVx CVy
]I ρ é o coeficiente de correlação de entre as variáveis x e y .I Então, nota-se que T (r)→ 0 quando n→ N.
I Temos que r será não tendencioso se Y = ρSy
SxX .
Técnicas de Amostragem
Estimador da Razão
Propriedades do Estimador da Razão
I Erro quadrático médio de r :
EQM(r) = Var(r) + [T (r)]2 = Var(r)[1 +
[T (r)]2
Var(r)
].
I Logo r será aproximadamente não tendencioso se[T (r)]2
Var(r)' 0.
I Na prática, admitimos[T (r)]2
Var(r)6 0, 01 ou
|T (r)|√Var(r)
6 0, 10.
I Pode-se mostrar queT (r)√Var(r)
= −ρ?√
Var(x)X
, sendo ρ? o coeficiente
de correlação entre r e x .I Como o coeficiente de correlação é no máximo 1 em valor absoluto,
temos que:|T (r)|√Var(r)
6 CV(x).
Técnicas de Amostragem
Estimador da Razão
Propriedades do Estimador da Razão
I Então, para que a tendenciosidade do estimador r seja pequenadevemos ter uma amostra de tamanho n tal que
CV(x) 6 0, 10 ou n0 >
[CVx
0, 10
]2
⇒ n >n0
1 + (n0/N),
sendo CVx o coeficiente de variação populacional da variável auxiliar x .
Exemplo:
Deseja-se estimar a razão entre uma variável y e outra x . Sabe-se por umapesquisa anterior que S2
x é da ordem de 100 e sua média é 5. Qual deve sero tamanho da amostra para que a tendenciosidade da estimativa sejadesprezível, sabendo-se que a população tem 5.000 unidades?
n0 =
[(10/5)
0, 1
]2
= 202 = 400⇒ n >400
1 + (400/5000)= 370, 37.
Técnicas de Amostragem
Estimador da Razão
Variância do Estimador da Razão
I Quando pudermos supor a tendenciosidade de estimação desprezível,
ou seja,|T (r)|√Var(r)
6 0, 10, podemos calcular a variância de r por:
Var(r) ' 1− f
nX2 [S2
y + R2S2x − 2ρRSx Sy ] =
1− f
nX2 ×
1N − 1
N∑i=1
(Yi −RXi)2.
I Se a média de x for conhecida Var(r) pode ser estimada por
v(r) ' 1− f
nX2 [s2
y + r 2s2x −2rsxy ] =
1− f
nX2 ×
1n − 1
n∑i=1
(yi − rxi)2 =
1− f
nX2 s2
r .
Se a média de x for desconhecida, substitui-se X por x na fórmulaacima.
Técnicas de Amostragem
Estimador da Razão
Exemplo:
Seja a população P3 dada na tabela:
Ui Yi Xi
1 3 22 2 33 5 5
I Calcular a razão populacional entre y e x .I Estimar R para todas as AAS possíveis de tamanho 2.I Calcular a tendenciosidade verdadeira e a aproximada para r .I Calcular o EQM verdadeiro e o aproximado para r .I Calcule a variância verdadeira e aproximada para r .
Técnicas de Amostragem
Estimador da Razão
Margem de Erro do Estimador da Razão
I Seja: n0x >
[CVx
0, 1
]2
e n0y >
[CVy
0, 1
]2
.
I Seja: n > máx{
30;n0x
1 + (n0x/N);
n0y
1 + (n0y/N)
}.
I Assim, temos que:r − R√Var(r)
≈ N (0, 1).
I Logo: D(r) = z1−α/2√
Var(r) e Dr (r) = z1−α/2CV(r).
I Estimado por: d(r) = z1−α/2√
v(r) e dr (r) = z1−α/2cv(r).
Técnicas de Amostragem
Estimador da Razão
Estimadores de Razão para Total e Média
Problema (Bolfarine e Bussab):I Deseja-se estimar a quantidade de açúcar que pode ser extraída de um
caminhão de laranja. As unidades populacionais são as laranjas e avariável de interesse y é:
I Yi : quantidade de açúcar na laranja i .
I Acontece que não se conhece o número de laranjas, N, do caminhãopara utilizar o estimador Y = Ny .
I Por outro lado, sabe-se que a quantidade de açúcar está correlacionadacom o tamanho ou peso da laranja. Então, a variável x definida como
I Xi : peso da laranja i .
I Esta pode ser usada como variável auxiliar.I Podemos, então definir a razão ou quantidade média de açúcar por
unidade de peso como R = Y/X , ou seja, a quantidade média deaçúcar por unidade de peso é o total de açúcar pelo peso total da cargade laranja.
I Ou ainda, Y = RX , o total de açúcar é o peso da carga vezes aquantidade média de açúcar por unidade de peso.
Técnicas de Amostragem
Estimador da Razão
I Agora ficou fácil! Basta uma amostra de n laranjas para que possamosestimar R, ou seja, calcular
r =yx, e, consequentemente, YR = rX ,
sendo X o peso total da carga de laranjas!I Portanto, podemos definir um estimador de razão para o total de uma
variável de interesse y a partir de uma variável auxiliar x como:
YR = rX ,
sendoI r é o estimador da razão entre y e x .I X é o total conhecido para a variável auxiliar x .
I Para a média temos:
yR = rX =YR
N.
Técnicas de Amostragem
Estimador da Razão
I As variâncias desses estimadores são dadas por:
Var(YR) = X 2Var(r) e Var(yR) = X2Var(r).
No caso de AAS, tem-se:
S2R ' S2
y + R2S2x − 2RSxy =
1N − 1
N∑i=1
(Yi − RXi)2.
Var(YR) ' N × N − nn
S2R e Var(yR) '
N − nnN
S2R = (1− f )
S2R
n.
I Veja que as fórmulas são parecidas com as dos estimadores naturais daAAS, a menos do S2.
I Pode-se estimar as variâncias desses estimadores por:
v(YR) = X 2v(r) e v(yR) = X2v(r).
I No caso de AAS tem-se:
s2R ' s2
y + r 2s2x − 2rsxy =
1n − 1
n∑i=1
(yi − rxi)2.
v(YR) ' N × N − nn
s2R e v(yR) '
N − nnN
s2R = (1− f )
s2R
n.
Técnicas de Amostragem
Estimador da Razão
Exemplo
Foi feita uma pesquisa por AAS em 100 colégios de uma população formadapor 468 colégios. A tabela mostra os resultados amostrais para as variáveisnúmero de estudantes, y , e número de professores, x , dos colégiospesquisados. Sabe-se que o total de professores para o conjunto de escolasé 15.000.
n∑468
i=1 yi∑468
i=1 y2i
∑468i=1 xi
∑468i=1 x2
i∑468
i=1 yixi
100 44988 36248004 3099 144209 2160390
1. Estimar o total de alunos usando o estimador natural.
2. Estimar o total de alunos usando estimador de razão.
3. Comparar as estimativas das variâncias dos estimadores.
Técnicas de Amostragem
Estimador da Razão
Comparação do estimador de razão com o natural
I Variância do estimador natural do total na AAS:
VarAAS(Y ) = N2 1− fn
S2y .
I Variância do estimador de razão do total:
VarAAS(YR) = N2 1− fn
S2R .
I Então, para que o estimador de razão seja melhor devemos ter:
VarAAS(YR) < VarAAS(Y )⇔ ρ(x , y) >12
CVx
CVy,
utilizando-se o fato que
S2R < S2
y ⇒ S2y + R2S2
x − 2ρ(x , y)RSx Sy < S2y .
Técnicas de Amostragem
Estimador da Razão na Amostragem Estratificada
Estimador da Razão na Amostragem Estratificada
Pode-se definir dois estimadores de razão diferentes para o total (ou média)na Amostragem Estratificada:
I Estimador de razão combinada: YRCI Será baseado nos estimadores estratificados dos totais populacionais de y
e x, ou seja, Yae e Xae;
I Estimador de razão separada: YRSI Será baseado nos estimadores dos totais de x e y dentro de cada um dos
estratos, ou seja, nos Yh e Xh.
Vamos supor uma Amostra Estratificada com AAS dentro de cada estrato,denotando por AES.
Técnicas de Amostragem
Estimador da Razão na Amostragem Estratificada
Estimador de razão combinada:
YRC =Yae
XaeX =
∑Hh=1 Yh∑Hh=1 Xh
X =yae
xaeX = rRCX .
I Veja que o estimador da razão combinada só depende do conhecimentodo total populacional, X , da variável auxiliar x e não dos totais porestrato.
I O estimador da razão combinada é consistente.I O estimador da razão combinada é tendencioso.I Como vimos no caso de AAS, quando temos AES também podemos ter
a tendenciosidade desprezível, pois pode-se demonstrar que:
|T (YRC)|√Var(YRC)
6 CV(Xae)
I Na prática é usual considerar a tendenciosidade desprezível se:
CV(Xae) = CV(xae) 6 0, 1.
Técnicas de Amostragem
Estimador da Razão na Amostragem Estratificada
I Então, para que a tendenciosidade seja considerada desprezível é bomque se tenha uma estimativa da média (ou total) da variável auxiliar xprecisa.
I Como anteriormente, fixa-se o coeficiente de variação da estimativa damédia de x em, no máximo, 10%.
I Logo, vamos calcular um tamanho de amostra tal que:
n >
1N2
H∑h=1
N2h S2
h(x)ah
0, 01X2 +
1N2
H∑h=1
NhS2h(x),
sendo ah um valor que depende da alocação de amostra utilizada.
Técnicas de Amostragem
Estimador da Razão na Amostragem Estratificada
I Se o tamanho da amostra for suficiente para que a tendenciosidade sejadesprezível, uma fórmula para a variância aproximada será:
Var(YRC) ' N2[Var(yae) + R2Var(xae)− 2RCov(xae, yae)].
I Como temos AAS dentro de cada estrato:
Var(YRC) 'H∑
h=1
Nh(Nh − nh)
nh[S2
h(y) + R2S2h(x)− 2RSh(x , y)],
I Ou ainda,
Var(YRC) 'H∑
h=1
Nh
Nh − 1× Nh − nh
nh
Nh∑j=1
[(Yhj − Y h)− R(Xhj − X h)]2.
Técnicas de Amostragem
Estimador da Razão na Amostragem Estratificada
A variância pode ser estimada por:
v(YRC) 'H∑
h=1
Nh(Nh − nh)
nh[s2
h(y) + r 2RCs2
h(x)− 2rRCsh(x , y)],
sendo
s2h(y) =
1nh − 1
nh∑j=1
(yhj − yh)2
s2h(x) =
1nh − 1
nh∑j=1
(xhj − xh)2
s2h(x , y) =
1nh − 1
nh∑j=1
(xhj − xh)(yhj − yh).
Para a média temos as seguintes fórmulas:
yRC =YRC
N, Var(yRC) =
1N2 Var(YRC), e v(yRC) =
1N2 v(YRC).
Técnicas de Amostragem
Estimador da Razão na Amostragem Estratificada
Exemplo
A tabela mostra informações de todas as fazendas de uma regiãoestratificadas segundo sua área. A variável de interesse, y , é a área complantação de milho e a variável auxiliar, x , é a área total de cada fazenda. Aideia é comparar a precisão de diversos estimadores para uma amostra detamanho 100, sendo 70 fazendas selecionadas no estrato 1.
Estrato Acres Nh Y X S2y S2
x Sxy R1 <160 1580 19,40 82,56 312 2055 494 0,23502 >160 430 51,63 244,85 922 7357 858 0,2109
Total 2010 26,30 117,28 620 7619 1453 0,2243
Técnicas de Amostragem
Estimador da Razão na Amostragem Estratificada
Estimador de razão separada:
YRS =H∑
h=1
YhR =H∑
h=1
yh
xhXh
H∑h=1
rhXh.
I É baseado nos estimadores de razão dos totais de cada estrato.I Para este estimador é preciso conhecer os valores dos totais da variável
auxiliar x para cada um dos estratos.I É um estimador consistente, pois usa um estimador de razão para os
totais dos estratos que, por sua vez, é um estimador consistente.I Quanto à tendenciosidade, é necessário que se tenha tamanhos de
amostras nos estratos, nh, suficientemente grandes para que atendenciosidade de cada YhR seja desprezível.
I Se cada estrato tiver aproximadamente o mesmo nível de tendência,pode-se admitir que a tendenciosidade do estimador do total seja Hvezes a tendenciosidade do estimador dos totais de cada estrato, ouseja: |T (Y RS)|√
Var(Y RS)6√
HCV(X h)
Técnicas de Amostragem
Estimador da Razão na Amostragem Estratificada
I Na prática, pode-se admitir:
|T (Y RS)|√Var(Y RS)
6√
HCV(X h) 6 0, 20.
I A variância aproximada do estimador é dada por:
Var(YRS) 'H∑
h=1
Nh(Nh − nh)
nh[S2
h(y) + R2hS2
h(x)− 2RhSh(x , y)],
I Ou ainda,
Var(YRS) 'H∑
h=1
Nh
Nh − 1× Nh − nh
nh
Nh∑j=1
[(Yhj − Y h)− Rh(Xhj − X h)]2.
I A variância pode ser estimada por:
v(YRS) 'H∑
h=1
Nh(Nh − nh)
nh[s2
h(y) + r 2h s2
h(x)− 2rhsh(x , y)].
Técnicas de Amostragem
Estimador da Razão na Amostragem Estratificada
Comparação dos estimadores de razão combinada e separada
X Os dois estimadores são equivalentes quando Rh = R para todos osestratos (pelo menos aproximadamente).
X Caso exista uma grande diferença entre os Rh será aconselhável o usodo estimador da razão separada.
X Intuitivamente, nestes casos, é preferível usar a razão separada, já queé baseado em informações mais detalhadas da variável auxiliar x .