Aula Microdados PNAD

22
1 UNIVERSIDADE FEDERAL DE VIÇOSA CENTRO DE CIÊNCIAS AGRÁRIAS DEPARTAMENTO DE ECONOMIA RURAL ERU 726 - ECONOMETRIA II 1. o Semestre/2010 Gilnei Costa Santos * AULA PRÁTICA TRATAMENTO E EXTRAÇÃO DOS MICRODADOS DA PNAD 1- Especificidades da Pesquisa Nacional por Amostra de Domicílios (PNAD) 1.1. Conceitos básicos A Pesquisa Nacional por Amostra de Domicílios (PNAD) é fornecida anualmente pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Os microdados das PNADs consistem em dados individuais das principais características socioeconômicas dos indivíduos e famílias, umas de caráter permanente, como as características gerais da população, de educação, trabalho, rendimento e habitação, e outras com periodicidade variável, como as características sobre migração, fecundidade, nupcialidade, saúde, nutrição e outros temas que são incluídos no sistema de acordo com as necessidades de informação para o País (IBGE, 2007). O período de referência das PNADs nos anos noventa e 2000 foi o mês de setembro de cada ano. Além da abrangência temática da PNAD, o tamanho da amostra também consiste em importante fator para garantir a robustez dos resultados, principalmente em termos de inferência estatística. A tabela 1 abaixo exemplifica a amplitude da pesquisa para alguns anos. * Doutorando em Economia Aplicada, Departamento de Economia Rural, Universidade Federal de Viçosa, Viçosa-Minas Gerais. e-mail: [email protected]

description

como usar os microdados da pesquisa nacional de amostragem domiciliar do IBGE

Transcript of Aula Microdados PNAD

  • 1

    UNIVERSIDADE FEDERAL DE VIOSA CENTRO DE CINCIAS AGRRIAS

    DEPARTAMENTO DE ECONOMIA RURAL

    ERU 726 - ECONOMETRIA II 1.o Semestre/2010

    Gilnei Costa Santos*

    AULA PRTICA

    TRATAMENTO E EXTRAO DOS MICRODADOS DA PNAD

    1- Especificidades da Pesquisa Nacional por Amostra de Domiclios (PNAD)

    1.1. Conceitos bsicos

    A Pesquisa Nacional por Amostra de Domiclios (PNAD) fornecida anualmente pelo

    Instituto Brasileiro de Geografia e Estatstica (IBGE). Os microdados das PNADs consistem em

    dados individuais das principais caractersticas socioeconmicas dos indivduos e famlias, umas

    de carter permanente, como as caractersticas gerais da populao, de educao, trabalho,

    rendimento e habitao, e outras com periodicidade varivel, como as caractersticas sobre

    migrao, fecundidade, nupcialidade, sade, nutrio e outros temas que so includos no sistema

    de acordo com as necessidades de informao para o Pas (IBGE, 2007). O perodo de referncia

    das PNADs nos anos noventa e 2000 foi o ms de setembro de cada ano. Alm da abrangncia

    temtica da PNAD, o tamanho da amostra tambm consiste em importante fator para garantir a

    robustez dos resultados, principalmente em termos de inferncia estatstica. A tabela 1 abaixo

    exemplifica a amplitude da pesquisa para alguns anos.

    * Doutorando em Economia Aplicada, Departamento de Economia Rural, Universidade Federal de Viosa, Viosa-Minas Gerais. e-mail: [email protected]

  • 2

    Tabela 1. Caractersticas da amostra, PNAD.

    PNAD Ms de referncia Total de pessoas Total de

    domiclios 1995 Setembro 334.263 102.787 1996 Setembro 331.263 105.059 1997 Setembro 346.269 109.541 1998 Setembro 344.975 112.434 1999 Setembro 352.393 115.654 2001 Setembro 378.837 126.858 2002 Setembro 385.431 129.705 2003 Setembro 384.834 133.255 2004 Setembro 399.354 139.157 2005 Setembro 408.148 142.471 2006 Setembro 410.241 145.547 2007 Setembro 399.964 147.851

    Fonte: PNADs 1995-2007.

    1.2. O plano amostral Diversos so os mtodos de amostragem probabilsticas que podem ser empregados em

    uma determinada pesquisa, de se esperar que a escolha do mtodo esteja condicionada a alguns

    fatores como abrangncia, bem como pelas restries impostas ao instituto de pesquisa ou

    prprio pesquisador, sendo um exemplo o oramento disponvel para realizao da pesquisa,

    entre outros fatores. Segundo Cochran (1977), dentre os mtodos mais utilizados pode-se

    destacar a amostra aleatria simples, a amostragem estratificada e a amostragem por

    conglomerado.

    A Pesquisa Nacional por Amostra de Domiclios (PNAD) adota um plano amostral

    estratificado e conglomerado com um, dois ou trs estgios de seleo, dependendo do estrato

    (Silva et. al., 2002). Em outras palavras isto significa que o desenho amostral da pesquisa no o

    de uma amostra aleatria simples com reposio (AASR) e o tratamento incorreto do plano

    amostral geraria resultados viesados, como por exemplo para varincia, quantis, percentis, testes

    de hipteses e consequentemente para anlise de regresso, entre outros. Apesar destas

    particularidades vrios trabalhos que utilizam a PNAD desconsideram sua forma de amostragem,

    Silva et al. (2002) apresentam justificativa para este erro ao afirmarem que muitas vezes as

    anlises so feitas por pesquisadores que trabalham fora da agncia produtora dos dados e

    frequentemente utilizam para a modelagem pacotes estatsticos que se baseiam em hipteses

  • 3

    vlidas somente quando os dados so obtidos atravs de amostras aleatrias simples com

    reposio (AASR).

    A PNAD na verdade caracteriza-se por ser realizada a partir de um plano amostral

    complexo, uma vez que apresenta caractersticas que a definem como tal, por exemplo:

    estratificao, conglomerao, probabilidades desiguais de seleo em um ou mais estgios e

    calibrao da amostra atravs de pesos amostrais. De acordo com Kneipp e Yarandi (2002), a

    maior parte das pesquisas conduzidas por institutos governamentais no utilizam o mtodo de

    amostra aleatria simples, mas um desenho de amostragem complexa. Uma possvel explicao

    consiste nos limites de custos e as restries de tempo associadas ao montante de dados dos

    indivduos em todo territrio nacional. Esta justificativa bastante plausvel, para o caso

    brasileiro, uma vez que o territrio nacional abrange uma rea de 8.514.876 Km2, com um total

    de 191.790.900 habitantes (IBGE, 2007).

    1.3. Construo do desenho amostral da PNAD1

    A PNAD estratificada em duas etapas. Inicialmente realiza-se uma estratificao que

    divide o pas em 36 estratos naturais, sendo que vinte e sete correspondem s unidades da

    federao e os nove estratos remanescentes concernem aos municpios das regies

    metropolitanas com sede na capital, so eles (PA, CE, PE, BA, MG, RJ, SP, PR e RS) 2 .

    Nos estratos das regies metropolitanas realizada uma nova estratificao por municpios

    sendo agrupados (conglomerados) em dois estgios, ou seja, as unidades primrias de

    amostragem (UPA) so os setores censitrios e as unidades secundrias de amostragem (USA)

    so os domiclios. Os setores so selecionados utilizando-se uma amostragem sistemtica com

    probabilidade proporcional ao tamanho (PPT), onde o tamanho do setor determinado pelo total

    de domiclios obtido atravs do ltimo censo3.

    1 Esta seo consiste em uma concisa exemplificao da construo do desenho amostral da PNAD e baseada principalmente no trabalho de Silva et al. (2002). 2 Ou seja, regio metropolitana de Belm (PA), regio metropolitana de Fortaleza (CE), regio metropolitana de Recife (PE), Regio metropolitana de Salvador (BA), Regio metropolitana de Belo Horizonte (MG), Regio metropolitana do Rio de Janeiro (RJ), regio metropolitana de So Paulo (SP), regio metropolitana de Curitiba (PR) e regio metropolitana de Porto Alegre (RS). 3 Para as PNADs da dcada de 1990 o censo de referncia o de 1991 e para os dados do ano 2000 a referncia o censo do ano 2000.

  • 4

    Para os demais 27 estratos4 o agrupamento realizado em trs estgios. As UPAs so agora

    os municpios, as USAs so os setores censitrios e as unidades tercirias de amostragem (UTA)

    so os domiclios. Para estes estratos naturais alguns municpios, conhecidos como auto-

    representativos devido ao tamanho da populao5, so includos com certeza na amostra. Por

    outro lado devem ser considerados tambm os municpios no auto-representativos, com

    probabilidade de incluso proporcional sua populao na poca do ltimo censo demogrfico.

    Os municpios desse grupo so conglomerados em estratos por tamanho e proximidade

    geogrfica, buscando formar estratos com populao total aproximadamente igual.

    Finalizando o processo de seleo da amostra da PNAD, se encontra as unidades

    domiciliares selecionadas a partir do Cadastro de Projetos de Novas Construes, que inclui

    projetos habitacionais com mais de 30 domiclios e que por ventura surgiram aps o ltimo

    censo realizado. Essas novas construes so estratificadas por municpios, sendo que nesses

    estratos o plano amostral conglomerado em um estgio, sendo a unidade primria de

    amostragem os prprios domiclios, e a seleo realizada por meio de amostragem sistemtica

    simples6. A Figura 1 abaixo apresenta esquematicamente o plano amostral da PNAD.

    4 Estes estratos so determinados a partir dos municpios que fazem parte das regies metropolitanas bem como por municpios situados em unidades da federao sem regio metropolitana. 5 Um municpio dito auto-repesentativo se apresentar populao que seja maior que 80% do tamanho do estrato estabelecido para Unidade da Federao em questo com base no ltimo censo, IBGE (2007). 6 deve-se ressaltar que ao longo de toda a dcada, so mantidos constantes na PNAD os setores selecionados nos municpios das regies metropolitanas, auto-representativos e no auto-representativos no incio da dcada.

  • 5

    Figura 1. Construo do plano amostral da PNAD. Fonte: Silva et al. (2002).

    1.4. Anlise estatstica em amostras complexas

    Basicamente os estudos realizados com pesquisas como a PNAD, normalmente,

    apresentam dois grupos de anlise descritiva. A primeira diz respeito s anlises de estimativas

    pontuais como mdia, taxas, propores e totais. Estas so influenciadas apenas pelos pesos

    amostrais. Outro grupo de anlise tem como objetivo a estimao de medidas de disperso, como

    varincia e desvio-padro, com intuito de calcular intervalos de confiana e realizar testes de

    hipteses. Contudo em pesquisas com desenho amostral complexo a estimao da varincia

    recebe influncia no apenas dos pesos amostrais, mas tambm e conjuntamente da estratificao

    e conglomerao, sendo assim imprescindvel a considerao do desenho amostral para obter

    estimativas no viciadas das varincias da amostra.

  • 6

    Alguns autores desenvolveram mtodos que possibilitam verificar o impacto da

    incorporao do desenho amostral. Kish (1965) desenvolveu um mtodo para avaliar o impacto

    da incorporao do efeito do plano amostral (EPA) conhecido como DEFF (design-effect). O

    mtodo definido como a razo da varincia obtida considerando o plano amostral e a varincia

    obtida ignorando o plano amostral (isto , a varincia estimada como se a amostra fosse AASC).

    Valores do DEFF afastados de 1 indicam que ignorar o plano amostral na estimao da varincia

    leva a estimativas viesadas e incorretas. Valores grandes (> 1) do DEFF indicam que o estimador

    ingnuo da varincia obtido ignorando o plano amostral complexo leva a subestimar a

    varincia verdadeira do estimador, valores abaixo de um para o DEFF significam que a varincia

    obtida desconsiderando o EPA superestima a verdadeira varincia do estimador, e caso a

    estatstica DEFF seja igual a um no existe diferena entre as estimativas da varincia.

    Outra alternativa a estatstica MEFF (misspecification effect), desenvolvida por Skinner,

    Holt e Smith (1989), que compara a estimativa da varincia do parmetro obtida considerando o

    plano amostral com outra, do mesmo modelo, desconsiderando peso, conglomerado e

    estratificao7.

    Por fim dado que um dos objetivos das anlises a partir dos microdados das PNADs

    consiste em estimar intervalos de confiana para realizao de testes de hipteses e sabendo que

    a PNAD baseada em um processo de amostragem de domiclios com caractersticas que a

    definem como uma amostra complexa sujeita a erros probabilsticos, deve-se definir o mtodo de

    estimao das varincias. Para dados com as caractersticas das PNADs a estimao das

    varincias realizada a partir de duas metodologias: linearizao ou replicao.

    Dentre os mtodos de linearizao, o mtodo de linearizao de Taylor um dos mais

    utilizados. O mtodo consiste em aproximar os estimadores de interesse que so no-lineares por

    estimadores lineares e utiliz-los para obter a varincia. Quanto aos mtodos de replicao um

    dos mais conhecidos o procedimento de bootstraping desenvolvido por Efron (1979), este

    consiste em um processo de computao intensiva, ou seja, demanda vrias horas para a

    computao das estimativas. Sinteticamente o mtodo envolve reamostrar os dados com

    reposio em nmero suficiente de vezes, com o objetivo de gerar uma estimativa emprica da

    distribuio amostral da estatstica. Em outras palavras o procedimento pode ser descrito como

    uma amostragem repetida com reposio feita a partir da prpria amostra em questo, obtendo-se

    7 A anlise do MEFF similar ao DEFF.

  • 7

    a partir da estimativas do erro-padro do estimador, Guimares (2007). Segundo Chernick

    (1999) o mtodo de bootstrap freqentemente usado quando existe grande dificuldade de se

    calcular a estimativa do erro padro de um estimador. Outro mtodo de replicao que pode ser

    empregado diz respeito replicao de Jackknife (Jackknife replication). Segundo Kneipp e

    Yarandi (2002), a estimao da varincia pela replicao de Jackknife preferencialmente

    utilizada quando os dados so divididos primeiramente em vrios grupos. Um grupo pode

    consistir nos dados de um nico PSU ou de um conjunto de PSUs, ademais a replicao de

    Jackknife no requer estratificao explcita.

    No entanto como destaca Guimares (2007), uma questo de grande relevncia que os

    dados no podem ter estratos com UPA nica (tambm conhecido como single PSU Primary

    Sample Unit, PSU nico). Com PSU nico no possvel obter as estimativas da varincia, uma

    vez que necessrio se ter variabilidade para calcular a varincia. Em algumas situaes, alm

    de PSU nico deve-se observar a existncia tambm de PSU com observao nica. Para

    solucionar o problema de PSU nico, pode-se agregar as observaes de estratos com PSU nico

    em estrato na mesma UF com maior nmero de observaes8.

    1.5. Restries da Pesquisa Nacional por Amostra de Domiclios

    As PNADs apresentam algumas limitaes que devem ser consideradas. O questionrio

    procura captar tanto os rendimentos em dinheiro como em espcie, mas no considera o valor da

    produo para auto-consumo, que representa componente importante da renda real de pequenos

    agricultores, de acordo com Graziano da Silva e Del Grossi (2001) e Del Grossi e Graziano

    (2002). Ademais, a pesquisa at o ano de 2003 no abrangia a rea rural da regio Norte, no

    permitindo a incluso de uma rea agrcola que, apesar de ser relativamente pequena em termos

    de atividade, no desprezvel.

    A coleta dos dados, por sua vez, tem como base o ms de setembro, no permitindo que

    se capte a variedade das atividades agrcolas no pas ao longo do ano (Corra, 1998). Estes

    fatores tendem a subestimar os resultados para os indivduos ocupados no setor agrcola,

    afetando os resultados das regresses.

    Outra restrio a subdeclarao das rendas, principalmente as mais elevadas. Hoffmann

    e Simo (2005) estimam que no Estado de Minas Gerais para o ano 2000 (Censo) os rendimentos 8 Este mtodo foi utilizado por Guimares (2007).

  • 8

    declarados apresentam subestimao de cerca de 31% do seu valor real. Apesar de estes fatores

    promoverem efeitos sobre os resultados, eles no invalidam a anlise de dados sobre rendimentos

    a partir dos questionrios da PNAD9.

    2. Extrao dos dados da PNAD Diversos so os softwares que podem ser utilizados para extrao dos dados da PNAD,

    como o SPSS, STATA ou SAS, para este ltimo o IBGE fornece o algoritmo para extrao dos

    dados. No presente estudo todos os procedimentos estaro baseados na linguagem utilizada pelo

    software STATA 10.1.

    A PNAD pode ser considerada como uma grande matriz de k variveis por n

    observaes, que disponibilizada em dois arquivos de dados, um para as caractersticas ligadas

    s pessoas e outro para o domiclio.

    Para extrao propriamente dita dos dados alguns passos devem ser seguidos:

    1- Abrir a pasta com o nome Layout que contm os dicionrios da pesquisa, esses

    dicionrios mostram a estrutura de seleo de cada varivel. A seleo determinada pela

    posio inicial e o nmero de colunas:

    9 Mais detalhes sobre as restries das PNADs podem ser encontrados em Hoffmann (1998), Del Grossi e Graziano (2002) e Rocha (2002).

  • 9

    Figura 2. Exemplo do dicionrio da PNAD.

    2- Abrir o software STATA e expandir a memria disponvel para o programa

    set mem 300m, perm

    3- A forma mais simples de importar os dados atravs de um do-file utilizando o

    comando infix.

    Exemplo 1 - Importando algumas variveis do arquivo de pessoas relacionadas renda,

    capacitao do indivduo e outras:

    #delimit;

    infix ano 1-4 uf 5-6 controle 5-12 serie 13-15

    sexo 18-18 idade 27-29 cond_fam 31-31 num_fam 32-32

  • 10

    cor 33-33 edu 668-669 rend_tod 702-713 peso 756-760 if uf==31

    using "D:\GILNEI\PNADS\2007\Dados\PES2007.txt";

    #delimit cr

    Exemplo 2 Importando algumas variveis do arquivo de domiclio:

    clear

    #delimit;

    infix ano 1-4 uf 5-6 controle 5-12 serie 13-15

    probmun 94-105 probsetor 109-120

    strat 159-165 psu 166-172 if uf==31

    using "D:\GILNEI\PNADS\2007\Dados\DOM2007.txt", clear;

    #delimit cr

    4- Existe tambm a possibilidade de extrair os dados atravs das janelas do STATA.

  • 11

    Figura 3. Exemplo da importao de dados via janelas do STATA.

  • 12

    3. Tratamento e anlise dos dados da PNAD

    Conforme visto anteriormente o tratamento correto dos dados da PNAD exige a

    considerao tanto do fator de expanso (peso) quanto do plano amostral. Neste sentido o

    objetivo desta seo oferecer um guia para utilizao correta dos dados da PNAD.

    1- Primeiramente para que seja possvel setar os dados como sendo de amostra

    complexa necessrio unir os arquivos de domiclio e pessoas, o procedimento pode ser

    realizado como se segue:

    *************************************************************

    ***************** PREPARACAO DOS DADOS***********

    *************************************************************

    clear

    cd "D:\GILNEI\trabalhos\tese\ALGORITMOS"

    * LEITURA DAS INFORMACOES DO DESENHO DA AMOSTRA NO ARQUIVO DE

    DOMICILIOS

    clear

    #delimit;

    infix ano 1-4 uf 5-6 controle 5-12 serie 13-15

    probmun 94-105 probsetor 109-120

    strat 159-165 psu 166-172 if uf==31

    using "D:\GILNEI\PNADS\2007\Dados\DOM2007.txt", clear;

    #delimit cr

    *** preciso ordenar os dados antes de proceder com a juno***

    #delimit;

    sort controle serie;

    format controle %15.0g;

    format serie %15.0g;

  • 13

    replace controle = float(controle);

    replace serie = float(serie);

    #delimit cr

    sum

    save "D:\GILNEI\AULAS\2007\domicilio07.dta" , replace ******************************************************************************

    ******************************************************************************

    ******************************************************************************

    ** LEITURA DOS DADOS DAS PESSOAS 2007**

    clear

    set more off

    #delimit;

    infix ano 1-4 uf 5-6 controle 5-12 serie 13-15

    sexo 18-18 idade 27-29 cond_fam 31-31

    cor 33-33 edu 668-669 rend_tod 702-713 peso 756-760 num_fam 32-32 if uf==31

    using "D:\GILNEI\PNADS\2007\Dados\PES2007.txt";

    #delimit cr

    * JUNCAO DAS INFORMACOES DE DESENHO DA AMOSTRA

    * AO ARQUIVO DE PESSOAS DA PNAD 2007

    #delimit ;

    sort controle serie;

    format controle %15.0g;

    format serie %15.0g;

    replace controle = float(controle);

    replace serie = float(serie);

    merge controle serie using "D:\GILNEI\AULAS\2007\domicilio07.dta";

    #delimit cr

    *** So considerados apenas os resultados que coincidem nos dois registros (domiclios e

    pessoas)***

  • 14

    #delimit ;

    keep if _merge == 3;

    drop _merge;

    #delimit cr

    sum

    save "D:\GILNEI\AULAS\2007\pess07.dta", replace

    *************************************************************************************

    2- A declarao da pesquisa como sendo de amostra complexa realizada a partir do comando

    svy.

    2.1. Comandos SVY do Stata

    No Stata, basicamente se encontra dois tipos de comandos: a) Survey design tools (svyset

    e svydes); b) Survey data analysis tools (svyestimation, svypostestimation, svy:tab e estat).

    Inicialmente, necessrio identificar para o Stata as caractersticas do plano amostral com o

    comando svyset, para depois usar o prefixo svy para as estimaes (svy: regress; svy: mlogit;

    svy: tobit...).

    2.1.1. svyset

    No caso de desenho com um estgio:

    svyset psu [weight], options

    Mltiplos Estgios

    svyset psu [weight], options || ssu, options...

    Para reportar a configurao corrente svyset

    Opes

    strata(varname) - varivel identificando os estratos

    fpc(varname) - fator de correo para populao finita.

  • 15

    vce(linearized) estimao de varincia por Linearizao de Taylor (default)

    vce(brr) estimao de varincia por BRR

    vce(jacknife) estimao de varincia por Jacknife

    singleunit (method) estratos com uma unidade amostral: mtodos: missing (default), certainty,

    scaled ou centered.

    Pode-se usar ssu _n para indicar que os indivduos foram selecionados aleatoriamente

    dentro do ltimo estgio amostral.

    2.1.2. svydes

    svydes [varlist], options

    Opes

    single: demonstra apenas os estratos com PSU nico

    finalstage: quando especificado, uma linha produzida para cada unidade amostral. Cada linha

    contm o nmero de observaes para a respectiva unidade amostral.

    2.1.3. estat effects: cria uma tabela com os valores de DEFF, DEFT, MEFF ou MEFT.

    necessrio uma estimativa anterior (mdia, por ex., diferena de mdias, etc.)

    2.1.4. svy estimation

    Para estatstica descritiva, o prefixo svy suporta: mean, proportion, ratio e total. Alguns

    modelos de regresso aceitos: regress, tobit, biprobit, logit, probit, clogit, mlogit/probit,

    ologit/probit, poisson, ivregress, heckman. Exemplos:

    svy: regress [varlist]

    svy: mean [varname]

    svy: heckman [varlist]

    2.1.5. svy postestimation

  • 16

    Pode ser utilizado depois de estimaes com svy, dentre outros, mfx (efeitos

    marginais/elasticidades), predict, estimates, test.

    *************************************************************************************

    ******************************************************************************

    *** DECLARANDO O CONJUNTO DE DADOS COMO SENDO DE AMOSTRA***

    ***COMPLEXA ANO 2007***

    ******************************************************************************

    use "D:\GILNEI\AULAS\2007\pess07.dta", clear

    svyset psu [pweight=peso], strata(strat) vce(linearized) singleunit(missing) || _n

    svydes, single

    save "D:\GILNEI\AULAS\2007\pess07.dta", replace

    * ROTINA DE ALOCACAO DE ESTRATOS COM UM UNICO PSU EM ESTRATOS

    COM MAIOR NUMERO

    * DE OBSERVACOES UTILIZANDO O DO.FILE idonepsu - ANO DE 2007

    use "D:\GILNEI\AULAS\2007\pess07.dta", clear

    set more off

    #delimit;

    idonepsu, strata(strat) psu(psu) generate(new);

    drop strat psu;

    rename newstr strat;

    rename newpsu psu;

    #delimit cr

    svyset psu [pweight=peso], strata(strat) vce(linearized) singleunit(centered) || _n

  • 17

    svydes, single

    save "D:\GILNEI\AULAS\2007\pess07.dta", replace

    Adendo Definio de novos pesos nas PNADs

    Periodicamente o IBGE realiza a recontagem da populao e disponibiliza novos pesos para as

    PNADs de forma a manter a consistncia dos dados. Estes novos pesos devem ser incorporados no

    banco de dados das PNADs.

    *************************************************************************************

    ** INSERINDO OS NOVOS PESOS NO ARQUIVO DE PESSOAS ANO DE 2003*** ************************************************************************************* * LEITURA DO ARQUIVO DE NOVOS PESOS clear #delimit ; infix ano 1-4 controle 5-12 serie 13-15 novopeso 18-22 using "D:\GILNEI\PNADS\2004\Reponderao 2001-2003\pesopes2003.txt"; sort controle serie; #delimit cr save "D:\GILNEI\AULAS\2003\novospesos_2003.dta", replace * JUNCAO DO ARQUIVO PNAD 2003 COM O ARQUIVO DE NOVOS PESOS use "D:\GILNEI\PNADS\2003\pess03.dta" , clear #delimit; format controle %15.0g; format serie %15.0g; replace controle = float(controle); replace serie = float(serie); sort controle serie ; merge controle serie using "D:\GILNEI\PNADS\2003\novospesos_2003.dta"; #delimit cr

  • 18

    #delimit; keep if _merge == 3; drop _merge; #delimit cr replace peso=novopeso save "D:\GILNEI\AULAS\2003\pess03.dta" , replace ************************************************************************* *************************************************************************

    3 Aps toda a preparao dos dados da PNAD, na juno dos dados, substituio dos pesos,

    quando necessrio, e na declarao da pesquisa como sendo uma amostra complexa o prximo passo

    consiste no tratamento das variveis de interesse. O ajustamento de algumas variveis advm da

    necessidade de retirar alguns dados discrepantes, dados no declarados ou apenas pela necessidade de

    transformao das variveis em questo, ou mesmo a criao de novas variveis.

    ****************************************************************************

    *** tratamento das variveis***

    ****************************************************************************

    ***RETIRANDO OUTLIERS DAS VARIVEIS DE RENDA***

    use "D:\GILNEI\AULAS\2007\pess07.dta", clear

    recode rend_tod (1.00e+12/2.29e+12=.) (-1=.)

    ***gerando o logaritmo da renda de todos os trabalho ***

    gen ln_rend_tod = ln(rend_tod)

    ***gerando Dummy p/ sexo****

    **masculino = 1 ; feminino = 0 ***

    recode sexo (2=1) (4=0)

    *************OUTRA FORMA DE CRIAR DUMMY'S E ATRAVES DO COMANDO

  • 19

    *************tab varname, gen(varname)

    **exemplo tab cor, gen(cordu)

    *** retirando valores no declarados na idade***

    recode idade (999=.)

    *** gerando idade ao quadrado*****

    gen idadeq = (idade^2)

    *** excluindo as observaes de anos de estudo sem declarao****

    recode edu (17=.)

    save "D:\GILNEI\AULAS\2007\pess07.dta", replace

    ******************************************************************************

    ***CRIANCA NA FAMILIA***

    ******************************************************************************

    #delimit

    gen crianc=.;

    replace crianc = 1 if cond_fam ==3 & idade

  • 20

    sort fam;

    #delimit cr

    **************************************************************************

    *** criando as regies do pas*****

    *regiao 1 = CENTRO-OESTE

    *regiao 2 = SUDESTE

    *regiao 3 = NORTE

    *regiao 4 = SUL

    *regiao 5 = NORDESTE

    #delimit

    recode uf (99=.);

    gen regiao =.;

    replace regiao = 1 if uf >=50 & uf < 88;

    replace regiao = 2 if uf >=31 & uf =41 & uf

  • 21

    svy: proportion cor; #delimit cr

    ******************************************************************************

    ***ANLISE DE REGRESSO***

    ******************************************************************************

    *Regressao considerando o plano amostral svy: regress rend_tod sexo idade idadeq crianca * Regressao no considerando o plano amostral regress rend_tod sexo idade idadeq crianca *efeito do plano amostral estat effects, deff meff estat effects, deft meft * Efeitos marginais com MFX mfx compute, dydx at(mean)

    4. REFERNCIAS

    COCHRAN, W.G. 1977. Sampling Techniques, 3rd Edition. New York: John Wiley & Sons.

    CORRA, A. M. C. J. 1998. Distribuio de renda e pobreza na agricultura brasileira (1981-

    1990), Editora UNIMEP, Piracicaba. 260 p.

    DEL GROSSI, M. E. and GRAZIANO, J. S. 2002. O uso das PNADs para reas rurais. Rio de

    Janeiro: IPEA, Texto para Discusso 874, Abril de.

    EFRON, B. 1979. Bootstrap methods: another look at the Jackknife. Annals of Statistics, v.7,

    n.1, p. 1-26, Jan.

    Chrystian S. Mendes 23/3/10 22:49Comment [1]: Acredito que no testar.

  • 22

    GRAZIANO DA SILVA, J., DEL GROSSI, E. 2001 O novo rural brasileiro: uma atualizao

    para 1992-98. IE/Unicamp.

    GUIMARES, P. W. 2007. Variao de renda familiar, desigualdade e pobreza no Brasil.

    Tese (doutorado) Universidade Federal de Viosa.

    HOFFMANN. R. and SIMO, R. C. S. 2005. Determinantes do rendimento das pessoas

    ocupadas em Minas Gerais em 2000: o limiar no efeito da escolaridade e as diferenas entre

    mesorregies. Nova Economia, v. 15, n. 2, p. 35-62, maio/ago.

    IBGE, Instituto Brasileiro de Geografia e Estatstica. 2007. Available in

    .

    KISH, L. 1965. Survey Sampling. New York: Wiley.

    KNEIPP, S.M.; Yarandi H.N. 2002. Complex sampling designs and statistical issues, in secondary analysis. West J Nurs Res; 24(5): 552-66.

    PESQUISA NACIONAL POR AMOSTRA DE DOMICLIOS. 2007. Brasil. Rio de Janeiro:

    IBGE, v. 27.

    SILVA, P. L. do N., PESSOA, D. G. C. and LILA, M. F. 2002. Anlise estatstica de dados da

    PNAD: incorporando a estrutura do plano amostral, Cincia Sade Coletiva, vol.7, no.4, p.659-

    670. ISSN 1413-8123.

    SKINNER, C., Holt, D. and Smith, T. 1989. Analysis of Complex Surveys, John Wiley &

    Sons.