UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE...
Transcript of UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE...
UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE MEDICINA SOCIAL
ANÁLISE, IMPUTAÇÃO DE DADOS E INTERFACES COMPUTACIONAIS EM ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS
Washington Leite Junger
Tese apresentada como requisito parcial para obtenção do grau de Doutor em Saúde Coletiva, Programa de Pós-graduação em Saúde Coletiva – área de concentração em Epidemiologia, do Instituto de Medicina Social da Universidade do Estado do Rio de Janeiro.
Orientador: Antonio Ponce de Leon
Rio de Janeiro 2008
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
ii
C A T A L O G A Ç Ã O N A F O N T E
U E R J / R E D E S I R I U S / C B C
J95 Junger, Washington Leite. Análise, imputação de dados e interfaces computacionais em estudos de séries temporais
epidemiológicas / Washington Leite Junger. – 2008. 178f.
Orientador: Antonio Ponce de Leon.
Tese (doutorado) – Universidade do Estado do Rio de Janeiro, Instituto de Medicina Social.
1. Análise de séries temporais – Processamento de dados – Teses. 2. Ar – Poluição – Teses. 3. Epidemiologia – Teses. 4. Estatística – Processamento de dados – Teses. I. Ponce de Leon, Antonio. II. Universidade do Estado do Rio de Janeiro. Instituto de Medicina Social. III. Título.
CDU 519.246.8 __________________________________________________________________________________________
iii
Aluno: Washington Leite Junger Título da Tese: ANÁLISE, IMPUTAÇÃO DE DADOS E INTERFACES COMPUTACIONAIS EM ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Aprovada em 01 de abril de 2008. __________________________________ Prof. Antonio Ponce de Leon (orientador) IMS-UERJ __________________________________ Profª. Cláudia Medina Coeli IESC-UFRJ __________________________________ Prof. José Ueleres Braga IMS-UERJ __________________________________ Prof. Michael Eduardo Reichenheim IMS-UERJ __________________________________ Prof. Nelson da Cruz Gouveia FM-USP
iv
Aos meus pais
v
AGRADECIMENTOS
A Antonio Ponce de Leon por ser um grande mentor.
A José Ueleres pela leitura criteriosa da tese.
A Michael Reichenreim pelas conversas sobre Epidemiologia.
A Cristina pelo apoio incondicional.
A minha família por lidar com minha ausência.
Ao CNPq pelo financiamento do doutorado.
A todos que de alguma forma colaboraram para a realização deste trabalho.
vi
A Matemática não mente. Mente quem faz mau uso dela.
A. Einstein
vii
RESUMO
A poluição do ar é um problema de saúde pública em grandes centros urbanos e seus
efeitos são freqüentemente observados na morbidade e mortalidade por doenças respiratórias
e cardiovasculares, câncer de pulmão, diminuição da função respiratória, absenteísmo escolar
e problemas relacionados com a gravidez. Estudos também sugerem que os grupos mais
suscetíveis são as crianças e os idosos.
Esta tese apresenta estudos sobre o efeito da poluição do ar na saúde na saúde na cidade
do Rio de Janeiro e aborda aspectos metodológicos sobre a análise de dados e imputação de
dados faltantes em séries temporais epidemiológicas. A análise de séries temporais foi usada
para estimar o efeito da poluição do ar na mortalidade de pessoas idosas por câncer de pulmão
com dados dos anos 2000 e 2001. Este estudo teve como objetivo avaliar se a poluição do ar
está associada com antecipação de óbitos de pessoas que já fazem parte de uma população de
risco. Outro estudo foi realizado para avaliar o efeito da poluição do ar no baixo peso ao
nascer de nascimentos a termo. O desenho deste estudo foi o de corte transversal usando os
dados disponíveis no ano de 2002. Em ambos os estudos foram estimados efeitos moderados
da poluição do ar.
Aspectos metodológicos dos estudos epidemiológicos da poluição do ar na saúde
também são abordados na tese. Um método para imputação de dados faltantes é proposto e
implementado numa biblioteca para o aplicativo R. A metodologia de imputação é avaliada e
comparada com outros métodos freqüentemente usados para imputação de séries temporais de
concentrações de poluentes atmosféricos por meio de técnicas de simulação. O método
proposto apresentou desempenho superior aos tradicionalmente utilizados. Também é
realizada uma breve revisão da metodologia usada nos estudos de séries temporais sobre os
efeitos da poluição do ar na saúde. Os tópicos abordados na revisão estão implementados
numa biblioteca para a análise de dados de séries temporais epidemiológicas no aplicativo
viii
estatístico R. O uso da biblioteca é exemplificado com dados de internações hospitalares de
crianças por doenças respiratórias no Rio de Janeiro. Os estudos de cunho metodológico
foram desenvolvidos no âmbito do estudo multicêntrico para avaliação dos efeitos da poluição
do ar na América Latina – o Projeto ESCALA.
Palavras-chave: Poluição do ar, Epidemiologia ambiental, Séries temporais, Modelagem
estatística, Estatística computacional
ix
ABSTRACT
Air pollution is a public health problem in major urban areas and its effects are
frequently observed in the morbidity and mortality due respiratory and cardiovascular causes,
lung cancer, decreasing in the respiratory function, school absenteeism, and pregnancy
outcomes.
This thesis presents studies on the effects of air pollution on health in the rio ed
Janeiro city and tackle some methodological issues on data analysis and missing data
imputation in epidemiologic time series. Daily time series were used to estimate the effect of
the air pollution on deaths among the elderly due to lung cancer during 2000 and 2001. The
purpose of the study was to evaluate if air pollution is associated with premature deaths of
people that already are in risk population. Another study was conducted to assess the
relationship between air pollution and low birth weight of singleton full term babies. A cross-
sectional design was used on data available during the year 2002. Moderate effects of the air
pollution were estimated in both studies.
Methodological aspects of epidemiologic studies on air pollution are also approached.
A data imputation method is presented and implemented as library for the statistical package
R. The imputation methodology is evaluated and compared to others often used for data
imputation in time series of air pollutant concentrations, through simulation techniques. The
proposed method has shown best performance compared to those traditionally used.
A brief review on the methodology used in the time series studies on the effects of air
pollution on health is also presented. The issues approached in the review are also
implemented as a library for the analysis of epidemiologic time series in R. The use of the
library is exemplified with the analysis on the data of hospital admissions of children due to
respiratory causes in the city of Rio de Janeiro. The methodological studies were carried out
x
under the umbrella of the multi-city study to assess the effects of air pollution on health in the
Latin America – the ESCALA Project.
Keywords: Environmental epidemiology, Air pollution, Time series, Statistical modeling,
Statistical computing
xi
LISTA DE FIGURAS Figura 3-1 Mortalidade diária por câncer de pulmão durante o período de estudo..................37
Figura 3-2 Riscos relativos e intervalos de confiança para exposição ao CO para defasagens e
acumulados ...............................................................................................................................39
Figura 4-1 Média diária de peso (em gramas) e proporção diária de baixo peso (< 2.500 g) ao
nascer, de recém-nascidos a termo no município do Rio de Janeiro em 2002. A linha suave é
uma spline com 6 graus de liberdade........................................................................................52
Figura 6-1 Número de internações por DAR em crianças e concentrações de PM10 diárias 120
Figura 6-2 Resíduos do modelo suavizados contra a temperatura máxima ...........................123
Figura 6-3 Valores previstos, resíduos contra o tempo, distância de Cook, função de
correlação parcial, periodograma dos resíduos e de quantis dos resíduos contra quantis da
distribuição normal .................................................................................................................125
Figura 6-4 Gráficos da trajetória dos riscos relativos estimados usando defasagens simples (a)
e modelo de defasagem distribuída com um polinômio de grau 2 (b) até 10 dias .................129
xii
LISTA DE TABELAS Tabela 3-1 Estatísticas descritivas das variáveis ambientais e desfechos dia a dia..................37
Tabela 3-2 Riscos relativos e intervalos de confiança para exposição ao CO..........................38
Tabela 4-1 Estatísticas descritivas para peso ao nascer e poluentes atmosféricos no Rio de
Janeiro em 2002........................................................................................................................53
Tabela 4-2 Média e desvio padrão de peso ao nascer, proporção de baixo peso ao nascer e RO
ajustadas para variáveis de controle e categorias de exposição................................................54
Tabela 4-3 RO ajustadas e intervalos de confiança de 95% para baixo peso ao nascer por
intervalos interquartis de exposição em cada trimestre da gestação. .......................................55
Tabela 4-4 RO ajustadas para variação de 10 µg/m³ (exceto CO para o qual foi calculado para
uma variação de 1 µg/m³) na concentração dos poluentes para cada trimestre da gestação. ...56
Tabela 5-1 Medidas sumárias de concentrações de PM10 em 10 estações de São Paulo em
µg/m³. .......................................................................................................................................82
Tabela 5-2 Correlações de Pearson para as concentrações de PM10 entre as estações.............83
Tabela 5-3 Correlações de Pearson das concentrações de PM10 entre as estações estratificadas
por trimestre..............................................................................................................................83
Tabela 5-4 Resumo das simulações com a configuração “dispersas” ......................................90
Tabela 5-5 Indicadores de performance para um único padrão de dados faltantes com
configuração “dispersas” ..........................................................................................................94
Tabela 5-6 Coeficiente e erro-padrão dos modelos de associação com penalização sob MAR
..................................................................................................................................................97
Tabela 6-1: Estatísticas descritivas de DAR em crianças e poluentes....................................120
Tabela 6-2: Coeficientes e riscos relativos para diferentes exposições de PM10, SO2, CO, NO2
e O3. MAv é o indicador de médias móveis. k é igual 10.......................................................126
xiii
LISTA DE ABREVIATURAS AIC – Critério de Informação de Akaike
APHEA – Air Pollution and Health: European Approach
ARIMA – Autoregressive Integrated Moving Average
BPN – Baixo Peso ao Nascer
CETESB – Companhia de Tecnologia de Saneamento Ambiental
CID – Classificação Internacional de Doenças
CIUR – Crescimento Intrauterino Restrito
CO – Monóxido de Carbono
CONAMA – Conselho Nacional do Meio Ambiente
DAR – Doenças do aparelho respiratório
DP – Desvio-padrão
DPOC – Doenças pulmonares obstrutivas crônicas
E(i) – Estação de monitoramento i
EM – Expectation-Maximization
EM-MR – Expectation-Maximization com múltiplos regimes
ENSP – Escola Nacional de Saúde Pública
EPA – Environment Protection Agency
ESCALA – Estúdios de Salud y Contaminación del Aire em Latinoamérica
EUA – Estados Unidos da América
FEEMA - Fundação Estadual de Engenharia de Meio Ambiente
HAP – Hidrocarbonetos Policíclicos Aromáticos
HEI – Health Effects Institute
IC – Intervalo de confiança
INCA – Instituto Nacional do Câncer
MAD – Desvio médio absoluto
MAG – Modelos Aditivos Generalizados
MAR – Missing at random
MAv – Moving averages
MC – Média condicional
MCAR – Missing completely at random
MD – Mediana
MDDP – Modelo de defasagem distribuiída polinomial
xiv
MI – Média incondicional
MLG – Modelos lineares generalizados
MNAR – Missing non at random
MR – Múltiplos regimes
ND – Não disponível
NMMAPS – National Morbidity and Mortality
NO2 – Dióxidos de Nitrogênio
NOX – Óxidos de Nitrogênio
O3 – Ozônio
OC – Observações completas
OPAS – Organização Panamericana de Saúde
P(n) – Percentil n
PAPA – Public Health and Air Pollution in Asia
PM10 – Material particulado até 10 micra de volume aerodinâmico
PM2,5 – Material particulado até 2,5 micra de volume aerodinâmico
PTS – Partículas Totais em Suspensão
PV – Variância proporcional
RMRJ – Região Metropolitana do Rio de Janeiro
RMSD – Desvio médio quadrático
RO – Razão de odds
RR – Risco relativo
SIM – Sistema de Informação sobre Mortalidade
SINASC – Sistema de Informação sobre Nascidos Vivos
SMAC – Secretaria de Meio Ambiente da Cidade do Rio de Janeiro
SO2 – Dióxidos de Enxofre
SUS – Sistema Único de Saúde
VIGIAR – Vigilância em Saúde Ambiental relacionada com a Qualidade do Ar
VP – Vizinho mais próximo
WHO – World Health Organization
xv
SUMÁRIO 1 INTRODUÇÃO ............................................................................................................................. 17
1.1 Apresentação ............................................................................................................................. 17
1.2 Programa Ares-Rio .................................................................................................................... 18
1.3 Projeto ESCALA....................................................................................................................... 19
1.4 Poluição do ar e efeitos na saúde............................................................................................... 20
1.5 Justificativas .............................................................................................................................. 24
1.5.1 Poluição do ar e mortalidade por câncer de pulmão ........................................................ 24
1.5.2 Poluição do ar e baixo peso ao nascer ............................................................................. 24
1.5.3 Imputação de dados faltantes em séries temporais .......................................................... 25
1.5.4 Análise de séries temporais em epidemiologia ambiental ............................................... 27
2 OBJETIVOS .................................................................................................................................. 29
2.1 Objetivos gerais......................................................................................................................... 29
2.2 Objetivos específicos................................................................................................................. 29
3 ARTIGO 1: Associação entre mortalidade diária por câncer de pulmão e poluição do ar
no município do Rio de Janeiro: um estudo ecológico de séries temporais ............................................ 31
3.1 Introdução.................................................................................................................................. 33
3.2 Material e Métodos.................................................................................................................... 35
3.3 Resultados ................................................................................................................................. 36
3.4 Discussão................................................................................................................................... 39
3.5 Referências ................................................................................................................................ 40
4 ARTIGO 2: Poluição do ar e baixo peso ao nascer no município do Rio de Janeiro, 2002 .......... 43
4.1 Introdução.................................................................................................................................. 46
4.2 Metodologia............................................................................................................................... 48
4.3 Resultados ................................................................................................................................. 51
xvi
4.4 Discussão................................................................................................................................... 57
4.5 Referências ................................................................................................................................ 61
5 ARTIGO 3: Imputação de dados faltantes em séries temporais de poluição atmosférica ............. 65
5.1 Introdução.................................................................................................................................. 68
5.2 Métodos ..................................................................................................................................... 72
5.2.1 Procedimento de imputação............................................................................................. 72
5.2.2 Penalização pela informação perdida............................................................................... 75
5.2.3 Dados ............................................................................................................................... 76
5.2.4 Estudo de simulação ........................................................................................................ 76
5.2.5 Indicadores de performance............................................................................................. 79
5.2.6 Recursos computacionais................................................................................................. 81
5.3 Resultados e discussão .............................................................................................................. 81
5.3.1 Descrição dos dados......................................................................................................... 81
5.3.2 Análise de validade .......................................................................................................... 84
5.3.3 Indicadores de performance............................................................................................. 92
5.3.4 Penalização pela informação perdida............................................................................... 95
5.4 Conclusões................................................................................................................................. 97
5.5 Referências .............................................................................................................................. 101
6 ARTIGO 4: Ares: uma biblioteca em R para análises de séries temporais em estudos
sobre a poluição do ar e efeitos na saúde............................................................................................... 103
6.1 Introdução................................................................................................................................ 105
6.2 Métodos ................................................................................................................................... 107
6.2.1 Pressupostos................................................................................................................... 107
6.2.2 Estimação....................................................................................................................... 109
6.2.3 Diagnósticos................................................................................................................... 111
xvii
6.2.4 Tendência e sazonalidade............................................................................................... 112
6.2.5 Calendário e epidemias .................................................................................................. 114
6.2.6 Fatores meteorológicos .................................................................................................. 115
6.2.7 Efeito dos poluentes....................................................................................................... 116
6.3 Aplicação................................................................................................................................. 118
6.3.1 Dados ............................................................................................................................. 118
6.3.2 Resultados ...................................................................................................................... 119
6.4 Conclusões............................................................................................................................... 130
6.5 Referências .............................................................................................................................. 131
7 CONCLUSÕES ........................................................................................................................... 136
8 REFERÊNCIAS........................................................................................................................... 140
9 APÊNDICES................................................................................................................................ 149
9.1 Apêndice A1: Fluxograma do algoritmo de imputação de dados com componente
temporal ............................................................................................................................................ 150
9.2 Apêndice A2: Fluxograma do estudo de simulação ................................................................ 151
9.3 Apêndice A3: Resumo das simulações com a configuração “esparsa”...................................152
9.4 Apêndice A4: Resumo das simulações com a configuração 3 “em linha”.............................. 153
9.5 Apêndice A5: Resumo das simulações com a configuração 5 “em linha”.............................. 154
9.6 Apêndice A6: Resumo das simulações com a configuração 7 “em linha”.............................. 155
9.7 Apêndice A7: Resumo das simulações com a configuração 3 “em coluna” ........................... 156
9.8 Apêndice A8: Resumo das simulações com a configuração 5 “em coluna” ........................... 157
9.9 Apêndice A9: Resumo das simulações com a configuração 7 “em coluna” ........................... 158
9.10 Apêndice A10: Indicadores de performance para um único padrão de dados
faltantes com a configuração “esparsa” ............................................................................................ 159
9.11 Apêndice A11: Indicadores de performance para um único padrão de dados
xviii
faltantes com a configuração 3 “em linha”....................................................................................... 161
9.12 Apêndice A12: Indicadores de performance para um único padrão de dados
faltantes com a configuração 5 “em linha”....................................................................................... 163
9.13 Apêndice A13: Indicadores de performance para um único padrão de dados
faltantes com a configuração 7 “em linha”....................................................................................... 165
9.14 Apêndice A14: Indicadores de performance para um único padrão de dados
faltantes com a configuração 3 “em coluna” .................................................................................... 167
9.15 Apêndice A15: Indicadores de performance para um único padrão de dados
faltantes com a configuração 5 “em coluna” .................................................................................... 169
9.16 Apêndice A16: Indicadores de performance para um único padrão de dados
faltantes com a configuração 7 “em coluna” .................................................................................... 171
9.17 Apêndice A17: Coeficiente e erro-padrão dos modelos de associação com
penalização sob MCAR .................................................................................................................... 173
9.18 Apêndice A18: Coeficiente e erro-padrão dos modelos de associação com
penalização sob MNAR.................................................................................................................... 174
9.19 Apêndice A19: Script com exemplo de análise usando a biblioteca ares (artigo 3) .......... 175
9.20 Apêndice A20: CD-ROM com o código fonte e arquivos binários das bibliotecas
mtsdi (artigo 3) e ares (artigo 4) ....................................................................................................... 176
17
1 INTRODUÇÃO
1.1 Apresentação
Esta tese de doutorado está inserida no Programa Ares-Rio de investigação dos
efeitos da poluição do ar na cidade do Rio de Janeiro, em desenvolvimento nesta
universidade. Os temas abordados na tese representam perguntas de investigação e questões
metodológicas, relacionadas com os efeitos da poluição do ar na saúde humana, abordadas
pelo programa desde sua criação em 2001. Assim, esta tese descreve a trajetória de pesquisa
do seu autor, que tem atuado no Programa Ares-Rio desde sua criação.
Este trabalho está composto de duas partes que compartilham um tema comum “a
poluição do ar e os efeitos na saúde”. Os artigos 1 e 2 constituem temas de investigação dos
efeitos da poluição do ar em subpopulações específicas da cidade do Rio de Janeiro, com o
objetivo de contribuir para a identificação dos fatores de riscos ambientais relacionados com
os eventos de saúde. Estes artigos já foram publicados nos periódicos científicos Revista
Brasileira de Cancerologia e Cadernos de Saúde Pública, respectivamente. Os artigos 3 e 4
têm caráter metodológico e têm como objetivo contribuir com novas ferramentas para o
desenvolvimento de estudos sobre os efeitos da poluição do ar na saúde. Ênfase é dada aos
estudos de séries temporais epidemiológicas. Apesar de orientados para os estudos dos efeitos
da poluição do ar na saúde, os aspectos metodológicos abordados e desenvolvidos nesta tese
podem ser aplicados em outras áreas da Epidemiologia com pouca ou nenhuma adaptação.
Cada artigo apresentado nesta tese constitui uma unidade individual com vistas à
publicação. Assim, na seção de introdução é realizada uma revisão mais ampla sobre o tema
poluição do ar e efeitos na saúde com ênfase nos métodos epidemiológicos. Na seção de
introdução de cada artigo, o leitor poderá identificar os elementos de revisão bibliográfica
enfatizando o tema abordado no respectivo artigo. O leitor poderá notar ainda que algumas
18
referências bibliográficas são comuns a mais de um artigo.
Este volume está organizado da seguinte forma: o Capítulo 1 contextualiza a tese no
programa de investigação em que foi desenvolvida, apresenta um histórico do método
epidemiológico em estudos sobre poluição doar e efeitos na saúde e apresenta as justificativas
para a realização de cada estudo. Os objetivos de cada estudo estão descritos no Capítulo 2.
Os Capítulos 3 e 4 apresentam os artigos referentes aos estudos epidemiológicos realizados na
cidade do Rio de Janeiro. Os Capítulos 5 e 6 apresentam os artigos referentes aos estudos
metodológicos. Ao final de cada artigo estão listadas as referências bibliográficas do
respectivo artigo e no Capítulo 8 estão listadas todas as referências bibliográficas usadas na
tese. A seção de apêndices, nas páginas finais do volume, inclui tabelas e outros materiais não
publicáveis dos artigos. Os códigos fonte e arquivos binários referentes às bibliotecas
desenvolvidas como parte dos estudos metodológicos estão incluídos em um CD-ROM no
Apêndice A20.
1.2 Programa Ares-Rio
O Programa Ares-Rio tem suas atividades orientadas para o desenvolvimento de
estudos sobre os efeitos da poluição do ar na saúde da população da cidade do Rio de Janeiro.
Entretanto, estudos recentes incluem cidades vizinhas pertencentes à Região Metropolitana do
Rio de Janeiro (RMRJ) e a cidade de Vitória no estado do Espírito Santo, em colaboração com
pesquisadores da Escola Nacional de Saúde Pública (ENSP) da Fiocruz e com o Ministério da
Saúde. O programa Ares-Rio também colabora com pesquisadores de diversas instituições do
Rio de Janeiro, São Paulo e Mato Grosso no estudo de avaliação dos efeitos da queima de
biomassa à saúde da população da Amazônia Legal conhecida como Arco do Desmatamento.
Este estudo é um dos subprojetos do Instituto do Milênio Integração de abordagens do
ambiente, uso da terra e dinâmica social na Amazônia: as relações homem-ambiente e o
19
desafio da sustentabilidade. O Programa também é membro do Projeto ESCALA (Estudios de
Salud y Contaminación del Aire en Latinoamérica), um estudo multicêntrico sobre os efeitos
da poluição do ar na saúde, incluindo cidades do Brasil, Chile e México. No Brasil a
colaboração se dá por meio da Faculdade de Medicina da Universidade de São Paulo.
Considerando aspectos metodológicos, o Programa Ares-Rio tem investigado com
maior ênfase os modelos semi-paramétricos para dados de contagem com dependência
temporal, os métodos de imputação de dados faltantes e o uso do aplicativo estatístico R (R
Development Core Team, 2007) em estudos epidemiológicos, que são objetos desta tese. Os
principais trabalhos metodológicos desenvolvidos no âmbito do Programa Ares-Rio estão
implementados em bibliotecas para o R. Atualmente, o Programa está também desenvolvendo
uma interface gráfica orientada para a análise de dados epidemiológicos usando o R em
colaboração com o Ministério da Saúde.
Do ponto de vista institucional, os pesquisadores do Programa Ares-Rio são
membros do grupo técnico assessor do VIGIAR, o Programa Nacional de Vigilância em
Saúde Ambiental Relacionada com a Qualidade do Ar do Ministério da Saúde (Brasil, 2006).
Esta participação inclui a definição de indicadores ambientais e de saúde e de metodologias
com aplicações na vigilância em saúde e, ainda, a capacitação de técnicos do VIGIAR das
secretarias estaduais de saúde em tais metodologias.
1.3 Projeto ESCALA
O Projeto ESCALA (Estudios de Salud y Contaminación del Aire en Latinoamérica)
é um projeto multicêntrico que reúne um grupo de investigadores a fim de avaliar os efeitos
da poluição do ar na saúde em várias cidades da América Latina. Os membros do projeto
usam um protocolo comum de análise a fim de obter informações comparáveis para diversos
grupos de idades e causas. Atualmente participam do projeto 3 cidades brasileiras, 3 chilenas
20
e 3 mexicanas. A meta do Projeto ESCALA é contribuir com a discussão internacional sobre
os efeitos de curto prazo da poluição do ar e prover informação para os gestores latino-
americanos a fim de apoiar políticas de redução e controle da poluição atmosférica (Gouveia
et al, 2007).
1.4 Poluição do ar e efeitos na saúde
Os estudos epidemiológicos constituem uma das linhas de investigação empregadas
para caracterizar os efeitos da poluição na saúde. Em oposição aos estudos de laboratório ou
ensaios clínicos, os estudos epidemiológicos observacionais abordam os efeitos dos poluentes
em suspensão na atmosfera em populações. Seus resultados podem descrever a relação entre a
exposição e o evento de interesse e avaliar os efeitos em subgrupos específicos da população,
e.g. pessoas idosas. Geralmente, estudos epidemiológicos são desenvolvidos com a finalidade
de determinar se a poluição do ar constitui perigo para as pessoas, ou conhecer a relação entre
níveis de exposição e eventos de saúde ou, ainda, avaliar como populações suscetíveis se
comportam quando expostas a altas concentrações de poluição do ar (Samet e Jaakkola,
1999).
Grandes eventos de poluição do ar ocorridos na primeira metade do século XX
estabeleceram que altas concentrações de poluentes atmosféricos podem resultar em aumentos
na morbidade e na mortalidade. Os eventos mais conhecidos ocorreram em 1930, no Vale
Meuse, Bélgica; 1948, em Donora, EUA e 1952 em Londres, Inglaterra (Brunekreef e
Holgate, 2002; Greater London Authority, 2002; Schwartz, 1994). Na segunda metade do
século, foram adotadas medidas para a redução da emissão de poluentes na atmosfera e
episódios de poluição de grande magnitude não voltaram a ocorrer. As principais medidas
foram a criação do Clean Air Act britânico em 1956 e do Clean Air Act nos EUA em 1963 e
suas várias emendas (EPA, 1990).
21
Nos EUA, no início da década de 1970, iniciou-se um programa nacional de estudos
epidemiológicos conhecido como Community Health and Surveillance System. Este foi o
primeiro programa com a finalidade de avaliar o efeito da poluição do ar na saúde em larga
escala usando estudos epidemiológicos. Em seguida, Ferris e colaboradores (1979)
investigaram os efeitos de óxidos de enxofre e material particulado na saúde. O estudo ficou
conhecido como Six City Study e incluía 20.000 crianças e adultos provenientes de 6 cidades
americanas com elevados níveis de poluição. Na década de 1980, o mesmo grupo
implementou um segundo estudo de âmbito nacional incluindo 24 cidades para investigar os
efeitos dos aerossóis ácidos (Speizer, 1989). Os estudos envolvendo várias cidades se
tornaram necessários devido aos baixos efeitos observados em função da redução dos níveis
de poluentes ambientais (Samet e Jaakkola, 1999).
Na década de 1990 houve uma crescente onda de estudos usando séries temporais para
avaliar os efeitos da poluição do ar na saúde. Estes estudos buscavam estimar associações
entre concentrações diárias de contaminantes com contagens diárias de eventos de saúde
como óbitos, internações hospitalares e atendimentos de emergência, obtendo estimativa do
efeito agudo. Os estudos epidemiológicos de séries temporais têm o atrativo de os dados de
saúde serem coletados rotineiramente, os dados ambientais com fim de regulação e os fatores
de confusão normalmente são dados de domínio público. Este último não é necessariamente
verdade em algumas cidades (Schwartz et al, 1996). Os estudos de séries temporais onde os
dados estão disponíveis produzem resultados rápidos e apresentam baixo custo de execução.
O desenvolvimento de novas técnicas estatísticas mais flexíveis para a análise de séries
temporais, a disponibilidade de aplicativos de análise de dados e a popularização de
computadores mais rápidos e acessíveis também facilitaram o sucesso desta metodologia.
Alguns dos primeiros estudos usando a metodologia de análise de séries temporais
epidemiológicas foram publicados no início da década de 1990. Schwartz e colaboradores
22
(1991) usaram diários com sintomas respiratórios e encontraram associação entre tosse em
crianças e dióxido de enxofre em Los Angeles, EUA. Sunyer e colaboradores (1991) usaram o
mesmo desenho para estimar a associação entre poluição do ar e atendimentos de emergência
em Barcelona, Espanha. Schwartz e Marcus (1990) encontraram associação de material
particulado com a mortalidade em Londres, Inglaterra, usando dados dos períodos de inverno
dos anos 1958 a 1972. Entretanto, uma busca pelos termos “time series air pollution health”
no PubMed (www.pubmed.org) revela o estudo de Goldstein e Rausch (1978) que usa uma
análise de séries temporais com dados diários para avaliar o efeito da poluição do ar na
morbidade. Análise de séries temporais usando modelos de regressão de Poisson foi a
metodologia usada nas análises do projeto APHEA (Air Pollution and Health: A European
Approach) (Katsouyanni et al, 1996).
Um grande passo para análise de séries temporais em estudos dos efeitos agudos da
poluição do ar foi a adoção dos modelos aditivos generalizados (MAG). Os MAG permitem
modelar estruturas como tendência e sazonalidade de forma não linear, introduzindo grande
flexibilidade à modelagem. Associações não lineares dos fatores de confusão como
temperatura e umidade podem ser modeladas por meio de funções suaves. Um dos primeiros
trabalhos usando modelos de regressão de Poisson semi-paramétricos publicados é o estudo
de Hajat e colaboradores (2001) no qual investigaram a associação entre poluição do ar e
consultas diárias em clínica geral por queixa de rinite alérgica em Londres.
A análise de séries temporais usando modelos de regressão de Poisson via MAG
formaram a metodologia padrão de análises nos estudos multi-cidades desenvolvidos na
Europa, o APHEA2 (Air Pollution and Health: A European Approach) (Katsouyanni et al,
2001), e nos Estados Unidos, o NMMAPS (National Morbidity and Mortality Air Pollution
Study) (Samet et al, 2000), na Ásia, o PAPA (Public Health and Air Pollution in Asia) (HEI,
2004). A mesma estratégia está sendo adotada nas análises das séries temporais no projeto
23
ESCALA, um projeto multicêntrico envolvendo cidades do Brasil, México e Chile (Gouveia
et al, 2007). Este trabalho está sendo desenvolvido no âmbito do projeto ESCALA. A
metodologia é apresentada em detalhes no Capítulo 6.
Atualmente, o aumento nos níveis de poluição se deve principalmente ao crescimento
da frota de veículos automotores, que hoje em alguns países representa a principal fonte
poluidora. As emissões devidas à queima de combustíveis fósseis são muito menores hoje do
que há 50 anos. Entretanto, as concentrações de poluentes fotoquímicos como o ozônio (O3) e
óxidos de nitrogênio (NOx) têm crescido rapidamente em função do aumento da frota de
veículos automotores (Brunekreef e Holgate, 2002). Nos países da América Latina e o Caribe,
a grande preocupação concerne aos crescimentos econômico e populacional que demandam
transporte e geração de energia. Estes fatores são importantes determinantes da qualidade do
ar (PAHO, 2005). Estudos desenvolvidos na Cidade do México (Romieu et al, 1992; Telez-
Rojo et al, 2001), Santiago (Cifuentes et al, 2000), São Paulo (Martins et al, 2004; Gouveia e
Fletcher, 2000; Saldiva et al, 1995) e Rio de Janeiro (Brasil, 2005; Gouveia et al, 2003;
Daumas et al, 2004) mostram que a poluição do ar urbana constitui uma questão de saúde
pública na região. A queima de biomassa relacionada com a agricultura também contribui
consideravelmente para o aumento das emissões de poluentes na atmosfera (Ignotti et al,
2007; Arbex et al, 2004).
No Brasil, as ações para o controle da qualidade do ar incluem a Resolução CONAMA
03/1990 que estabelece os padrões de qualidade do ar (Brasil, 1990) e a criação em 2001 da
Vigilância em Saúde Ambiental relacionada à Qualidade do Ar (VIGIAR), no âmbito da
Secretaria de Vigilância em Saúde do Ministério da Saúde. O VIGIAR tem como objetivos
exercer a vigilância e produzir informações a fim de promover a redução e prevenção dos
agravos à saúde das populações expostas a poluentes atmosféricos (Brasil, 2006).
24
1.5 Justificativas
1.5.1 Poluição do ar e mortalidade por câncer de pulmão
O câncer de pulmão é o tipo mais comum da doença e apresenta baixa sobrevida,
sobretudo em países em desenvolvimento. A estimativa de incidência para 2008 no Brasil é de
19 casos por 100 mil habitantes do sexo masculino e 10 novos casos por 100 mil mulheres
(INCA, 2007). A alta incidência de câncer de pulmão da ordem de 90% associada com o
tabagismo complica a identificação de poluentes atmosféricos relacionados com a etiologia do
câncer de pulmão, agindo de forma independente ou associados com o tabaco (Zamboni,
2002; McClellan e Jackson, 1999).
O objetivo deste estudo é avaliar o efeito da poluição do ar em uma população com
grande suscetibilidade, adultos e pessoas com idade maior que 65 anos com câncer de
pulmão. Como o desenho adotado para o estudo avalia apenas o efeito de curto prazo, este
estudo não busca associar a poluição do ar com a instalação da neoplasia no indivíduo, mas
sim com o agravamento da doença pré-existente e conseqüente diminuição da sobrevida. O
estudo foi motivado por investigações que avaliam o efeito da poluição do ar na mortalidade
por doenças pulmonares obstrutivas crônicas (DPOC). Em tais estudos, a subpopulação com
maior suscetibilidade é formada pelos indivíduos que sofrem de DPOC (Sunyer et al, 2000).
1.5.2 Poluição do ar e baixo peso ao nascer
No Brasil, estudos têm encontrado associações entre poluentes atmosféricos e eventos
de saúde relacionados com a gravidez. Em São Paulo, Pereira e colaboradores (1998), com
dados de 1991 e 1992, encontraram associação positiva entre NO2, SO2 e CO e mortalidade
intra-uterina. Também em São Paulo, com dados do ano de 1997, Gouveia e colaboradores
(2004) encontraram associação positiva entre os níveis de PM10 e CO e baixo peso ao nascer
de recém-nascidos a termo de gestação única. Diversos estudos sobre os efeitos da poluição
25
do ar sobre os desfechos da gravidez têm sido desenvolvidos em todo o mundo, entretanto, o
conhecimento destes efeitos sobre a população é ainda muito restrito.
O objetivo deste trabalho é avaliar se exposição da mãe à poluição atmosférica durante
o período de gestação pode influenciar de forma deletéria o peso no nascimento. A relevância
do estudo deve-se ao fato de que o baixo peso ao nascer está fortemente relacionado com a
mortalidade infantil (Oliveira et al, 2007). A motivação para desenvolver este estudo no Rio
de Janeiro foi somar aos estudos de São Paulo informação para um melhor entendimento dos
efeitos da poluição em desfechos relacionados com a gravidez no Brasil.
1.5.3 Imputação de dados faltantes em séries temporais
O problema de dados incompletos surge com freqüência em estudos epidemiológicos,
por exemplo, itens não respondidos em um survey, pacientes que não comparecem ao follow-
up, dados de sistemas de informação em saúde não disponíveis para algumas unidades de
estudo etc. Durante muito tempo, o problema de dados incompletos tem sido extensivamente
estudado e vários métodos para lidar com o problema foram publicados na literatura
estatística (Schafer, 1997; Little, 1992; Little e Rubin, 1989, Dempster et al, 1977; Rubin,
1976; Beale e Little, 1975; Hartley e Hocking, 1971), porém pouca atenção tem sido dada em
textos epidemiológicos (Miettinen, 1985; Greenland e Rothman, 1998).
Rubin (1976) classifica dados incompletos de acordo com o mecanismo gerador do
padrão de valores faltantes. De acordo com esta classificação o conceito de dados “faltantes
completamente ao acaso” ou MCAR (missing completely at random) consiste simplesmente
em uma amostra aleatória de todos os valores observados e não-observados. Os dados
“faltantes ao acaso” ou MAR (missing at random) consiste em uma amostra aleatória dos
valores que foram efetivamente observados e os dados “faltantes não ao acaso” ou MNAR
26
(missing non at random) cuja distribuição depende dos valores que estão faltantes e, portanto,
são também referidos como de causa não-ignorável.
Uma definição mais formal dos mecanismos de dados faltantes pode ser apresentada
dividindo o conjunto de dados Y , uma matriz n p× , em duas partes referentes aos dados
observados e aos dados faltantes, tal que ( , )obs fal=Y Y Y . É preciso definir também uma
matriz R com as mesmas dimensões de Y , tal que cada elemento de R tem valor 1 se o
respectivo elemento em Y está faltando e 0 caso contrário. É razoável admitir que a
distribuição de R está relacionada com Y e algum vetor de parâmetros desconhecidos
denotado por ζ . A hipótese de MCAR implica que ( ) ( )| , , |obs falP P=R Y Y ζ R ζ , sob MAR
( ) ( )| , , | ,obs fal obsP P=R Y Y ζ R Y ζ e sob MNAR ( ) ( )| , , | ,obs fal falP P=R Y Y ζ R Y ζ . O
pressuposto de MCAR é demasiado restritivo para as aplicações gerais. Em estudos
epidemiológicos é comum que a distribuição dos registros faltantes esteja relacionada com o
status de exposição ou doença. Assim, os pressupostos de MAR para o mecanismo gerador
dos dados faltantes podem ser mais realistas (Greenland e Finkle, 1995).
Em estudos sobre os efeitos da poluição do ar na saúde, os equipamentos de aferição
das concentrações de contaminantes na atmosfera sofrem freqüentemente mau funcionamento
que impossibilitam sua operação por horas ou mesmo dias. Mesmo redes de monitoramento
da qualidade do ar com adequada manutenção apresentam lacunas nos dados aferidos. O
município do Rio de Janeiro dispõe de duas pequenas redes de monitoramento num total de 6
estações. Lacunas persistentes nos dados podem comprometer a análise em estudos sobre os
efeitos da poluição do ar na saúde.
O objetivo deste trabalho é desenvolver uma metodologia de imputação de dados
faltantes em séries temporais ambientais. Em particular de concentrações de poluentes. A
configuração da rede consistindo de vários monitores dá ao conjunto de dados um caráter
multivariado. Esta característica é explorada pelo método, o que permite que este possa ser
27
aplicado a dados exibindo configurações semelhantes. Um objetivo secundário do trabalho é
implementar a metodologia em uma biblioteca para o aplicativo de análise estatística R (R
Development Core Team, 2007). Este método de imputação de dados faltantes foi incorporado
ao protocolo de análise de dados do Projeto ESCALA.
1.5.4 Análise de séries temporais em epidemiologia ambiental
Os estudos de séries temporais sobre os efeitos da poluição do ar na saúde, geralmente,
utilizam dados de fontes secundárias agregados, tanto a exposição quanto o indicador de
saúde. As principais vantagens do uso deste desenho nos estudos epidemiológicos são que um
mesmo grupo de indivíduos avaliados ao longo do tempo tende a manter suas características
constantes durante o período de estudo. Fatores individuais como residência, ocupação, dieta,
tabagismo e atividades físicas não variam diariamente e, portanto, não precisam ser
controlados. Outros fatores de confusão em potencial como efeito de calendário, fatores
climáticos, epidemias e estruturas da própria série como tendência e sazonalidade podem ser
facilmente controlados. A análise estatística em estudos de séries temporais sobre a associação
entre poluentes atmosféricos e eventos de saúde envolve decisões baseadas em testes e
diagnósticos em cada etapa do processo. Alguns destes procedimentos de avaliação de
modelos são computacionalmente intensivos e muitas vezes requerem complexa programação
(Schwartz et al, 1996).
O objetivo deste trabalho é apresentar uma breve revisão da metodologia de análise de
séries temporais em estudos epidemiológicos sobre os efeitos da poluição do ar na saúde e
implementar tais metodologias na forma de uma biblioteca para o aplicativo R (R
Development Core Team, 2007). Um objetivo secundário deste trabalho é exemplificar o uso
da biblioteca usando dados de admissões hospitalares por doenças respiratórias em crianças
na cidade do Rio de Janeiro. A motivação para desenvolver este trabalho reside no fato que o
28
estudo dos efeitos da poluição na saúde usando séries temporais é utilizado em vários estudos
em todo o mundo. Em particular, esta é a abordagem analítica primária do Projeto ESCALA.
29
2 OBJETIVOS
2.1 Objetivos gerais
Avaliar o efeito da poluição do ar em populações suscetíveis no município do Rio de
Janeiro usando diferentes eventos de saúde.
Desenvolver metodologias de imputação e análise de séries temporais com a
implementação de interfaces computacionais no ambiente R para análise de dados em
epidemiologia ambiental.
2.2 Objetivos específicos
Artigo 1: Poluição do ar e mortalidade por câncer de pulmão
Estimar o efeito da poluição do ar na mortalidade considerando todas as idades e
idade maior que 65 anos devido a câncer de pulmão, na cidade do Rio de Janeiro.
Artigo 2: Poluição do ar e baixo peso ao nascer
Estimar os efeitos da exposição da mãe a poluentes atmosféricos durante o período
de gestação no peso da criança no nascimento, na cidade do Rio de Janeiro.
Artigo 3: Imputação de dados faltantes em séries temporais
Propor uma metodologia de imputação de dados faltantes em séries temporais
ambientais e implementar a metodologia de imputação em uma biblioteca para o aplicativo de
análise estatística R.
Artigo 4: Análise de séries temporais em epidemiologia ambiental
30
Apresentar uma breve revisão da metodologia de análise de séries temporais em
estudos epidemiológicos sobre os efeitos da poluição do ar na saúde; implementar tais
metodologias na forma de uma biblioteca para o aplicativo R e exemplificar o uso da
biblioteca usando dados de admissões hospitalares por doenças respiratórias em crianças na
cidade do Rio de Janeiro.
31
3 ARTIGO 1: Associação entre mortalidade diária por câncer de pulmão e poluição
do ar no município do Rio de Janeiro: um estudo ecológico de séries temporais
Short term association between lung cancer and air pollution in Rio de Janeiro: a daily time
series study
Washington Leite Junger
Antonio Ponce de Leon
Departamento de Epidemiologia
Instituto de Medicina Social
Universidade do Estado do Rio de Janeiro
Gulnar Azevedo e Silva Mendonça
Instituto Nacional do Câncer
Revista Brasileira de Cancerologia, 2005; 51(2):111-115
32
Resumo
Diversos estudos têm mostrado associações estatísticas entre níveis de poluição
atmosférica e morbidade e/ou mortalidade nas populações. Os principais desfechos de saúde
considerados nestes estudos são as doenças respiratórias, cardiovasculares e, mais
recentemente, o câncer de pulmão. Neste trabalho, foi investigada a associação entre poluição
do ar e mortalidade por câncer de pulmão em idosos no município do Rio de Janeiro, entre
setembro de 2000 a dezembro de 2001. O desenho de estudo epidemiológico adotado foi o
ecológico com uma abordagem séries temporais diárias. Para ajuste dos fatores de confusão e
estimativa do efeito foi utilizada a regressão de Poisson semi-paramétrica. Foram encontrados
efeitos estatisticamente significativos para o monóxido de carbono (CO) com riscos relativos
1,130 (IC 95%: 1,000; 1,276) e 1,232 (IC 95%: 1,003; 1,515) para exposição ao CO com
defasagem de três dias e acumulada de sete dias respectivamente.
Abstract
Several studies have shown statistical association between air pollution levels and
morbidity and/or mortality in populations. The most common outcomes regarded in these
studies are respiratory and cardiovascular diseases and also lung cancer recently. The aim of
this work is to estimate the association between air pollution and lung cancer mortality among
elderly people in Rio de Janeiro, from September 2000 to December 2001. An ecological time
series approach was used. In order to adjust for confounders and estimate the effects of
interest, semiparametric Poisson regression was applied. Statistically significant effects were
found for carbon monoxide (CO) but not for the other pollutants analysed. The relative risks
were 1.130 (CI 95%: 1.000; 1.276) and 1.232 (CI 95%: 1.003; 1.515) for three days lagged
and cumulative seven days exposure to CO respectively.
33
3.1 Introdução
Estudos recentes utilizando diferentes desenhos epidemiológicos têm fornecido
evidências sobre efeitos nocivos da poluição ambiental sobre a saúde da população. Aumentos
nos níveis de alguns poluentes atmosféricos têm sido associados com aumento de óbitos e de
morbidade por doenças, principalmente, respiratórias e cardiovasculares (Daumas et al, 2004;
Gouveia e Fletcher, 2000; Atkinson et al, 2001; Samet et al, 2000; Ponce de Leon et al, 1996).
A preocupação com efeitos deletérios da poluição recebeu maior atenção a partir dos
episódios de alta concentração de poluentes ocorridos no Vale Meuse, na Bélgica, em 1930,
em Donora (Pensilvânia), nos EUA, em 1948, e em Londres, na Inglaterra, em dezembro de
1952. Neste último, o número estimado de mortes prematuras foi de 4.000 e se estima que
entre dezembro de 1952 e março de 1953 foram registradas mais de 13.500 mortes acima do
esperado para o período (Bell et al, 2004).
Com a adoção de medidas visando reduzir a emissão de poluentes atmosféricos,
episódios como estes não foram mais reportados. Atualmente, o aumento nos níveis de
poluição é devido principalmente ao crescimento da frota de veículos automotores que hoje,
em algumas metrópoles, representa a principal fonte poluidora. O surgimento de novas
técnicas estatísticas viabilizou o estudo dos efeitos da poluição do ar sobre a saúde mesmo
quando os níveis de poluição ambiental são menores do que aqueles considerados como
nocivos pela Organização Mundial de Saúde (Brunekreef e Holgate, 2002).
Além da consistente relação com o aumento de internações e óbitos por doenças
respiratórias e cardiovasculares, alguns estudos epidemiológicos realizados nos últimos 40
anos também têm mostrado a existência de associação entre poluição ambiental e câncer de
pulmão (Katsouyanni e Pershagen, 1997; Pershagen, 1990). Entretanto, a atenção sobre esta
relação é difícil de se precisar muito em decorrência da forte predominância do papel do fumo
na etiologia desta doença (Cohen et al, 1997).
34
Os principais agentes poluidores ambientais considerados carcinógenos são os
subprodutos da queima incompleta dos combustíveis fósseis, sobretudo o diesel. A poluição
do ar, principalmente em grandes centros urbanos, é formada por uma mistura bastante
variável e complexa destes compostos. Entre eles se destacam o benzeno, os benzo[a]pirenos
e os compostos orgânicos e inorgânicos. Os hidrocarbonetos policíclicos aromáticos (HAP)
incluem vários destes carcinógenos. Os óxidos de nitrogênio podem reagir com os HAP
formando potentes substâncias mutagênicas e carcinogênicas (Pershagen, 1990; Cohen et al,
1997; Speizer, 1986).
Flutuações de curto prazo nos níveis dos poluentes são determinadas por variações
meteorológicas locais e as concentrações destes poluentes normalmente estão correlacionadas
no tempo, assim qualquer um dos poluentes pode ser utilizado como um indicador da mistura.
Entretanto, em longo prazo, mudanças na emissão de poluentes podem resultar em
modificações substanciais na mistura de poluição do ar. É importante considerar que a
presença de agentes carcinógenos na mistura que compõe a poluição atmosférica poderia em
parte explicar porque a poluição do ar poderia aumentar o risco de câncer de pulmão e
possivelmente de outros cânceres (Katsouyanni e Pershagen, 1997; Cohen et al, 1997) ou
mesmo abreviar a sobrevida de pacientes com estes tipos de câncer. Estudo recente
desenvolvido em Montreal, Canadá, que utilizou metodologia estatística baseada em modelos
aditivos generalizados, encontrou efeitos significativos da poluição sobre a mortalidade por
câncer de pulmão (Goldberg et al, 2001).
O objetivo deste trabalho é avaliar o efeito da variação diária nas concentrações de
poluentes atmosféricos sobre o número diário de óbitos que têm como causa básica câncer de
pulmão, na população do município do Rio de Janeiro.
35
3.2 Material e Métodos
Dados
A investigação da associação entre a exposição à poluição do ar e o número diário de
óbitos por câncer de pulmão, no Rio de Janeiro, foi realizada utilizando-se um desenho
ecológico de caráter temporal a partir de dados provenientes de fontes secundárias. O período
de estudo foi de setembro de 2000 a dezembro de 2001,
A partir do Sistema de Informações sobre Mortalidade (SIM), foram geradas séries
diárias de óbitos cuja causa básica informada no atestado de óbito foi “neoplasias malignas
dos brônquios e dos pulmões” (CID 10, código C34), para todas as idades e para idosos com
65 anos ou mais.
A estimativa média da exposição diária da população residente no Rio de Janeiro à
poluição foi obtida a partir das médias aritméticas das medidas das redes de monitoramento
da qualidade do ar da Secretaria Municipal do Meio Ambiente (SMAC) e da Fundação
Estadual de Engenharia de Meio Ambiente (FEEMA). Os poluentes atmosféricos analisados
foram: material particulado com até 10 micra de volume aerodinâmico (PM10), dióxido de
enxofre (SO2) e monóxido de carbono (CO), dióxido de nitrogênio (NO2) e ozônio (O3).
Para o ajuste dos dados em relação a fatores meteorológicos foram calculadas as
médias aritméticas das medidas de umidade e temperatura (mínima, média e máxima)
registradas pelos monitores localizados nos aeroportos civis e militares da cidade e pelo
monitor existente no bairro Maracanã. Os dados foram cedidos pelo Departamento de
Meteorologia da Aeronáutica e Departamento de Climatologia da Universidade do Estado do
Rio de Janeiro respectivamente. Dados faltantes foram imputados quando ao menos a metade
das observações diárias das concentrações do poluente estavam disponíveis. O método de
imputação leva em consideração as correlações entre as concentrações de poluentes no espaço
e sua estrutura temporal (Junger et al, 2003).
36
Análise estatística
A análise estatística foi realizada utilizando-se modelos de regressão de Poisson semi-
paramétrica (modelos aditivos generalizados) implementada no pacote estatístico S-Plus
(Hastie e Tibishirani, 1990). A estratégia da análise consistiu em modelar a tendência e a
sazonalidade da série através de funções splines do tempo; os dias de semana e feriados
através de variáveis indicadoras; as condições meteorológicas através de funções splines da
temperatura e da umidade relativa do ar. Técnicas de diagnósticos usuais em análise de
regressão foram utilizadas para avaliar a inclusão ou exclusão de termos no modelo, bem
como a qualidade de ajuste do modelo final. Finalmente, foram adicionados ao modelo os
termos correspondentes às concentrações diárias dos poluentes assumindo-se que a associação
com a variável resposta é linear. Foram investigadas as associações da exposição no dia
corrente, defasagens de até três dias e médias móveis de dois a sete dias anteriores ao
desfecho. As médias móveis representam a exposição acumulada nos dias anteriores ao
desfecho. Desta forma, foi possível calcular o excesso de óbitos associados às flutuações nos
níveis de poluição (Schwartz et al, 1996; Katsouyanni et al, 1996).
Os riscos relativos (RR) para internações correspondem a um aumento de 10 µg/m3
nos níveis dos poluentes (exceto para o CO, para o qual se calculou o RR para um aumento de
1 ppm). Um nível de significância de 5% foi adotado nas análises.
3.3 Resultados
Estatísticas descritivas das variáveis de desfecho, de poluentes atmosféricos e dos
fatores de ajustamento estão dispostas na Tabela 3-1. Após a imputação não havia observações
faltando nas séries de PM10 e CO e aproximadamente 10% das observações estavam faltando
37
nas séries de SO2 e O3. Entretanto, 43% dos dados de NO2 não estavam disponíveis, tornando
as estimativas do efeito deste poluente pouco precisas.
Tabela 3-1 Estatísticas descritivas das variáveis ambientais e desfechos dia a dia
Média DP Mín p10 p50 p90 Máx PM10 55,85 16,75 17,94 37,41 53,52 78,13 135,23 SO2 11,50 6,94 1,25 4,29 10,14 19,77 49,67 NO2 51,70 24,58 14,51 25,93 48,74 79,87 207,19 CO 1,20 0,45 0,42 0,69 1,14 1,80 3,06 O3 29,10 16,01 2,46 9,13 31,08 48,89 85,68 Temperatura máxima 29,71 3,78 20,12 24,61 29,65 34,70 38,52 Temperatura média 25,09 2,87 18,06 21,39 25,06 28,82 31,14 Temperatura mínima 21,67 2,74 14,90 17,98 21,62 25,06 26,86 Umidade Relativa 77,74 6,67 60,34 68,92 77,74 86,26 96,14 Neoplasias do pulmão
Todas as idades 3,07 1,77 0 1 3 5 10 65 anos ou mais 1,84 1,38 0 0 2 4 8
DP – Desvio padrão; pn – percentil n
O gráfico da Figura 3-1 descreve o número diário observado e suavizado de óbitos
cuja causa básica é câncer de pulmão. A curva suavizada pela spline não indica tendência de
longo prazo. Entretanto, podemos observar um padrão de sazonalidade com picos nos
períodos referentes a extremos de temperatura.
01/09/00 01/12/00 01/03/01 01/06/01 01/09/01 01/12/01
02
46
810
Óbi
tos
por
cânc
er d
e pu
lmão
observadosuavizado
Figura 3-1 Mortalidade diária por câncer de pulmão durante o período de estudo
38
Após o ajuste pelos fatores de confusão (sazonalidade, temperatura e umidade), as
variáveis de concentrações diárias dos poluentes foram introduzidas no modelo uma por vez,
assim como as defasagens e as médias móveis.
Na análise da série de óbitos de indivíduos com mais de 65 anos cuja causa básica foi
câncer de pulmão, não foi encontrada associação significativa com nenhum dos poluentes
analisados. No entanto, considerando-se todas as idades, apesar de não terem sido
encontradas associações significativas para os poluentes analisados PM10, SO2, NO2 e O3, a
exposição ao monóxido de carbono se mostrou associada ao aumento de óbitos por câncer de
pulmão com uma defasagem de três dias (RR= 1,130, IC 95% 1,000; 1,276) e exposição
acumulada dos últimos sete dias (RR = 1,232, IC 95% 1,003; 1,515), como mostram a Tabela
3-2 e a Figura 3-2.
Tabela 3-2 Riscos relativos e intervalos de confiança para exposição ao CO
Medida da exposição RR IC(95%) dia corrente 1,018 (0,898; 1,154) defasagem de 1 dia 1,052 (0,931; 1,189) defasagem de 2 dias 1,084 (0,959; 1,226) defasagem de 3 dias 1,130 (1,000; 1,276) acumulado 2 dias 1,051 (0,911; 1,213) acumulado 3 dias 1,098 (0,936; 1,288) acumulado 4 dias 1,168 (0,982; 1,388) acumulado 5 dias 1,176 (0,977; 1,414) acumulado 6 dias 1,201 (0,987; 1,462) acumulado 7 dias 1,232 (1,003; 1,515)
39
0.80
0.90
1.00
1.10
1.20
1.30
1.40
1.50
1.60
dia cor r ente def 1 def 2 def 3 acum 2 acum 3 acum 4 acum 5 acum 6 acum 7
CO
Figura 3-2 Riscos relativos e intervalos de confiança para exposição ao CO para defasagens e acumulados
3.4 Discussão
Apesar das limitações inerentes ao desenho de estudo utilizado neste trabalho, foi
possível encontrar associação estatisticamente significativa entre poluição do ar e mortalidade
por câncer de pulmão no município do Rio de Janeiro. Para interpretarmos os resultados
obtidos neste estudo devemos considerar que o câncer de pulmão é uma doença crônica e que
a informação tendo como causa básica de óbito de pulmão, não permite que se conheça
exatamente qual foi o evento que levou o indivíduo à morte.
Com as restrições impostas pelo desenho epidemiológico utilizado neste estudo, que
avalia a relação entre poluição e óbito num período de até sete dias entre exposição e
desfecho, não podemos avaliar a poluição do ar como fator envolvido na causalidade da
doença uma vez que o processo de carcinogênese é iniciado com grande defasagem de tempo.
De fato, este estudo pode apenas sugerir causalidade entre poluição do ar e complicações que
podem ter agravado o quadro clínico levando ao óbito dos pacientes já acometidos pelo
câncer de pulmão.
40
A capacidade do organismo de suportar estresse e se manter estável é maior no
indivíduo adulto e diminui com a idade ou doenças. Os efeitos da poluição do ar na saúde
envolvem principalmente idosos e portadores de doenças crônicas (Frank e Tankersley, 2002).
Indivíduos expostos a altas concentrações de monóxido de carbono no ambiente sofrem um
aumento da concentração de carboxihemoglobina e diminuição da concentração de oxigênio
no sangue. Portadores de doenças pulmonares crônicas como câncer de pulmão e doença
pulmonar obstrutiva crônica (DPOC) têm sua capacidade pulmonar diminuída pela doença e
não são capazes de manter o equilíbrio da pressão de O2 e CO no sangue (Casarett, 1999).
Este padrão de efeito do CO sobre a mortalidade é coerente com a hipótese de harvesting ou
colheita (Schwartz, 2001).
A fim de estimar a curva dose-resposta, foi ajustado um modelo para cada poluente e
defasagem de exposição e, portanto, um total de 50 testes de hipótese foram realizados.
Embora o número de resultados estatisticamente significativos seja próximo do esperado ao
nível de 5%, os resultados encontrados neste trabalho são compatíveis com outro estudo dos
mesmos autores (ainda não publicado) que investigou a associação entre poluição do ar e
mortalidade por DPOC, encontrando riscos relativos em torno de 1,24 e estatisticamente
significativos para a exposição média de seis e sete dias anteriores ao desfecho. É possível
que o aumento de óbitos em função de aumento de poluição por monóxido de carbono possam
ser explicados por mecanismos de restrição pulmonar. Mais estudos que investiguem de forma
sistemática e por períodos prolongados de tempo esta relação devem ser desenvolvidos e
outros fatores envolvidos na etiologia da doença, e.g. tabagismo, devem ser considerados.
3.5 Referências
Atkinson RW, Anderson HR, Sunyer J, Ayres J, Baccini M, Vonk JM et al. Acute effects of particulate air pollution on respiratory admissions: results from APHEA 2 project. Air Pollution and Health: a European Approach. Am J Respir Crit Care Med 2001; 164(10 Pt
41
1):1860-1866.
Bell ML, Davis DL, Fletcher T. A retrospective assessment of mortality from the London smog episode of 1952: the role of influenza and pollution. Environ Health Perspect 2004; 112(1):6-8.
Brunekreef B, Holgate ST. Air pollution and health. Lancet 2002; 360(9341):1233-1242.
Casarett LJ, Doull J, Klaassen CD, Watkins JB. Casarett and Doull's toxicology : the basic science of poisons : companion handbook . New York: McGraw-Hill, 1999.
Cohen AJ, Pope CA, Speizer FE. Ambient air pollution as a risk factor for lung cancer. Salud Publica de Mexico 1997; 39(4):346-355.
Daumas RP, Mendonca GA, Ponce AdL. [Air pollution and mortality in the elderly in Rio de Janeiro: a time-series analysis]. Cad Saude Publica 2004; 20(1):311-319.
Frank R, Tankersley C. Air pollution and daily mortality: a hypothesis concerning the role of impaired homeostasis. Environ Health Perspect 2002; 110(1):61-65.
Goldberg MS, Burnett RT, Bailar JC, III, Brook J, Bonvalot Y, Tamblyn R et al. The association between daily mortality and ambient air particle pollution in Montreal, Quebec. 2. Cause-specific mortality. Environ Res 2001; 86(1):26-36.
Gouveia N, Fletcher T. Respiratory diseases in children and outdoor air pollution in Sao Paulo, Brazil: a time series analysis. Occup Environ Med 2000; 57(7):477-483.
Hastie T, Tibshirani R. Generalized Additive Models. London: Chapman and Hall, 1990.
Junger WL. Imputação de dados faltando em séries temporais multivariadas via algoritmo EM. Instituto de Matemática e Estatística. Universidade do Estado do Rio de Janeiro, 2002.
Katsouyanni K, Pershagen G. Ambient air pollution exposure and cancer. Cancer Causes Control 1997; 8(3):284-291.
Katsouyanni K, Schwartz J, Spix C, Touloumi G, Zmirou D, Zanobetti A et al. Short term effects of air pollution on health: a European approach using epidemiologic time series data: the APHEA protocol. J Epidemiol Community Health 1996; 50 Suppl 1:S12-S18.
Pershagen G. Air pollution and cancer. IARC Sci Publ 1990;(104):240-251.
Ponce de Leon A, Anderson HR, Bland JM, Strachan DP, Bower J. Effects of air pollution on daily hospital admissions for respiratory disease in London between 1987-88 and 1991-92. J Epidemiol Community Health 1996; 50 Suppl 1:s63-s70.
Samet JM, Dominici F, Zeger SL, Schwartz J, Dockery DW. The National Morbidity, Mortality, and Air Pollution Study. Part I: Methods and methodologic issues. Res Rep Health Eff Inst 2000;(94 Pt 1):5-14.
Schwartz J, Spix C, Touloumi G, Bacharova L, Barumamdzadeh T, Le Tertre A et al.
42
Methodological issues in studies of air pollution and daily counts of deaths or hospital admissions. J Epidemiol Community Health 1996; 50 Suppl 1:S3-11.
Schwartz J. Is there harvesting in the association of airborne particles with daily deaths and hospital admissions? Epidemiology 2001; 12(1):55-61.
Speizer FE. Overview of the risk of respiratory cancer from airborne contaminants. Environ Health Perspect 1986; 70:9-15.
43
4 ARTIGO 2: Poluição do ar e baixo peso ao nascer no município do Rio de Janeiro,
2002
Air pollution and low birth weight in the city of Rio de Janeiro, 2002
Washington Leite Junger
Antonio Ponce de Leon
Departamento de Epidemiologia
Instituto de Medicina Social
Universidade do Estado do Rio de Janeiro
Cadernos de Saúde Pública, 2007; 23 sup 4:S588-S598
44
Resumo
Estudos têm mostrado de forma consistente os efeitos da poluição do ar sobre a saúde
e, recentemente, pesquisadores têm voltado sua atenção para os desfechos relacionados com a
gravidez. O objetivo deste trabalho é avaliar o efeito da poluição do ar sobre o peso ao nascer
de recém-nascidos a termo e de gestação única no município do Rio de Janeiro.
O desenho deste estudo foi o de corte transversal tendo como base o ano de 2002. Os
dados sobre os nascimentos foram obtidos do Sistema de Informação sobre Nascidos Vivos
(SINASC) do Ministério da Saúde. Foi definido como tendo baixo peso os recém-nascidos
pesando menos de 2500 gramas. A exposição das mães em poluente foi estimada como a
média do poluente para cada trimestre de gestação tomando como referência a data de
nascimento. Razões de odds (RO) ajustadas foram estimadas para cada fator de risco em
potencial. Regressão logística foi usada para estimar o efeito da poluição do ar bem como
identificar os fatores maternos e da gravidez associados com o baixo peso ao nascer.
Para PM10, CO e NO2, foram encontrados aumentos não significativos. Para SO2, a
RO do quarto intervalo interquartil de exposição no terceiro trimestre de gestação foi 1,149
(IC95%: 1,016;1,301). Para o O3, a RO estimada foi 0,830 (IC95%: 0,750;0,987). Quando a
variável de exposição foi introduzida no modelo como uma medida contínua, as RO para
PM10, CO e SO2 no terceiro trimestre foram não significativas e iguais a 1,089, 2,223 e 1,259,
respectivamente.
Apesar de algumas limitações, os resultados deste estudo sugerem que, mesmo após
controlar por diversos fatores determinantes do baixo peso ao nascer conhecidos, a associação
entre poluição atmosférica e a ocorrência de baixo peso ao nascer ainda pode ser detectada no
município do Rio de Janeiro. Os efeitos estimados podem ter sido atenuados devido ao viés de
classificação não diferencial na exposição.
45
Abstract
Studies have consistently shown effects of air pollution on health, and, recently,
researchers have also addressed effects related to pregnancy. The objective of this study is to
evaluate the effect of air pollution on low birth weight of full term singleton newborns in the
municipality of Rio de Janeiro.
This study has a cross sectional design based on the year 2002. Data on live births
were obtained from the Birth Information System (SINASC) of the Ministry of Health. Low
birth weight was defined as newborns weighting less than 2,500 grams. Maternal exposure to
air pollution was taken as the average of a pollutant over each trimester of pregnancy and was
assessed taking into account the birth date. Adjusted odds ratios (OR) were estimated for each
potential risk factor. Logistic regression was used in order to assess the effect of air pollutants
and identify the maternal and pregnancy risk factors associated with low birth weight.
For PM10, CO, and NO2, no significant increases were detected. For SO2, the OR of
the forth quartile range of exposure in the third trimester of pregnancy was 1.149 (IC95%:
1.016;1.301). For O3, the estimated OR was 0.830 (IC95%: 0.750;0.987). When exposure
variable was regarded as a continuous measure, the OR for PM10, CO, and SO2 in the third
trimester were not statistically significant and respectively equal to 1.089, 2.223, and 1.259.
In spite of some limitations, the results of this study suggest that, even after controlling
for several known risk factors for low birth weight, the association between air pollution and
the occurrence of low birth weight still can be detected in the municipality of Rio de Janeiro.
The estimated effect may have been attenuated due to non differential misclassification bias
on exposure.
46
4.1 Introdução
Um número crescente de estudos publicados por todo o mundo, principalmente nos
últimos 20 anos, têm mostrado evidências consistentes dos efeitos nocivos da poluição do ar
na saúde humana. Estes efeitos têm sido observados na morbidade e na mortalidade mesmo
quando os níveis de poluição atmosférica são considerados moderados ou baixos (Brunekreef
e Holgate, 2002). Embora, os mecanismos pato-fisiológico dos efeitos da poluição não sejam
completamente conhecidos, a literatura sugere que os grupos mais suscetíveis são as crianças,
os idosos e portadores de doenças crônicas (Kunzli, 2005; Maroziene e Grazuleviciene, 2002).
Os eventos de saúde mais freqüentemente estudados são a morbidade e mortalidade por
doenças respiratórias e cardiovasculares (Daumas et al, 2004; Atkinson et al, 2001; Gouveia e
Fletcher, 2000; Lin et al, 1999; Borja-Aburto, 1997; Anderson et al, 1996; Ballester et al,
1996; Schwartz, 1996; Ponce de Leon et al, 1996; Pope et al, 1995; Burnet et al, 1995), câncer
de pulmão (Junger et al, 2005; Cohen et al, 1997), diminuição da função respiratória (Ward e
Ayres, 2004; Hoek e Brunekreef, 1993) e absenteísmo escolar (Romieu et al, 1992).
O crescimento populacional e a conseqüente demanda por transporte e geração de
energia, aumentando a emissão de poluentes derivados da queima de combustíveis fósseis, é
de grande preocupação nas áreas urbanas na região da América Latina e Caribe (OPAS, 2005).
Recentemente, os efeitos da poluição do ar sobre desfechos relacionados com a
gravidez têm sido considerados em alguns estudos (Lacasana et al, 2005; Sram et al, 2005;
Maisonet et al, 2004). Estudos indicam que o feto e o recém-nascido são mais suscetíveis que
os adultos às substâncias tóxicas ambientais (Perera et al, 2004). A hipótese de que
substâncias presentes no ambiente podem interferir com a gestação é plausível se forem
considerados os efeitos do fumo materno ativo e ambiental no feto (Ojembarrena et al, 2005;
Nakamura et al, 2004; Kharrazi et al, 2004).
47
Um estudo conduzido na República Checa entre 1986 e 1988, usando dados de rotina,
encontrou associação positiva entre partículas totais em suspensão (PTS), dióxido de enxofre
(SO2) e óxidos de nitrogênio (NOx) e mortalidade neonatal e pós-neonatal (Bobak e Leon,
1992). Em Seoul, um estudo conduzido nos anos 1996 e 1997, encontrou associação positiva
entre exposição a monóxido de carbono (CO), SO2, dióxido de nitrogênio (NO2) e PTS no
primeiro trimestre de gestação e baixo peso ao nascer de recém-nascidos a termo, isto é, com
idade gestacional entre 37 e 44 semanas (Ha et al, 2001). Num estudo desenvolvido na região
nordeste dos Estados Unidos, entre 1994 e 1996, Maisonet e colaboradores (2001)
encontraram associação positiva entre CO e SO2 e baixo peso ao nascer de recém-nascidos a
termo, no terceiro e segundo trimestre da gestação respectivamente. Em outro estudo
realizado na Lituânia, em 1998, também foi encontrada associação entre NO2 e baixo peso ao
nascer de recém-nascidos de gestação única durante o primeiro trimestre de gestação
(Maroziene e Grazuleviciene, 2002). Na Califórnia, no ano 2000, foi encontrada associação
entre material particulado até 2,5 micra de volume aerodinâmico (PM2,5) e baixo peso ao
nascer de recém-nascidos a termo (Basu et al, 2004). Também foi encontrada associação entre
PM2,5 e o tamanho do recém-nascido para a idade gestacional (Parker et al, 2005) e material
particulado até 10 micra de volume aerodinâmico (PM10) e CO e baixo peso entre 1994 e
2000 (Wilhelm e Ritz, 2005). Ainda na Califórnia, em outro estudo, entre 1975 e 1987, foi
encontrada associação entre ozônio (O3), PM10 e CO e baixo peso ao nascer e retardo do
crescimento intrauterino, para exposições nos primeiro e terceiro trimestres da gestação
(Salam et al, 2005). Em Sydney, entre 1998 e 2000, Mannes e colaboradores (2005)
encontraram associação positiva entre CO e NO2 e baixo peso ao nascer e tamanho pequeno
para a idade gestacional (small for gestational age), que neste estudo foi definido como mais
que dois desvios-padrão abaixo da média de pesos. Num estudo de coorte restrospectivo
realizado no leste do Canadá, entre 1988 e 2000, Dugandzic e colaboradores (2006)
48
encontraram associação positiva entre concentrações de PM10 e SO2 no primeiro trimestre da
gestação e baixo peso ao nascer.
No Brasil, também se têm encontrado associações positivas entre poluentes
atmosféricos e desfechos da gravidez. Em São Paulo, Pereira e colaboradores (1998), em
1991 e 1992, encontraram associação positiva entre NO2, SO2 e CO e mortalidade intra-
uterina. Evidência da exposição do feto à poluição ambiental foi corroborada pela associação
positiva entre carboxi-hemoglobina presente no sangue do cordão umbilical de recém-
nascidos de mães não fumantes e concentrações ambientais de CO. Ainda em São Paulo, no
ano 1997, Gouveia e colaboradores (2004) encontraram associação positiva entre os níveis de
PM10 e CO e baixo peso ao nascer de recém-nascidos a termo de gestação única. Embora
vários estudos sobre os efeitos da poluição do ar sobre os desfechos da gravidez tenham sido
desenvolvidos em todo o mundo, o conhecimento destes efeitos sobre a população é ainda
muito restrito.
Baixo peso ao nascer está fortemente relacionado com a mortalidade infantil e é um
indicador bastante sensível dos efeitos ambientais. Assim, o objetivo deste trabalho é avaliar o
efeito da poluição do ar sobre o peso ao nascer de recém-nascidos a termo e de gestação única
no município do Rio de Janeiro no ano 2002.
4.2 Metodologia
Neste estudo de base populacional foram analisados todos os nascimentos a termo (37
ou mais semanas) de gestação única ocorridos no município do Rio de Janeiro no ano 2002.
Foram excluídos recém-nascidos com peso inferior a 1.000 gramas (g) e superior a 5.500 g
por serem mais prováveis de terem nascido de uma gravidez de risco, podendo contribuir para
a superestimação dos efeitos da poluição do ar. O mesmo critério se aplica às gestações
49
múltiplas. Foi considerada na análise uma variável binária com valor igual a 1 para peso ao
nascer menor que 2.500 gramas e 0 caso contrário, denominada baixo peso ao nascer.
Os dados sobre os nascimentos foram obtidos do Sistema de Informação sobre
Nascidos Vivos (SINASC) do Ministério da Saúde. Todos os nascimentos resultam numa
certidão de nascimento necessária para o registro da criança. Para cada nascimento são
registradas informações da mãe: idade, escolaridade, local de residência, número de filhos
vivos, número de filhos mortos, número de consultas pré-natal; e do recém-nascido: data do
nascimento, peso, sexo, raça/cor, apgar, tipo de gravidez (simples, gêmeos ou múltiplos),
tempo de gestação (em semanas), local do nascimento (casa, hospital etc) e método do parto
(cesáreo ou vaginal).
O SINASC apresenta boa cobertura, principalmente em alguns campos como peso,
sexo, método do parto e idade da mãe (Silva et al, 2001). Entretanto, alguns campos como
quantidade de filhos vivos e quantidade de filhos mortos apresenta uma grande quantidade de
dados faltantes.
A exposição à poluição atmosférica foi medida através da média diária das medidas
horárias de SO2 e PM10, máximo diário das medidas horárias de NO2 e O3 e máximo diário
das médias móveis de oito horas de CO, e obtidas das duas estações de monitoramento
operadas pela Fundação Estadual de Engenharia do Meio Ambiente (FEEMA) e das quatro
operadas pela Secretaria Municipal do Meio Ambiente (SMAC), no município do Rio de
Janeiro. A exposição média para o município num dado dia foi calculada quando ao menos
uma estação tinha a medida disponível. Algumas estações apresentavam dados faltantes para
alguns poluentes, neste caso um método de imputação foi aplicado para preencher parte das
lacunas (Junger et al, 2003).
A exposição da mãe foi estimada a partir da média dos poluentes em cada trimestre de
gestação usando como referência a data de nascimento da criança. Cada nascimento foi
50
relacionado com a exposição média da mãe em cada trimestre de gestação. Para cada intervalo
interquartil do indicador de poluição atmosférica foi atribuído uma categoria ou nível de
exposição. O primeiro intervalo interquartil foi usado como referência. Os efeitos da poluição
também foram avaliados com a exposição representada por uma variável contínua.
As variáveis representando os potenciais fatores de confusão considerados nos
modelos foram: idade gestacional medida em semanas e categorizada em 37 a 41 semanas e
42 semanas ou mais; escolaridade da mãe medida em anos e categorizada em até 11 anos e 12
anos ou mais; a idade da mãe em anos categorizada em até 19 anos, de 20 a 29, 30 a 34, 35 a
39, 40 anos ou mais; número de consultas pré-natal categorizada em nenhuma, 1 a 3, 4 a 6 e 7
ou mais; o método do parto categorizado em vaginal e cesareo; sexo da criança; estado civil
da mãe categorizado em casada ou união consensual, solteira e separada ou viúva; raça e cor
da pele categorizada em branca, preta, amarela, parda e indígena. A variável indicando que se
tratava do primeiro filho não foi considerada no modelo final devido a quantidade de dados
faltando.
O efeito da sazonalidade foi ajustado através de uma spline cúbica da variável mês de
nascimento com 6 graus de liberdade. Os demais fatores foram introduzidos no modelo
através de variáveis binárias indicando o nível de exposição. Para os fatores ordenados foram
considerados o de menor valor como categoria de referência, exceto idade da mãe que se
tomou como referência a categoria 20 a 29 anos. A variável raça e cor da pele foi usada como
um indicador de desigualdade sócio-econômica. A variável escolaridade da mãe foi usada
como proxy para tabagismo materno. A exposição à poluição do ar referente a cada trimestre
de gestação foi avaliada separadamente.
Para investigar o efeito da poluição do ar bem como identificar os fatores maternos e
da gravidez associados com o baixo peso ao nascer foi utilizada a regressão logística. Razões
de odds (RO) ajustadas foram estimadas para os fatores de risco determinantes de baixo peso
51
ao nascer. A qualidade de ajuste do modelo estimado foi avaliada usando estatísticas de
diagnóstico corrigidas pelo número de padrões de covariáveis como descritas por Hosmer e
Lemeshow (2000). As análises foram realizadas com o Stata versão 8 e R versão 2.3.0. Foi
adotado um nível de significância igual a 0,05 em todas as análises.
4.3 Resultados
Durante o ano de 2002. ocorreram no município do Rio de Janeiro 86.949
nascimentos. Destes, foram efetivamente incluídos na análise 77.987 (87%) recém-nascidos a
termo, ou seja, com idade gestacional maior ou igual a 37 semanas, de gestações únicas e com
peso maior que 1.000 g (muito baixo peso) e menor que 5.500 g (alto peso).
Os gráficos da Figura 4-1 apresentam a média diária de peso e a proporção diária de
baixo peso, menor que 2.500 g, dos nascimentos em 2002 no município do Rio de Janeiro.
Apesar do estudo compreender apenas um ano, observa-se que a média diária do peso ao
nascer apresenta um comportamento sazonal com médias mais baixas nos primeiros meses do
ano. As proporções diárias de baixo peso ao nascer apresentam um padrão semelhante no
sentido oposto.
O peso médio ao nascer dos recém-nascidos no ano 2002 que atenderam o critério de
elegibilidade foi 3.239 g. As estatísticas descritivas do peso ao nascer e os poluentes PM10,
SO2, CO, NO2 e O3 estão apresentadas na Tabela 4-1. Mesmo após a imputação das
concentrações de poluentes, 15% das medidas de NO2 e O3 ainda estavam faltando. Estes
indicadores estão disponíveis apenas em dois dos seis monitores de poluição do ar instalados
na cidade. Parte do ano 2001 representa a exposição das mães cujos filhos nasceram no início
do ano 2002. As concentrações médias de PM10 seguem um padrão sazonal semelhante ao do
peso ao nascer médio diário.
52
Na Tabela 4-2, estão apresentados o total e percentual de indivíduos, a média e o
desvio-padrão de peso ao nascer, o percentual de baixo peso ao nascer e a RO ajustada para
cada categoria de exposição das variáveis de controle de confusão. Algumas categorias foram
agrupadas segundo a magnitude e significância estatística do efeito. A escolaridade da mãe foi
agrupada em duas categorias: até 11 anos e 12 anos ou mais de escolaridade. A idade da mãe
foi categorizada nas faixas até 19 anos, 20 a 29, 30 a 34, 35 a 39, 40 anos ou mais. A variável
referente a paridade, denominada primeiro filho, estava altamente associada com o baixo peso
ao nascer, porém foi excluída das análises por possuir uma cobertura em torno de apenas 32%
no município do Rio de Janeiro.
Figura 4-1 Média diária de peso (em gramas) e proporção diária de baixo peso (< 2.500 g) ao nascer, de recém-nascidos a termo no município do Rio de Janeiro em 2002. A linha suave é uma spline com 6 graus de liberdade.
A fim de estimar o efeito de cada poluente foi definido um modelo de regressão
logística composto pelas variáveis apresentadas na Tabela 4-2, denominado modelo central. A
idade gestacional de 42 semanas ou mais apresentou um efeito protetor com RO igual a 0,31.
A escolaridade da mãe não foi significativa e sua RO estimada foi 0,93 para a categoria 12
anos ou mais de estudos. Todas as faixas etárias das mães analisadas parecem aumentar a
probabilidade de baixo peso do recém-nascido quando comparadas com a faixa de 20 a 29
53
anos: para a faixa até 19 anos a RO foi 1,34; para a faixa 30 a 34 a RO foi 1,12; para a faixa
35 a 39 foi 1,44 e para a faixa 40 anos ou mais a RO foi igual a 1,69.
Tabela 4-1 Estatísticas descritivas para peso ao nascer e poluentes atmosféricos no Rio de Janeiro em 2002.
ND(%) Média (DP) Min P10 P25 P50 P75 P90 Max
Peso 3239 ( 458 ) 1010 2680 2945 3230 3530 3815 5435
PM10 0,0 59,99 ( 18,47 ) 24,35 40,33 46,19 57,01 71,30 83,97 149,69
SO2 0,0 11,48 ( 5,94 ) 1,76 4,65 6,97 10,59 15,02 19,51 39,41
CO 0,0 1,15 ( 0,40 ) 0,33 0,69 0,83 1,12 1,38 1,69 2,53
NO2 15,3 73,04 ( 42,48 ) 2,75 17,65 37,85 69,80 101,55 122,10 226,45
O3 15,8 44,49 ( 27,89 ) 5,68 14,60 23,05 39,60 60,80 80,10 188,95 ND: observações diárias faltando para o cálculo da exposição; DP: desvio padrão; Pn: percentil n
O número de consultas pré-natal está associado inversamente com o baixo peso ao
nascer. A RO para a faixa 4 a 6 consultas foi 0,72 e para 7 ou mais consultas foi 0,52. O
método do parto, vaginal ou cesareo, não parece influenciar o baixo peso ao nascer. Recém-
nascidos do sexo feminino tiveram RO igual 1,52 para baixo peso ao nascer. Estado civil da
mãe parece aumentar as chances de baixo peso, quando solteira a RO foi igual 1,11. Quanto a
raça e cor de pele, apenas a cor preta e parda parecem estar associadas com o baixo peso ao
nascer com RO iguais a 1,54 e 1,28 respectivamente.
Apesar de não ter sido considerada no modelo para a associação entre a poluição do ar
e baixo peso ao nascer devido a grande quantidade de dados faltantes na variável paridade, a
RO para o indicador de que se tratava do primeiro foi 1,17 e significativa. Quando
considerada esta variável, mais de dois terços dos recém-nascidos eram excluídos da análise.
As RO para cada intervalo interquartil da distribuição dos poluentes estão
apresentadas na Tabela 4-3. O primeiro intervalo interquartil de cada poluente foi usado com
exposição de referência. Para todos os indicadores de poluição do ar foram encontradas
associações positivas em pelo uma das categorias de exposição, embora para a maioria destes
indicadores estas associações não sejam estatisticamente significativas.
54
Tabela 4-2 Média e desvio padrão de peso ao nascer, proporção de baixo peso ao nascer e RO ajustadas para variáveis de controle e categorias de exposição.
Número Percentual ND (%) Média (DP) BPN (%) RO (IC 95%) Idade gestacional (semanas) 37 a 41 76865 98,6 0,7 4,52 1,00 42 ou mais 553 0,7 1,45 0,31 ( 0,15 a 0,65 ) Escolaridade da mãe (anos) Até 11 58550 75,1 2,6 3231,7 ( 462,2 ) 4,83 1,00 12 ou mais 17412 22,3 3263,8 ( 440,2 ) 3,43 0,93 ( 0,84 a 1,03 ) Idade da mãe (anos) Até 19 14330 18,4 0,2 3164,3 ( 444,7 ) 5,83 1,34 ( 1,22 a 1,47 ) 20 a 29 33110 42,5 3251,4 ( 451,0 ) 4,04 1,00 30 a 34 11457 14,7 3269,6 ( 464,4 ) 4,18 1,12 ( 1,00 a 1,26 ) 35 a 39 6349 8,2 3249,5 ( 480,9 ) 4,99 1,44 ( 1,26 a 1,65 ) 40 ou mais 1792 2,3 3221,7 ( 503,9 ) 6,36 1,69 ( 1,36 a 2,09 ) Consultas pré-natal Nenhuma 2904 3,7 3,1 3123,7 ( 486,0 ) 8,40 1,00 1 a 3 4804 6,2 3130,7 ( 490,5 ) 8,14 1,06 ( 0,89 a 1,28 ) 4 a 6 17819 22,9 3215,5 ( 466,8 ) 5,35 0,72 ( 0,61 a 0,84 ) 7 ou mais 50021 64,1 3265,3 ( 444,5 ) 3,57 0,52 ( 0,44 a 0,61 ) Método do parto Vaginal 41894 53,7 0,3 3203,8 ( 446,2 ) 4,97 1,00 Cesareo 35841 46,0 3280,4 ( 468,1 ) 4,00 1,01 ( 0,93 a 1,09 ) Sexo Masculino 39978 51,3 0,7 3297,8 ( 461,8 ) 3,67 1,00 Feminino 37465 48,0 3175,4 ( 445,0 ) 5,46 1,52 ( 1,41 a 1,63 ) Estado civil Casada ou consensual 32322 42,3 2,1 3260,0 ( 451,4 ) 3,94 1,00 Solteira 42990 55,1 3222,6 ( 461,8 ) 4,96 1,11 ( 1,02 a 1,20 ) Separada ou viúva 1074 1,4 3254,0 ( 469,0 ) 4,75 1,13 ( 0,83 a 1,55 ) Raça/Cor Branca 45427 63,0 7,5 3253,7 ( 447,2 ) 3,86 1,00 Preta 3928 5,4 3180,4 ( 478,5 ) 6,85 1,54 ( 1,33 a 1,78 ) Parda 22489 31,2 3215,9 ( 471,9 ) 5,50 1,28 ( 1,18 a 1,39 ) Amarela 132 0,2 3234,1 ( 407,2 ) 1,52 0,42 ( 0,10 a 1,72 ) Indígena 167 0,2 3196,6 ( 465,0 ) 5,39 1,17 ( 0,55 a 2,51 ) Primeiro filho* 8632 11,1 68,2 3198,6 ( 444,9 ) 4,89 1,17 ( 1,04 a 1,31 ) ND(%): observações faltantes; BPN: baixo peso ao nascer; RO: razão de odds ajustada; * ajustado separadamente
Para o PM10 os efeitos estimados no primeiro trimestre da gestação foram positivos e
não significativos com maior RO igual a 1,071 na categoria referente ao quarto intervalo
interquartil da exposição. No segundo trimestre da gestação, os efeitos também não foram
significativos. A maior RO foi referente ao segundo intervalo interquartil da exposição. Para o
terceiro e quarto intervalos interquartis, a RO foi menor que 1. No terceiro trimestre da
55
gestação, embora não significativas, foram estimadas RO iguais a 1,109 e 1,093 para o
segundo e quarto intervalos interquartis da exposição respectivamente.
Os efeitos de SO2 no primeiro trimestre da gestação foram não significativos com um
pequeno aumento de 1,002 referente ao segundo intervalo interquartil da exposição. No
terceiro e quarto intervalos interquartis as RO foram negativas. Quanto ao segundo trimestre
da gestação, os efeitos também não foram significativos e apenas o terceiro intervalo
interquartil não foi positivo. Para o segundo intervalo interquartil a RO estimada foi 1,092 e
para o quarto 1,007. No terceiro trimestre, as RO referentes aos segundo e terceiro intervalos
interquartis foram menores que 1. Entretanto, para o quarto intervalo interquartil de exposição
a RO estimada foi 1,149 (IC95%: 1,016;1,301).
Tabela 4-3 RO ajustadas e intervalos de confiança de 95% para baixo peso ao nascer por intervalos interquartis de exposição em cada trimestre da gestação.
Primeiro trimestre Segundo trimestre Terceiro trimestre Poluente Quartil RO (IC 95%) RO (IC 95%) RO (IC 95%)
PM10 Q1 1,000 1,000 1,000 Q2 1,048 ( 0,884 a 1,243 ) 1,011 ( 0,855 a 1,196 ) 1,109 ( 0,931 a 1,320 ) Q3 1,040 ( 0,900 a 1,202 ) 0,946 ( 0,829 a 1,079 ) 0,940 ( 0,825 a 1,070 ) Q4 1,071 ( 0,881 a 1,303 ) 0,976 ( 0,838 a 1,138 ) 1,093 ( 0,955 a 1,250 )
SO2 Q1 1,000 1,000 1,000 Q2 1,002 ( 0,848 a 1,184 ) 1,092 ( 0,923 a 1,292 ) 0,930 ( 0,754 a 1,148 ) Q3 0,993 ( 0,848 a 1,163 ) 0,940 ( 0,829 a 1,066 ) 0,888 ( 0,785 a 1,005 ) Q4 0,981 ( 0,785 a 1,226 ) 1,007 ( 0,898 a 1,130 ) 1,149 ( 1,016 a 1,301 ) CO Q1 1,000 1,000 1,000 Q2 1,007 ( 0,900 a 1,127 ) 1,016 ( 0,916 a 1,127 ) 1,007 ( 0,886 a 1,144 ) Q3 1,107 ( 0,934 a 1,313 ) 0,931 ( 0,806 a 1,076 ) 0,993 ( 0,836 a 1,179 ) Q4 1,141 ( 0,900 a 1,447 ) 0,988 ( 0,844 a 1,156 ) 1,032 ( 0,875 a 1,216 )
NO2 Q1 1,000 1,000 1,000 Q2 0,946 ( 0,767 a 1,168 ) 0,997 ( 0,828 a 1,200 ) 0,990 ( 0,837 a 1,171 ) Q3 0,923 ( 0,776 a 1,098 ) 0,903 ( 0,755 a 1,079 ) 1,008 ( 0,876 a 1,162 ) Q4 1,010 ( 0,884 a 1,154 ) 0,911 ( 0,787 a 1,054 ) 1,026 ( 0,826 a 1,276 )
O3 Q1 1,000 1,000 1,000 Q2 1,002 ( 0,898 a 1,118 ) 0,951 ( 0,757 a 1,193 ) 0,980 ( 0,860 a 1,117 ) Q3 0,998 ( 0,786 a 1,267 ) 0,936 ( 0,819 a 1,070 ) 0,860 ( 0,750 a 0,987 ) Q4 0,904 ( 0,737 a 1,109 ) 1,088 ( 0,956 a 1,238 ) 0,990 ( 0,839 a 1,170 )
Quanto ao CO, apesar de não significativos, aos maiores efeitos foram estimados no
primeiro trimestre da gestação. Foi observado um gradiente de efeito que vai de 1,007 a 1,141
56
para exposições do segundo ao quarto intervalo interquartil. No segundo trimestre, a RO
referente ao segundo intervalo interquartil de exposição é igual a 1,016. Para o terceiro e
quarto intervalos interquartis, as RO foram menores que 1. No terceiro trimestre da gestação,
para o segundo e quarto intervalos interquartis de exposição os efeitos estimados foram 1,007
e 1,032, respectivamente, e para o terceiro 0,993. Estes também não foram significativos.
Os efeitos de NO2 também não foram significativos. Para o quarto intervalo
interquartil de exposição no primeiro trimestre de gestação foi igual a 1,010. Para os terceiro e
quarto intervalos interquartis do terceiro trimestre de gestação iguais a 1,008 e 1,026
respectivamente. No segundo trimestre da gestação as RO foram menores que 1 e não
significativas.
As estimativas do efeito do O3 foram menores que um para todos os níveis de
exposição avaliados exceto para o segundo intervalo interquartil no primeiro trimestre de
gestação e o quarto intervalo interquartil do segundo trimestre. Estes foram iguais 1,002 e
1,088 respectivamente, e sem significância estatística. Foi encontrado um efeito negativo
significativo referente ao terceiro intervalo interquartil de exposição no terceiro trimestre da
gestação igual 0,860 (IC95%: 0,750;0,987).
Tabela 4-4 RO ajustadas para variação de 10 µg/m³ (exceto CO para o qual foi calculado para uma variação de 1 µg/m³) na concentração dos poluentes para cada trimestre da gestação.
Primeiro trimestre Segundo trimestre Terceiro trimestre Poluente RO (IC 95%) RO (IC 95%) RO (IC 95%)
PM10 0,843 ( 0,645 a 1,103 ) 0,952 ( 0,751 a 1,207 ) 1,089 ( 0,886 a 1,338 )
SO2 0,579 ( 0,269 a 1,245 ) 1,255 ( 0,516 a 3,052 ) 1,259 ( 0,460 a 3,442 ) CO* 0,656 ( 0,270 a 1,594 ) 0,892 ( 0,298 a 2,667 ) 2,223 ( 0,629 a 7,858 )
NO2 1,041 ( 0,965 a 1,124 ) 0,952 ( 0,885 a 1,023 ) 0,966 ( 0,904 a 1,031 )
O3 1,009 ( 0,907 a 1,123 ) 1,020 ( 0,925 a 1,125 ) 0,949 ( 0,830 a 1,084 ) * Para 1 µg/m³
Não foram encontradas associações estatisticamente significativas quando a variável
de exposição foi introduzida no modelo como uma medida contínua. Os efeitos para a
57
variação de 10 µg/m³, exceto CO (que foi calculado para uma variação de 1 µg/m³), estão
apresentados na Tabela 4-4. Entretanto, no primeiro trimestre da gestação foram encontrados
efeitos positivos para NO2 igual 1,041 e O3 igual a 1,009. No segundo trimestre, foram
encontradas RO iguais a 1,255 para SO2 e a 1,020 para O3. No terceiro trimestre da gestação
as RO estimadas foram 1,089 para PM10, 1,259 para SO2 e 2,223 para CO.
Modelos com dois poluentes incluídos simultaneamente foram avaliados quando a
correlação linear entre eles foi menor que 0,15, em valor absoluto, para cada trimestre de
gestação. Foram avaliados os seguintes modelos com dois poluentes: SO2 e O3 no primeiro
trimestre e PM10 e O3 no segundo e terceiro trimestre de gestação. Não foram encontradas
associações significativas no modelo com múltiplos poluentes no mesmo trimestre de
gestação.
4.4 Discussão
Os resultados deste estudo sugerem que existe uma associação entre poluição
atmosférica e a ocorrência de baixo peso ao nascer no município do Rio de Janeiro. Após
controlar por diversos fatores de confusão em potencial, foi estimado que recém-nascidos de
mães expostas a concentrações moderadas ou altas dos agentes poluentes da atmosfera
analisados, principalmente nos primeiro e terceiro trimestres de gestação, são mais prováveis
de nascer com peso inferior a 2.500 g.
Com relação ao PM10, SO2 e CO, a maioria das associações estimadas é positiva
embora apenas para o SO2 referente ao quarto intervalo interquartil de exposição no terceiro
trimestre da gestação tenha sido estatisticamente significativa. É importante considerar que a
exposição materna foi estimada como a média de seis estações de monitoramento que medem
estes poluentes em todo o município considerando a data de nascimento e, portanto, a
exposição materna individual pode estar superestimada em alguns casos e subestimada em
58
outros. Logo, é inerente ao desenho de estudo adotado a possibilidade de erro de classificação
não diferencial na exposição.
Este aspecto pode se agravar para os indicadores de NO2 e O3 uma vez que estes foram
medidos em apenas dois pontos da cidade. Neste caso, é razoável supor que o erro de
classificação da exposição possa ser ainda maior. Como conseqüência do erro de classificação
não diferencial da exposição, os resultados encontrados neste estudo podem estar
subestimados.
Mães que não estão sujeitas a uma gravidez de risco tendem a se locomover mais pela
cidade, sobretudo nos primeiro e segundo trimestres da gestação diminuindo o erro de
classificação não diferencial da exposição. Portanto, a análise apenas dos nascimentos de
mães residentes próximo aos monitores não diminuiria necessariamente o erro de
classificação. Além disto, algumas mães residem mais próximo a fontes de emissão de
poluição existentes que outras. A medida de exposição utilizada neste estudo, apesar de sua
limitação, pode ser considerada adequada na falta de uma medida de exposição individual.
A escolha de uma janela de três meses para a estimativa da exposição da mãe à
poluição do ar é baseada no fato de que muitos estudos que avaliam desfechos da gravidez
utilizam o trimestre de gestação como unidade de mensuração. Na estimativa da exposição da
mãe para cada trimestre foi usada apenas a data do nascimento como referência. Porém, a
idade gestacional maior que 42 semanas ocorreu em menos de 1% dos nascimentos. Logo,
pode haver um pequeno viés na estimativa da exposição materna nestes casos de forma não
diferencial atenuando os efeitos encontrados.
Os pontos fortes deste estudo é que ainda foi possível encontrar efeito da poluição
após controlar por muitos dos fatores determinantes de baixo peso ao nascer discutidos na
literatura como sexo, período gestacional, número de consultas pré-natal, estado civil, status
sócio-econômico através da variável raça e cor da pele, idade e escolaridade da mãe. O peso
59
ao nascer registrado no SINASC parece ter boa qualidade, logo não é provável que exista erro
de classificação na condição de baixo peso ao nascer. Fatores como hábitos nutricionais,
tabagismo ativo ou passivo durante a gestação, peso da mãe anterior à gestação, estado de
morbidade materna e exposição ocupacional associados com o baixo peso ao nascer não
estavam disponíveis. Entretanto, estes fatores variam de forma independente da poluição do ar
e portanto não constituem fatores de confusão.
O tabagismo materno é um dos principais fatores determinantes de desfechos
relacionados com a gestação, entre eles, o crescimento intrauterino restrito (CIUR) e o baixo
peso ao nascer (Ojembarrena et al, 2005; Nakamura et al, 2004; Kharrazi et al, 2004; Perera et
al, 2004). Entretanto, no Brasil, parece existir uma correlação entre tabagismo e escolaridade
da mãe (Barbieri et al, 2000); assim, a primeira é parcialmente ajustada pela inclusão da
última no modelo. Apesar de raça e cor da pele e classe social serem conceitos diferentes, raça
e cor da pele é uma dimensão de estratificação social que pode diferenciar o acesso a serviços
de saúde. Por estarem correlacionadas, a variável raça e cor da pele é freqüentemente usada
como um indicador de status sócio-econômico (Travassos e Williams, 2004). A inclusão desta
variável no modelo foi fundamentada neste critério.
Os mecanismos envolvidos na redução do crescimento fetal associados com a
exposição à poluição do ar podem variar durante a gestação, mas os diversos estudos não
concordam sobre o período de maior suscetibilidade. O desenvolvimento fetal ocorre em
diferentes estágios, o ganho de peso ocorre predominantemente no terceiro trimestre (Gouveia
et al, 2004; Mongelli e Biswas, 2001). Os resultados deste estudo são coerentes com este
aspecto. Nas duas estratégias de modelagem, categorias de exposição em intervalos
interquartis e exposição contínua, os maiores efeitos, mesmo que não significativos, parecem
ocorrer no terceiro trimestre da gestação. Exceto para CO que parece ter um efeito maior no
primeiro trimestre.
60
Já se sabe que CO interfere com o transporte do oxigênio para o feto. O CO pode
cruzar a barreira placentária e, além disto, o feto é mais vulnerável ao envenenamento por CO
pois existe um acúmulo 10 a 15 % maior no sangue fetal que nos níveis maternos. Ainda, sua
eliminação é menor no sangue do feto que no da mãe (Ha et al, 2001). Pereira e colaboradores
(1998) encontraram uma significativa relação dose-resposta entre concentrações de CO e a
presença de carboxi-hemoglobina no sangue do cordão umbilical de mães não fumantes em
São Paulo, reforçando a plausibilidade biológica entre concentrações de poluentes na
atmosfera e mortes fetais.
Os resultados deste estudo são consistentes com aqueles encontrados em outras
cidades ou regiões onde foram encontrados efeitos da exposição da mãe ao SO2 no primeiro
ou terceiro trimestre da gestação. Na República Checa foram encontradas associações entre
partículas PTS e SO2 e mortalidade neonatal por doenças respiratórias (Bobak e Leon, 1992).
Na Coréia foram encontradas RO 1,08 e 0,91 para CO referentes ao primeiro e terceiro
trimestres; para NO2 com RO 1,07 e 0,95 referentes ao primeiro e terceiro trimestres; para
SO2 com RO 1,06 e 0,93 referentes ao primeiro e terceiro trimestres respectivamente e PTS
com RO 1,04 e 0,95 referentes ao primeiro e terceiro trimestres (Ha et al, 2001). No nordeste
dos Estados Unidos foram encontrados efeito do CO com RO igual a 1,04 para o quarto
intervalo interquartil no terceiro trimestre; para o SO2 com RO igual 1,13 referente ao quarto
intervalo interquartil no segundo trimestre de gestação e para PM10 não foram encontrados
efeitos significativos (Maisonet et al, 2001). No Canadá, num estudo de coorte retrospectiva,
foram encontradas associações referentes a SO2 com RO igual a 1,36 no primeiro trimestre da
gestação, a PM com RO igual a 1,33 referente ao primeiro trimestre e não foram encontradas
associações com O3 (Dugandzic et al, 2006).
Mesmo após a imputação de dados, os poluentes NO2 e O3 ainda permaneceram com
cerca de 15% das médias diárias faltando. Logo, as estimativas dos efeitos para estes
61
indicadores podem estar enviesadas. Os campos referentes ao número de filhos vivos e mortos
do SINASC apresentam em torno de 60% de dados faltantes, assim, mesmo sendo um
importante fator de risco para o baixo peso ao nascer, a variável paridade foi excluída da
análise.
Apesar das limitações envolvidas neste trabalho, foi possível estimar, de forma
consistente com a literatura, o efeito da poluição do ar sobre o peso ao nascer de recém-
nascidos a termo de gestação única no município do Rio de Janeiro. O desfecho baixo peso ao
nascer tem sido fortemente relacionado com a mortalidade infantil e é um indicador bastante
sensível dos efeitos ambientais. Este importante desfecho tem sido pouco estudado em
epidemiologia ambiental. Os resultados deste trabalho complementam aqueles desenvolvidos
em São Paulo (Gouveia et al, 2004; Perera et al, 1998) permitindo um melhor entendimento
dos efeitos da poluição sobre a saúde nas grandes cidades brasileiras.
4.5 Referências
Anderson H, Ponce DL, Bland J, Bower J, Strachan D. Air pollution and daily mortality in London: 1987-92. BMJ 1996; 312:665-669.
Atkinson R, Anderson H, Sunyer J, Ayres J, Baccini M, Vonk J et al. Acute effects of particulate air pollution on respiratory admissions: results from APHEA 2 project. Air Pollution and Health: a European Approach. American Journal of Respiratory and Critical Care Medicine 2001; 164:1860-1866.
Ballester F, Corella D, Perez-Hoyos S, Hervas A. Air pollution and mortality in Valencia, Spain: a study using the APHEA methodology. International Journal of Epidemiology 1996; 50:527-533.
Barbieri MA, Silva AA, Bettiol H, Gomes UA. Risk factors for the increasing trend in low birth weight among live births born by vaginal delivery, Brazil. Rev Saude Publica 2000; 34:596-602.
Basu R, Woodruff TJ, Parker JD, Saulnier L, Schoendorf KC. Comparing exposure metrics in the relationship between PM2,5 and birth weight in California. J Expo Anal Environ Epidemiol 2004; 14:391-396.
Bobak M, Leon DA. Air pollution and infant mortality in the Czech Republic, 1986-88.
62
Lancet 1992; 340:1010-1014.
Borja-Aburto V, Loomis D, Bangdiwala S, Shy C, Rascon-Pacheco R. Ozone, suspended particulates, and daily mortality in Mexico City. American Journal of Epidemiology 1997; 145:258-268.
Brunekreef B, Holgate S. Air pollution and health. 2002; 360:1233-1242.
Burnett R, Dales R, Krewski D, Vincent R, Dann T, Brook J. Associations between ambient particulate sulfate and admissions to Ontario hospitals for cardiac and respiratory diseases. American Journal of Epidemiology 1995; 142:15-22.
Cohen A, Pope C, Speizer F. Ambient air pollution as a risk factor for lung cancer. Salud Publica de Mexico 1997; 39:346-355.
Daumas R, Mendonca G, Ponce de Leon A. [Air pollution and mortality in the elderly in Rio de Janeiro: a time-series analysis]. Cadernos de Saúde Pública 2004; 20:311-319.
Dugandzic R, Dodds L, Stieb D, Smith-Doiron M. The association between low level exposures to ambient air pollution and term low birth weight: a retrospective cohort study. Environ Health 2006; 5(3):1-8.
Gouveia N, Bremner SA, Novaes HMD. Association between ambient air pollution and birth weight in Sao Paulo, Brazil. J Epidemiol Community Health 2004; 58:11-17.
Gouveia N, Fletcher T. Respiratory diseases in children and outdoor air pollution in Sao Paulo, Brazil: a time series analysis. Occup Environ Med 2000; 57:477-483.
Ha E, Hong Y, Lee B, Woo B, Schwartz J, Christiani D. Is air pollution a risk factor for low birth weight in Seoul?. 2001; 12:643-648.
Hoek G, Brunekreef B. Acute effects of a winter air pollution episode on pulmonary function and respiratory symptoms of children. Arch Environ Health 1993; 48:328-335.
Hosmer D.W., Lemeshow S. Applied Logistic Regression. New York, John Wiley & Sons 2000.
Junger W, Ponce de Leon A, Mendonca G. Short term association between lung cancer and air pollution in Rio de Janeiro: a daily time series study. Revista Brasileira de Cancerologia 2005; 51:111-115.
Junger WL, Santos Narcisa, Ponce de Leon A. Imputação de dados faltantes em séries temporais multivariadas via algoritmo EM. Cadernos do IME 2003; 15:8-21.
Kharrazi M, DeLorenze G, Kaufman F L, Eskenazi B, Bernet JTJ, Graham S et al. Environmental Tobbaco Smoke and Pregnancy Outcome. Epidemiology 2004; 15:660-670.
Kunzli N TIB. Air pollution: from lung to heart. Swiss Med Weekly 2005; 135:697-702.
Lacasana M, Esplugues A, Ballester F. Exposure to ambient air pollution and prenatal and
63
early childhood health effects. Eur J Epidemiol 2005; 20:183-199.
Lin C, Martins M, Farhat S, Pope C, Conceicao G, Anastacio V et al. Air pollution and respiratory illness of children in Sao Paulo, Brazil. Paediatric and Perinatal Epidemiology 1999; 13:475-488.
Maisonet M, Bush T, Correa A, Jaakkola J. Relation between ambient air pollution and low birth weight in the Northeastern United States. 2001; 109 Suppl 3:351-6:351-356.
Maisonet M, Correa A, Misra D, Jaakkola JJK. A review of the literature on the effects of ambient air pollution on fetal growth. Environ Res 2004; 95:106-115.
Mannes T, Jalaludin B, Morgan G, Lincoln D, Sheppeard V, Corbett S. Impact of ambient air pollution on birth weight in Sydney, Australia. Occup Environ Med 2005; 62:524-530.
Maroziene L, Grazuleviciene R. Maternal exposure to low-level air pollution and pregnancy outcomes: a population-based study. Environ Health 2002; 1:6.
Mongelli M, Biswas A. A fetal growth standard derived from multiple modalities. Early Hum Dev 2001; 60:171-177.
Nakamura MU, Alexandre SM, Santos JFK, Souza E, Sass N, Beck APA et al. Obstetric and perinatal effects of active and/or passive smoking during pregnancy. São Paulo Medical Journal 2004; 122:94-98.
Ojembarrena AA, Fernández JC, Velasco AG, Chullen G Y, Bayle MS. Peso al nascimiento y tabquismo familiar. Annals of Pediatrics 2005; 63:116-119.
OPAS, Pan American Health Organization. An assessment of health effects of ambient air pollution in Latin America and Caribbean. PAHO 2005.
Parker JD, Woodruff TJ, Basu R, Schoendorf KC. Air pollution and birth weight among term infants in California. Pediatrics 2005; 115:121-128.
Pereira L, Loomis D, Conceicao G, Braga A, Arcas R, Kishi H et al. Association between air pollution and intrauterine mortality in Sao Paulo, Brazil. Environ.Health Perspect 1998; 106:325-329.
Perera FP, Rauh V, Whyatt RM, Tsai W, Bernert JT, Tu Y et al. Molecular evidence of an interaction between prenatal environmental exposures and birth outcomes in a multiethnic population. Environ Health Perspect 2004; 112:626-630.
Ponce de Leon A, Anderson H, Bland J, Strachan D, Bower J. Effects of air pollution on daily hospital admissions for respiratory disease in London between 1987-88 and 1991-92. Journal of Epidemiology and Community Health 1996; 50 Suppl 1:s63-s70.
Pope C, Thun M, Namboodiri M, Dockery D, Evans J, Speizer F et al. Particulate Air-Pollution As A Predictor of Mortality in A Prospective-Study of Us Adults. American Journal of Respiratory and Critical Care Medicine 1995; 151:669-674.
64
Romieu I, Lugo M, Velasco S, Sanchez S, Meneses F, Hernandez M. Air pollution and school absenteeism among children in Mexico City. 1992; 136:1524-1531.
Salam MT, Millstein J, Li YF, Lurmann FW, Margolis HG, Gililand FD. Birth outcomes and prenatal exposure to ozone, carbon monoxide and particulate matter: results from the Childresn's Health Study. Environmental Health Perspectives 2005; 113:1638-1644.
Schwartz J. Air pollution and hospital admissions for respiratory disease. Epidemiology 1996; 7:20-28.
Silva AA, Ribeiro VS, Borba AFJ, Coimbra LC, Silva RA. [Evaluation of data quality from the information system on live births in 1997-1998]. Rev Saude Publica 2001; 35:508-514.
Sram RJ, Binkova B, Dejmek J, Bobak M. Ambient air pollution and pregnancy outcomes: a review of the literature. Environ Health Perspect 2005; 113:375-382.
Travassos C, Williams DR. The concept and measurement of race and their relationship to public health: a review focused on Brazil and the United States. Cad Saude Publica 2004; 20:660-678.
Ward DJ, Ayres JG. Particulate air pollution and panel studies in children: a systematic review. Occup Environ Med 2004; 61:e13.
Wilhelm M, Ritz B. Local variations in CO and particulate air pollution and adverse birth outcomes in Los Angeles County, California, USA. Environ Health Perspect 2005; 113:1212-1221.
65
5 ARTIGO 3: Imputação de dados faltantes em séries temporais de poluição
atmosférica
Imputation of missing data in time series of air pollution
Washington Leite Junger
Antonio Ponce de Leon
Departamento de Epidemiologia
Instituto de Medicina Social
Universidade do Estado do Rio de Janeiro
66
Resumo
Dados faltantes são um problema freqüente em estudos epidemiológicos sobre os
efeitos da poluição do ar na saúde. Os equipamentos de aferição da qualidade do ar podem
apresentar falhas que impossibilitem seu funcionamento por até vários dias seguidos. Estas
lacunas podem causar distorções na quantificação da exposição. O mecanismo gerador dos
dados faltantes é geralmente ignorado. A análise de dados incluindo apenas as observações
disponíveis, sem um tratamento estatístico para a questão de dados faltantes, pode produzir
estimativa viesada da medida de efeito e subestimar sua precisão.
Neste trabalho são propostos alguns procedimentos de imputação de dados em séries
temporais multivariadas, e.g concentrações diárias de poluentes atmosféricos, baseados no
algoritmo EM (expectation-maximization). A trajetória temporal das séries é modelada com o
uso de splines, modelos de regressão ou modelos ARIMA (autoregressive integrated moving
average) com múltiplos regimes de covariâncias. Um estudo de simulação com diversas
configurações de dados faltantes é usado para avaliar a validade destes métodos e daqueles
que estão disponíveis como padrão na maioria dos aplicativos de análise estatística. Os
métodos são avaliados também quanto a sua performance por meio de indicadores de acurácia
e concordância. Em adição, um critério de penalização pela informação perdida é proposto
afim de contemplar no modelo de estudo a incerteza introduzida pela imputação.
Os resultados dos estudos de simulação permitem afirmar que: (i) a análise de dados
considerando apenas as unidades de observação completas subestimaram o efeito do poluente
no evento de saúde mesmo com pequena quantidade de dados faltantes; (ii) as imputações
pela média e pela mediana apresentaram este efeito superestimado, grande dispersão das
estimativas e baixa concordância dos valores imputados com os originais; (iii) os
procedimentos multivariados apresentaram melhor desempenho e acurácia que os
univariados; (iv) os métodos multivariados com ajuste do componente temporal apresentaram
67
maior acurácia e precisão. Também apresentaram menores erros de previsão e maior
concordância entre os valores imputados e os originais, sobretudo os procedimentos baseados
em splines com múltiplos regimes de covariâncias. A validade e o desempenho dos métodos
foram avaliadas inclusive com dados faltantes devido a causas não ignoráveis. Os métodos
propostos neste trabalho estão implementados na biblioteca mtsdi para o aplicativo estatístico
R.
68
5.1 Introdução
O problema de dados incompletos surge com freqüência em estudos epidemiológicos,
por exemplo, itens não respondidos em um survey, pacientes que não comparecem ao follow-
up, dados de sistemas de informação em saúde não disponíveis para algumas unidades de
estudo etc. Em estudos sobre os efeitos da poluição do ar na saúde, os equipamentos de
aferição das concentrações de contaminantes na atmosfera sofrem freqüentemente mau
funcionamento que impossibilitam sua operação por horas ou mesmo dias. Durante muito
tempo, o problema de dados incompletos tem sido extensivamente estudado e vários métodos
para lidar com o problema foram publicados na literatura estatística (Schafer, 1997; Little,
1992; Little e Rubin, 1989, Dempster et al, 1977; Rubin, 1976; Beale e Little, 1975; Hartley e
Hocking, 1971), porém pouca atenção tem sido dada em textos epidemiológicos (Miettinen,
1985; Greenland e Rothman, 1998). Entretanto, diversos autores têm estudado os efeitos da
análise de dados incompletos na estimação de medidas epidemiológicas usando simulação
estocástica (Gorelick, 2006; Plaia e Bondì, 2006; Junninen et al, 2004; Engels e Diehr, 2003),
e ainda novos procedimentos de análise têm sido propostos. Alguns procedimentos são
simples e acabam produzindo estimativas viesadas e outros mais sofisticados dependem de
fortes pressupostos sobre o mecanismo gerador do padrão de dados faltantes e complicadas
implementações computacionais (Little e Rubin, 1987; Schafer, 1997).
Rubin (1976) classifica dados incompletos de acordo com o mecanismo gerador do
padrão de valores faltantes em dados “faltantes completamente ao acaso” ou MCAR (missing
completely at random), dados “faltantes ao acaso” ou MAR (missing at random) e dados
“faltantes não ao acaso” ou MNAR (missing non at random). O pressuposto de MCAR é
restritivo demais para as aplicações gerais. Em estudos epidemiológicos é comum que a
distribuição dos registros faltantes esteja relacionada com o status de exposição ou doença.
69
Assim, os pressupostos de MAR para o mecanismo gerador dos dados faltantes podem ser
mais realistas (Greenland e Finkle, 1995).
O procedimento de análise mais comum e implementado como padrão na maioria dos
aplicativos estatísticos consiste na exclusão das unidades de observação com valores não
aferidos em uma ou mais covariáveis; também conhecida como análise de dados completos.
Este procedimento somente produz estimativas não viesadas sob os pressupostos restritivos de
MCAR. Ainda, dependendo do número de covariáveis no modelo e da quantidade de dados
faltantes, pode haver perda significante da precisão dos estimadores (Greenland e Rothman,
1998; Greenland e Finkle, 1995). Se os dados faltantes são MAR, a análise de dados
completos não é mais baseada em uma amostra da população de origem e é provável que
ocorra viés de seleção (Donders et al, 2006). Esta abordagem é mais problemática na análise
de séries temporais, pois a exclusão de unidades observacionais incompletas pode alterar
consideravelmente as estruturas de dependência temporal, tendência e sazonalidade (Box et
al, 1994).
A análise de regressão usando apenas as unidades observacionais completas pode ser
estendida com o método da variável indicadora, que consiste em incluir no modelo uma
variável com valores 1 se a covariável tem o valor correspondente faltando ou 0 em caso
contrário (Vach e Blettner, 1991). Miettinen (1985) aponta que este método também não
garante validade das estimativas e que quando aplicado às covariáveis que constituem fatores
de confusão, estes são apenas parcialmente controlados.
Além da análise de dados incluindo apenas as unidades observacionais com registros
completos há na literatura uma grande variedade de procedimentos para estimar parâmetros
de modelos com dados incompletos. Os principais procedimentos podem ser classificados em
dois grandes grupos: os baseados em modelos e os baseados em imputação (Little e Rubin,
1989). Apesar dos procedimentos baseados em modelos serem mais flexíveis, não
70
dependerem de métodos ad hoc e produzirem estimativas da variância considerando os dados
incompletos, estes podem envolver a solução de complicadas equações de verossimilhança
(Little e Rubin, 1989; Hartley e Hocking, 1971). Tais procedimentos freqüentemente
requerem rotinas computacionais específicas para cada problema; o que dificulta sua
implementação em aplicativos estatísticos. Por outro lado, os procedimentos baseados em
imputação consistem em preencher os valores faltantes e analisar o conjunto de dados
resultante usando métodos convencionais. Alguns procedimentos baseados em imputação são
simples e implementados na maioria dos aplicativos estatísticos, por exemplo, substituição
pela média incondicional da covariável. Procedimentos mais sofisticados também envolvem
grande esforço computacional e dificuldade de implementação, por exemplo, a imputação
múltipla (Schafer, 1997).
A principal desvantagem dos procedimentos baseados em imputação é que em sua
maioria a imprecisão devida à imputação não é contemplada na análise e portanto a variância
dos estimadores é subestimada. Os procedimentos mais simples de imputação freqüentemente
levam a estimativas viesadas das associações (Donders et al, 2006). A imputação múltipla
produz estimativas da variância levando em consideração que a distribuição da variável com
valores faltantes não realmente foi observada; o que se traduz em intervalos de confiança mais
precisos (Schafer, 1997). A imputação múltipla não está amplamente implementada nos
aplicativos estatísticos, sobretudo para modelos de séries temporais. A sua implementação
depende da classe de modelo utilizada e é computacionalmente intensiva.
A imputação múltipla não será objeto deste artigo; serão considerados apenas os
procedimentos de imputação única mais freqüentemente abordados na literatura. Um
procedimento simples e disponível na maioria dos aplicativos estatísticos consiste na
substituição do valor faltante pela média incondicional. Sob MAR, este procedimento leva a
estimativas não consistentes da variância dos estimadores dos coeficientes de regressão; sob
71
MCAR, as estimativas da variância são consistentes, porém subestimadas. Logo, os testes de
hipóteses e intervalos de confiança são distorcidos pelo viés e pela precisão superestimada
(Little e Rubin, 1989; Little, 1992). A imputação com a mediana pode produzir melhores
resultados no caso de variáveis com distribuição assimétrica (Miettinen, 1985). A imputação
única baseada na média incondicional ou na média condicional tende a distorcer a distribuição
marginal dos dados imputados devido à maior concentração de observações em torno da
média. Esta distorção é mais preocupante se as caudas da distribuição são de interesse no
estudo, e.g. cálculo dos intervalos de confiança (Little e Rubin, 1989).
Um aperfeiçoamento do procedimento para a imputação única de dados mencionada
acima consiste em usar a informação das várias covariáveis observadas na mesma unidade
observacional para imputar o respectivo valor faltante de uma dada variável por meio de um
modelo de regressão linear. Os coeficientes da regressão são estimados usando as unidades
completas. Sob MCAR, os dados imputados produzem estimativas consistentes do efeito da
variável de estudo (Little, 1992).
O método de Buck (Buck, 1960) é um procedimento para imputação de dados baseado
na média condicional para dados com distribuição normal multivariada. Neste método, as
observações faltantes em uma variável são estimados como uma regressão linear das variáveis
observadas e os coeficientes de regressão, como função do vetor média e da matriz de
covariâncias amostrais baseados nas observações completas. Hartley e Hocking (1971)
propuseram as equações iterativas para a estimação por máxima verossimilhança do vetor de
médias e da matriz de covariâncias de uma distribuição normal multivariada com dados
faltantes. Este método foi estendido para outras distribuições da família exponencial e ficou
conhecido como algoritmo EM (expectation-maximisation) (Dempster et al, 1977). O
algoritmo EM aplicado sob os pressupostos da distribuição normal multivariada neste
contexto é uma versão iterativa do método de Buck (McLachlan e Krishnan , 1997).
72
Neste trabalho propomos um método para imputação de dados faltantes em séries
temporais multivariadas inspirado no algoritmo EM. Além das estruturas de dependência
entre as variáveis, o método também leva em consideração as estruturas de dependência
temporal de cada variável. Diferentes estratégias de modelagem dos componentes temporais
das séries temporais são propostas. Um estudo de simulação foi desenvolvido a fim de avaliar
a validade do procedimento proposto e comparar sua performance com aqueles mais
freqüentemente encontrados. O método está implementado como um pacote ao aplicativo
estatístico R (R Development Core Team, 2007). Este trabalho foi desenvolvido como parte
do Projeto ESCALA (Estudios de Salud y Contaminación del Aire en Latinoamérica)
(Gouveia et al, 2007).
5.2 Métodos
5.2.1 Procedimento de imputação
Seja tx , ( )1, ,t n= … , a t -ésima realização do vetor aleatório X , com distribuição
normal multivariada, com m componentes não observados. O vetor tx pode ser arranjado de
forma que os m componentes faltantes sejam colocados nas primeiras posições, ou seja,
( )( )1 1, , , , ,T
t t tm tpt mx x x x+= … …x , e representado como ( )1 2,T
t t t=x x x . Considere B janelas
com diferentes regimes de covariâncias ao longo do tempo. A estimativa do vetor média no
instante t e janela b , ( )1, ,b B= … , pode ser particionado seguindo a mesma configuração
dos componentes de tx , isto é,
1
2
tt
t
=
µµ
µ
ɶɶ
ɶ e 11 12
21 22
b bb
b b
=
Σ ΣΣ
Σ Σ
ɶ ɶɶ
ɶ ɶ.
73
O algoritmo de imputação consiste em (1) substituir os valores faltantes por valores
estimados, (2) estimar os parâmetros µ e Σ do modelo normal subjascente (as estimativas de
µ são usadas apenas para estimar Σ ) e o nível de cada série temporal univariada tµ (usado
para imputar os dados faltantes), (3) reestimar os valores faltantes considerando os parâmetros
atualizados e o nível da cada série temporal. Este processo é repetido até que os valores
estimados cessem de variar1.
As estimativas iniciais 0µɶ e 0Σɶ são respectivamente o vetor média e a matriz de
covariâncias amostrais considerando apenas os dados observados. Na iteração ( )1k + do
passo E do algoritmo EM modificado, os valores faltantes são imputados como a média
condicional aos valores observados e os parâmetros estimados na iteração anterior dada por
( ) ( ) ( ) ( ) ( ) ( ) ( )( )1 -11
k k k k k k kt t t t b t b b t tE+ = = 1 2 1 12 22 2 2x X | x ,µ ,Σ µ +Σ Σ x -µɶ ɶ ɶɶ ɶ ɶ ɶ
e as contribuições para as covariâncias são dadas por
�( ) ( ) ( ) ( ) ( ) ( ) ( )1
-11 1 1 1 2 11 12 22 21 1 1
kk k k k k kT T T
t t t t t t b b b b b t tE+
= = x x X X | x ,µ ,Σ Σ -Σ Σ Σ + x xɶ ɶ ɶ ɶ ɶɶ ɶ ɶ
e
�( ) ( ) ( )1
1 2 1 2 2 1 2
kk kT T T
t t t t t t b t tE+
= = x x X X | x ,µ ,Σ x xɶɶ ɶ ɶ .
No passo M, são computadas as estimativas de máxima verossimilhança revisadas de
bµ e bΣ , considerando implícito o índice da interação ( )1k + , 1
bn
b bt btn
==∑µ xɶ ɶ e
�
1
bn T Tb bt bt b b bt
n=
=∑Σ x x -µ µɶ ɶ ɶ . A estimativa bµɶ é usada apenas para o cálculo de bΣɶ .
A contribuição do componente temporal de cada série univariada é estimado de modo
ad hoc, isto é, são necessários modelos adicionais para a estimação de tµ . Neste método de
1 Nota para a tese: O fluxograma do algoritmo de imputação com componente temporal é apresentado no Apêndice A1.
74
imputação, estão implementadas três opções de estimação do nível das séries temporais:
modelo ARIMA, spline cúbica não paramétrica e modelo aditivo generalizado (MAG).
Seja ( )1 2, , ,T
t t t tpX X X=X … um vetor aleatório com distribuição normal multivariada.
Suponha que cada componente tjX , com 1, ,j p= … , possa ser representado por um processo
ARIMA( p,d,q) denotado por
1 1 2 2 1 1 2 2d
jt jt jt p jt p jt jt jt q jt qx x x x a a a aφ φ φ θ θ θ− − − − − −∇ = + + + + − − − −⋯ ⋯,
em que d∇ é o operador de diferença de ordem d , as constantes φ são os coeficientes
autoregressivos e θ os coeficientes de média móvel. A estimativa do nível para a variável
jX no instante t é a previsão um passo a frente do modelo ARIMA dada por
( ) ( )1 2| , ,jt jt j t j tE X x xµ − − =
ɶ … . A estimativa do nível é calculada usando as informações
passadas de jX (Box et al, 1994).
No caso das splines cúbicas não paramétricas, considere que tµ pode ser estimado por
uma função suave jg , com 1, ,j p= … . A curva jg é estimada tal que o funcional
( ) ( ){ } { }22 ''
1
bK
j t kk aS g X g g dxν λ
== − +∑ ∫ seja minimizado. Os pontos 1 2, , , Kν ν ν…
ordenados no intervalo [ ],a b são os nós e λ é o parâmetro de suavização da curva. A solução
deste problema é uma spline cúbica natural (Green e Silverman, 1994). Cada variável jX tem
seu nível dado por ( )jt jtg xµ = .
A estimativa de jtµ também pode ser obtida por meio de um modelo de regressão. A
principal vantagem deste método é a possibilidade de incluir no modelo de imputação
informação proveniente de h variáveis externas ao conjunto incompleto de dados, e.g.
1 2, , , hZ Z Z… , tal que possam contribuir para explicar a variabilidade de cada série temporal.
Modelos lineares generalizados (McGullagh e Nelder, 1989) e modelos aditivos generalizados
75
(Hastie e Tibshirani, 1990) estão implementos na biblioteca para imputação de dados no
aplicativo estatístico R desenvolvida a partir deste trabalho. Os modelos aditivos
generalizados são bastante flexíveis e podem incluir no seu preditor funções suaves das
covariáveis. As estimativas de jtµ , com 1, ,j p= … , são da forma
( )0jt u u v vu vZ g Zµ β β= + +∑ ∑ , as constantes β são coeficientes da partição linear do
modelo, u v h+ = e ( )g ⋅ são funções suaves das covariáveis.
5.2.2 Penalização pela informação perdida
Em estudos de séries temporais sobre os efeitos da poluição do ar na saúde, a medida
de exposição geralmente é determinada por alguma medida sumária, e.g. a média aritmética,
das concentrações medidas nas diversas estações de monitoramento instalados na região de
estudo. Contudo, após a imputação dos dados faltantes, em alguns dias a exposição terá sido
determinada por medidas observadas e medidas imputadas. A fim de produzir estimativas da
variância que levem em consideração que a informação em algumas observações foram
estimadas, e não efetivamente medidas, é adequado definir algum critério de penalização para
estas medidas de exposição.
A penalização pode se dar por meio da atribuição dos pesos tw para cada observação
do modelo de regressão generalizada para estimar a associação entre o poluente e os eventos
de saúde, a fim de considerar a variabilidade extra introduzida pelo processo de imputação na
precisão dos estimadores. Uma função de penalização naive consiste em uma quantidade
linear inversamente proporcional ao número de valores imputados em uma dada linha do
banco de dados de concentrações de poluentes, denotada por ( )1t tw k m p= − , em que tm é
o número de componentes (estações) faltantes no vetor observado de comprimento p no
instante t e k é uma constante arbitrária. A constante k controla o desconto que será dado ao
76
valor médio correspondente à exposição no instante t . A escolha de 0.5k = tem mostrado
bons resultados, produzindo intervalos de confiança mais conservadores para a medida de
associação. Outras funções de penalização estão sendo investigadas pelos autores.
5.2.3 Dados
Uma das dificuldades na avaliação de procedimentos de imputação de dados faltantes
é que geralmente não há como comparar os valores imputados com os valores originais. A
geração de dados simulados com variáveis correlacionadas e com dependência temporal não é
trivial; e o melhor modelo pode não ser capaz de capturar toda a dinâmica inerente ao
processo estocástico subjacente. Por isto, neste trabalho, optou-se por usar dados reais. Foi
possível obter uma amostra de dados completos com 366 dias consecutivos com
concentrações de material particulado até 10 micra (PM10) em microgramas por metro cúbico
(µg/m³), proveniente de 10 estações de monitoramento da qualidade do ar instaladas no
município de São Paulo no ano 2004. Os dados foram registrados e cedidos pela Companhia
de Tecnologia de Saneamento Ambiental (CETESB) do Estado de São Paulo no âmbito do
projeto ESCALA. Por simplicidade, as estações serão referidas pelos rótulos E1 a E10,
Os métodos propostos neste artigo assumem que os dados completos têm distribuição
normal. Entretanto, dados ambientais geralmente não seguem esta distribuição. Assim, todas
as imputações foram realizadas usando o logaritmo natural dos dados originais para melhor
aproximação da distribuição normal e estabilidade da variância para os métodos baseados em
regressão (Box e Cox, 1964). Os dados imputados foram transformados de volta para a escala
original para estimar o efeito do PM10 no evento de saúde.
5.2.4 Estudo de simulação
A fim de avaliar a validade dos métodos de imputação propostos neste artigo e
77
possibilitar a comparação com outros existentes na literatura foi conduzido um estudo de
simulação baseado na geração de padrões representativos de diversos cenários de dados
faltantes. Os padrões de dados faltantes considerados foram os resultantes da combinação de
mecanismos de geração de dados faltantes, proporções de dados faltantes e configurações das
lacunas.
Foram investigadas proporções iguais a 5%, 10%, 20%, 30% e 40% de dados
faltantes. A literatura indica (Greenland e Rothman, 1998; Miettinen, 1985) que para uma
pequena proporção de dados faltantes e um grande número de observações a análise de dados
completos produz bons resultados, portanto o cenário de 5% foi incluído como referência. A
proporção de 40%, por outro lado, serve para avaliar os métodos de imputação sob condições
extremas de informação perdida.
Amostras sem reposição foram usadas a fim de alcançar a quantidade de valores
faltantes desejada em cada rodada. Os dados MCAR foram gerados como uma amostra
aleatória de todas as observações do conjunto de dados utilizado. Dados MAR foram
selecionados aleatoriamente com a condição de que a média dos valores observados nas
outras colunas da mesma linha excedessem um determinado quantil da distribuição da
variável na coluna sendo gerada. Os dados MNAR foram gerados de forma semelhante,
exceto que o valor observado naquele índice de linha e coluna excedessem um determinado
quantil, isto é, a distribuição dos valores faltantes foi condicionada aos valores que teriam
sido observados.
Em séries temporais de concentrações de poluentes atmosféricos é comum a
ocorrência de lacunas que incluem vários dias em uma estação de monitoramento e/ou lacunas
que incluam várias estações no mesmo dia. Diferentes configurações de lacunas foram
investigadas. As lacunas “esparsas” foram formadas por valores faltantes isolados, isto é, não
consecutivos em linha ou coluna. Também foram avaliados segmentos com valores faltantes
78
consecutivos “em linha” e “em coluna” com comprimentos variando entre 3, 5 e 7. A escolha
dos comprimentos define um gradiente na direção de uma situação extrema de falta de
informação. Para gerar as configurações “em linha” e “em coluna” apenas a posição do
primeiro elemento da lacuna foi sorteado. E, por último mas não menos importante e que de
fato representa uma situação mais realista de dados faltantes, foram consideradas as lacunas
“dispersas”. Estas foram geradas sem nenhum tipo de restrição de comprimento ou
localização. Assim, foi possível gerar configurações que incluem dados faltantes isolados e
diversos comprimentos de lacunas em linha e em coluna.
A metodologia considerada estado da arte para a análise de séries temporais sobre os
efeitos da poluição do ar na sáude consiste no uso de modelos de regressão de Poisson
(Schwartz et al, 1996) via modelos aditivos generalizados (Hastie e Tibshirani, 1990). Após
controlar pelos potenciais fatores de confusão previstos no modelo teórico (Schwartz et al,
1996), o valor da função exponencial do coeficiente de regressão da variável de exposição em
um modelo de regressão de Poisson é interpretado como o risco relativo ou a razão de taxas
(Greenland e Rothman, 1998) correspondente a um acréscimo de uma unidade na variável de
exposição. Um modelo estatístico para quantificar a associação entre concentrações médias
diárias de PM10 e o número diário de internações por doenças respiratórias em crianças foi
estimado; e o coeficiente (e erro padrão) da concentração média diária de PM10 foi comparado
com os coeficientes estimados sob os diversos cenários de dados faltantes. Splines penalizadas
foram usadas para modelar associações não lineares (Dominici et al, 2002).
Cada cenário de dados faltantes foi replicado 100 vezes e imputado usando alguns
procedimentos univariados e multivariados comuns na literatura e aquele proposto neste
artigo com diferentes ajustes do componente temporal. Entre os univariados foram usados a
média incondicional, a mediana e o vizinho mais próximo. Os multivariados incluem a média
condicional (regressão) e o algoritmo EM para a distribuição normal. A extensão do algoritmo
79
EM proposta neste artigo usou filtros temporais univariados baseados em curvas suaves da
classe spline, modelos ARIMA e modelos aditivos generalizados com variáveis exógenas.
Como temperatura e umidade fazem parte do modelo de associação, estas variáveis não foram
incluídas no modelo de imputação a fim de evitar o ajuste em excesso (overfitting). Ao final
de cada replicação os coeficientes estimados foram resumidos usando média de Monte Carlo e
o resultado comparado com o valor de referência2.
O processo de simulação de cenários e imputação de dados faltantes usando diversas
metodologias é computacionalmente intensivo†. Assim, dada a diversidade de metodologias
disponíveis na literatura e cenários de dados faltantes, aqueles avaliados neste artigo
constituem apenas algumas possibilidades para a análise de dados incompletos. A fim de
garantir a reprodutibilidade do estudo, foi utilizada uma única semente geradora de números
aleatórios embutido no R.
5.2.5 Indicadores de performance
Além da análise de validade com múltiplas replicações, os métodos também foram
avaliados em termos de qualidade da imputação em uma única replicação de um padrão
escolhido ao acaso. Os valores imputados foram avaliados quanto a sua acurácia,
concordância e dispersão.
O desvio médio quadrático foi usado para estimar a média geral do erro de cada
método de imputação.
( )2
1
1 m
i iiRMSD x x
m == −∑ ɶ
2 Nota para a tese: O fluxograma do estudo de simulação está apresentado no Apêndice A2. † Usando códigos otimizados em um processador Pentium 4 com 3.2 GHz, núcleo duplo e 2 GB de memória RAM a simulação levou aproximadamente 500 horas de processamento.
80
O desvio médio absoluto foi usado como uma medida mais sensível do erro do
modelo, pois é menos influenciada por grandes diferenças entre os valores originais e os
imputados.
1
1 m
i iiMAD x x
m == −∑ ɶ
O viés foi calculado como a média das diferenças entre os valores originais e os
imputados.
( )1
1 m
i iiBIAS x x
m == −∑ ɶ
Para avaliar a dispersão de cada método, a variância amostral dos valores imputados
foi comparada com a variância dos valores originais. A variância proporcional foi calculada
da forma abaixo.
( )( )
var
var
xPV
x=
ɶ
O coeficiente de correlação de Pearson é o indicador mais comum para avaliar o
desempenho de métodos de imputação.
( )cov ,
var( ) var( )
x xr
x x=
ɶ
ɶ
Entretanto, o valor do coeficiente de correlação pode não estar relacionado com o
tamanho das discrepâncias entre os valores originais e os imputados. Para contornar este
problema, Willmott (1982) propôs um índice de concordância 2d .
( )( )
2
12 2
1
1
m
i iim
i ii
x xd
x x x x
=
=
− = − − + −
∑∑
ɶ
ɶ
Os valores de 2d variam entre 0 e 1, em que 1 indica concordância perfeita e 0 a
ausência de concordância. Nas equações acima, m denota o número de valores faltantes no
81
conjunto de dados simulado, ix são os valores originais, ixɶ são os valores imputados,
1, ,i m= … , e x é a média dos valores imputados.
5.2.6 Recursos computacionais
Diversas rotinas para a simulação de padrões de dados faltantes, imputações
univariadas e média condicional e respectivas análises foram implementadas usando o
aplicativo estatístico R (R Development Core Team, 2007). O algoritmo EM normal
multivariado bem como os métodos propostos neste artigo estão implementados na biblioteca
R mtsdi (multivariate time-series data imputation) desenvolvida como parte integrante deste
artigo. A biblioteca mtsdi é uma coleção de rotinas para a imputação de dados faltantes em
séries temporais multivariadas.
5.3 Resultados e discussão
5.3.1 Descrição dos dados
A fim de obter um valor de referência para as imputações em cada método e cenário,
foi estimado um modelo de associação para avaliar o efeito das concentrações de PM10 sobre
o número diário de internações por doenças respiratórias em crianças no município de São
Paulo, no ano 2004. As concentrações diárias das 10 estações de monitoramento disponíveis
foram usadas para calcular um indicador diário da exposição média para o município. O
modelo de Poisson estimado com o conjunto completo dos dados foi formado por uma spline
com 6 graus de liberdade (gl) do índice de tempo para ajustar a tendência e sazonalidade, uma
spline com 4 gl da temperatura média com 2 dias de defasagem e uma spline com 4 gl da
umidade no mesmo dia para ajustar os fatores meteorológicos e termos lineares para o ajuste
dos efeitos dos dias da semana e feriados. O efeito da exposição foi avaliado com um termo
82
linear. O coeficiente estimado foi igual a 0,004321 e o erro-padrão igual 0,001063 ou em
percentual de risco relativo, para a variação de uma unidade na concentração média de PM10,
igual a 0,433% com intervalo de confiança de 95% igual a (0,224;0,643).
Tabela 5-1 Medidas sumárias de concentrações de PM10 em 10 estações de São Paulo em µg/m³.
Estação Média Mínimo Mediana Máximo
E1 37,2 16,9 9,7 23,8 34,5 46,3 91,5E2 44,1 25,1 10,6 26,7 38,0 55,5 160,6E3 36,4 16,0 8,7 24,5 33,4 44,8 98,0E4 38,9 18,5 10,7 25,0 34,1 49,6 112,5E5 45,0 24,3 10,7 27,2 38,4 57,3 149,6E6 45,5 20,0 6,9 30,9 43,1 55,5 132,4E7 45,3 23,6 8,7 29,0 41,0 55,8 173,0E8 51,6 26,5 7,3 31,4 46,3 68,8 155,9E9 49,7 25,7 9,9 30,3 45,8 62,9 164,3E10 38,0 18,5 6,7 25,6 34,0 46,9 129,2
Desviopadrão
1º Quartil 2º Quartil
Na Tabela 5-1 estão apresentadas as medidas sumárias para as concentrações de PM10
nas 10 estações de monitoramentos utilizadas neste estudo. Apesar de se observar valores que
violam os padrões de qualidade do ar estabelecidos pela Organização Mundial de Saúde
(WHO, 2006) em algumas estações, as estatísticas descritivas não indicaram a ocorrência de
valores outliers. A Tabela 5-2 apresenta os coeficientes de correlação linear de Pearson para as
concentrações de PM10 entre as estações incluídas no estudo. Apenas 7 pares de estações
apresentaram correlação inferior a 0,7 e apenas um menor que 0,6. Este padrão denota uma
distribuição razoavelmente homogênea do material particulado ao longo do ano 2004 na
cidade de São Paulo, o que sugere um melhor desempenho pode ser obtido usando os métodos
de imputação multivariados.
83
Tabela 5-2 Correlações de Pearson para as concentrações de PM10 entre as estações
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10
E1 1 0,81 0,93 0,81 0,80 0,73 0,81 0,80 0,74 0,78E2 0,81 1 0,89 0,87 0,70 0,82 0,81 0,85 0,71 0,82E3 0,93 0,89 1 0,84 0,77 0,79 0,83 0,83 0,74 0,83E4 0,81 0,87 0,84 1 0,63 0,72 0,72 0,82 0,68 0,79E5 0,80 0,70 0,77 0,63 1 0,72 0,80 0,75 0,65 0,68E6 0,73 0,82 0,79 0,72 0,72 1 0,73 0,79 0,72 0,76E7 0,81 0,81 0,83 0,72 0,80 0,73 1 0,75 0,58 0,82E8 0,80 0,85 0,83 0,82 0,75 0,79 0,75 1 0,60 0,75E9 0,74 0,71 0,74 0,68 0,65 0,72 0,58 0,60 1 0,58
E10 0,78 0,82 0,83 0,79 0,68 0,76 0,82 0,75 0,58 1
A análise de correlação estratificada por trimestres, por outro lado, revelou um padrão
heterogêneo das concentrações de material particulado ao longo do ano. Os coeficientes de
correlação de Pearson para cada trimestre estão apresentados na Tabela 5-3. Este padrão
corrobora a utilização de métodos multivariados que incorporem múltiplos regimes de
covariâncias.
A previsão de PM10 por meio de modelos é complicada já que este consiste de uma
mistura de grande variedade de partículas com diferentes composições químicas (Fuller et al,
2002). Entretanto, como mostram a Tabela 5-2 e a Tabela 5-3, as concentrações de PM10
medidas nas 10 estações da cidade de São Paulo em 2004 apresentaram correlação alta na
maior parte do ano.
Tabela 5-3 Correlações de Pearson das concentrações de PM10 entre as estações estratificadas por trimestre
Correlações no 1º Trimestre
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E1 E1 0,38 0,85 0,52 0,76 0,23 0,52 0,28 0,67 0,62 E2 0,87 E2 0,59 0,73 0,35 0,72 0,51 0,68 0,39 0,77 E3 0,93 0,92 E3 0,64 0,73 0,40 0,62 0,47 0,55 0,75 E4 0,90 0,83 0,86 E4 0,32 0,63 0,36 0,73 0,45 0,81 E5 0,87 0,79 0,86 0,77 E5 0,14 0,66 0,10 0,60 0,51 E6 0,83 0,88 0,87 0,78 0,73 E6 0,21 0,74 0,37 0,50 E7 0,78 0,75 0,80 0,69 0,76 0,70 E7 0,17 0,41 0,53 E8 0,88 0,86 0,87 0,85 0,78 0,81 0,64 E8 0,12 0,58 E9 0,84 0,81 0,84 0,78 0,73 0,83 0,57 0,76 E9 0,45 C
orr
elaç
ões
no
2º
Tri
mes
tre
E10 0,88 0,91 0,91 0,85 0,81 0,82 0,79 0,84 0,77 E10
Correlações no 3º Trimestre
E1 E2 E3 E4 E5 E6 E7 E8 E9 E10
84
E1 E1 0,89 0,94 0,88 0,89 0,85 0,89 0,90 0,66 0,86 E2 0,86 E2 0,96 0,90 0,82 0,85 0,92 0,88 0,61 0,90 E3 0,95 0,84 E3 0,90 0,87 0,91 0,91 0,91 0,67 0,90 E4 0,81 0,82 0,75 E4 0,81 0,80 0,86 0,87 0,60 0,89 E5 0,63 0,66 0,59 0,52 E5 0,86 0,84 0,86 0,66 0,77 E6 0,63 0,66 0,65 0,55 0,36 E6 0,82 0,85 0,67 0,76 E7 0,79 0,75 0,77 0,71 0,57 0,44 E7 0,86 0,53 0,89 E8 0,76 0,69 0,71 0,66 0,68 0,34 0,67 E8 0,50 0,84 E9 0,76 0,77 0,74 0,63 0,58 0,69 0,58 0,52 E9 0,47 C
orr
elaç
ões
no
4º
Tri
mes
tre
E10 0,60 0,62 0,64 0,62 0,12 0,62 0,57 0,29 0,48 E10
5.3.2 Análise de validade
A fim de estudar a validade dos métodos de imputação propostos neste artigo e
compará-los com métodos mais disponíveis, o banco de dados de concentrações de PM10 com
3.660 valores observados foi submetido a 100 replicações de cada configuração de dados
faltantes. Desta forma, foi possível avaliar a distribuição dos coeficientes de regressão
estimados para o modelo de associação, usando como medida ecológica de exposição a média
de material particulado obtida após cada procedimento de imputação. Os efeitos estimados em
cada configuração estão apresentados em percentuais de risco relativo.
Lacunas de comprimento 1
A primeira configuração estudada consiste de dados faltantes em lacunas de
comprimento 1, ou seja , não há valores faltantes contíguos em linha ou coluna. Esta
configuração é bastante singular e pouco comum na prática. A análise de dados usando apenas
as unidades de observação completas (OC) produziu boas estimativas do risco relativo com
5% de dados faltantes. Considerando todos os mecanismos, as estimativas do efeito tenderam
a diminuir à medida que aumentou o número de dados faltantes. Sob MAR, mesmo com 10%
dos valores não observados, a média dos efeitos estimados foi 0,432, ou seja, uma diferença
na terceira casa decimal em relação ao valor de referência. A imputação pela média
incondicional (MI) ou mediana (MD) superestimaram consideravelmente a medida de efeito,
85
mesmo com 5% de dados faltantes. A média dos coeficientes aumentou consideravelmente à
medida que aumentou o número de dados faltantes, e.g. para proporções de dados faltantes
maiores que 20%, os efeitos estimados foram em torno 0,5 não importando o mecanismo. A
imputação pela média ou mediana também produziu estimativas com as maiores dispersões
observadas. O método do vizinho mais próximo univariado (VP) nesta configuração, também
produziu boas estimativas com diferença na segunda casa decimal. A média condicional ou
regressão (MC) tendeu a subestimar o efeito à medida que aumentou o número de dados
faltantes e chegou a 0,414 para 30% de dados faltantes. Entretanto, sob MAR esta diferença
não excedeu 0,005. De um modo geral, o método da média condicional produziu estimativas
com variação na segunda casa decimal e com pequena dispersão.
O algoritmo EM e os procedimentos de imputação propostos neste artigo apresentaram
estimativas muito próximas do valor de referência para todas as combinações de mecanismos
e proporções de dados faltantes nesta configuração. As diferenças entre os efeitos estimados e
o valor de referência foram menores que 0,01. Sob MAR, estas diferenças foram menores que
0,005. Nesta configuração, mesmo sob MNAR as estimativas foram acuradas e precisas; o
maior desvio-padrão estimado não excedeu 0,02. Entretanto, sob MCAR a precisão foi mais
baixa. Os procedimentos que usam uma spline para estimação do nível de cada série temporal
tenderam a ser mais precisos devido a estabilidade das previsões esperadas de um modelo de
suavização. Por outro lado, os procedimentos baseados em modelos ARIMA tenderam a ser
menos precisos devido à maior variabilidade de suas previsões 3. Não foi possível gerar 40%
de dados faltantes sem valores contíguos para o número de variáveis e observações do estudo.
Lacunas em linhas
A simulação de padrões de dados faltantes com a configuração de lacunas “em linha”
3 Nota para tese: Tabela com resultados detalhados no Apêndice A3.
86
apresentou resultados com comportamentos semelhantes, porém com diferentes magnitudes.
Nesta aplicação, as lacunas de 3 e 5 estações equivalem a 30 e 50% de dados faltantes em um
mesmo dia. Com 5% de dados faltantes, todos os procedimentos de imputação avaliados
apresentaram bom desempenho, exceto a imputação pela média e pela mediana. Estes
tenderam a superestimar consideravelmente a associação entre concentrações de PM10 e o
número de internações por doenças respiratórias em crianças considerando todos os
mecanismos; e tenderam a aumentar à medida que aumentou o número de dados faltantes, e.g.
com 40% de dados faltantes, o efeito estimado passou de 0,5%. O procedimento do vizinho
mais próximo também tendeu a produzir estimativas mais altas à medida que aumentou o
percentual de valores faltantes. A análise de dados completos tendeu a subestimar os efeitos à
medida que aumentou a quantidade de dados faltantes. O procedimento de imputação pela
média condicional é baseada em unidades completas para estimar o modelo de previsão dos
valores faltantes; logo, nesta configuração, a análise de dados completos e imputação pela
média condicional produziram os mesmos resultados.
Os métodos multivariados apresentaram os melhores resultados. Usando o algoritmo
EM, a maior diferença em relação ao valor de referência foi igual a 0,008, sob MNAR e com
40% de dados faltantes. O procedimento apresentou uma ligeira tendência a superestimar os
efeitos à medida que aumentou o número de dados faltantes. O método EM usando uma
spline para previsão do nível de cada série temporal e múltiplos regimes (MR) de covariâncias
apresentou os efeitos estimados mais próximos do valor de referência; a maior diferença
observada foi de 0,004 para mais e para menos, exceto para 40% de dados faltantes sob
MNAR.
Na configuração “em linha” com lacunas de 3 e 5 estações, 40% de dados faltantes e
sob MCAR os métodos baseados no algoritmo EM com ajuste do componente temporal e
múltiplos regimes de covariância apresentaram problemas de convergência, principalmente
87
com os métodos cujas previsões têm maior variabilidade como o ARIMA e MAG. Os valores
estimados foram consideravelmente mais baixos que o valor de referência e apresentaram
grande dispersão. Este problema parece estar relacionado com a amostra de dados faltantes
selecionada, pois não se repetiu quando re-analisado usando outra semente do gerador de
números aleatórios.
Sob MAR e MNAR, os procedimentos propostos neste artigo se mostraram bastante
acurados e precisos, com diferenças em relação ao valor de referência inferiores a 0,01, e com
uma pequena tendência a subestimar o efeito à medida que o número de dados faltantes
aumenta. A exceção foi observada com os procedimentos baseados nos modelos ARIMA que
tendem a superestimar o efeito quando aumenta a quantidade de dados faltantes, além de
apresentarem maior dispersão dos efeitos estimados. Nestas configurações se destacou
novamente o método baseado em spline para a previsão do nível das séries temporais e com
múltiplos regimes de covariâncias. Mesmo considerando os dados faltantes por causa não
ignorável, as diferenças em relação aos valores de referência foram inferiores a 0,005 4.
A simulação usando lacunas de 7 estações com a mesma configuração “em linha”, o
que nesta aplicação significa que 70% da informação de um dado dia foi perdida, apresentou
resultados diferentes para os métodos multivariados. Os métodos univariados (OC, MI, MD,
VP) e a média condicional apresentaram resultados com padrões semelhantes. Todos
tenderam a subestimar o efeito considerando todos os mecanismos, embora as diferenças
pudessem ser negligenciadas para 5% de dados faltantes. Os valores estimados do efeito
decresceram consideravelmente à medida que aumentou a quantidade de dados faltantes. Os
procedimentos que apresentaram diferenças com maior magnitude foram a média
incondicional, a mediana e o vizinho mais próximo 5.
As estimativas produzidas pelo método EM foram bastante acuradas para aplicações
4 Nota para tese: Tabela com resultados detalhados no Apêndice A4 e no Apêndice A5. 5 Nota para tese: Tabela com resultados detalhados no Apêndice A6.
88
práticas. A maior diferença observada foi 0,005 para 40% de dados faltantes sob MNAR; mas
com uma leve tendência de aumento à medida que o número de dados faltantes aumentaram.
Os procedimentos de imputação com componente temporal baseados em splines obtiveram as
melhores estimativas com erro inferior a 0,004 e menor dispersão. Os procedimentos de
imputação baseados em modelos MAG se comportaram de forma semelhante. Os
procedimentos baseados em modelos ARIMA superestimaram o efeito e apresentaram maior
dispersão dos efeitos estimados.
Lacunas em colunas
A configuração de dados faltantes “em coluna” é muito comum em dados de
monitoramento da qualidade do ar. Falhas nos equipamentos de aferição, telemetria ou
armazenamento dos dados podem durar vários dias até serem reparadas. Neste estudo, form
avaliados comprimentos (em dias) de lacunas que representam falhas de curta e média
duração, 3 e 5 dias respectivamente. A configuração com duração de 7 dias consecutivos
representa uma situação extrema de falta de dados. Com 5% de dados faltantes, todos os
métodos analisados apresentaram erro igual a +/-0,001 exceto a imputação pela média e pela
mediana, que superestimou o efeito, e análise de dados completos com lacunas de 7 dias que
apresentou um erro igual a -0,003. Em todas as configurações “em coluna” a análise de dados
completos e imputação pela média condicional mostraram um gradiente decrescente nos
efeitos estimados à medida que aumentou o número de dados faltantes. Sob MCAR, os efeitos
estimados foram inferiores a 0,4. Por outro lado, a imputação pela média, pela mediana e pelo
vizinho mais próximo mostraram um gradiente na direção de valores mais altos à medida que
aumentou o número de dados faltantes. Sob MCAR com 40% de dados faltantes e lacunas de
3 dias, os efeitos estimados usando imputação pela média e pela mediana chegaram a 0,55.
Os métodos baseados no algoritmo EM apresentaram uma leve tendência a subestimar
89
o efeito à medida que aumentou a proporção de dados faltantes sob MCAR. Entretanto, os
métodos EM e EM com spline ou modelo MAG para o ajuste do nível das séries temporais
apresentaram diferenças menores que 0,01. Os métodos baseados em splines apresentaram
menor dispersão das estimativas. Os métodos baseados nos modelos ARIMA apresentaram
maior dispersão e tendência a subestimar o efeito à medida que aumentou a quantidade de
dados faltantes. Sob MAR e MNAR, os métodos baseados no algoritmo EM apresentaram
diferenças que não excederam 0,006 para 40% de dados faltantes e lacunas de 7 dias. Foram
encontradas diferenças menores para 10, 20 ou 30%. Com exceção dos métodos baseados em
modelos ARIMA, as estimativas usando ajuste do componente temporal foram mais precisas
mesmo com lacunas de 7 dias.
Lacunas de linhas e colunas sem restrição
As configurações analisadas acima representam situações de dados faltantes bastante
comuns, mas que na prática não ocorrem de forma isolada. Seu estudo serviu principalmente
para avaliar os métodos de imputação sob condições extremas de dados faltantes. A
configuração que representa de forma mais adequada a realidade de dados faltantes em bancos
de dados de poluição atmosférica consiste em uma mistura das configurações esparsa, em
linha e em coluna com diferentes comprimentos. Esta configuração foi gerada sorteando a
posição de cada elemento sem restrição de posição ou comprimento da lacuna. Assim, padrões
bastante complexos de dados faltantes puderam ser formados.
A Tabela 5-4 apresenta os resultados resumidos das simulações utilizando uma
configuração “dispersa” ou sem restrições. Com 5% de dados faltantes, todos os métodos
avaliados apresentaram estimativas com diferenças inferiores a 0,002, com exceção dos
métodos de imputação pela média e pela mediana. Sob MCAR, a análise considerando apenas
as unidades de observação completas e a imputação pela média condicional tenderam a
90
subestimar o efeito à medida que aumentou a quantidade de dados faltantes. Por outro lado, os
métodos baseados na média, na mediana e no vizinho mais próximo superestimaram
consideravelmente o efeito. A superestimação foi crítica para a imputação pela média e pela
mediana, que com 40% de dados faltantes o risco estimado chegou 0,575. O algoritmo EM
produziu estimativas acuradas com diferença inferior a 0,002. Os métodos baseados no
algoritmo EM e com ajuste do componente temporal também apresentaram boa acurácia
exceto para os métodos baseados nos modelos ARIMA que tenderam a subestimar o efeito
com o aumento do número de valores faltantes, além de exibirem maior dispersão.
Tabela 5-4 Resumo das simulações com a configuração “dispersas”
OC MI MD VP MC EM EM
Spline EM
ARIMA EM
MAG EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
0,431 0,448 0,448 0,436 0,433 0,434 0,433 0,433 0,433 0,433 0,432 0,433 5% (0,008) (0,015) (0,015) (0,012) (0,007) (0,006) (0,005) (0,007) (0,006) (0,005) (0,009) (0,006)
0,428 0,464 0,464 0,439 0,428 0,431 0,431 0,431 0,431 0,431 0,431 0,431 10%
(0,014) (0,023) (0,023) (0,015) (0,013) (0,010) (0,009) (0,014) (0,009) (0,009) (0,015) (0,009)
0,423 0,502 0,502 0,441 0,424 0,431 0,429 0,430 0,428 0,431 0,429 0,431 20%
(0,017) (0,037) (0,037) (0,024) (0,017) (0,014) (0,013) (0,016) (0,014) (0,013) (0,017) (0,013)
0,415 0,547 0,547 0,447 0,416 0,433 0,431 0,431 0,429 0,431 0,428 0,431 30%
(0,023) (0,053) (0,052) (0,032) (0,023) (0,019) (0,018) (0,025) (0,018) (0,020) (0,026) (0,019)
0,406 0,575 0,575 0,452 0,406 0,434 0,431 0,426 0,430 0,432 0,422 0,433 40%
(0,030) (0,073) (0,074) (0,037) (0,030) (0,022) (0,022) (0,030) (0,021) (0,026) (0,032) (0,023) MAR
0,432 0,445 0,445 0,436 0,433 0,433 0,433 0,433 0,433 0,432 0,432 0,432 5% (0,006) (0,012) (0,012) (0,008) (0,005) (0,004) (0,004) (0,005) (0,004) (0,004) (0,006) (0,004)
0,431 0,463 0,463 0,439 0,432 0,435 0,433 0,435 0,433 0,432 0,435 0,432 10%
(0,010) (0,017) (0,017) (0,010) (0,009) (0,007) (0,006) (0,009) (0,007) (0,007) (0,012) (0,007)
0,429 0,490 0,490 0,441 0,430 0,436 0,434 0,438 0,433 0,433 0,437 0,433 20%
(0,015) (0,028) (0,028) (0,017) (0,014) (0,009) (0,009) (0,013) (0,009) (0,010) (0,016) (0,010)
0,422 0,518 0,519 0,447 0,422 0,438 0,434 0,437 0,433 0,434 0,436 0,434 30%
(0,018) (0,040) (0,041) (0,021) (0,018) (0,013) (0,012) (0,020) (0,011) (0,013) (0,022) (0,012)
0,419 0,551 0,552 0,454 0,419 0,443 0,435 0,439 0,433 0,435 0,437 0,433 40%
(0,022) (0,047) (0,048) (0,025) (0,022) (0,015) (0,015) (0,024) (0,017) (0,016) (0,028) (0,018) MNAR
0,431 0,445 0,445 0,436 0,433 0,433 0,433 0,433 0,432 0,433 0,432 0,433 5% (0,007) (0,012) (0,012) (0,008) (0,007) (0,005) (0,005) (0,007) (0,005) (0,005) (0,008) (0,005)
0,428 0,459 0,459 0,439 0,430 0,432 0,431 0,433 0,431 0,432 0,432 0,431 10%
(0,011) (0,020) (0,020) (0,012) (0,010) (0,008) (0,008) (0,011) (0,008) (0,008) (0,013) (0,008)
0,423 0,487 0,487 0,446 0,425 0,433 0,431 0,432 0,430 0,433 0,431 0,432 20%
(0,015) (0,030) (0,031) (0,021) (0,015) (0,012) (0,011) (0,017) (0,011) (0,011) (0,019) (0,011)
0,418 0,517 0,517 0,453 0,419 0,434 0,430 0,435 0,428 0,433 0,433 0,431 30%
(0,019) (0,041) (0,042) (0,023) (0,019) (0,016) (0,014) (0,024) (0,013) (0,014) (0,026) (0,014)
91
0,408 0,539 0,538 0,457 0,408 0,433 0,429 0,430 0,427 0,431 0,425 0,430 40%
(0,024) (0,049) (0,049) (0,025) (0,024) (0,022) (0,018) (0,029) (0,019) (0,018) (0,033) (0,020)
Sob MAR, a análise com dados completos e a imputação pela média condicional
tenderam a subestimar o efeito à medida que aumentou a quantidade de dados faltantes. Os
métodos de imputação pela média, pela mediana e pelo vizinho mais próximo produziram
estimativas mais elevadas como aumentou a proporção de dados faltantes. O algoritmo EM
também apresentou uma tendência a estimar valores mais altos para o efeito com maiores
quantidade de dados faltantes. Os métodos de imputação com ajuste do componente temporal
apresentaram maior acurácia e precisão. A maior diferença estimada foi igual a 0,006 para
40% de dados faltantes usando modelos ARIMA para previsão do nível da série temporal.
A imputação de dados faltantes gerados sob o mecanismo MNAR também
apresentaram bons resultados. Entretanto, a análise de dados completos e imputação pela
média condicional tenderam a subestimar o efeito ao passo que os métodos de imputação pela
média incondicional, pela mediana e pelo vizinho mais próximo tenderam a superestimar o
efeito à medida que aumentou o número de dados faltantes. O algoritmo EM apresentou
estimativas com diferenças de 0,001. Os métodos baseados em splines para ajuste do
componente temporal apresentaram valores bastante acurados e com maior precisão que o
algoritmo EM; o método baseado em spline sem mudança de regime de covariâncias
apresentou um gradiente em direção a valores mais baixos quando aumentou o número de
dados faltantes. Os métodos baseados nos modelos MAG e ARIMA com múltiplos regimes de
covariâncias produziram boas estimativas, com erro inferior a 0,003. Os métodos baseados
nos modelos ARIMA apresentaram maior dispersão das estimativas.
Em resumo, as diferentes configurações analisadas apresentaram comportamentos
semelhantes. As análises de dados usando apenas as unidades de observação completas assim
como a de dados imputados com a média condicional tenderam a subestimar o efeito à medida
92
que aumentou o número de dados faltantes. Por outro lado, a imputação pela média e pela a
mediana superestimou consideravelmente a medida de efeito. O viés aumentou quando
aumentou o número de dados faltantes. A imputação pelo algoritmo EM produziu estimativas
válidas para pequenas quantidades de dados, mas tendeu a perder a validade em cenários de
grandes proporções de dados faltantes. Entre os métodos propostos neste artigo, os
procedimentos que usam spline para previsão do componente temporal foram mais estáveis
em diferentes configurações de dados faltantes. Os procedimentos baseados em modelos
ARIMA tenderam a superestimar o efeito quando grandes proporções de dados estão faltantes
sob MCAR.
Os procedimentos com múltiplos regimes de covariâncias podem sofrer problemas de
convergência para algumas configurações com grande proporção de dados faltantes e muitos
níveis de estratificação, pois um dado estrato pode dispor de poucas observações para estimar
a matriz de covariâncias.
5.3.3 Indicadores de performance
Além de avaliar a validade dos métodos de imputação por meio do estudo da
distribuição dos efeitos estimados em diferentes cenários de dados faltantes, utilizando
diferentes metodologias, também foi avaliada a performance para a configuração “dispersa”
de um único padrão, equivalente a uma única replicação do estudo de simulação. Esta única
configuração foi considerada devido à sua representatividade em problemas de dados faltantes
normalmente encontrados na análise de dados em epidemiologia ambiental 6. Na
6 Nota para tese: Tabelas com os resultados detalhados para todas as configurações do Apêndice A10 ao Apêndice A16.
93
Tabela 5-5 estão apresentados os indicadores de performance para algumas situações extremas
de dados faltantes sob MCAR, MAR e MNAR. De um modo geral, observa-se um gradiente
de crescimento ou decrescimento nos indicadores em função da quantidade de dados faltantes.
Na análise de dados completos não há imputação, logo não é possível calcular estes
indicadores.
94
Tabela 5-5 Indicadores de performance para um único padrão de dados faltantes com configuração “dispersas”
Ind. MI MD VP MC EM EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
RMSD 0,458 0,462 0,421 0,181 0,239 0,230 0,219 0,219 0,220 0,237 0,237 MAD 0,365 0,367 0,309 0,088 0,169 0,161 0,167 0,167 0,156 0,172 0,172 BIAS -0,057 -0,070 -0,067 -0,005 -0,005 -0,010 -0,017 -0,017 -0,016 -0,014 -0,014
PV 0,053 0,066 1,041 0,907 0,732 0,818 0,839 0,839 0,851 0,906 0,906 r 0,248 0,232 0,617 0,870 0,861 0,872 0,886 0,886 0,885 0,868 0,868
5%
d2 0,346 0,359 0,784 0,928 0,921 0,930 0,938 0,938 0,938 0,930 0,930 RMSD 0,475 0,476 0,424 0,012 0,252 0,232 0,317 0,317 0,246 0,663 0,663 MAD 0,382 0,382 0,322 0,001 0,193 0,175 0,219 0,219 0,179 0,309 0,309 BIAS -0,016 -0,030 -0,014 0,000 -0,006 0,000 0,010 0,010 -0,008 0,035 0,035
PV 0,045 0,055 1,100 0,773 0,756 0,834 1,166 1,166 0,887 2,646 2,646 r 0,216 0,211 0,638 0,953 0,856 0,880 0,807 0,807 0,866 0,551 0,551
40%
d2 0,293 0,313 0,795 0,969 0,919 0,935 0,895 0,895 0,929 0,674 0,674 MAR
RMSD 0,421 0,416 0,344 0,124 0,150 0,138 0,155 0,155 0,133 0,159 0,159 MAD 0,346 0,342 0,256 0,076 0,117 0,108 0,119 0,119 0,103 0,117 0,117 BIAS 0,286 0,281 0,059 -0,008 0,001 -0,010 0,006 0,006 -0,011 0,005 0,005 PV 0,094 0,114 1,633 0,783 0,804 0,961 0,988 0,988 0,910 0,979 0,979 r 0,499 0,504 0,660 0,885 0,903 0,920 0,900 0,900 0,925 0,895 0,895
5%
d2 0,526 0,534 0,790 0,937 0,946 0,959 0,948 0,948 0,960 0,945 0,945 RMSD 0,517 0,521 0,403 0,039 0,206 0,186 0,191 0,191 0,181 0,197 0,197 MAD 0,422 0,425 0,304 0,007 0,156 0,140 0,143 0,143 0,136 0,150 0,150 BIAS 0,383 0,390 0,136 -0,002 0,001 -0,002 0,019 0,019 0,004 0,019 0,019 PV 0,077 0,095 1,658 0,770 0,694 0,827 0,876 0,876 0,852 0,927 0,927 r 0,416 0,419 0,640 0,889 0,839 0,871 0,866 0,866 0,879 0,860 0,860
40%
d2 0,500 0,503 0,767 0,971 0,906 0,930 0,928 0,928 0,935 0,925 0,925 MNAR
RMSD 0,424 0,420 0,368 0,193 0,213 0,194 0,189 0,189 0,182 0,200 0,200 MAD 0,352 0,346 0,278 0,099 0,139 0,131 0,139 0,139 0,124 0,146 0,146 BIAS 0,352 0,346 0,120 0,066 0,092 0,063 0,046 0,046 0,048 0,042 0,042 PV 0,158 0,191 2,506 1,283 1,283 1,388 1,264 1,264 1,222 1,278 1,278 r 0,511 0,490 0,593 0,713 0,787 0,821 0,806 0,806 0,817 0,779 0,779
5%
d2 0,514 0,518 0,705 0,808 0,863 0,890 0,888 0,888 0,895 0,874 0,874
RMSD 0,539 0,554 0,415 0,133 0,255 0,226 0,223 0,223 0,214 0,266 0,266 MAD 0,464 0,480 0,316 0,038 0,189 0,168 0,167 0,167 0,159 0,185 0,185 BIAS 0,464 0,480 0,165 0,034 0,116 0,091 0,083 0,083 0,076 0,066 0,066 PV 0,121 0,144 2,304 1,099 1,267 1,324 1,191 1,191 1,269 1,540 1,540 r 0,384 0,364 0,545 0,572 0,747 0,797 0,780 0,780 0,805 0,718 0,718
40%
d2 0,461 0,456 0,674 0,765 0,828 0,868 0,862 0,862 0,879 0,824 0,824
Considerando a imputação sob MCAR, os métodos univariados (MI, MD e VP)
apresentaram valores altos de desvio médio quadrático (RMSD) e desvio médio absoluto
(MAD). A imputação pela média incondicional ou mediana consiste em substituir o valor
faltante por uma constante; logo estes métodos apresentaram grande subdispersão em relação
95
aos valores originais, como pode ser verificado pelos valores baixos da variância proporcional
(PV). Por outro lado, o método do vizinho mais próximo tendeu a introduzir superdispersão,
sobretudo se o mecanismo dos dados faltantes é não ignorável. Os métodos univariados
também apresentaram os mais baixos valores para o coeficiente de correlação (r ) e o índice
de concordância (2d ). Mesmo sob MAR, estes métodos apresentaram baixo desempenho. O
método de imputação pela média condicional, bem como pelo algoritmo EM, apresentou bom
desempenho com valores baixos de RMSD e MAD e com ligeira subdispersão. Os
coeficientes de correlação foram superiores a 8,5 e índices de concordância acima de 0,92.
Os métodos de imputação com ajuste do componente temporal apresentaram baixos
valores de RMSD, MAD e viés (BIAS) e altos valores do coeficiente de correlação e do
índice de concordância. As exceções foram os métodos baseados em modelos MAG e ARIMA
com múltiplos regimes de covariâncias. Estes também apresentaram significante
superdispersão em relação aos valores originais. O desempenho dos métodos multivariados
melhorou consideravelmente sob MAR e foram observados baixos valores de RMSD e MAD
associados a altos valores do coeficiente de correlação e do índice de concordância.
Observou-se um bom equilíbrio entre as variâncias dos valores imputados e dos originais,
inclusive entre aqueles métodos com maior variabilidade da previsão como os baseados em
modelos MAG e ARIMA. Mesmo sob MNAR, os métodos propostos com ajuste do
componente temporal apresentaram bom desempenho; sobretudo, sobre os métodos
univariados.
5.3.4 Penalização pela informação perdida
A Tabela 5-6 mostra os valores dos coeficientes de regressão do modelo de associação
e respectivos erros-padrão estimados sob MAR, com e sem um fator de penalização da
informação perdida. Foram considerados os procedimentos de imputação com ajuste do
96
componente temporal com proporções de 5 a 40% de dados faltantes. A função de penalização
adotada foi ( )1 0.5t tw m p= − . Os valores da Tabela 5-6 devem ser comparados com o valor
de referência do coeficiente do modelo estimado com o conjuto completo de dados que foi
igual a 0,004321 e o seu erro-padrão igual 0,001063. O padrão de dados faltantes utilizado foi
o mesmo da análise de performance.
Mesmo com 5% de dados faltantes, os modelos estimados após a imputação sem a
penalização levaram a uma pequena subestimação do erro-padrão do coeficiente de PM10, Por
outro lado, a estimação com penalização produz estimativas do efeito ligeiramente mais
baixos, mas com maior incerteza associada. Este padrão se repete para todas as proporções de
dados faltantes e métodos de imputação analisados. Nota-se que para maiores proporções de
dados faltantes, e.g. 30 e 40%, a variância dos estimadores foi ainda mais inflada. Os modelos
estimados com imputação sob MCAR apresentaram resultados similares. Sob MNAR com
imputação baseada nos modelos ARIMA com 5% de dados faltantes, os erros-padrão
penalizados foram ligeiramente inferiores aos estimados com os dados originais7. É
importante enfatizar que as imputações baseadas nos modelos ARIMA apresentaram grande
variabilidade e eventualmente problemas de convergência.
7 Nota para tese: Tabelas com os resultados para MCAR e MNAR estão no Apêndice A17 e no Apêndice A18 respectivamente.
97
Tabela 5-6 Coeficiente e erro-padrão dos modelos de associação com penalização sob MAR
% Penali- zação
Estatística EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
β 0,004316 0,004248 0,004330 0,004295 0,004261 0,004314 não
EP(β) 0,001061 0,001060 0,001062 0,001061 0,001058 0,001061 β 0,004301 0,004236 0,004313 0,004281 0,004247 0,004299
5% sim
EP(β) 0,001066 0,001066 0,001067 0,001066 0,001063 0,001066 β 0,004324 0,004202 0,004321 0,004307 0,004238 0,004305
não EP(β) 0,001061 0,001063 0,001061 0,001063 0,001071 0,001061 β 0,004343 0,004229 0,004340 0,004328 0,004264 0,004325
10% sim
EP(β) 0,001077 0,001079 0,001076 0,001079 0,001086 0,001077 β 0,004334 0,004137 0,004307 0,004285 0,004115 0,004277
não EP(β) 0,001057 0,001058 0,001055 0,001057 0,001059 0,001054 β 0,004340 0,004162 0,004314 0,004295 0,004146 0,004287
20% sim
EP(β) 0,001088 0,001089 0,001086 0,001088 0,001091 0,001085 β 0,004362 0,004103 0,004394 0,004335 0,004097 0,004398
não EP(β) 0,001064 0,001056 0,001063 0,001063 0,001066 0,001064 β 0,004352 0,004124 0,004375 0,004326 0,004118 0,004376
30% sim
EP(β) 0,001113 0,001107 0,001112 0,001112 0,001117 0,001113 β 0,004436 0,004050 0,004473 0,004426 0,004006 0,004473
não EP(β) 0,001074 0,001050 0,001074 0,001073 0,001031 0,001074 β 0,004466 0,004126 0,004494 0,004456 0,004091 0,004492
40% sim
EP(β) 0,001137 0,001118 0,001136 0,001136 0,001103 0,001136
Este critério de penalização, ainda que naive, na maioria dos casos, assegura que a
medida de efeito estimada terá intervalo de confiança igual ou maior que o intervalo da
estimativa obtida com o conjunto completo de dados. Portanto, diminuindo a probabilidade de
rejeitar a hipótese de que o efeito da exposição em estudo é nulo.
5.4 Conclusões
Em estudos epidemiológicos sobre os efeitos da poluição atmosférica na saúde a
completude dos dados ambientais é geralmente um fator limitador. Mesmo quando estes
dados são provenientes de grandes redes de monitoramento da qualidade do ar com controle
de qualidade adequado, não é incomum apresentar dados faltantes. Nas últimas duas décadas,
estudos de séries temporais têm sido conduzidos em todo o mundo a fim de avaliar o efeito de
curto prazo da poluição do ar na saúde das populações. A medida de exposição de uma
98
população é geralmente definida como a média das concentrações do contaminante medidas
em várias estações em um dado dia. E, como sugere este estudo, mesmo com pequenas
quantidades de dados faltantes, pode-se observar viés na medida de associação e
superestimação da precisão.
As simulações mostraram que com 5% de dados faltantes a análise com unidades
completas produz boas estimativas, não importando o mecanismo dos dados faltantes. Neste
caso, a quantidade de dados faltantes é muito pequena para comprometer a eficiência
estatística. Mesmo com esta quantidade de dados faltantes, a imputação pela média ou
mediana deve ser evitada. A validade da análise com unidades completas começa a degenerar
para proporções de valores faltantes acima de 10%. O uso dos métodos multivariados é
recomendado para proporções maiores de dados faltantes ou para reconstruir a distribuição
dos dados e diminuir o impacto da informação perdida sobre a precisão dos estimadores.
Os procedimentos de imputação propostos neste artigo apresentaram boa acurácia para
os padrões de dados faltantes com lacunas de comprimentos variados, em um mesmo dia ou
em vários dias contíguos. Seqüências de vários dias com dados faltantes ocorrem com
freqüência no monitoramento da qualidade do ar. Mesmo para lacunas de sete dias
consecutivos, os efeitos estimados foram muito próximos do valor de referência.
A imputação pelo vizinho mais próximo produziu boas estimativas para pequenas
lacunas de dados, mas perdeu a qualidade para grandes seqüências de dados faltantes. O
método de imputação pela média condicional ou regressão também apresentou estimativas
acuradas para pequenas quantidades de dados faltantes nas diversas configurações, sobretudo
sob MAR. Entretanto, como o modelo de previsão depende das unidades completas, para
grandes quantidades de dados faltantes podem restar poucas observações para estimar os
coeficientes de regressão. O efeito do poluente tendeu a diminuir rapidamente à medida que
aumenta o número de dados faltantes.
99
A imputação via o algoritmo EM para a distribuição normal multivariada sem ajuste
temporal apresentou boas estimativas em todas as configurações avaliadas. As concentrações
de PM10 das estações arroladas no estudo são fortemente correlacionadas entre si, o que
proporcionou a boa acurácia deste método. Nesta aplicação, uma contribuição importante do
ajuste do componente temporal foi na precisão das estimativas. As medidas de associação
estimadas com os dados imputados pelos métodos com contribuição temporal apresentaram
menor dispersão.
O procedimento de imputação com a previsão do nível das séries temporais por meio
de modelos ARIMA apresentou grande variabilidade nas estimativas do efeito do poluente. Os
procedimentos baseado nos modelos MAG mostraram menor dispersão nas estimativas,
porém dependem da disponibilidade de variáveis que possam ser usadas como uma fonte
externa de informação. Nem sempre isto é possível. Variáveis sobre fatores meteorológicos
podem ser bons preditores para explicar a variabilidade das concentrações do poluente.
Entretanto, não devem ser usadas com este fim se também estiverem preconizadas no modelo
teórico do objeto em estudo. Os procedimentos baseados em splines apresentaram maior
acurácia e precisão. Os modelos de suavização por definição produzem previsões com baixa
variabilidade; portanto, este método é a opção padrão para o ajuste do nível de cada série
temporal na biblioteca mtsdi, desenvolvida como parte deste estudo.
Os procedimentos de imputação com múltiplos regimes de covariâncias, de um modo
geral, apresentaram melhores resultados. Entretanto, o uso de janelas trimestrais com apenas
um ano de dados fez com que algumas matrizes de covariâncias fossem estimadas com
poucas observações para alguns padrões de dados faltantes. Esta situação causou alguns
problemas de convergência, principalmente para o procedimento baseado nos modelos
ARIMA.
100
A análise de performance corroborou a baixa qualidade dos métodos de imputação
univariados. Estes métodos mostraram falta de acurácia com altos valores para os erros de
previsão e, ainda, subdispersão e baixa correlação dos valores imputados em relação aos
originais. Mesmo com 5% dos dados faltantes, estes métodos apresentaram baixo
desempenho. Por outro lado, os métodos multivariados apresentaram bom desempenho para
maiores proporções e grandes lacunas de dados faltantes.
O problema da superestimação da precisão de estimativas obtidas a partir da análise de
dados imputados pode ser atenuado com o uso de um fator de penalização pela informação
perdida. Embora naive, a função de penalização linear proposta permitiu incorporar alguma
incerteza na análise estatística dos dados imputados produzindo intervalos de confiança
maiores e compatíveis com os obtidos usando o conjunto completo de dados. Outras funções
de penalização estão sendo investigadas pelos autores.
Os procedimentos de imputação propostos neste trabalho apresentaram bom
desempenho em diversas situações de dados faltantes. Mesmo sob MNAR, alguns resultados
se mostraram válidos. Entretanto, o analista deve considerar que dados imputados são apenas
boas estimativas dos valores que teriam sido observados. A imputação de padrões complexos
com um grande número de dados faltantes deve receber especial atenção.
A metodologia proposta neste trabalho pode ser aplicada a qualquer conjunto de dados
faltantes que possa ser transformado em um problema de estimação de parâmetros de uma
distribuição normal multivariada. A transformação logarítmica é apropriada em muitas
situações e, opcionalmente, pode ser aplicada internamente na biblioteca mtsdi (multivariate
time-series data imputation). A biblioteca mtsdi está em constante desenvolvimento e pode ser
obtida dos autores via correio eletrônico. Esta será disponibilizada na página de repositório do
R por ocasião da publicação deste artigo.
101
5.5 Referências
Beale EML, Little RJA. Missing Values in Multivariate analysis. Journal of the Royal Statistical Society, B. 1975; 37:129-145.
Box G, Cox DR. An analysis of transformations. Journal of the Royal Statistical Society, B. 1964;26(2):211–252.
Box G, Jenkins G, Reinsel G. Time Series Analysis. Forecasting and Control. 3 ed. New Jersey, Prentice Hall, 1994.
Buck SF. A Method of Estimation of Missing Values in Multivariate Data suitable for use with an Electronic Computer. Journal of the Royal Statistical Society, B. 1960; 22:302-306.
Dempster A, Laird N, Rubin D. Maximum Likelihood from Incomplete Data via the Algorithm EM. Journal of the Royal Statistical Society, B. 1977;39:1-38.
Dominici F, McDermott A, Zeger SL, Samet JM. On the use of generalized additive models in time-series studies of air pollution and health. American Journal of Epidemiology. 2002;156:193-203.
Donders ART, Heijden G (van der), Stijnen T, Moons KGM. Review: A gentle introduction to imputation of missing values. Journal of Clinical Epidemiology. 2006;59:1087-1091.
Engels JM, Diehr P. Imputation of missing longitudinal data: a comparison of methods. Journal of Clinical Epidemiology. 2003;56:968-976.
Fuller GW, Carslaw DC, Lodge HW. An empirical approach for the prediction of daily mean PM10 concentrations. Atmospheric Environment. 2002;36:1431-1441.
Gorelick MH. Bias arising from missing data in predictive models. Journal of Clinical Epidemiology. 2006;59:1115-1123.
Gouveia N, Cifuentes L, Ponce de Leon A, Carbajal L, Hurtado M, Romieu I. ESCALA Project (Estudio de Salud y Contaminación del Aire en Latinoamérica). Health Effects Institute. Annual Conference 2007. Program and Abstracts. Chicago, 2007
Green PJ, Silverman BW. Nonparametric Regression and Generalized Linear Models: a roughness penalty approach. London, Chapman and Hall, 1994.
Greenland S, Finkle WD. A critical look at methods for handling missing covariates in epidemiologic regression analyses. American Journal of Epidemiology. 1995;142(12):1255-1264.
Greenland S, Rothman KJ. Modern epidemiology. 2 ed. Philadelphia, Lippincott-Raven, 1998.
Hartley HO, Hocking RR. The analysis of incomplete data. Biometrics. 1971;27:783–823.
102
Hastie TJ, Tibishirani RJ. Generalized Additive Models. London, Chapman and Hall, 1990.
Junninen H, Niska H, Tuppurainen K, Ruuskanen J, Kolehmainen, M. methods for imputation of missing values in air quality data sets. Atmospheric Environment. 2004;38:2895-2907.
Little RJA, Rubin DB. Statistical analysis with missing data. New York, Wiley, 1989.
Little RJA. Regression with missing X's: a review. Journal of the American Statistical Association. 1992; 87(420): 1227-1237.
McGullagh P, Nelder JA. Generalized linear models. London, Chapman and Hall, 1989.
McLachlan GJ, Krishnan T. The EM algorithm and extensions. New York, John Wiley and Sons, 1997.
Miettinen OS. Theoretical epidemiology. Principle of occurrence research in medicine. New York, Wiley, 1985.
Plaia A, Bondì AL. Single imputation method of missing values in environmental pollution data sets. Atmospheric Environment. 2006;40:7316-7330.
R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2007. http://www.r-project.org.
Rubin DB. Inference and missing data. Biometrika. 1976; 63(3):581–92.
Schafer JL. Analysis of incomplete multivariate data. London, Chapman & Hall, 1997.
Schwartz J, Spix C, Touloumi G, Bacharova L, Barumamdzadeh T, Le Tertre A et al. Methodological issues in studies of air pollution and daily counts of deaths or hospital admissions. J Epidemiol Community Health 1996; 50 Suppl 1:S3-11.
Vach W, Blettner M. Biased estimation of the odds ratio in case-control study due to the use of ad hoc methods of correcting for missing values for confounding variables. American Journal of Epidemiology. 1991; 134:895-907.
WHO, World Health Organization. Air quality guidelines for particulate matter, ozone, nitrogen dioxide and sulfur dioxide. Global update 2005. Summary of risk assessment. Geneva, 2006.
Wilmott CJ. Some comments on the evaluation of model performance. Bulletin of the American Meteorological Society. 1982;63:1309-1313.
103
6 ARTIGO 4: Ares: uma biblioteca em R para análises de séries temporais em estudos
sobre a poluição do ar e efeitos na saúde
Ares: an R library for time series analysis in air pollution and health effects studies
Washington Leite Junger
Antonio Ponce de Leon
Departamento de Epidemiologia
Instituto de Medicina Social
Universidade do Estado do Rio de Janeiro
104
Resumo
Modelos de séries temporais para estimar o efeito da poluição do ar sobre a saúde têm
sido extensivamente usados em estudos ecológicos com dados secundários. Devido ao baixo
custo e disponibilidade dos dados, é uma primeira abordagem analítica na investigação dos
efeitos da poluição do ar. A análise de séries temporais usando modelos aditivos generalizados
se tornou a metodologia padrão em diversos estudos multicêntricos para avaliar os efeitos da
poluição atmosférica na saúde. Este trabalho está sendo desenvolvido no âmbito do projeto
ESCALA, um projeto multicêntrico envolvendo cidades do Brasil, México e Chile.
Este trabalho apresenta uma breve revisão da metodologia de análise de séries temporais
em estudos epidemiológicos sobre os efeitos da poluição do ar na saúde e sua implementação
na forma de uma biblioteca para o aplicativo R, denominada ares. O uso da biblioteca é
exemplificado em detalhes usando dados de admissões hospitalares por doenças respiratórias
em crianças na cidade do Rio de Janeiro no período setembro de 2000 a agosto de 2002.
105
6.1 Introdução
Grandes eventos de poluição do ar ocorridos na primeira metade do século XX
estabeleceram que altas concentrações de poluentes atmosféricos podem resultar em aumentos
na morbidade e na mortalidade. Os eventos mais conhecidos ocorreram em 1930 no Vale
Meuse, Bélgica; 1948 em Donora, EUA, e 1952 em Londres, Inglaterra (Brunekreef e
Holgate, 2002; Greater London Authority, 2002; Schwartz, 1994). Na segunda metade do
século, foram adotadas medidas para a redução da emissão de poluentes na atmosfera, e
episódios de poluição de grande magnitude não voltaram a ocorrer. Entretanto, estudos
epidemiológicos utilizando diversas metodologias têm fornecido evidências sobre efeitos
nocivos da exposição à poluição do ar à saúde. Os eventos de saúde mais freqüentemente
associados com a poluição do ar são a morbidade e mortalidade por doenças respiratórias e
cardiovasculares (Daumas et al, 2004; Atkinson et al, 2001; Gouveia e Fletcher, 2000; Lin et
al, 1999; Borja-Aburto, 1997; Anderson et al, 1996; Ballester et al, 1996; Schwartz, 1996;
Ponce de Leon et al, 1996; Pope et al, 1995; Burnet et al, 1995), câncer de pulmão (Junger et
al, 2005; Cohen et al, 1997), diminuição da função respiratória (Ward e Ayres, 2004; Hoek e
Brunekreef, 1993) e absenteísmo escolar (Romieu et al, 1992). Estes estudos também
estabelecem que os grupos mais suscetíveis são as crianças e os idosos.
Atualmente, o aumento nos níveis de poluição se deve principalmente ao crescimento
da frota de veículos automotores, que hoje em alguns países representa a principal fonte de
poluição. As emissões devidas à queima de combustíveis fósseis são muito menores hoje do
que há 50 anos. Entretanto, as concentrações de poluentes fotoquímicos como o ozônio (O3) e
óxidos de nitrogênio (NOx) têm crescido rapidamente em função do aumento da frota de
veículos automotores (Brunekreef e Holgate, 2002). Nos países da América Latina e o Caribe,
a grande preocupação concerne aos crescimentos econômico e populacional que demandam
aumento de transporte e geração de energia. Estes fatores são importantes determinantes da
106
qualidade do ar (PAHO, 2005). Estudos desenvolvidos na Cidade do México (Romieu et al,
1992; Telez-Rojo et al, 2001), Santiago (Cifuentes et al, 2000), São Paulo (Martins et al,
2004; Gouveia e Fletcher, 2000; Saldiva et al, 1995) e Rio de Janeiro (Brasil, 2005; Gouveia
et al, 2003; Daumas et al, 2004) mostram que a poluição do ar urbana constitui uma questão
de saúde pública na região. A queima de biomassa relacionada com a agricultura também
contribui consideravelmente para o aumento das emissões de poluentes na atmosfera (Ignotti
et al, 2007; Arbex et al, 2004).
Do ponto de vista metodológico, a dificuldade consiste em detectar variações na
ocorrência de eventos de saúde associados a eventos de poluição atmosférica de baixa
magnitude. O desenho epidemiológico mais utilizado na maioria dos estudos desenvolvidos
nos últimos vinte anos é o estudo ecológico. O seu uso está fundamentado na hipótese de que
variações diárias nas concentrações de poluentes atmosféricos em um longo período de tempo
são determinantes de variações diárias de eventos como mortalidade, hospitalizações e outros
indicadores de saúde (Brunekreef e Holgate, 2002). O avanço das técnicas estatísticas tem
viabilizado o estudo dos possíveis efeitos da poluição do ar sobre a saúde nos cenários atuais,
em que os níveis de contaminantes no ar são menores do que aqueles usualmente
considerados nocivos. Particularmente, os modelos de séries temporais têm desempenhado
um papel relevante como ferramenta de análise nestes estudos (Schwartz et al, 1996).
Os estudos de séries temporais sobre os efeitos da poluição do ar na saúde, geralmente,
utilizam dados de fontes secundárias agregados, tanto da exposição quanto dos indicadores de
saúde. As principais vantagens do uso deste desenho nos estudos epidemiológicos são que um
mesmo grupo de indivíduos avaliados ao longo do tempo tende a manter suas características
constantes durante o período de estudo. Fatores individuais como residência, ocupação, dieta,
tabagismo e atividades físicas não variam diariamente e, portanto, não precisam ser
controlados. Outros fatores de confusão em potencial como efeito de calendário, fatores
107
climáticos, epidemias e estruturas da própria série como tendência e sazonalidade podem ser
facilmente controlados. A principal desvantagem deste desenho é que a medida de efeito é
viesada no nível individual (Schwartz et al, 1996; Katsouyanni et al, 1996). Entretanto,
porque o monitoramento e controle da qualidade do ar são baseadas em medidas ambientais,
muitos estudos epidemiológicos avaliam o efeito da poluição do ar na saúde com base na
medida de exposição média da população sem a intenção de avaliar o efeito com base na
exposição individual (Dominici, 2004).
Do ponto de vista do modelo operacional, a análise estatística em estudos de séries
temporais sobre a associação entre contaminantes atmosféricos e eventos de saúde envolve
decisões baseadas em testes e diagnósticos em cada etapa do processo. Alguns destes
procedimentos de avaliação de modelos são computacionalmente intensivos e muitas vezes
requerem complexa programação (Schwartz et al, 1996).
Este trabalho apresenta uma breve revisão da metodologia de análise de séries
temporais em estudos epidemiológicos sobre os efeitos da poluição do ar na saúde e sua
implementação na forma de uma biblioteca para o aplicativo R (R Development Core Team,
2007). O uso das funções é exemplificado em detalhes usando dados de admissões
hospitalares por doenças respiratórias em crianças na cidade do Rio de Janeiro. Este trabalho
foi desenvolvido no âmbito do Projeto ESCALA (Estudios de Salud y Contaminación del Aire
en Latinoamérica) (Gouveia et al, 2007).
6.2 Métodos
6.2.1 Pressupostos
A biblioteca ares consiste na implementação de diversas técnicas estatísticas relevantes
ou imprescindíveis na estimação e diagnóstico do modelo operacional, usando o ambiente de
análise estatística R. O aplicativo R é um ambiente software livre formado por uma coleção de
108
rotinas para análises descritivas, modelagem estatística e análises gráficas de dados. É
extensível por meio de programação, isto é, novas funções podem ser escritas pelo usuário
sob a forma de bibliotecas. Ares é um acrônimo para “ar e saúde”.
Nos estudos de séries temporais sobre os efeitos da poluição do ar na saúde, o que se
pretende avaliar é o quanto da variabilidade da variável de desfecho está associada à
variabilidade da variável de exposição. A análise de correlação usual entre os dois indicadores
não é adequada para estimar esta associação já que existem estruturas inerentes à dinâmica
das séries temporais como tendência, sazonalidade e autocorrelação que podem enviesar as
estimativas do efeito e da precisão. Em adição, efeitos do calendário, como dias da semana e
feriados, greves, epidemias e condições meteorológicas freqüentemente constituem fatores de
confusão da associação entre poluição do ar e eventos de saúde (Schwartz et al, 1996).
Diariamente, apenas uma pequena parcela da população morre ou é internada e este
número representa uma contagem. Logo, um modelo probabilístico adequado para o processo
subjacente é o de Poisson. No modelo de Poisson, assume-se um risco µ homogêneo na
população. Entretanto, o processo pode não ser estacionário ao longo do tempo e o risco pode
variar no tempo em função de variáveis preditoras 1 2, , , pX X X… . A regressão de Poisson é
uma abordagem adequada para modelar tais eventos de saúde. Em adição, o modelo de
regressão de Poisson na sua forma canônica é um modelo de risco relativo (Schwartz et al,
1996). O modelo preditivo geral para o risco pode representado da seguinte forma
( )
( ) ( )1 1
~ ,
log , .
t t
J K
t j jt k kt k ptj k J
y Poisson
X f X X
µ
µ α γ λ β= = +
= + + +∑ ∑ (1)
Na equação 1 acima, os coeficientes γ descrevem a variação linear relativa no
logaritmo da média diária de eventos de saúde para a variação em uma unidade nas variáveis
1 2, , , JX X X… . Da mesma forma, o coeficiente β descreve tal variação em relação à variável
de exposição pX . Considerando a propriedade de modelo de risco relativo da regressão de
109
Poisson, a variação de uma unidade na variável pX provoca uma variação na média da
variável de desfecho na mesma direção e de magnitude ( )exp β , igual ao risco relativo. Por
exemplo, se a variável pX for concentrações de PM10, pode-se determinar a variação na
média diária de internações hospitalares ou óbitos associada com a variação 1 µg/m³ do
poluente. Os modelos de regressão de Poisson semi-paramétricos permitem a modelagem de
associações não lineares denotadas pelas funções ( ),k kt kf X λ , com 1, ,k J K= + … , na
equação 1.
A estratégia de modelagem consiste em definir um modelo de linha de base (core
model) que contenha toda a informação conhecida para explicar a variabilidade do desfecho,
exceto a exposição, e.g. variáveis de controle de confusão, modificadores de efeito e ajuste
dos componentes estruturais da série temporal. Uma vez definido o modelo de linha de base,
a variável de exposição é adicionada de forma linear no modelo para estimar o efeito do
poluente sobre a variável de desfecho. A escolha de cada variável e função para compor o
modelo de linha de base requer uma análise específica que depende do seu papel no modelo.
6.2.2 Estimação
O modelo de regressão de Poisson pode ser formulado como um membro da família
exponencial e pode ser estimado usando a metodologia dos modelos lineares generalizados
(MLG). Esta característica permite usar todo o arcabouço de estimação e diagnóstico existente
para esta classe de modelos (McCullagh e Nelder, 1989) que está implementada na maioria
dos aplicativos de análise estatística. Os MLG podem ser estendidos para acomodar funções
não lineares. O modelo semi-paramétrico da equação 1 faz parte da classe dos modelos
aditivos generalizados (MAG) (Hastie e Tibishirani, 1990. Hastie e Tibishirani, 1986). Em um
processo de Poisson a variância é igual a média µ ; entretanto, processos de contagem
110
freqüentemente apresentam superdispersão, com a variância proporcional a média. Nestes
casos, quasi-verossimilhança deve ser usada para estimação adequada da precisão (McCullagh
e Nelder, 1989).
Os MAG têm sido extensivamente usados nos estudos de séries temporais sobre os
efeitos da poluição atmosférica na saúde devido à sua flexibilidade para o ajuste de efeitos
não lineares de tendência e sazonalidade bem como de fatores meteorológicos, em oposição
aos modelos totalmente paramétricos (Dominici et al, 2002). Os MAG estendem os MLG
substituindo o preditor linear da forma j jjxη β=∑ por um preditor genérico
( )j jjf xη =∑ . Entretanto, algumas funções ( )f ⋅ podem ser lineares, formando o modelo da
equação 1. Em geral, as funções ( ),k kt kf X λ são funções suaves das variáveis explicativas
kX , kλ seu respectivo parâmetro de suavização e 1, ,k J K= + … (Hastie e Tibishirani, 1990).
As funções da classe spline têm propriedades matemáticas interessantes e devem ser
preferidas (Green e Silverman, 1985)8. Hastie e Tibishirani (1990) apresentam em detalhes
outras funções suavizadoras, e.g. a regressão local ponderada (lowess).
Os MAG estimam a parte paramétrica do modelo usando o método scoring de Fisher
(McCullagh e Nelder, 1989), da mesma forma que o MLG, e a parte não paramétrica usando o
algoritmo backfitting (Friedman e Stuetzle, 1971) quando mais de uma função suave é
incluída no modelo. Apesar de seu uso em estudos epidemiológicos, os MAG com backfitting
não estimam adequadamente a incerteza dos estimadores. Dominici e colaboradores (2002)
recomendam gerar a base de cada spline cúbica natural e estimar o modelo de forma linear, ou
seja, como um MLG. Desta forma, variância da estimativa do efeito é calculada de forma
exata.
8 Nota para a tese: Mais detalhes sobre as splines são apresentados na seção de metodologia do Artigo 3.
111
6.2.3 Diagnósticos
Em cada passo no processo de modelagem a escolha das variáveis preditoras e a forma
como elas se relacionam com o desfecho é determinada por uma série de diagnósticos. Os
diagnósticos são usados para avaliar se os pressupostos do modelo estão sendo preservados, a
fim de garantir a validade e a precisão das estimativas obtidas. A maioria dos diagnósticos de
seleção de modelos é baseada nos resíduos que, em essência, medem o afastamento entre os
valores observados e os valores preditos pelo modelo. Para que os resíduos possam ser
comparáveis com a distribuição normal, diversas transformações dos resíduos em MLG estão
propostas na literatura (McCullagh e Nelder, 1989). Um estudo detalhado sobre resíduos e
suas propriedades em MLG é realizado por Pierce e Schafer (1986). Eles mostram que os
resíduos de deviance apresentam as melhores propriedades e sugerem os resíduos de deviance
ajustados, dados por 1 6dr µ+ , em que dr são os resíduos de deviance usuais e 1 µ é
coeficiente de assimetria da distribuição de Poisson. Esta opção de resíduos está
implementada como padrão na biblioteca ares e podem ser extraídos do modelo por meio da
função get.residuals . Outras opções de resíduos estão também disponíveis na
biblioteca.
Os resíduos do modelo de linha de base devem ter, no máximo possível, características
de um ruído branco, ou seja, devem seguir uma distribuição normal com média zero, variância
constante e ausência de autocorrelação (Box et al, 1994). Os gráficos diagnósticos usuais da
análise de regressão são ferramentas importantes para avaliar o sucesso em cada etapa da
análise. O gráfico dos resíduos contra o tempo pode exibir padrões sazonais não controlados
no modelo e potenciais outliers. Este gráfico está implementado na função
plot.residuals . A análise de influência das observações pode corroborar ou refutar a
existência de outliers. O gráfico da distância de Cook (Cook e Weisberg, 1982) está
implementado na função plot.cook . O gráfico de dispersão dos resíduos contra duas vezes
112
a raiz quadrada dos valores previstos pelo modelo serve para avaliar se a relação entre as
covariáveis e o desfecho exibe alguma forma funcional (Atkinson, 1985). Este gráfico está
implementado na função grafico.infocte . A normalidade dos resíduos pode ser
avaliada com o gráfico de quantis implementado na função plot.qq . Para avaliar se os
resíduos se afastam efetivamente da curva de probabilidade normal, é interessante a
construção de uma banda de confiança para os resíduos por meio de simulação. Este gráfico
também é útil para detectar pontos outliers. O envelope simulado proposto por Atkinson
(1985) está implementado na função plot.envelope .
Valores medidos ao longo do tempo, e.g. em dias consecutivos, não são independentes e
apresentam autocorrelação. Por outro lado, não é razoável assumir, por exemplo, que a
mortalidade em um dado dia possa influenciar a mortalidade no dia seguinte. Entretanto, a
autocorrelação observada na variável de desfecho pode ser devida à autocorrelação nas
variáveis preditoras do desfecho. Em estudos de séries temporais sobre poluição do ar e
efeitos na saúde, a autocorrelação geralmente é controlada pelas variáveis meteorológicas e
indicadores de epidemias (Schwartz et al, 1996). Se a autocorrelação não for devidamente
controlada poderá ser detectada no diagnóstico dos resíduos do modelo. A autocorrelação
pode ser verificada e estimada por meio das funções de autocorrelação e autocorrelação
parcial (Box et al, 1994). A última estima a correlação entre as observações defasadas no
tempo corrigida pelas defasagens intermediárias. Esta é a opção padrão na função
plot.pacf da biblioteca ares. A autocorrelação não enviesa a estimativa do efeito, mas faz
com que seu erro-padrão seja subestimado.
6.2.4 Tendência e sazonalidade
Em estudos de séries temporais, além de necessário controlar os fatores de confusão
previstos no modelo teórico, há variações sistemáticas que também devem ser controladas.
113
Cabe ressaltar que nestes estudos o que se busca estimar é o efeito agudo, de curto prazo.
Duas variáveis podem estar correlacionadas porque apresentam o mesmo comportamento
sistemático de longo prazo, em oposição às variações de curto prazo. Logo, para avaliar se as
duas variáveis apresentam correlação de curto prazo, os componentes sistemáticos de longo
prazo devem ser controlados. A tendência de uma série temporal pode ser não-linear. A
estimação usando uma abordagem paramétrica pura inclui, por exemplo, o uso de funções
polinomiais de diversos graus para controlar a tendência.
Outro componente sistemático que ocorre nas séries temporais diz respeito às variações
cíclicas, em particular as que ocorrem com período de um ano ou sazonalidade. As variáveis
de eventos de saúde, fatores meteorológicos e poluição geralmente exibem sazonalidade. A
sazonalidade, tal como a tendência, também induz correlação entre as variáveis mesmo que
não exista uma relação causal entre elas. Numa abordagem paramétrica, a sazonalidade pode
ser controlada, por exemplo, com o uso de curvas senoidais com períodos equivalentes aos
das variações cíclicas sob controle ou variáveis dummies mensais. Na biblioteca ares,
senóides podem ser incluídas no modelo usando a função sincos . Existem variações
cíclicas com período superior a um ano que podem se confundir com a tendência da série
temporal em estudos com poucos anos de dados. Também existem variações com período
inferior a um ano, por exemplo, dias da semana, que nem sempre estão presentes nas séries
temporais, mas devem ser verificadas e, se necessário, controladas. Os efeitos dos dias da
semana são controlados com o uso de variáveis dummies.
Há várias formas de controlar a variabilidade dos componentes estruturais da série
temporal (Schwartz, 1996). Entretanto, uma das principais vantagens de usar uma abordagem
semi-paramétrica para a estimação de modelos de séries temporais em epidemiologia
ambiental é a possibilidade de usar uma função suave do tempo de observação (em dias), e.g.
spline, para o controle de tendência e sazonalidade. Esta abordagem permite que os dois
114
componentes estruturais sejam modelados simultaneamente. No entanto, seu uso propõe um
problema: quanto suave deve ser a curva para um controle adequado da tendência e da
sazonalidade? Apesar de existir métodos automáticos para seleção do grau de suavização da
curva como a validação cruzada e a validação cruzada generalizada (Wahba, 2000; Craven e
Wahba, 1979), estes normalmente não produzem resultados satisfatórios na prática. Então, o
processo de seleção é empírico, baseado nos diagnósticos do modelo apresentados acima, no
periodograma e em estatísticas de parcimônia, e.g. critério de informação de Akaike (AIC)
(Hastie e Tibshirani, 1990). Em geral, com graus de liberdade suficientes, as curvas suaves
são capazes de controlar também as variações cíclicas intermediárias.
A escolha da forma funcional mais adequada para o controle dos componentes cíclicos
nos estudos de séries temporais epidemiológicas pode ser suportada pelo periodograma. O
periodograma consiste na decomposição da série temporal como uma superposição de curvas
senoidais de diversas freqüências (Diggle, 1990). Sua utilidade prática reside no fato de que
este pode ser analisado como uma distribuição empírica dos padrões cíclicos da série
temporal. Em adição, pode ser usado com um caráter exploratório mostrando variações
cíclicas com períodos não conhecidos previamente. Aplicado nos resíduos do modelo, o
periodograma revela padrões de variação cíclicas ainda não controlados. Um periodograma
customizado está implementado na função periodogram da biblioteca ares. Padrões
sazonais são representados no periodograma por períodos de aproximadamente 365 dias e
padrões semanais por períodos em torno de 7 dias.
6.2.5 Calendário e epidemias
Em estudos sobre os efeitos da poluição ar na saúde, é comum que os eventos
relacionados com o calendário confundam a associação entre o contaminante e o desfecho.
Por exemplo, greves de transporte tendem a mudar o padrão de exposição da poluição e o
115
acesso ao serviço de saúde. Feriados podem ter efeito similares. Portanto, é imprescindível
que seja investigado o efeito de tais eventos. Na biblioteca ares, variáveis indicadoras de
feriados ou greves podem ser facilmente geradas com a função gen.holidays . Feriados
móveis como Páscoa e Carnaval, fixos como Natal e Ano Novo e nacionais, dos países
participantes do projeto ESCALA, são gerados automaticamente quando da inicialização do
banco de dados. A fim de se obter modelos mais parcimoniosos, os feriados podem ser
agrupados de acordo com sua magnitude e sinal do efeito.
O controle de epidemias de influenza no Brasil é muito difícil já que os dados
normalmente não estão disponíveis. Como as epidemias de influenza tendem a determinar
um padrão sazonal, um adequado controle da sazonalidade deve produzir também um controle
satisfatório de epidemias de influenza. Braga e colaboradores (2000) propõe o uso de
internações hospitalares por pneumonia como controle de epidemias respiratórias sob o
argumento que o controle apenas por influenza pode não incluir alguns episódios de epidemia.
Para o controle de epidemias podem ser usadas variáveis dummies e/ou polinômios cúbicos do
número de casos para períodos maiores. A última abordagem permite que os dados
determinem a curva da epidemia.
6.2.6 Fatores meteorológicos
Após controlar os componentes sistemáticos da série temporal e os efeitos de
calendário, é imprescindível incluir no modelo termos que controlem a variabilidade de curto
prazo devida aos fatores meteorológicos. É bem conhecido na literatura que temperatura e
umidade estão associadas com a mortalidade e morbidade; sobretudo com os desfechos
cardiovasculares e respiratórios (Días Jiménez et al, 2005; Cagle e Hubbard, 2005; Braga et
al, 2001). Os fatores meteorológicos geralmente são bem representados pelas medidas de
temperatura e umidade. A dependência dos eventos de saúde nos fatores meteorológicos
116
normalmente é não linear. Várias abordagens estão disponíveis para modelar associações não
lineares, e.g. suavização, polinômio e funções lineares por partes. Os gráficos da suavização
dos resíduos do modelo contra os indicadores de temperatura e de umidade podem indicar a
forma funcional da associação. Na biblioteca ares, os dois gráficos podem ser obtidos com as
funções explore.temp e explore.humid respectivamente. Geralmente, splines cúbicas
naturais são usadas para modelar a associação dos fatores meteorológicos. Associações
lineares por partes podem ser modeladas usando a função lspline que gera uma base para
uma spline linear por partes (Gould, 1993). O efeito da temperatura pode se manifestar no
mesmo dia ou apresentar alguma latência. Portanto, deve-se explorar o efeito dos fatores
meteorológicos sobre o evento de saúde no mesmo dia e defasagens, bem como o efeito
acumulados de alguns dias.
Algumas análises realizadas com dados do Rio de Janeiro mostraram que a quantidade
de chuva em um dado dia pode distorcer a associação entre poluição do ar e atendimentos ou
internações hospitalares por sintomas respiratórios em crianças. Enchentes são comuns
quando ocorrem chuvas muito fortes e o acesso às unidades de saúde se torna limitado.
Chuvas também tendem a diminuir a concentração de contaminantes em suspensão na
atmosfera. O mesmo padrão não foi observado em desfechos relacionados à população idosa.
6.2.7 Efeito dos poluentes
Uma vez que o modelo de linha de base inclua os potenciais fatores de confusão é
possível estimar o efeito da poluição atmosférica sobre o evento de saúde. O efeito de cada
poluente pode ser observado no mesmo dia ou em alguns dias após a exposição dependendo
do mecanismo biológico e de outros fatores (Katsouyanni et al, 1996). Em adição, o efeito
pode ser observado no mesmo dia e persistir por alguns dias. Uma abordagem comumente
empregada consiste em avaliar a defasagem do efeito do poluente de forma independente, ou
117
seja, considerando modelos separados para o efeito no mesmo dia e para as defasagens de até
alguns dias. Para investigar o efeito prolongado do poluente, são empregadas médias móveis
da exposição com diferentes números de defasagem.
Uma abordagem para modelar a latência do efeito do poluente é considerar um modelo
com múltiplas defasagens de exposições simultaneamente, sendo que cada defasagem é
representada por uma variável explicativa. O problema desta abordagem é que estas variáveis
de exposição defasada apresentam alto grau de colinearidade devido a autocorrelação,
causando instabilidade no processo de estimação. Um método para modelar este
comportamento é restringir os coeficientes na forma de um polinômio de baixa ordem nas
defasagens da exposição, o modelo de defasagem distribuída polinomial (MDDP). O MDDP
foi inicialmente proposto por Almon (1965) e sua aplicação em epidemiologia ambiental é
explorada em detalhes por Schwartz (2000). Uma extensão não paramétrica mais flexível do
modelo de defasagem distribuída usando spline em vez de polinômio foi proposta por
Zanobetti e colaboradores (2000). A versão paramétrica do modelo de defasagem distribuída
está implementado na função pdlm da biblioteca ares.
Os poluentes podem apresentar efeitos diferentes ao longo do ano, e.g. verão e inverno.
Para explorar a modificação do efeito em um período específico do ano, uma variável
indicadora é incluída no modelo junto com um termo de interação com o poluente. Entretanto,
para diminuir o risco de obter falsas conclusões, a análise de interação deve se limitar a dois
níveis, a menos que hipótese a ser testada tenha sido formulada previamente (Schwartz,
1996). O efeito da poluição do ar geralmente é pequeno e com poder limitado para detectar
interações. Portanto, a análise de interação com vários níveis pode não produzir inferências
válidas. Um modelo de interação com dois níveis, períodos quente e frio, está implementado
na biblioteca ares.
A estimativa do efeito de vários poluentes simultâneos deve levar em consideração que
118
alguns contaminantes são colineares e o modelo com múltiplos poluentes sofrerá instabilidade
na estimação. A composição de contaminantes em modelos com múltiplos poluentes pode ser
orientada pela análise de correlação. Devem ser considerados para o modelo multipoluentes
apenas aqueles que apresentarem baixa correlação. A estimação de modelos com dois
poluentes está prevista na biblioteca ares.
Os procedimentos acima não esgotam as possibilidades metodológicas para a análise de
séries temporais sobre poluição do ar e seus efeitos em eventos de saúde. Essencialmente, a
metodologia implementada na biblioteca ares reflete o protocolo de análise de séries
temporais do projeto ESCALA e outros estudos multicêntricos desenvolvidos na Europa e
EUA. A biblioteca dispõe ainda de diversas funções utilitárias com fins operacionais, e.g.
acesso a dados, geração de gráficos etc.
6.3 Aplicação
6.3.1 Dados
Para ilustrar a metodologia de análise de séries temporais epidemiológicas e o uso da
biblioteca ares, foram analisados dados de internações hospitalares por doenças do aparelho
respiratório (DAR) em crianças com idade até 5 anos na cidade do Rio de Janeiro. O período
de estudo é de setembro de 2000 a agosto de 2002. Os dados de saúde incluem todas as
internações em hospitais públicos ou privados conveniados ao Sistema Único de Saúde
(SUS) do Ministério da Saúde. Os dados de poluição do ar foram cedidos pelos órgãos
ambientais do estado e do município. Foram disponibilizadas concentrações diárias de
material particulado até 10 microns (PM10), dioxido de enxofre (SO2), monóxido de carbono
(CO), dióxido de nitrogênio (NO2) e ozônio (O3). As concentrações foram aferidas em 6
pontos da cidade, exceto para as de NO2 e O3 que estavam disponíveis em apenas 2 estações.
Um procedimento para imputação dos dados foi utilizado a fim de minimizar a perda de
119
precisão das estimativas9. Mesmo após a imputação, NO2 apresentou uma grande quantidade
de valores faltantes e os resultados referentes a este contaminante devem ser considerados
com cautela. As concentrações de contaminantes estão expressas em micrograma por metro
cúbico (µg/m³), exceto CO que está em partes por milhão (ppm). Dados sobre temperatura e
umidade foram cedidos pela Aeronáutica e medidos em 4 pontos da cidade. Os dados sobre
precipitação de chuvas foram medidos em 32 estações instaladas no Rio de Janeiro.
6.3.2 Resultados
A biblioteca ares é carregada no R de maneira usual, com o comando
library(ares) . O banco de dados pode ser carregado com o comando data <-
import.data(“arquivo.ext”) . A função tentará identificar automaticamente o
aplicativo de origem do arquivo e selecionar o filtro de importação de dados adequado. Os
mais comuns estão implementados. Com o banco de dados já carregado no objeto data , este
deve ser inicializado com o comando setup(data,"Date",date.format =
"%d/%m/%Y",holidays=TRUE) . Date é o nome da variável com a data do evento no
formato texto. Na inicialização, são criadas variáveis para o tempo, dias da semana, meses,
trimestres, anos e, opcionalmente, feriados. Uma variável formatada como data, doe (date of
the event), também é criada. As variáveis criadas e respectivos tipos de dados são visualizados
com a função desc.data .
Medidas descritivas das variáveis de interesse podem ser obtidas com o comando
desc.vars(c("resp5","PM10","SO2","CO","NO2","O3")) . Com as opções
padrão e alguma formatação o comando produzirá a Tabela 6-1 com as estatísticas mais
usuais.
9 Nota para a tese: O método de imputação de dados usado é objeto de estudo do Artigo 3.
120
Tabela 6-1: Estatísticas descritivas de DAR em crianças e poluentes
n na mean sd min max p25 p50 p75 resp5 730 0 15,75 7,78 1,00 43,00 10,00 15,00 20,00 PM10 728 2 57,57 17,20 17,94 139,73 44,84 54,61 67,68 SO2 690 40 11,73 6,64 1,25 49,67 6,79 10,53 15,12 CO 727 3 1,22 0,44 0,40 3,06 0,90 1,15 1,47 NO2 513 217 46,73 25,89 1,20 207,19 28,42 45,57 61,07 O3 656 74 28,07 16,95 2,46 88,83 13,58 25,84 39,00
Os gráficos das variáveis de desfecho e de exposição podem ser criados com os
comandos plot.event(resp5,df=0) e plot.pollutant(PM10,df=0)
respectivamente. A opção df=k , com 0k > , faz com que uma spline da variável com k
graus de liberdade seja adicionada ao gráfico; se omitida, as observações serão suavizadas por
uma spline com 5 graus de liberdade. O resultado está combinado na Figura 6-1 e é notória a
sazonalidade das internações de crianças por DAR no período do estudo.
010
2030
40
resp
5
01/09/0000 25/01/2001 20/06/2001 13/11/2001 08/04/0002
Daily counts of resp5
2060
100
140
PM
10
01/09/0000 25/01/2001 20/06/2001 13/11/2001 08/04/0002
Daily concentrations of PM10
Figura 6-1 Número de internações por DAR em crianças e concentrações de PM10 diárias
121
Além das variáveis de feriados geradas internamente, novas variáveis indicando
feriados ou outras datas especiais podem ser criadas. A função gen.holidays cria
variáveis indicadoras dadas as datas, e.g. feriados locais, greves ou outras datas que devem ser
consideradas no modelo. Para criar variáveis referentes aos feriados regionais da cidade do
Rio de Janeiro, Zumbi e São Sebastião, usa-se os seguintes comandos
zumbi <- gen.holidays(doe,"zumbi","20/11") sebastiao <- gen.holidays(doe,"sebastiao","20/01")
O modelo de linha de base é especificado por meio de uma fórmula na notação usual do
R. A variável resposta é separada das variáveis preditoras por “~” e as variáveis preditoras
separadas por “+”. As funções para calcular defasagens ou médias móveis de variáveis,
senóides e splines podem ser inseridas diretamente na fórmula.
A tendência e sazonalidade da série de internações de crianças por doenças respiratórias
é controlada por meio de uma spline com 6 graus de liberdade por ano da variável time . O
efeito dos dias da semana é controlado pelo fator weekdays com um nível para cada dia da
semana. Os efeitos de calendário são controlados por meio das variáveis indicadoras dos
feriados geradas automaticamente ou com a função gen.holidays . A variável
long_weekends , indicando feriados prolongados, foi definida no próprio banco de dados.
As linhas de comandos para definir a fórmula e estimar o modelo de linha de base são
f <- resp5~ns(time,12)+weekdays+christmas+newyear+p assion+ easter+corpus+tiradentes+trabalho+independencia+ap arecida+ finados+republica+zumbi+sebastiao+long_weekends mod <- fit.core(f) A função ns faz parte da biblioteca interna R e gera a base para uma spline cúbica natural
com o número de graus de liberdade indicado no segundo argumento.
O objeto mod acomoda as informações referentes ao modelo estimado. O comando
print.summary(mod) imprime estatísticas descritivas dos resíduos, estimativas e testes
122
de hipóteses dos coeficientes, estatísticas de qualidade do modelo e estimativa do parâmetro
de dispersão. O comando diagnostics(mod) , além de imprimir as informações sobre o
modelo, é um atalho para produzir os gráficos de valores previstos, resíduos contra o tempo,
distância de Cook, função de correlação parcial, periodograma dos resíduos e de quantis dos
resíduos contra quantis da distribuição normal. Após a análise dos diagnósticos, os feriados
com p-valor maior que 0,1 foram excluídos da análise e o modelo re-estimado.
A escolha do indicador de temperatura e da forma funcional a ser usada para o seu
controle no modelo foi auxiliada pela função explore.temp . O comando
explore.temp(mod,tmpmax,df=5) produz gráficos dos resíduos suavizados contra a
variável tmpmax com diferentes defasagens de tempo. A opção df=5 indica que uma spline
com 5 graus de liberdade será usada para a suavização. Os gráficos de temperatura estão
apresentados na Figura 6-2. A análise dos gráficos sugere que a temperatura com defasagem
de dois dias (lag 2) explica melhor a variabilidade do número diário de internações por DAR
em crianças. Se o indicador de temperatura não estiver especificado no protocolo de análise,
esta mesma análise dever ser reproduzida para os outros indicadores de temperatura
disponíveis. A fórmula do modelo agora pode ser atualizada para incluir temperatura. Logo,
considerando a associação não linear da temperatura com 4 graus de liberdade por ano, pode-
se re-estimar o modelo com os seguintes comandos
f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8) mod <- fit.core(f) A função l (lag) retorna a variável defasada no número unidades de tempo indicado no
segundo argumento.
123
20 25 30 35
-3-2
-10
12
3
tmpmax (deg)
Dev
ianc
e re
sidu
als
20 25 30 35-3
-2-1
01
23
tmpmax lag1
20 25 30 35
-3-2
-10
12
3
tmpmax lag2
20 25 30 35
-3-2
-10
12
3
tmpmax ma01
Res
idua
ls
25 30 35
-3-2
-10
12
3
tmpmax ma02
20 25 30 35
-3-2
-10
12
3
tmpmax ma12
Smoothed residuals of series resp5 against temperature
5 degrees of freedom
Figura 6-2 Resíduos do modelo suavizados contra a temperatura máxima
A escolha do indicador de umidade segue a mesma análise realizada para a
temperatura. A biblioteca dispõe da função explore.humid que implementa a mesma
análise para a variável de umidade. Após executar o comando explore.humid(mod,
wet,df=5) e analisar os gráficos resultantes, observa-se que a umidade com defasagem de
2 dias pode explicar parte da variabilidade do desfecho. Então, considerando uma associação
não linear com 2 graus de liberdade por ano, propõe-se a seguinte atualização para o modelo
de linha de base
f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8)+ns(l(wet,2),4) mod <- fit.core(f)
Em cada alteração no modelo de linha de base os diagnósticos devem ser processados
124
novamente. Outras configurações de ajuste da temperatura e umidade podem ser testadas
seguindo os mesmos procedimentos. Após a inclusão de cada termo de temperatura e
umidade, as mesma funções explore.temp e explore.humid podem ser usadas para
avaliar a efetividade do controle. O controle adequado é indicado pela ausência de padrão que
indique associação entre os resíduos do modelo com os correspondentes indicadores de
temperatura e umidade.
Com inclusão do indicador de precipitação de chuvas, o modelo de linha de base pode
ser indicado e re-estimado pelos seguintes comandos:
f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8)+ns(l(wet,2),4)+rai n mod <- fit.core(f)
O modelo de linha de base final inclui os fatores de confusão conhecidos e disponíveis
para a associação entre poluição do ar e admissão hospitalares de crianças por DAR. Os
diagnósticos do modelo estão apresentados na Figura 6-3. O gráfico de valores previstos
indica que o modelo reproduz bem a tendência e sazonalidade da série. O gráficos dos
resíduos ao longo do tempo sugere um bom controle da sazonalidade e não indica a
ocorrência de valores outliers. O gráfico da distância de Cook também não indica a ocorrência
de outliers. O gráfico da função de autocorrelação parcial não indica sazonalidade ou
autocorrelação não controlada, apesar do valor observado para uma defasagem de 23 dias.
Não há registro de dependência serial com esta defasagem para admissões hospitalares e é
mais provável que esta seja espúria. O periodograma dos resíduos indica que a variações
cíclicas da série estão devidamente controladas. O gráfico de normalidade dos resíduos não
mostra afastamento acentuado dos quantis dos resíduos em relação aos quantis da distribuição
normal, embora apresente desvios maiores para valores de resíduos mais altos.
Quanto ao resumo impresso do modelo, além da significância das estimativas dos
coeficientes da regressão, atenção deve ser dada a estatística de deviance residual igual a
125
864.9 com 688 graus de liberdade. O parâmetro de dispersão estimado foi igual 1,25,
indicando uma pequena superdispersão, negligenciável na prática. O critério de informação de
Akaike igual 4203,9 foi o menor entre os modelos testados.
010
2030
40
Obs
erve
d an
d fit
ted
valu
es
01/09/0000 26/07/2001 20/06/2002
Observed and fitted daily counts of resp5
(f itted values in red)
-4-2
02
4
Dev
ianc
e re
sidu
als
01/09/0000 26/07/2001 20/06/2002
Residuals of series resp5
0 200 400 600
0.00
0.02
0.04
0.06
0.08
0.10
Observation
Dis
tanc
e
Cook distance of observations of series resp5
5 10 15 20 25
-0.0
50.
000.
05
Lag
Par
tial A
CF
PACF of the residuals of resp5
0.0 0.5 1.0 1.5 2.0 2.5 3.0
05
1015
Angular frequency (rad) / [Period on the top axis]
Inte
nsity
730 6.28 3.14 2.09Periodogram of Deviance residuals
-3 -2 -1 0 1 2 3
-3-2
-10
12
3Normality plot of residuals of series resp5
Standard Normal Quantiles
y
Figura 6-3 Valores previstos, resíduos contra o tempo, distância de Cook, função de correlação parcial, periodograma dos resíduos e de quantis dos resíduos contra quantis da distribuição normal
Uma vez definido o modelo de linha de base, pode-se adicionar ao modelo o poluente
com diferentes defasagens a fim de estimar o seu efeito. A biblioteca ares disponibiliza a
função estimate.risks , que é uma interface para várias abordagens de estimação do
efeito dos poluentes que inclui os modelos de defasagem simples com um único ou dois
poluentes e modelos de defasagem distribuída polinomiais. O modelo com um único poluente
pode incorporar um termo de interação com períodos quente e frio. A função retorna um
objeto com as tabelas de estimativas dos, vide Tabela 6-2, efeitos e produz os respectivos
126
gráficos com estimativas pontuais e intervalos de confiança.
Tabela 6-2: Coeficientes e riscos relativos para diferentes exposições de PM10, SO2, CO, NO2 e O3. MAv é o indicador de médias móveis. k é igual 10
Centile1090 RR1090 LBRR1090 UBRR1090 RRk LBRRk UBRRk p.value PM10 Lag 0 41,4450 1,1030 1,0487 1,1601 1,0239 1,0115 1,0365 0,0001 Lag 1 41,4450 1,0932 1,0361 1,1534 1,0217 1,0086 1,0350 0,0011 Lag 2 41,4450 1,1341 1,0663 1,2061 1,0308 1,0156 1,0463 0,0001 MAv 0 to 1 41,4450 1,1270 1,0627 1,1951 1,0293 1,0148 1,0440 0,0001 MAv 0 to 2 41,4450 1,1815 1,1019 1,2669 1,0411 1,0237 1,0587 0,0000 MAv 0 to 3 41,4450 1,2221 1,1320 1,3194 1,0496 1,0304 1,0692 0,0000 MAv 0 to 4 41,4450 1,2237 1,1293 1,3259 1,0499 1,0298 1,0704 0,0000
MAv 0 to 5 41,4450 1,2096 1,1127 1,3150 1,0470 1,0261 1,0683 0,0000
SO2 Lag 0 15,2070 1,0172 0,9705 1,0661 1,0112 0,9805 1,0430 0,4780 Lag 1 15,2070 1,0439 0,9952 1,0950 1,0287 0,9968 1,0615 0,0780 Lag 2 15,2070 1,0449 0,9886 1,1044 1,0293 0,9925 1,0675 0,1203 MAv 0 to 1 15,2070 1,0455 0,9876 1,1067 1,0297 0,9919 1,0689 0,1256 MAv 0 to 2 15,2070 1,0662 0,9955 1,1419 1,0430 0,9970 1,0912 0,0671 MAv 0 to 3 15,2070 1,0838 1,0014 1,1730 1,0544 1,0009 1,1106 0,0460 MAv 0 to 4 15,2070 1,1117 1,0182 1,2137 1,0721 1,0120 1,1358 0,0181
MAv 0 to 5 15,2070 1,1377 1,0338 1,2520 1,0885 1,0221 1,1593 0,0083
CO Lag 0 1,1140 1,0511 0,9980 1,1070 1,0458 0,9982 1,0956 0,0594 Lag 1 1,1140 1,0433 0,9879 1,1019 1,0388 0,9892 1,0910 0,1275 Lag 2 1,1140 1,0105 0,9527 1,0719 1,0095 0,9574 1,0643 0,7275 MAv 0 to 1 1,1140 1,0661 1,0011 1,1352 1,0591 1,0010 1,1206 0,0460 MAv 0 to 2 1,1140 1,0730 0,9948 1,1574 1,0653 0,9953 1,1402 0,0681 MAv 0 to 3 1,1140 1,0790 0,9901 1,1758 1,0706 0,9911 1,1564 0,0829 MAv 0 to 4 1,1140 1,1142 1,0138 1,2245 1,1019 1,0124 1,1994 0,0248
MAv 0 to 5 1,1140 1,1311 1,0208 1,2533 1,1169 1,0187 1,2247 0,0186
NO2 Lag 0 61,2320 0,9539 0,8878 1,0249 0,9923 0,9808 1,0040 0,1974 Lag 1 61,2320 0,9169 0,8478 0,9917 0,9859 0,9734 0,9986 0,0301 Lag 2 61,2320 0,8931 0,8247 0,9672 0,9817 0,9690 0,9946 0,0054 MAv 0 to 1 61,2320 0,9285 0,8544 1,0092 0,9880 0,9746 1,0015 0,0810 MAv 0 to 2 61,2320 0,8898 0,8121 0,9749 0,9811 0,9666 0,9959 0,0123 MAv 0 to 3 61,2320 0,8842 0,8028 0,9738 0,9801 0,9648 0,9957 0,0125 MAv 0 to 4 61,2320 0,8939 0,8081 0,9889 0,9819 0,9658 0,9982 0,0295
MAv 0 to 5 61,2320 0,8675 0,7808 0,9639 0,9771 0,9604 0,9940 0,0082
O3 Lag 0 41,6200 1,0490 0,9755 1,1280 1,0116 0,9940 1,0294 0,1971 Lag 1 41,6200 1,0151 0,9437 1,0920 1,0036 0,9862 1,0214 0,6863 Lag 2 41,6200 1,0298 0,9546 1,1109 1,0071 0,9889 1,0256 0,4483 MAv 0 to 1 41,6200 1,0324 0,9529 1,1186 1,0077 0,9885 1,0273 0,4354 MAv 0 to 2 41,6200 1,0409 0,9539 1,1357 1,0097 0,9887 1,0311 0,3679 MAv 0 to 3 41,6200 1,0172 0,9268 1,1164 1,0041 0,9819 1,0268 0,7198 MAv 0 to 4 41,6200 1,0064 0,9131 1,1093 1,0015 0,9784 1,0252 0,8970 MAv 0 to 5 41,6200 1,0229 0,9240 1,1324 1,0054 0,9812 1,0303 0,6630
127
Os dados das colunas da Tabela 6-2 são na ordem que aparecem: defasagem da exposição,
variação entre o 10º e o 90º percentil, risco relativo, limites inferior e superior do intervalo de
confiança para a variação entre o10º e 90º percentil, risco relativo, limites inferior e superior
do intervalo de confiança para a variação de k unidades do poluente, valor-p.
Inicialmente, será estimado o efeito dos poluentes com o esquema de defasagens
simples de 0 a 3 dias e médias móveis com defasagens de 1 a 5 dias. Esta análise é executada
com o comando abaixo
estimate.risks(mod,c("PM10","SO2","CO","NO2","O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="si mplelag", lag.struc=list(l=0:2,ma=1:5),unit=10) A função estimate.risks com method="simplelag" acrescenta ao modelo de
linha de base de forma linear cada poluente listado no segundo argumento e as defasagens
indicadas em lag.struc . A opção unit indica a variação da exposição para o cálculo do
risco relativo e labels indica rótulos alternativos para serem usados nas tabelas e gráficos
gerados pela função. A opção unit pode ser especificada de forma independente para cada
poluente ou omitida, e o risco relativo é calculado para 10 unidades do poluente, e.g. (µg/m³).
Os resultados obtidos pelo comando acima, após alguma formatação, estão resumidos na
Tabela 6-2.
Foram encontradas associações estatisticamente significativas entre aumentos na
concentração de poluentes e aumentos no número médio diários de internações de crianças
por DAR. Foi observado efeito do PM10 no mesmo dia e em todas as defasagens testadas.
Aumentos de 2,4 a 5% foram associados com um aumento de 10 µg/m³ de PM10. O efeito de
SO2 foi significativo apenas para as médias móveis incluindo o dia corrente e os últimos 3, 4 e
5 dias. Foram estimados aumentos de 5,4 a 8,9% para um aumento de 10 µg/m³. O aumento
de 1 ppm de CO mostrou estar associado com aumentos de 5,9 a 11,7% nas internações para
as médias móveis de até 5 dias anteriores.
128
Para a estimativa do efeito usando modelos de defasagem distribuída polinomiais basta
indicar a opção method="pdlm" e definir a defasagem máxima e grau dos polinômios em
pdlm.struc . Um exemplo do comando segue abaixo
estimate.risks(mod,c("PM10","SO2","CO","NO2","O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="pd lm", pdlm.struc=list(l=10,deg=2)) Uma tabela semelhante à Tabela 6-2 é produzid, a bem como os gráficos com a trajetória do
efeito para cada poluente.
Na Figura 6-4, estão apresentados os gráficos com os efeitos de PM10 estimados usando
as abordagens de defasagem simples e o modelo de defasagem distribuída polinomial. Apesar
das diferentes escalas dos gráficos, nota-se que os valores estimados usando defasagens
simples são maiores que os valores estimados usando defasagens distribuídas. No primeiro, o
efeito de cada defasagem é estimado de forma independente, sem considerar distribuição
conjunta com as outras defasagens. Uma explicação para o padrão protetor apresentado a
partir da defasagem de 9 dias, no gráfico do modelo de defesagem distribuída polinomial,
pode ser que crianças mais suscetíveis manifestam o efeito da poluição são internadas,
medicadas e, mesmo após a alta, tendem a permanecer indoors, protegidas das poluição da
semana seguinte.
129
(a) (b)
Figura 6-4 Gráficos da trajetória dos riscos relativos estimados usando defasagens simples (a) e modelo de defasagem distribuída com um polinômio de grau 2 (b) até 10 dias
A correlação entre os poluentes sugere que a análise deve ser restrita aos pares de
contaminantes PM10 e O3, SO2 e O3 e CO e O3. As estimativas para os efeitos com dois
poluentes podem ser obtida selecionando a opção method="dual" no comando abaixo
estimate.risks(mod,c("PM10","SO2","CO","O3"), labels=c("PM10","SO2","CO","O3"),method="dual", lag.struc=list(l=0:2,ma=1:5)) A função estimará o efeito para todas as combinações de dois poluentes que podem ser
formadas com os poluentes indicados e defasagens especificadas em lag.struc . Mesmo
estimado junto com o O3 os efeitos de PM10 e CO não sofreram alterações expressivas.
Outra análise com resultados interessantes é a investigação de períodos de baixa ou alta
temperatura como modificador de efeitos na associação entre o poluente e o evento de saúde.
Como exemplo, considere a variável warm_season que indica os dias com temperaturas
mais altas incluindo o verão. Ainda que não exista efeito estatisticamente significativo do
poluente para todo o período de análise, é possível que este o seja nos períodos em que a
interação é observada. Para estimar o efeito da interação da variável warm_season com os
Relative risk for 10 units variation of the pollutant
Pollutant: PM10Exposure
Rel
ativ
e ri
sk
Lag 0 Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Lag 7 Lag 8 Lag 9
0.98
0.99
11.
006
1.01
61.
026
1.03
61.
046
Relative risk for 10 units variation of the pollutant
Pollutant: PM10Exposure
Rel
ativ
e ris
k
Lag 0 Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Lag 7 Lag 8 Lag 9
0.98
30.
987
0.99
10.
995
0.99
91.
003
1.00
71.
011
1.01
5
130
poluentes inclui-se a opção modifier=warm_season na função estimate.risks no
modelo de defasagens simples. A análise de interação não revelou diferenças na associação
entre os poluentes estudados e admissões hospitalares por DAR para os períodos quente e frio
do estudo.
A análise desenvolvida acima ilustra a aplicação da biblioteca ares em estudos de séries
temporais sobre os efeitos da poluição do ar na saúde10. A análise mostra que a poluição do ar
está associada com um aumento estatisticamente significativo no número de internações de
crianças por doenças respiratórias na cidade do Rio de Janeiro. Fica claro nos gráficos da
Figura 6-4 que o efeito do PM10 persiste por até vários dias.
6.4 Conclusões
Modelos de séries temporais para estimar o efeito da poluição do ar sobre a saúde têm
sido extensivamente usados nos últimos 20 anos. A metodologia é usada no contexto dos
desenhos ecológicos com dados secundários que, apesar de suas limitações, apresenta o
atrativo de usar dados que geralmente já foram coletados com fins administrativos ou de
regulação. Esta característica coloca os estudos ecológicos de séries temporais como uma
primeira abordagem metodológica na investigação dos efeitos da poluição do ar, já que
grandes cidades geralmente contam com uma rede de monitoramento da qualidade do ar
instalada. Como observado neste estudo, este desenho é capaz de detectar efeito da poluição
do ar mesmo quando as concentrações dos poluentes estão abaixo nos limites recomendados
pelos órgão ambientais. Contudo, em parte, seu sucesso se deve à flexibilidade dos MAG que
permite controlar associações não lineares de forma não paramétrica, simplificando
consideravelmente o processo de modelagem estatística.
A análise de séries temporais usando os MAG se tornou a metodologia padrão em
131
diversos estudos multicêntricos para avaliar a os efeitos da poluição atmosférica na saúde. Há
trabalhos propondo diferentes abordagens para lidar com alguns problemas desta
metodologia, por exemplo, modelos dinâmicos para contornar a assunção de risco constante
(Chiogna, 2001). Entretanto, estas sofisticações metodológicas geralmente não estão
implementadas nos aplicativos de análise mais comuns ou envolvem um alto grau de
complexidade para implementação e acabam se tornando iniciativas isoladas. A estratégia de
análise das séries temporais epidemiológicas descrita neste trabalho reflete o protocolo de
análise de grandes estudos multicêntricos desenvolvidos na Europa, o APHEA2 (Air Pollution
and Health: A European Approach) (Katsouyanni et al, 2001), e nos Estados Unidos, o
NMMAPS (National Morbidity and Mortality Air Pollution Study) (Samet et al, 2000), na
Ásia, o PAPA (Public Health and Air Pollution in Asia) (HEI, 2004). A mesma estratégia está
sendo adotada nas análises das séries temporais no projeto ESCALA, um projeto
multicêntrico envolvendo cidades do Brasil, México e Chile (Gouveia et al, 2007). Este
trabalho está sendo desenvolvido no âmbito do projeto ESCALA.
A biblioteca ares é uma coleção de rotinas computacionais que implementam a
metodologia apresentada neste trabalho. As funções apresentadas acima e outras disponíveis
na biblioteca estão devidamente documentadas. A biblioteca é desenvolvida no ambiente de
análise estatística R e pode ser obtida na página do Programa Ares-Rio na Internet,
www.ims.uerj.br/ares-rio. Por ocasião da publicação deste artigo, poderá ser disponibilizada
na página de repositório do R.
6.5 Referências
Almon S. The distributed lag between capital appropriations and expenditures. Econometrica. 1965;33(1):178-196.
Anderson H, Ponce DL, Bland J, Bower J, Strachan D. Air pollution and daily mortality in London: 1987-92. BMJ 1996; 312:665-669.
10 Nota para a tese: O script completo das análises está apresentado no Apêndice 19.
132
Arbex MA, Cançado JED, Pereira LAA, Braga ALF, Saldiva PHN. Biomass burning and its effects on health. Jornal Brasileiro de Pneumologia. 2004;30(2):158-175.
Atkinson AC. Plots, transformations and regression : an introduction to graphical methods of diagnostic regression. Oxford, Oxford Science Publications, 1985.
Atkinson R, Anderson H, Sunyer J, Ayres J, Baccini M, Vonk J et al. Acute effects of particulate air pollution on respiratory admissions: results from APHEA 2 project. Air Pollution and Health: a European Approach. American Journal of Respiratory and Critical Care Medicine 2001; 164:1860-1866.
Ballester F, Corella D, Perez-Hoyos S, Hervas A. Air pollution and mortality in Valencia, Spain: a study using the APHEA methodology. International Journal of Epidemiology 1996; 50:527-533.
Borja-Aburto V, Loomis D, Bangdiwala S, Shy C, Rascon-Pacheco R. Ozone, suspended particulates, and daily mortality in Mexico City. American Journal of Epidemiology 1997; 145:258-268.
Box G, Jenkins G, Reinsel G. Time Series Analysis. Forecasting and Control. 3 ed. New Jersey, Prentice Hall, 1994.
Braga ALF, Zanobetti A, Schwartz J. Do respiratory epidemics confound the association between air pollution and daily deaths? European Respiratory Journal. 2000;16:723-728.
Braga ALF, Zanobetti A, Schwartz J. The time course of weather-related deaths. Epidemiology. 2001;12:662-667.
Brunekreef B, Holgate S. Air pollution and health. 2002; 360:1233-1242.
Burnett R, Dales R, Krewski D, Vincent R, Dann T, Brook J. Associations between ambient particulate sulfate and admissions to Ontario hospitals for cardiac and respiratory diseases. American Journal of Epidemiology 1995; 142:15-22.
Cagle A, Hubbard R. Cold-related cardiac mortality in King County, Washington, USA 1980-2001. Annals of Human Biology. 2005;32(4):525–537.
Chiogna M, Gaetan C. Dynamic generalized linear models with application to environmental epidemiology. Journal of the Royal Statistical Society, C. 2002;51(4):453-468.
Cifuentes L, Vega J, Kopfer K, Lave L. Effect of the fine fraction of particulate matter versus the coarse mass and other pollutants on daily mortality in Santiago, Chile. 2000; 50:1287-1298.
Cohen A, Pope C, Speizer F. Ambient air pollution as a risk factor for lung cancer. Salud Publica de Mexico 1997; 39:346-355.
Cook RD, Weisberg S. Residuals and influence in regression. London, Chapman and Hall, 1982.
Craven P; Wahba G. Smoothing noisy data with spline functions. Numerische Mathematik. 1979;31:377-403.
133
Daumas R, Mendonca G, Ponce de Leon A. [Air pollution and mortality in the elderly in Rio de Janeiro: a time-series analysis]. Cadernos de Saúde Pública 2004; 20:311-319.
Díaz Jiménez J, Linares Gil C, Garcia Herrera R. Impacto de las temperaturas extremas en la salud pública: futuras actuaciones. Revista Española Salud Publica. 2005;79(2)2:145-157.
Diggle PJ. Time series: a biostatistical introduction. London, Oxford, 1990.
Dominici F, McDermott A, Zeger SL, Samet JM. On the use of generalized additive models in time-series studies of air pollution and health. American Journal of Epidemiology. 2002;156:193-203.
Dominici F. Time-series analysis of air pollution and mortality: a statistical review. . Research Report. Health Effect Institute. 2004.
Friedman JH, Stuetzle W. Projection pursuit regression. Journal of the American Statistical Society. 1971;76(376):817-823.
Gould WW. Linear splines and piecewise linear functions. Stata Technical Bulletin. 1993;15:13–17.
Gouveia N, Cifuentes L, Ponce de Leon A, Carbajal L, Hurtado M, Romieu I. ESCALA Project (Estudio de Salud y Contaminación del Aire en Latinoamérica). Health Effects Institute. Annual Conference 2007. Program and Abstracts. Chicago, 2007
Gouveia N, Fletcher T. Respiratory diseases in children and outdoor air pollution in Sao Paulo, Brazil: a time series analysis. Occup Environ Med 2000; 57:477-483.
Gouveia, N, Mendonça, GA, Ponce de Leon, A, Correia, JE,Junger, WL, Freitas, CU, Daumas, RP, Martins, LC,Giusepe, L, Conceicao, GMS, Manerich, A, Cunha-Cruz, J. Air pollution and health effects in two Brazilian metropolis. Epidemiologia e Serviços de Saúde 2003; 12:29-40.
Greater London Authority. Fifty years on The struggle for air quality in London since the great smog of December 1952. City Hall 2002.
Green PJ, Silverman BW. Nonparametric regression and generalized linear models: a roughness penalty approach. London, Chapman and Hall, 1994.
Hastie T, Tibishirani R. Generalized additive models. Statistical Science. 1986;1:297-318.
Hastie TJ, Tibishirani RJ. Generalized Additive Models. London, Chapman and Hall, 1990.
HEI, Health Effects Institute. Revised Analyses of Time-Series Studies of Air Pollution and Health. Health Effects Institute 2003.
HEI, Health Effects Institute. Health Effects of Outdoor Air Pollution in Developing Countries of Asia: A Literature Review. Special Report 15. Health Effects Institute 2004.
134
Hoek G, Brunekreef B. Acute effects of a winter air pollution episode on pulmonary function and respiratory symptoms of children. Arch Environ Health 1993; 48:328-335.
Ignotti E, Hacon, SS, Silva AMC, Junger, WL, Castro H. Effects of biomass burning in Amazon: method to select municipalities using death indicators. Revista Brasileira de Epidemiologia. 2007;10(4):453-464.
Junger W, Ponce de Leon A, Mendonca G. Short term association between lung cancer and air pollution in Rio de Janeiro: a daily time series study. Revista Brasileira de Cancerologia 2005; 51:111-115.
Katsouyanni K, Schwartz J, Spix C, Touloumi G, Zmirou D, Zanobetti A et al. Short term effects of air pollution on health: a European approach using epidemiologic time series data: the APHEA protocol. 1996; 50 Suppl 1:S12-S18.
Lin C, Martins M, Farhat S, Pope C, Conceicao G, Anastacio V et al. Air pollution and respiratory illness of children in Sao Paulo, Brazil. Paediatric and Perinatal Epidemiology 1999; 13:475-488.
Martins M, Fatigati F, Vespoli T, Martins L, Pereira L, Martins M et al. Influence of socioeconomic conditions on air pollution adverse health effects in elderly people: an analysis of six regions in Sao Paulo, Brazil. 2004; 58:41-46.
McGullagh P, Nelder JA. Generalized linear models. London, Chapman and Hall, 1989.
PAHO, Pan American Health Organization. An assessment of health effects of ambient air pollution in Latin America and Caribbean. Washington DC. 2005.
Pierce DA, Schafer DW. Residuals in generalized linear models. Journal of the American Statistical Association. 1986;81(396):977-986.
Ponce de Leon, Anderson H, Bland J, Strachan D, Bower J. Effects of air pollution on daily hospital admissions for respiratory disease in London between 1987-88 and 1991-92. Journal of Epidemiology and Community Health 1996; 50 Suppl 1:s63-s70.
Pope C, Thun M, Namboodiri M, Dockery D, Evans J, Speizer F et al. Particulate Air-Pollution As A Predictor of Mortality in A Prospective-Study of Us Adults. American Journal of Respiratory and Critical Care Medicine 1995; 151:669-674.
R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2007. http://www.r-project.org.
Romieu I, Lugo M, Velasco S, Sanchez S, Meneses F, Hernandez M. Air pollution and school absenteeism among children in Mexico City. 1992; 136:1524-1531.
Saldiva P, Pope C, Schwartz J, Dockery D, Lichtenfels A, Salge J et al. Air-Pollution and Mortality in Elderly People - A Time-Series Study in Sao-Paulo, Brazil. Archives of Environmental Health 1995; 50:159-163.
Samet JM, Dominici F, Zeger, SL, Schwartz J, Dockery DW. The National Morbidity, Mortality and Air Pollution Study PartI: Methods and Methodological Issues. Research Report. Health Effect Institute. 2000.
Schwartz J, Spix C, Touloumi G, Bacharova L, Barumamdzadeh T, Le Tertre A et al.
135
Methodological issues in studies of air pollution and daily counts of deaths or hospital admissions. J Epidemiol Community Health 1996; 50 Suppl 1:S3-11.
Schwartz J. Air pollution and daily mortality: a review and meta analysis. Environ Res 1994; 64:36-52.
Schwartz J. Air pollution and hospital admissions for respiratory disease. Epidemiology 1996; 7:20-28.
Schwartz J. The distributed lag between air pollution and daily deaths. 2000; 11:320-326.
Schwartz J. The distributed lag between air pollution and daily deaths. Epidemiology. 2000;11:320-326.
Telez-Rojo M, Romieu I, Ruiz-Velasco S, Lezana M, Hernandez-Avila M. Daily respiratory mortality and PM10 pollution in Mexico City. 2001; 18:1076.
Wahba G. (smoothing) splines in nonparametric regression. Technical Report 1024, Department of Statistics - University of Wisconsin, September 2000.
Ward DJ, Ayres JG. Particulate air pollution and panel studies in children: a systematic review. Occup Environ Med 2004; 61:e13.
Zanobetti a, Wand MP, Schwartz J, Ryan LM. Generalized additive distributed lag models: quantifying mortality displacement. Biostatistics. 2000;1(3):279-292.
136
7 CONCLUSÕES
Para interpretar os resultados obtidos no estudo apresentado no Artigo 1, deve-se
considerar que o câncer de pulmão é uma doença crônica e que o desfecho óbito por câncer de
pulmão não permite que se conheça exatamente qual foi o evento que levou o indivíduo à
morte. Também não é possível determinar se a poluição do ar é um fator relacionado com a
etiologia da doença, uma vez que o processo de carcinogênese é iniciado com grande
defasagem de tempo. O estudo pode apenas sugerir que a poluição do ar como um agente
agravante do quadro clínico, antecipando ao óbito dos pacientes já acometidos pelo câncer de
pulmão.
O número de resultados estatisticamente significativos obtidos neste estudo é próximo
do esperado ao nível de 5%. Ademais, uma parcela muito pequena da população morre devido
ao câncer de pulmão e os níveis de poluentes atmosféricos que a população experimenta são
cada vez menores, consistindo num baixo poder para detectar pequenos efeitos. É possível
que o aumento de óbitos em função do aumento das concentrações de monóxido de carbono
possam ser explicados por mecanismos de restrição pulmonar. Entretanto, estudos que
investiguem de forma sistemática e por períodos prolongados de tempo esta relação devem ser
desenvolvidos e outros fatores envolvidos na etiologia da doença, e.g. tabagismo, devem ser
considerados.
Os resultados do estudo apresentado no Artigo 2 sugerem a associação entre poluição
atmosférica e baixo peso ao nascer no município do Rio de Janeiro. Após controlar por
diversos fatores de riscos para o baixo peso ao nascer relatados na literatura, foi estimado que
recém-nascidos de mães expostas a concentrações moderadas ou altas de contaminantes
atmosféricos analisados são mais prováveis de nascer com peso inferior a 2500 g,
principalmente nos primeiro e terceiro trimestres de gestação.
137
A maioria das associações estimadas é positiva embora apenas para o SO2 referente ao
quarto intervalo interquartil de exposição no terceiro trimestre da gestação tenha sido
estatisticamente significativa. É importante considerar que a exposição materna foi estimada
como a média de seis estações de monitoramento que medem estes poluentes em todo o
município considerando a data de nascimento e, portanto, existe a possibilidade de erro de
classificação não diferencial na exposição. Os poluentes NO2 e O3 foram medidos em apenas
dois pontos da cidade. Logo, é razoável assumir que o erro de classificação da exposição seja
ainda maior. Portanto, os resultados encontrados neste estudo podem estar subestimados.
A principal limitação do desenho adotado neste estudo diz respeito à medida de
exposição materna. A exposição média em um trimestre de gestação pode não ser o melhor
indicador da exposição, já que a média é muito suscetível a valores extremos. Entretanto,
diversos estudos abordaram o problema usando a mesma metodologia. Optou-se por um
desenho similar a fim de obter comparabilidade entre os estudos. Outro aspecto que deve ser
considerado no estudo do baixo peso ao nascer é o tabagismo ativo ou passivo durante o
período de gestação. Mas esta informação não está disponível nos sistemas de informação em
saúde e não podem ser contemplados diretamente neste desenho e sim por meio de variáveis
proxies.
Apesar das limitações, foi possível estimar, de forma consistente com a literatura, o
efeito da poluição do ar sobre o peso ao nascer de recém-nascidos a termo de gestação única
no município do Rio de Janeiro. Ainda, os resultados deste trabalho complementam aqueles
desenvolvidos em São Paulo (Gouveia et al, 2004; Perera et al, 1998).
Os resultados obtidos nos dois estudos, mesmo considerando suas limitações,
contribuem para revelar o panorama dos efeitos da poluição do ar na saúde da população
brasileira, sobretudo dos que vivem em centros urbanos. Um grande número dos estudos
epidemiológicos dos efeitos da poluição do ar tem sido desenvolvido no estado de São Paulo.
138
O mapeamento representativo para o país dos agravos na saúde relacionados com a poluição
do ar requer que estudos comparáveis sejam desenvolvidos em diversas regiões.
Um elemento comum nos estudos epidemiológicos da poluição do ar é a ocorrência de
dados faltantes nas variáveis de exposição. Mesmo quando os dados são provenientes de
grandes redes de monitoramento da qualidade do ar com controle de qualidade adequado, não
é incomum apresentar dados faltantes. Este problema foi abordado no Artigo 3. Simulações
mostraram que com 5% de dados faltantes a análise com unidades completas produz boas
estimativas, não importando o mecanismo dos dados faltantes e a imputação pela média ou
mediana deve ser evitada. A validade da análise com unidades completas começa a degenerar
para proporções de valores faltantes acima de 10%. O uso dos métodos multivariados
propostos nesta tese é recomendado para proporções maiores de dados. Mesmo para lacunas
de sete dias consecutivos, os efeitos estimados foram muito próximos do valor de referência.
As medidas de associação estimadas com os dados imputados pelos métodos com
contribuição temporal propostos no Artigo 3 apresentaram menor dispersão das estimativas.
Dos três métodos de previsão do nível da série temporal utilizados, os procedimentos baseado
nos modelos MAG mostraram menor dispersão nas estimativas, mas a dependência na
disponibilidade de variáveis preditoras para as concentrações de poluentes externas ao modelo
de associação nem sempre é possível. Os procedimentos baseados em splines apresentaram
maior acurácia e precisão. Os procedimentos com múltiplos regimes de covariâncias
apresentaram melhores resultados. Também foi proposto um método de penalização pela
informação perdida a fim de corrigir a subestimação da variância dos estimadores. A função
de penalização linear proposta atribui a cada observação diária um peso em função do número
de valores imputados naquele dia. Estes pesos usados no modelo de associação produzem
intervalos de confiança mais conservadores, diminuindo a probabilidade de erro do tipo I.
Mesmo com dados faltantes de causa não ignorável alguns resultados se mostraram válidos.
139
Esta metodologia de imputação de dados está sendo utilizada no âmbito do projeto
ESCALA. A metodologia está implementada na biblioteca mtsdi (multivariate time series
data imputation) para o aplicativo estatístico R. O código fonte e a biblioteca compilada está
disponível no CD-ROM do Apêndice A20.
O Artigo 4 descreve a implementação da metodologia de análise de séries temporais
epidemiológicas que tem sido usada nos últimos 20 anos. A metodologia é usada no contexto
dos desenhos ecológicos com dados secundários que, apesar de suas limitações, apresenta o
atrativo de usar dados que geralmente já foram coletados com fins administrativos ou de
regulação. A análise de séries temporais usando MAG se tornou a metodologia padrão em
diversos estudos multicêntricos desenvolvidos na Europa, nos EUA, na Ásia e mais
recentemente na América Latina, ao qual este estudo está relacionado. A biblioteca ares é uma
coleção de rotinas computacionais que implementam a metodologia apresentada neste
trabalho e também está disponível no CD-ROM do Apêndice A20.
Os artigos 3 e 4 contribuem com o desenvolvimento metodológico associado com os
estudos epidemiológicos dos efeitos da poluição do ar na saúde. Entretanto estas ferramentas
podem ser utilizadas em outros contextos em que a metodologia subjacente seja semelhante.
Os métodos de imputação podem ser usados em qualquer contexto em que o problema de
dados faltantes possa ser formulado como um problema de estimação de parâmetros de uma
distribuição normal multivariada. Portanto, esta metodologia contribui também em outras
áreas de aplicação da Epidemiologia.
140
8 REFERÊNCIAS
Almon S. The distributed lag between capital appropriations and expenditures. Econometrica. 1965;33(1):178-196.
Anderson H, Ponce de Leon, Bland J, Bower J, Strachan D. Air pollution and daily mortality in London: 1987-92. BMJ 1996; 312:665-669.
Arbex MA, Cançado JED, Pereira LAA, Braga ALF, Saldiva PHN. Biomass burning and its effects on health. Jornal Brasileiro de Pneumologia. 2004;30(2):158-175.
Atkinson AC. Plots, transformations and regression : an introduction to graphical methods of diagnostic regression. Oxford, Oxford Science Publications, 1985.
Atkinson R, Anderson H, Sunyer J, Ayres J, Baccini M, Vonk J et al. Acute effects of particulate air pollution on respiratory admissions: results from APHEA 2 project. Air Pollution and Health: a European Approach. American Journal of Respiratory and Critical Care Medicine 2001; 164:1860-1866.
Ballester F, Corella D, Perez-Hoyos S, Hervas A. Air pollution and mortality in Valencia, Spain: a study using the APHEA methodology. International Journal of Epidemiology 1996; 50:527-533.
Barbieri MA, Silva AA, Bettiol H, Gomes UA. Risk factors for the increasing trend in low birth weight among live births born by vaginal delivery, Brazil. Rev Saude Publica 2000; 34:596-602.
Basu R, Woodruff TJ, Parker JD, Saulnier L, Schoendorf KC. Comparing exposure metrics in the relationship between PM2,5 and birth weight in California. J Expo Anal Environ Epidemiol 2004; 14:391-396.
Beale EML, Little RJA. Missing Values in Multivariate analysis. Journal of the Royal Statistical Society, B. 1975; 37:129-145.
Bell ML, Davis DL, Fletcher T. A retrospective assessment of mortality from the London smog episode of 1952: the role of influenza and pollution. Environ Health Perspect 2004; 112(1):6-8.
Bobak M, Leon DA. Air pollution and infant mortality in the Czech Republic, 1986-88. Lancet 1992; 340:1010-1014.
Borja-Aburto V, Loomis D, Bangdiwala S, Shy C, Rascon-Pacheco R. Ozone, suspended particulates, and daily mortality in Mexico City. American Journal of Epidemiology 1997; 145:258-268.
Box G, Cox DR. An analysis of transformations. Journal of the Royal Statistical Society, B.
141
1964;26(2):211–252.
Box G, Jenkins G, Reinsel G. Time Series Analysis. Forecasting and Control. 3 ed. New Jersey, Prentice Hall, 1994.
Braga ALF, Zanobetti A, Schwartz J. Do respiratory epidemics confound the association between air pollution and daily deaths? European Respiratory Journal. 2000;16:723-728.
Braga ALF, Zanobetti A, Schwartz J. The time course of weather-related deaths. Epidemiology. 2001;12:662-667.
Brasil. Ministério da Saúde. Programa Nacional VIGIAR- Vigilância em Saúde Ambiental Relaciona à Qualidade do Ar. Brasília. 2006.
Brasil. Ministério do Meio Ambiente. Resolução CONAMA 003/1990. Brasília. 1990.
Brunekreef B, Holgate ST. Air pollution and health. Lancet 2002; 360(9341):1233-1242.
Buck SF. A Method of Estimation of Missing Values in Multivariate Data suitable for use with an Electronic Computer. Journal of the Royal Statistical Society, B. 1960; 22:302-306.
Burnett R, Dales R, Krewski D, Vincent R, Dann T, Brook J. Associations between ambient particulate sulfate and admissions to Ontario hospitals for cardiac and respiratory diseases. American Journal of Epidemiology 1995; 142:15-22.
Cagle A, Hubbard R. Cold-related cardiac mortality in King County, Washington, USA 1980-2001. Annals of Human Biology. 2005;32(4):525–537.
Casarett LJ, Doull J, Klaassen CD, Watkins JB. Casarett and Doull's toxicology : the basic science of poisons : companion handbook . New York: McGraw-Hill, 1999.
Chiogna M, Gaetan C. Dynamic generalized linear models with application to environmental epidemiology. Journal of the Royal Statistical Society, C. 2002;51(4):453-468.
Cifuentes L, Vega J, Kopfer K, Lave L. Effect of the fine fraction of particulate matter versus the coarse mass and other pollutants on daily mortality in Santiago, Chile. 2000; 50:1287-1298.
Cohen AJ, Pope CA, Speizer FE. Ambient air pollution as a risk factor for lung cancer. Salud Publica de Mexico 1997; 39(4):346-355.
Cook RD, Weisberg S. Residuals and influence in regression. London, Chapman and Hall, 1982.
Craven P; Wahba G. Smoothing noisy data with spline functions. Numerische Mathematik. 1979;31:377-403.
Daumas R, Mendonca G, Ponce de Leon A. [Air pollution and mortality in the elderly in Rio de Janeiro: a time-series analysis]. Cadernos de Saúde Pública 2004; 20:311-319.
142
Dempster A, Laird N, Rubin D. Maximum Likelihood from Incomplete Data via the Algorithm EM. Journal of the Royal Statistical Society, B. 1977;39:1-38.
Díaz Jiménez J, Linares Gil C, Garcia Herrera R. Impacto de las temperaturas extremas en la salud pública: futuras actuaciones. Revista Española Salud Publica. 2005;79(2)2:145-157.
Diggle PJ. Time series: a biostatistical introduction. London, Oxford, 1990.
Dominici F, McDermott A, Zeger SL, Samet JM. On the use of generalized additive models in time-series studies of air pollution and health. American Journal of Epidemiology. 2002;156:193-203.
Dominici F. Time-series analysis of air pollution and mortality: a statistical review. . Research Report. Health Effect Institute. 2004.
Donders ART, Heijden G (van der), Stijnen T, Moons KGM. Review: A gentle introduction to imputation of missing values. Journal of Clinical Epidemiology. 2006;59:1087-1091.
Dugandzic R, Dodds L, Stieb D, Smith-Doiron M. The association between low level exposures to ambient air pollution and term low birth weight: a retrospective cohort study. Environ Health 2006; 5(3):1-8.
Engels JM, Diehr P. Imputation of missing longitudinal data: a comparison of methods. Journal of Clinical Epidemiology. 2003;56:968-976.
EPA, Environmental Protection Agency. Clean Air Act – 1990 amendments. 1990.
Ferris BG Jr, Speizer FE, Spengler JD, Dockery D, Bishop YM, Wolfson M, humble C. Effects ofsulfur oxides and respirable particles on human health. Methodology and demography of populations in study. American Review of Respiratory Disease. 19779;120(4):767-779.
Frank R, Tankersley C. Air pollution and daily mortality: a hypothesis concerning the role of impaired homeostasis. Environ Health Perspect 2002; 110(1):61-65.
Friedman JH, Stuetzle W. Projection pursuit regression. Journal of the American Statistical Society. 1971;76(376):817-823.
Fuller GW, Carslaw DC, Lodge HW. An empirical approach for the prediction of daily mean PM10 concentrations. Atmospheric Environment. 2002;36:1431-1441.
Goldberg MS, Burnett RT, Bailar JC, III, Brook J, Bonvalot Y, Tamblyn R et al. The association between daily mortality and ambient air particle pollution in Montreal, Quebec. 2. Cause-specific mortality. Environ Res 2001; 86(1):26-36.
Goldstein IF, Rausch LE. Time series analysis of morbidity data for assessment of acute environmental health effects. Environmental Research. 1978;17(2):266-275.
Gorelick MH. Bias arising from missing data in predictive models. Journal of Clinical Epidemiology. 2006;59:1115-1123.
143
Gould WW. Linear splines and piecewise linear functions. Stata Technical Bulletin. 1993;15:13–17.
Gouveia N, Bremner SA, Novaes HMD. Association between ambient air pollution and birth weight in Sao Paulo, Brazil. J Epidemiol Community Health 2004; 58:11-17.
Gouveia N, Cifuentes L, Ponce de Leon A, Carbajal L, Hurtado M, Romieu I. ESCALA Project (Estudio de Salud y Contaminación del Aire en Latinoamérica). Health Effects Institute. Annual Conference 2007. Program and Abstracts. Chicago, 2007
Gouveia N, Fletcher T. Respiratory diseases in children and outdoor air pollution in Sao Paulo, Brazil: a time series analysis. Occup Environ Med 2000; 57(7):477-483.
Gouveia, N, Mendonça, GA, Ponce de Leon, A, Correia, JE,Junger, WL, Freitas, CU, Daumas, RP, Martins, LC,Giusepe, L, Conceicao, GMS, Manerich, A, Cunha-Cruz, J. Air pollution and health effects in two Brazilian metropolis. Epidemiologia e Serviços de Saúde 2003; 12:29-40.
Greater London Authority. Fifty years on The struggle for air quality in London since the great smog of December 1952. City Hall 2002.
Green PJ, Silverman BW. Nonparametric regression and generalized linear models: a roughness penalty approach. London, Chapman and Hall, 1994.
Greenland S, Finkle WD. A critical look at methods for handling missing covariates in epidemiologic regression analyses. American Journal of Epidemiology. 1995;142(12):1255-1264.
Greenland S, Rothman KJ. Modern epidemiology. 2 ed. Philadelphia, Lippincott-Raven, 1998.
Ha E, Hong Y, Lee B, Woo B, Schwartz J, Christiani D. Is air pollution a risk factor for low birth weight in Seoul?. 2001; 12:643-648.
Hajat S, Haines A, Atkinson RW, Bremner AS, Anderson HR, Emberlin J. Association between air pollution and daily consultations with general practitioners for llergic rhinitis in London, United Kingdom. American Journal of Epidemiology. 2001;153(7):704-714.
Hartley HO, Hocking RR. The analysis of incomplete data. Biometrics. 1971;27:783–823.
Hastie T, Tibishirani R. Generalized additive models. Statistical Science. 1986;1:297-318.
Hastie TJ, Tibishirani RJ. Generalized Additive Models. London, Chapman and Hall, 1990.
HEI, Health Effects Institute. Health Effects of Outdoor Air Pollution in Developing Countries of Asia: A Literature Review. Special Report 15. Health Effects Institute 2004.
HEI, Health Effects Institute. Revised Analyses of Time-Series Studies of Air Pollution and Health. Health Effects Institute 2003.
144
Hoek G, Brunekreef B. Acute effects of a winter air pollution episode on pulmonary function and respiratory symptoms of children. Arch Environ Health 1993; 48:328-335.
Hosmer D.W., Lemeshow S. Applied Logistic Regression. New York, John Wiley & Sons 2000.
Ignotti E, Hacon, SS, Silva AMC, Junger, WL, Castro H. Effects of biomass burning in Amazon: method to select municipalities using death indicators. Revista Brasileira de Epidemiologia. 2007;10(4):453-464.
INCA, Instituto Nacional do Câncer. Estimativa 2008 - Incidência de Câncer no Brasil. 2007.
Junger W, Ponce de Leon A, Mendonca G. Short term association between lung cancer and air pollution in Rio de Janeiro: a daily time series study. Revista Brasileira de Cancerologia 2005; 51:111-115.
Junger WL, Santos Narcisa, Ponce de Leon A. Imputação de dados faltantes em séries temporais multivariadas via algoritmo EM. Cadernos do IME 2003; 15:8-21.
Junger WL. Imputação de dados faltando em séries temporais multivariadas via algoritmo EM. Instituto de Matemática e Estatística. Universidade do Estado do Rio de Janeiro, 2002.
Junninen H, Niska H, Tuppurainen K, Ruuskanen J, Kolehmainen, M. methods for imputation of missing values in air quality data sets. Atmospheric Environment. 2004;38:2895-2907.
Katsouyanni K, Pershagen G. Ambient air pollution exposure and cancer. Cancer Causes Control 1997; 8(3):284-291.
Katsouyanni K, Schwartz J, Spix C, Touloumi G, Zmirou D, Zanobetti A et al. Short term effects of air pollution on health: a European approach using epidemiologic time series data: the APHEA protocol. J Epidemiol Community Health 1996; 50 Suppl 1:S12-S18.
Katsouyanni K, Touloumi G, Samoli E, Gryparis A, LeTertre A, Monopolis Y, Rossi G, Zmirou D, Ballester F, Boumghar A, Anderson HR, Wojtyniak B, Paldy A, Braunstein R, Pekkanen J, Schindler C, Schwartz J. Confounding and effect modification in the short-term effects of ambient particles on total mortality: results from 29 European cities within the Aphea2 project. Epidemiology. 2001;12(5):521–531.
Kharrazi M, DeLorenze G, Kaufman F L, Eskenazi B, Bernet JTJ, Graham S et al. Environmental Tobbaco Smoke and Pregnancy Outcome. Epidemiology 2004; 15:660-670.
Kunzli N TIB. Air pollution: from lung to heart. Swiss Med Weekly 2005; 135:697-702.
Lacasana M, Esplugues A, Ballester F. Exposure to ambient air pollution and prenatal and early childhood health effects. Eur J Epidemiol 2005; 20:183-199.
Lin C, Martins M, Farhat S, Pope C, Conceicao G, Anastacio V et al. Air pollution and respiratory illness of children in Sao Paulo, Brazil. Paediatric and Perinatal Epidemiology 1999; 13:475-488.
145
Little RJA, Rubin DB. Statistical analysis with missing data. New York, Wiley, 1989.
Little RJA. Regression with missing X's: a review. Journal of the American Statistical Association. 1992; 87(420): 1227-1237.
Maisonet M, Bush T, Correa A, Jaakkola J. Relation between ambient air pollution and low birth weight in the Northeastern United States. 2001; 109 Suppl 3:351-6:351-356.
Maisonet M, Correa A, Misra D, Jaakkola JJK. A review of the literature on the effects of ambient air pollution on fetal growth. Environ Res 2004; 95:106-115.
Mannes T, Jalaludin B, Morgan G, Lincoln D, Sheppeard V, Corbett S. Impact of ambient air pollution on birth weight in Sydney, Australia. Occup Environ Med 2005; 62:524-530.
Maroziene L, Grazuleviciene R. Maternal exposure to low-level air pollution and pregnancy outcomes: a population-based study. Environ Health 2002; 1:6.
Martins M, Fatigati F, Vespoli T, Martins L, Pereira L, Martins M et al. Influence of socioeconomic conditions on air pollution adverse health effects in elderly people: an analysis of six regions in Sao Paulo, Brazil. 2004; 58:41-46.
McGullagh P, Nelder JA. Generalized linear models. London, Chapman and Hall, 1989.
McLachlan GJ, Krishnan T. The EM algorithm and extensions. New York, John Wiley and Sons, 1997.
Miettinen OS. Theoretical epidemiology. Principle of occurrence research in medicine. New York, Wiley, 1985.
Mongelli M, Biswas A. A fetal growth standard derived from multiple modalities. Early Hum Dev 2001; 60:171-177.
Nakamura MU, Alexandre SM, Santos JFK, Souza E, Sass N, Beck APA et al. Obstetric and perinatal effects of active and/or passive smoking during pregnancy. São Paulo Medical Journal 2004; 122:94-98.
Ojembarrena AA, Fernández JC, Velasco AG, Chullen G Y, Bayle MS. Peso al nascimiento y tabquismo familiar. Annals of Pediatrics 2005; 63:116-119.
Oliveira ZAR, Bettiol H, Gutierrez MRP, Silva AAM, Barbieri MA. Factors associated with infant and adolescent mortality. Brazilian Journal of Medical and Biological Research. 2007;40:1245-1255.
PAHO, Pan American Health Organization. An assessment of health effects of ambient air pollution in Latin America and Caribbean. Washington DC. 2005.
Parker JD, Woodruff TJ, Basu R, Schoendorf KC. Air pollution and birth weight among term infants in California. Pediatrics 2005; 115:121-128.
Pereira L, Loomis D, Conceicao G, Braga A, Arcas R, Kishi H et al. Association between
146
air pollution and intrauterine mortality in Sao Paulo, Brazil. Environ.Health Perspect 1998; 106:325-329.
Perera FP, Rauh V, Whyatt RM, Tsai W, Bernert JT, Tu Y et al. Molecular evidence of an interaction between prenatal environmental exposures and birth outcomes in a multiethnic population. Environ Health Perspect 2004; 112:626-630.
Pershagen G. Air pollution and cancer. IARC Sci Publ 1990;(104):240-251.
Pierce DA, Schafer DW. Residuals in generalized linear models. Journal of the American Statistical Association. 1986;81(396):977-986.
Plaia A, Bondì AL. Single imputation method of missing values in environmental pollution data sets. Atmospheric Environment. 2006;40:7316-7330.
Ponce de Leon A, Anderson H, Bland J, Strachan D, Bower J. Effects of air pollution on daily hospital admissions for respiratory disease in London between 1987-88 and 1991-92. Journal of Epidemiology and Community Health 1996; 50 Suppl 1:s63-s70.
Pope C, Thun M, Namboodiri M, Dockery D, Evans J, Speizer F et al. Particulate Air-Pollution As A Predictor of Mortality in A Prospective-Study of Us Adults. American Journal of Respiratory and Critical Care Medicine 1995; 151:669-674.
R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2007. http://www.r-project.org.
Romieu I, Lugo M, Velasco S, Sanchez S, Meneses F, Hernandez M. Air pollution and school absenteeism among children in Mexico City. 1992; 136:1524-1531.
Rubin DB. Inference and missing data. Biometrika. 1976; 63(3):581–92.
Salam MT, Millstein J, Li YF, Lurmann FW, Margolis HG, Gililand FD. Birth outcomes and prenatal exposure to ozone, carbon monoxide and particulate matter: results from the Childresn's Health Study. Environmental Health Perspectives 2005; 113:1638-1644.
Saldiva P, Pope C, Schwartz J, Dockery D, Lichtenfels A, Salge J et al. Air-Pollution and Mortality in Elderly People - A Time-Series Study in Sao-Paulo, Brazil. Archives of Environmental Health 1995; 50:159-163.
Samet JM, Dominici F, Zeger, SL, Schwartz J, Dockery DW. The National Morbidity, Mortality and Air Pollution Study PartI: Methods and Methodological Issues. Research Report. Health Effect Institute. 2000.
Schafer JL. Analysis of incomplete multivariate data. London, Chapman & Hall, 1997.
Schwartz J, Marcus A. Mortality and air pollution in London: a time series analysis. American Journal of Epidemiology. 1990;131(1):185-194.
Schwartz J, Spix C, Touloumi G, Bacharova L, Barumamdzadeh T, Le Tertre A et al. Methodological issues in studies of air pollution and daily counts of deaths or hospital
147
admissions. J Epidemiol Community Health 1996; 50 Suppl 1:S3-11.
Schwartz J, Wypij D, Dockery D, Ware J, Zeger S, spengler J, Ferris B Jr. Daily diaries of respiratory symptoms and air pollution: methodological issues and results. Environmental Health Perspective. 1991;90:181-187.
Schwartz J. Air pollution and daily mortality: a review and meta analysis. Environ Res 1994; 64:36-52.
Schwartz J. Air pollution and hospital admissions for respiratory disease. Epidemiology 1996; 7:20-28.
Schwartz J. Is there harvesting in the association of airborne particles with daily deaths and hospital admissions? Epidemiology 2001; 12(1):55-61.
Schwartz J. The distributed lag between air pollution and daily deaths. Epidemiology. 2000;11:320-326.
Silva AA, Ribeiro VS, Borba AFJ, Coimbra LC, Silva RA. [Evaluation of data quality from the information system on live births in 1997-1998]. Rev Saude Publica 2001; 35:508-514.
Speizer FE. Overview of the risk of respiratory cancer from airborne contaminants. Environ Health Perspect 1986; 70:9-15.
Speizer FE. Studies of acid aerosols in six cities and in a new multi-city investigation: design issues. Environmental Health Perspective. 1989;79:61-67.
Sram RJ, Binkova B, Dejmek J, Bobak M. Ambient air pollution and pregnancy outcomes: a review of the literature. Environ Health Perspect 2005; 113:375-382.
Sunyer J, Antó JM, Murillo C, Saez M. Effects of air pollution on emergency room admissions for chronic obstructive pulmonary disease. American Journal of Epidemiology. 1991;134(3):277-286.
Sunyer J, Schwartz J, Tobías A, Macfarlane D, Garcia J, Antó JM. Patients with chronic obstructive pulmonary diseases are at increased risk of death associated with urban particle air pollution: a case-crossover analysis. American Journal of epidemiology. 2000;151:50-56.
Telez-Rojo M, Romieu I, Ruiz-Velasco S, Lezana M, Hernandez-Avila M. Daily respiratory mortality and PM10 pollution in Mexico City. 2001; 18:1076.
Travassos C, Williams DR. The concept and measurement of race and their relationship to public health: a review focused on Brazil and the United States. Cad Saude Publica 2004; 20:660-678.
Vach W, Blettner M. Biased estimation of the odds ratio in case-control study due to the use of ad hoc methods of correcting for missing values for confounding variables. American Journal of Epidemiology. 1991; 134:895-907.
148
Wahba G. (smoothing) splines in nonparametric regression. Technical Report 1024, Department of Statistics - University of Wisconsin, September 2000.
Ward DJ, Ayres JG. Particulate air pollution and panel studies in children: a systematic review. Occup Environ Med 2004; 61:e13.
WHO, World Health Organization. Air quality guidelines for particulate matter, ozone, nitrogen dioxide and sulfur dioxide. Global update 2005. Summary of risk assessment. Geneva, 2006.
Wilhelm M, Ritz B. Local variations in CO and particulate air pollution and adverse birth outcomes in Los Angeles County, California, USA. Environ Health Perspect 2005; 113:1212-1221.
Wilmott CJ. Some comments on the evaluation of model performance. Bulletin of the American Meteorological Society. 1982;63:1309-1313.
Zamboni M. Epidemiologia do cancer de pulmão. Jornal de Pneumologia. 2002;28(1):41-47.
Zanobetti a, Wand MP, Schwartz J, Ryan LM. Generalized additive distributed lag models: quantifying mortality displacement. Biostatistics. 2000;1(3):279-292.
149
9 APÊNDICES
150
9.1 Apêndice A1: Fluxograma do algoritmo de imputação de dados com componente
temporal
151
9.2 Apêndice A2: Fluxograma do estudo de simulação
152
9.3 Apêndice A3: Resumo das simulações com a configuração “esparsa”
OC MI MD VP MC EM EM
Spline EM
ARIMA EM
MAG EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
0,432 0,450 0,450 0,436 0,432 0,432 0,432 0,433 0,432 0,433 0,434 0,433 5% (0,007) (0,016) (0,016) (0,012) (0,007) (0,006) (0,006) (0,007) (0,006) (0,007) (0,010) (0,007)
0,429 0,470 0,470 0,435 0,430 0,432 0,432 0,432 0,432 0,433 0,432 0,433 10%
(0,011) (0,022) (0,022) (0,015) (0,011) (0,008) (0,008) (0,011) (0,007) (0,008) (0,014) (0,008)
0,420 0,513 0,512 0,432 0,421 0,428 0,427 0,430 0,426 0,430 0,429 0,429 20%
(0,020) (0,035) (0,035) (0,023) (0,020) (0,015) (0,015) (0,021) (0,015) (0,014) (0,023) (0,014)
0,414 0,559 0,560 0,428 0,414 0,430 0,429 0,426 0,428 0,433 0,425 0,432 30%
(0,030) (0,053) (0,053) (0,026) (0,030) (0,023) (0,021) (0,032) (0,021) (0,020) (0,036) (0,020) MAR
0,432 0,447 0,447 0,436 0,433 0,434 0,433 0,434 0,433 0,433 0,434 0,433 5% (0,006) (0,012) (0,012) (0,007) (0,006) (0,004) (0,004) (0,006) (0,004) (0,004) (0,007) (0,005)
0,432 0,461 0,461 0,438 0,433 0,434 0,434 0,435 0,433 0,433 0,435 0,433 10%
(0,009) (0,017) (0,017) (0,010) (0,008) (0,006) (0,006) (0,008) (0,006) (0,006) (0,010) (0,006)
0,429 0,484 0,484 0,437 0,429 0,433 0,432 0,435 0,431 0,432 0,433 0,431 20%
(0,014) (0,021) (0,021) (0,013) (0,013) (0,009) (0,008) (0,013) (0,008) (0,009) (0,017) (0,010)
0,427 0,500 0,501 0,441 0,427 0,435 0,432 0,437 0,432 0,432 0,435 0,432 30%
(0,016) (0,029) (0,029) (0,014) (0,015) (0,011) (0,010) (0,015) (0,010) (0,010) (0,020) (0,011) MNAR
0,430 0,445 0,445 0,434 0,431 0,432 0,432 0,432 0,432 0,432 0,432 0,432 5% (0,008) (0,011) (0,011) (0,008) (0,007) (0,006) (0,006) (0,007) (0,006) (0,006) (0,008) (0,006)
0,429 0,458 0,458 0,437 0,430 0,432 0,431 0,433 0,431 0,432 0,434 0,432 10%
(0,011) (0,018) (0,018) (0,013) (0,010) (0,008) (0,007) (0,010) (0,007) (0,007) (0,013) (0,007)
0,425 0,482 0,482 0,442 0,427 0,432 0,431 0,433 0,430 0,433 0,432 0,432 20%
(0,014) (0,025) (0,025) (0,014) (0,013) (0,009) (0,009) (0,014) (0,009) (0,009) (0,018) (0,009)
0,418 0,496 0,496 0,440 0,419 0,428 0,427 0,431 0,425 0,430 0,429 0,428 30%
(0,015) (0,025) (0,025) (0,016) (0,015) (0,012) (0,011) (0,016) (0,011) (0,012) (0,020) (0,012)
153
9.4 Apêndice A4: Resumo das simulações com a configuração 3 “em linha”
OC MI MD VP MC EM EM
Spline EM
ARIMA EM
MAG EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
0,431 0,444 0,444 0,434 0,431 0,433 0,433 0,434 0,433 0,432 0,433 0,433 5% (0,011) (0,020) (0,020) (0,014) (0,011) (0,007) (0,007) (0,010) (0,007) (0,007) (0,011) (0,007)
0,430 0,449 0,450 0,434 0,430 0,435 0,434 0,434 0,434 0,434 0,433 0,434 10%
(0,015) (0,032) (0,032) (0,020) (0,015) (0,011) (0,010) (0,014) (0,009) (0,009) (0,016) (0,009)
0,426 0,470 0,470 0,434 0,426 0,435 0,435 0,436 0,434 0,434 0,432 0,434 20%
(0,018) (0,047) (0,048) (0,027) (0,018) (0,013) (0,013) (0,018) (0,012) (0,014) (0,020) (0,013)
0,422 0,499 0,501 0,438 0,422 0,434 0,435 0,437 0,433 0,433 0,437 0,431 30%
(0,025) (0,059) (0,059) (0,039) (0,025) (0,020) (0,017) (0,025) (0,017) (0,019) (0,030) (0,019)
0,417 0,542 0,543 0,452 0,417 0,436 0,436 0,441 0,434 0,434 0,427 0,409 40%
(0,035) (0,085) (0,085) (0,047) (0,035) (0,026) (0,024) (0,037) (0,023) (0,025) (0,073) (0,079) MAR
0,432 0,438 0,439 0,432 0,432 0,433 0,433 0,434 0,433 0,433 0,434 0,432 5% (0,007) (0,017) (0,017) (0,010) (0,007) (0,005) (0,005) (0,006) (0,005) (0,005) (0,007) (0,005)
0,432 0,442 0,443 0,432 0,432 0,434 0,434 0,436 0,433 0,433 0,436 0,432 10%
(0,011) (0,025) (0,025) (0,013) (0,011) (0,007) (0,006) (0,009) (0,006) (0,006) (0,011) (0,006)
0,430 0,454 0,454 0,435 0,430 0,434 0,433 0,437 0,432 0,431 0,438 0,431 20%
(0,014) (0,036) (0,035) (0,020) (0,014) (0,009) (0,008) (0,013) (0,008) (0,009) (0,016) (0,009)
0,434 0,479 0,480 0,437 0,434 0,439 0,436 0,448 0,434 0,433 0,452 0,432 30%
(0,020) (0,051) (0,050) (0,025) (0,020) (0,014) (0,011) (0,021) (0,012) (0,011) (0,026) (0,012)
0,432 0,490 0,490 0,437 0,432 0,438 0,435 0,450 0,431 0,431 0,457 0,428 40%
(0,022) (0,056) (0,055) (0,028) (0,022) (0,015) (0,013) (0,023) (0,013) (0,014) (0,029) (0,014) MNAR
0,432 0,437 0,437 0,431 0,432 0,434 0,434 0,434 0,434 0,434 0,434 0,434 5% (0,008) (0,016) (0,016) (0,011) (0,008) (0,005) (0,005) (0,007) (0,005) (0,005) (0,008) (0,005)
0,431 0,446 0,446 0,435 0,431 0,435 0,434 0,435 0,434 0,434 0,435 0,434 10%
(0,011) (0,024) (0,024) (0,014) (0,011) (0,008) (0,007) (0,010) (0,007) (0,008) (0,012) (0,008)
0,428 0,457 0,457 0,433 0,428 0,436 0,435 0,438 0,433 0,434 0,439 0,434 20%
(0,014) (0,039) (0,039) (0,023) (0,014) (0,010) (0,009) (0,014) (0,009) (0,010) (0,018) (0,009)
0,427 0,474 0,474 0,438 0,427 0,436 0,435 0,441 0,433 0,434 0,445 0,434 30%
(0,017) (0,045) (0,045) (0,026) (0,017) (0,012) (0,012) (0,019) (0,012) (0,012) (0,024) (0,012)
0,428 0,490 0,491 0,445 0,428 0,441 0,438 0,449 0,436 0,437 0,454 0,437 40%
(0,021) (0,056) (0,057) (0,032) (0,021) (0,019) (0,017) (0,027) (0,016) (0,017) (0,029) (0,016)
154
9.5 Apêndice A5: Resumo das simulações com a configuração 5 “em linha”
OC MI MD VP MC EM EM
Spline EM
ARIMA EM
MAG EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
0,430 0,431 0,431 0,428 0,430 0,432 0,432 0,431 0,432 0,432 0,431 0,432 5% (0,012) (0,026) (0,026) (0,019) (0,012) (0,009) (0,007) (0,012) (0,007) (0,007) (0,014) (0,007)
0,429 0,433 0,434 0,424 0,429 0,432 0,431 0,430 0,430 0,432 0,426 0,432 10%
(0,017) (0,037) (0,037) (0,027) (0,017) (0,013) (0,010) (0,019) (0,011) (0,009) (0,020) (0,009)
0,425 0,442 0,444 0,420 0,425 0,428 0,428 0,424 0,427 0,429 0,422 0,431 20%
(0,022) (0,049) (0,049) (0,032) (0,022) (0,016) (0,013) (0,025) (0,013) (0,012) (0,028) (0,012)
0,423 0,477 0,478 0,434 0,423 0,425 0,424 0,421 0,421 0,425 0,410 0,427 30%
(0,024) (0,069) (0,070) (0,051) (0,024) (0,018) (0,019) (0,031) (0,020) (0,018) (0,051) (0,019)
0,424 0,551 0,553 0,457 0,424 0,426 0,416 0,418 0,412 0,415 0,386 0,273 40%
(0,032) (0,075) (0,075) (0,061) (0,032) (0,028) (0,025) (0,049) (0,024) (0,029) (0,088) (0,179) MAR
0,433 0,434 0,434 0,430 0,433 0,432 0,432 0,433 0,432 0,432 0,434 0,433 5% (0,008) (0,023) (0,022) (0,014) (0,008) (0,006) (0,005) (0,009) (0,005) (0,005) (0,012) (0,005)
0,431 0,430 0,430 0,429 0,431 0,433 0,432 0,435 0,431 0,431 0,431 0,431 10%
(0,015) (0,031) (0,031) (0,018) (0,015) (0,010) (0,008) (0,015) (0,007) (0,007) (0,018) (0,007)
0,431 0,430 0,431 0,429 0,431 0,430 0,430 0,436 0,429 0,429 0,432 0,430 20%
(0,020) (0,040) (0,039) (0,025) (0,020) (0,013) (0,009) (0,020) (0,010) (0,010) (0,022) (0,009)
0,429 0,448 0,448 0,424 0,429 0,431 0,429 0,440 0,427 0,430 0,439 0,431 30%
(0,021) (0,055) (0,055) (0,031) (0,021) (0,016) (0,012) (0,026) (0,012) (0,012) (0,031) (0,012)
0,430 0,459 0,459 0,434 0,430 0,427 0,424 0,441 0,423 0,422 0,434 0,425 40%
(0,023) (0,056) (0,056) (0,031) (0,023) (0,018) (0,013) (0,033) (0,011) (0,013) (0,035) (0,013) MNAR
0,433 0,432 0,432 0,432 0,433 0,433 0,432 0,434 0,432 0,433 0,433 0,433 5% (0,011) (0,022) (0,022) (0,016) (0,011) (0,007) (0,005) (0,011) (0,005) (0,005) (0,012) (0,005)
0,430 0,435 0,436 0,433 0,430 0,433 0,432 0,433 0,431 0,433 0,433 0,433 10%
(0,015) (0,031) (0,031) (0,019) (0,015) (0,011) (0,007) (0,016) (0,007) (0,007) (0,018) (0,007)
0,431 0,434 0,434 0,434 0,431 0,432 0,430 0,438 0,429 0,432 0,432 0,432 20%
(0,019) (0,039) (0,039) (0,028) (0,019) (0,015) (0,011) (0,023) (0,010) (0,009) (0,023) (0,009)
0,427 0,453 0,453 0,432 0,427 0,430 0,425 0,436 0,424 0,433 0,439 0,433 30%
(0,023) (0,052) (0,052) (0,030) (0,023) (0,019) (0,014) (0,027) (0,013) (0,012) (0,033) (0,012)
0,428 0,471 0,471 0,442 0,428 0,431 0,425 0,444 0,423 0,432 0,441 0,431 40%
(0,024) (0,057) (0,057) (0,035) (0,024) (0,018) (0,015) (0,028) (0,013) (0,013) (0,034) (0,014)
155
9.6 Apêndice A6: Resumo das simulações com a configuração 7 “em linha”
OC MI MD VP MC EM EM
Spline EM
ARIMA EM
MAG EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
0,429 0,424 0,425 0,424 0,429 0,433 0,434 0,431 0,434 0,434 0,432 0,434 5% (0,012) (0,027) (0,027) (0,021) (0,012) (0,009) (0,007) (0,011) (0,007) (0,007) (0,011) (0,007)
0,427 0,422 0,422 0,420 0,427 0,433 0,433 0,432 0,433 0,434 0,432 0,434 10%
(0,016) (0,039) (0,039) (0,026) (0,016) (0,012) (0,010) (0,017) (0,009) (0,010) (0,018) (0,010)
0,416 0,400 0,402 0,406 0,416 0,432 0,432 0,424 0,431 0,432 0,424 0,432 20%
(0,023) (0,060) (0,060) (0,039) (0,023) (0,016) (0,014) (0,025) (0,014) (0,014) (0,027) (0,014)
0,411 0,398 0,400 0,397 0,411 0,434 0,432 0,430 0,430 0,434 0,428 0,433 30%
(0,025) (0,069) (0,069) (0,050) (0,025) (0,020) (0,015) (0,032) (0,016) (0,017) (0,038) (0,017)
0,405 0,418 0,420 0,385 0,405 0,436 0,431 0,427 0,429 0,431 0,412 0,434 40%
(0,028) (0,085) (0,086) (0,058) (0,028) (0,021) (0,017) (0,039) (0,019) (0,020) (0,058) (0,020) MAR
0,431 0,426 0,426 0,428 0,431 0,432 0,432 0,434 0,432 0,432 0,435 0,432 5% (0,009) (0,023) (0,023) (0,016) (0,009) (0,007) (0,005) (0,011) (0,005) (0,005) (0,011) (0,005)
0,429 0,413 0,413 0,424 0,429 0,433 0,433 0,433 0,432 0,433 0,433 0,433 10%
(0,011) (0,031) (0,031) (0,022) (0,011) (0,009) (0,008) (0,013) (0,007) (0,008) (0,015) (0,008)
0,426 0,406 0,407 0,418 0,426 0,434 0,434 0,436 0,432 0,435 0,438 0,435 20%
(0,015) (0,042) (0,042) (0,027) (0,015) (0,013) (0,010) (0,020) (0,010) (0,011) (0,023) (0,010)
0,423 0,388 0,388 0,411 0,423 0,435 0,435 0,437 0,432 0,436 0,439 0,435 30%
(0,020) (0,057) (0,057) (0,039) (0,020) (0,016) (0,012) (0,028) (0,011) (0,013) (0,033) (0,012)
0,421 0,391 0,391 0,405 0,421 0,437 0,435 0,443 0,432 0,437 0,445 0,436 40%
(0,024) (0,062) (0,062) (0,045) (0,024) (0,020) (0,015) (0,032) (0,014) (0,016) (0,038) (0,015) MNAR
0,430 0,421 0,421 0,428 0,430 0,432 0,432 0,432 0,431 0,432 0,432 0,432 5% (0,009) (0,022) (0,022) (0,015) (0,009) (0,007) (0,005) (0,010) (0,005) (0,006) (0,010) (0,005)
0,429 0,417 0,418 0,421 0,429 0,433 0,432 0,434 0,431 0,432 0,434 0,432 10%
(0,012) (0,031) (0,030) (0,020) (0,012) (0,010) (0,008) (0,014) (0,007) (0,008) (0,015) (0,007)
0,424 0,405 0,405 0,418 0,424 0,435 0,433 0,437 0,430 0,435 0,439 0,433 20%
(0,019) (0,050) (0,050) (0,031) (0,019) (0,014) (0,010) (0,024) (0,010) (0,011) (0,027) (0,010)
0,423 0,399 0,399 0,415 0,423 0,437 0,433 0,441 0,429 0,434 0,441 0,432 30%
(0,021) (0,058) (0,059) (0,038) (0,021) (0,017) (0,012) (0,030) (0,012) (0,013) (0,032) (0,012)
0,423 0,407 0,407 0,412 0,423 0,438 0,433 0,449 0,427 0,434 0,453 0,431 40%
(0,025) (0,068) (0,068) (0,040) (0,025) (0,019) (0,015) (0,030) (0,015) (0,016) (0,035) (0,016)
156
9.7 Apêndice A7: Resumo das simulações com a configuração 3 “em coluna”
OC MI MD VP MC EM EM
Spline EM
ARIMA EM
MAG EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
0,432 0,452 0,452 0,443 0,433 0,434 0,434 0,434 0,433 0,434 0,433 0,434 5% (0,008) (0,015) (0,015) (0,012) (0,007) (0,006) (0,006) (0,008) (0,006) (0,006) (0,010) (0,007)
0,430 0,466 0,466 0,446 0,431 0,433 0,431 0,434 0,431 0,431 0,433 0,432 10%
(0,012) (0,026) (0,025) (0,018) (0,011) (0,009) (0,008) (0,011) (0,008) (0,009) (0,013) (0,009)
0,416 0,495 0,495 0,463 0,418 0,428 0,427 0,427 0,427 0,427 0,426 0,428 20%
(0,019) (0,046) (0,046) (0,029) (0,018) (0,014) (0,013) (0,020) (0,013) (0,015) (0,023) (0,015)
0,412 0,533 0,533 0,471 0,412 0,430 0,428 0,427 0,425 0,429 0,425 0,427 30%
(0,024) (0,060) (0,060) (0,038) (0,024) (0,018) (0,017) (0,024) (0,017) (0,018) (0,025) (0,017)
0,399 0,549 0,550 0,482 0,399 0,428 0,425 0,423 0,423 0,427 0,419 0,425 40%
(0,032) (0,085) (0,085) (0,054) (0,032) (0,023) (0,021) (0,033) (0,022) (0,021) (0,035) (0,024) MAR
0,433 0,446 0,446 0,443 0,433 0,434 0,433 0,434 0,433 0,433 0,434 0,433 5% (0,006) (0,011) (0,011) (0,008) (0,005) (0,004) (0,004) (0,005) (0,004) (0,005) (0,007) (0,005)
0,432 0,460 0,460 0,452 0,433 0,435 0,433 0,435 0,433 0,433 0,434 0,433 10%
(0,010) (0,020) (0,020) (0,014) (0,009) (0,007) (0,007) (0,009) (0,007) (0,006) (0,013) (0,006)
0,431 0,482 0,482 0,469 0,431 0,436 0,434 0,438 0,433 0,434 0,436 0,433 20%
(0,016) (0,032) (0,032) (0,019) (0,015) (0,010) (0,009) (0,015) (0,009) (0,010) (0,020) (0,009)
0,423 0,496 0,496 0,484 0,424 0,436 0,433 0,434 0,431 0,434 0,430 0,433 30%
(0,017) (0,045) (0,045) (0,026) (0,017) (0,012) (0,010) (0,019) (0,011) (0,011) (0,023) (0,012)
0,417 0,520 0,520 0,496 0,418 0,437 0,432 0,436 0,430 0,433 0,429 0,431 40%
(0,023) (0,054) (0,053) (0,030) (0,023) (0,016) (0,014) (0,022) (0,014) (0,014) (0,026) (0,014) MNAR
0,432 0,448 0,448 0,444 0,434 0,434 0,433 0,434 0,433 0,434 0,434 0,434 5% (0,007) (0,014) (0,014) (0,010) (0,006) (0,005) (0,004) (0,006) (0,005) (0,005) (0,008) (0,005)
0,430 0,459 0,459 0,450 0,432 0,433 0,432 0,434 0,432 0,432 0,433 0,432 10%
(0,010) (0,021) (0,021) (0,014) (0,009) (0,007) (0,007) (0,010) (0,007) (0,008) (0,013) (0,008)
0,426 0,477 0,476 0,465 0,427 0,433 0,431 0,433 0,431 0,432 0,431 0,432 20%
(0,015) (0,030) (0,030) (0,017) (0,014) (0,010) (0,009) (0,015) (0,010) (0,010) (0,018) (0,010)
0,420 0,494 0,493 0,478 0,421 0,432 0,429 0,431 0,428 0,430 0,428 0,429 30%
(0,020) (0,044) (0,045) (0,030) (0,020) (0,015) (0,013) (0,020) (0,013) (0,013) (0,023) (0,014)
0,416 0,512 0,510 0,487 0,417 0,435 0,432 0,430 0,431 0,432 0,427 0,430 40%
(0,021) (0,051) (0,051) (0,034) (0,020) (0,015) (0,014) (0,021) (0,014) (0,016) (0,028) (0,016)
157
9.8 Apêndice A8: Resumo das simulações com a configuração 5 “em coluna”
OC MI MD VP MC EM EM
Spline EM
ARIMA EM
MAG EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
0,432 0,448 0,448 0,445 0,433 0,434 0,433 0,434 0,433 0,432 0,433 0,433 5% (0,008) (0,016) (0,016) (0,015) (0,008) (0,006) (0,006) (0,008) (0,006) (0,007) (0,010) (0,007)
0,431 0,466 0,466 0,454 0,431 0,433 0,433 0,434 0,432 0,431 0,433 0,431 10%
(0,012) (0,027) (0,027) (0,020) (0,012) (0,010) (0,009) (0,012) (0,009) (0,009) (0,016) (0,009)
0,420 0,485 0,485 0,462 0,420 0,429 0,429 0,429 0,428 0,430 0,430 0,429 20%
(0,019) (0,042) (0,041) (0,034) (0,019) (0,017) (0,015) (0,020) (0,016) (0,013) (0,024) (0,014)
0,409 0,510 0,511 0,468 0,409 0,429 0,428 0,425 0,426 0,435 0,430 0,433 30%
(0,023) (0,067) (0,067) (0,047) (0,023) (0,021) (0,019) (0,024) (0,020) (0,021) (0,032) (0,020)
0,395 0,503 0,504 0,470 0,395 0,425 0,422 0,418 0,421 0,426 0,413 0,424 40%
(0,033) (0,086) (0,086) (0,063) (0,033) (0,030) (0,026) (0,035) (0,023) (0,028) (0,035) (0,028) MAR
0,432 0,442 0,442 0,442 0,433 0,434 0,434 0,434 0,433 0,432 0,432 0,432 5% (0,006) (0,011) (0,011) (0,012) (0,005) (0,004) (0,004) (0,005) (0,004) (0,004) (0,007) (0,004)
0,431 0,457 0,457 0,452 0,432 0,434 0,433 0,434 0,433 0,433 0,434 0,434 10%
(0,011) (0,016) (0,016) (0,017) (0,010) (0,007) (0,006) (0,010) (0,007) (0,006) (0,012) (0,006)
0,428 0,473 0,473 0,469 0,429 0,435 0,433 0,435 0,432 0,434 0,434 0,434 20%
(0,014) (0,029) (0,028) (0,022) (0,014) (0,009) (0,009) (0,014) (0,008) (0,009) (0,017) (0,009)
0,425 0,478 0,479 0,479 0,426 0,437 0,433 0,436 0,432 0,434 0,434 0,434 30%
(0,017) (0,037) (0,037) (0,030) (0,017) (0,012) (0,012) (0,015) (0,012) (0,014) (0,020) (0,013)
0,418 0,498 0,498 0,485 0,418 0,436 0,433 0,434 0,431 0,435 0,434 0,434 40%
(0,024) (0,055) (0,055) (0,036) (0,024) (0,017) (0,017) (0,023) (0,018) (0,016) (0,023) (0,016) MNAR
0,433 0,445 0,445 0,443 0,433 0,434 0,433 0,434 0,433 0,432 0,432 0,432 5% (0,007) (0,011) (0,011) (0,011) (0,006) (0,005) (0,005) (0,006) (0,005) (0,005) (0,009) (0,005)
0,431 0,457 0,457 0,452 0,432 0,433 0,433 0,434 0,432 0,433 0,435 0,433 10%
(0,010) (0,020) (0,020) (0,014) (0,010) (0,008) (0,007) (0,010) (0,007) (0,007) (0,013) (0,007)
0,427 0,474 0,474 0,461 0,428 0,434 0,432 0,434 0,431 0,430 0,431 0,431 20%
(0,016) (0,029) (0,029) (0,023) (0,016) (0,011) (0,010) (0,015) (0,010) (0,011) (0,017) (0,010)
0,425 0,487 0,487 0,478 0,425 0,435 0,431 0,436 0,431 0,431 0,426 0,431 30%
(0,020) (0,041) (0,042) (0,029) (0,020) (0,015) (0,013) (0,020) (0,013) (0,014) (0,022) (0,013)
0,418 0,485 0,484 0,478 0,418 0,435 0,431 0,433 0,429 0,430 0,429 0,430 40%
(0,022) (0,058) (0,058) (0,035) (0,022) (0,017) (0,015) (0,022) (0,015) (0,016) (0,028) (0,015)
158
9.9 Apêndice A9: Resumo das simulações com a configuração 7 “em coluna”
OC MI MD VP MC EM EM
Spline EM
ARIMA EM
MAG EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
0,430 0,449 0,449 0,446 0,431 0,433 0,432 0,433 0,432 0,433 0,433 0,433 5% (0,008) (0,017) (0,017) (0,015) (0,008) (0,007) (0,006) (0,008) (0,006) (0,006) (0,010) (0,006)
0,429 0,460 0,460 0,457 0,430 0,432 0,431 0,432 0,430 0,432 0,432 0,431 10%
(0,013) (0,026) (0,026) (0,024) (0,012) (0,008) (0,008) (0,012) (0,008) (0,008) (0,015) (0,008)
0,427 0,489 0,489 0,470 0,427 0,435 0,433 0,436 0,432 0,433 0,434 0,432 20%
(0,021) (0,048) (0,048) (0,034) (0,021) (0,015) (0,014) (0,020) (0,014) (0,015) (0,022) (0,014)
0,409 0,491 0,492 0,471 0,410 0,432 0,430 0,431 0,428 0,431 0,420 0,430 30%
(0,030) (0,072) (0,072) (0,059) (0,030) (0,022) (0,020) (0,028) (0,022) (0,021) (0,052) (0,024)
0,388 0,473 0,473 0,469 0,388 0,419 0,421 0,412 0,417 0,420 0,409 0,417 40%
(0,040) (0,084) (0,085) (0,062) (0,040) (0,035) (0,031) (0,053) (0,030) (0,032) (0,042) (0,032) MAR
0,432 0,447 0,447 0,444 0,433 0,434 0,433 0,434 0,433 0,434 0,433 0,434 5% (0,007) (0,013) (0,012) (0,009) (0,006) (0,005) (0,004) (0,006) (0,004) (0,005) (0,010) (0,005)
0,432 0,458 0,458 0,455 0,433 0,434 0,433 0,435 0,433 0,434 0,433 0,434 10%
(0,009) (0,021) (0,021) (0,017) (0,009) (0,007) (0,006) (0,008) (0,006) (0,007) (0,013) (0,007)
0,430 0,469 0,469 0,467 0,431 0,435 0,434 0,435 0,433 0,434 0,432 0,434 20%
(0,016) (0,032) (0,032) (0,023) (0,016) (0,010) (0,008) (0,014) (0,009) (0,010) (0,018) (0,009)
0,425 0,489 0,489 0,482 0,425 0,436 0,433 0,436 0,431 0,434 0,433 0,433 30%
(0,022) (0,040) (0,040) (0,035) (0,022) (0,014) (0,013) (0,018) (0,013) (0,013) (0,020) (0,013)
0,421 0,475 0,475 0,477 0,422 0,435 0,432 0,432 0,431 0,432 0,428 0,431 40%
(0,024) (0,046) (0,046) (0,036) (0,025) (0,018) (0,015) (0,024) (0,015) (0,014) (0,026) (0,015) MNAR
0,431 0,445 0,445 0,442 0,432 0,432 0,432 0,433 0,432 0,432 0,434 0,432 5% (0,007) (0,012) (0,012) (0,012) (0,006) (0,005) (0,004) (0,007) (0,005) (0,005) (0,009) (0,005)
0,431 0,454 0,454 0,451 0,432 0,433 0,432 0,433 0,432 0,432 0,428 0,432 10%
(0,010) (0,020) (0,019) (0,017) (0,008) (0,006) (0,006) (0,009) (0,006) (0,007) (0,045) (0,006)
0,427 0,469 0,469 0,464 0,427 0,432 0,431 0,431 0,431 0,431 0,430 0,432 20%
(0,015) (0,033) (0,033) (0,023) (0,015) (0,011) (0,010) (0,016) (0,011) (0,012) (0,019) (0,012)
0,425 0,482 0,482 0,481 0,424 0,434 0,431 0,433 0,430 0,432 0,431 0,432 30%
(0,021) (0,045) (0,045) (0,035) (0,021) (0,015) (0,014) (0,020) (0,013) (0,014) (0,026) (0,014)
0,419 0,482 0,481 0,476 0,418 0,432 0,429 0,432 0,427 0,429 0,429 0,428 40%
(0,021) (0,051) (0,051) (0,043) (0,021) (0,016) (0,014) (0,021) (0,015) (0,016) (0,022) (0,016)
159
9.10 Apêndice A10: Indicadores de performance para um único padrão de dados faltantes
com a configuração “esparsa”
Ind. MI MD VP MC EM EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
r 0,197 0,184 0,607 0,853 0,886 0,895 0,920 0,920 0,901 0,909 0,909
RMSD 0,528 0,531 0,467 0,204 0,250 0,240 0,211 0,211 0,233 0,224 0,224
MAD 0,415 0,415 0,342 0,115 0,177 0,171 0,156 0,156 0,173 0,164 0,164
BIAS -0,039 -0,048 -0,033 -0,001 -0,004 0,002 0,000 0,000 -0,002 0,002 0,002
PV 0,044 0,052 0,917 0,594 0,705 0,743 0,816 0,816 0,816 0,872 0,872
5%
d2 0,299 0,309 0,783 0,918 0,933 0,940 0,956 0,956 0,946 0,952 0,952
r 0,202 0,192 0,628 0,838 0,878 0,890 0,898 0,898 0,891 0,893 0,893
RMSD 0,493 0,495 0,435 0,170 0,241 0,230 0,222 0,222 0,231 0,229 0,229
MAD 0,391 0,391 0,325 0,077 0,176 0,166 0,164 0,164 0,168 0,170 0,170
BIAS -0,020 -0,027 -0,022 -0,006 -0,005 -0,004 -0,005 -0,005 -0,018 -0,009 -0,009
PV 0,047 0,056 1,010 0,727 0,755 0,807 0,865 0,865 0,904 0,942 0,942
10%
d2 0,300 0,311 0,792 0,911 0,931 0,940 0,945 0,945 0,942 0,944 0,944
r 0,244 0,234 0,666 0,746 0,879 0,892 0,898 0,898 0,900 0,901 0,901
RMSD 0,474 0,475 0,403 0,102 0,233 0,221 0,217 0,217 0,214 0,215 0,215
MAD 0,379 0,378 0,303 0,020 0,173 0,164 0,162 0,162 0,158 0,161 0,161
BIAS 0,003 -0,001 0,007 -0,009 0,000 -0,005 -0,003 -0,003 -0,008 -0,003 -0,003
PV 0,044 0,053 1,033 0,868 0,787 0,858 0,930 0,930 0,884 0,945 0,945
20%
d2 0,304 0,321 0,815 0,848 0,933 0,942 0,947 0,947 0,947 0,948 0,948
r 0,215 0,203 0,644 0,837 0,867 0,881 0,885 0,885 0,858 0,868 0,868
RMSD 0,480 0,482 0,415 0,024 0,245 0,233 0,232 0,232 0,256 0,250 0,250
MAD 0,385 0,385 0,310 0,001 0,185 0,174 0,174 0,174 0,189 0,183 0,183
BIAS -0,014 -0,023 0,002 -0,001 -0,011 -0,012 -0,007 -0,007 -0,011 -0,009 -0,009
PV 0,045 0,054 0,997 0,887 0,747 0,815 0,910 0,910 0,892 0,947 0,947
30%
d2 0,296 0,305 0,801 0,900 0,925 0,935 0,939 0,939 0,924 0,930 0,930
MAR
r 0,502 0,510 0,653 0,890 0,905 0,920 0,899 0,899 0,926 0,894 0,894
RMSD 0,426 0,420 0,337 0,127 0,148 0,138 0,156 0,156 0,133 0,159 0,159
MAD 0,353 0,349 0,244 0,081 0,116 0,109 0,119 0,119 0,102 0,117 0,117
BIAS 0,293 0,288 0,048 -0,010 -0,004 -0,013 0,002 0,002 -0,014 0,001 0,001
PV 0,096 0,116 1,535 0,753 0,782 0,947 0,976 0,976 0,897 0,962 0,962
5%
d2 0,526 0,536 0,791 0,939 0,947 0,958 0,947 0,947 0,960 0,944 0,944
r 0,406 0,414 0,591 0,876 0,870 0,878 0,875 0,875 0,889 0,870 0,870
RMSD 0,462 0,460 0,382 0,125 0,180 0,179 0,179 0,179 0,168 0,182 0,182
MAD 0,384 0,382 0,278 0,069 0,132 0,130 0,126 0,126 0,120 0,124 0,124
BIAS 0,318 0,318 0,066 -0,021 -0,022 -0,028 -0,010 -0,010 -0,016 -0,003 -0,003
PV 0,084 0,100 1,543 0,817 0,785 0,915 0,939 0,939 0,880 0,919 0,919
10%
d2 0,508 0,515 0,757 0,935 0,927 0,934 0,935 0,935 0,941 0,932 0,932
r 0,376 0,374 0,650 0,856 0,856 0,873 0,873 0,873 0,882 0,869 0,869
RMSD 0,483 0,485 0,375 0,102 0,189 0,180 0,182 0,182 0,174 0,185 0,185
MAD 0,399 0,400 0,281 0,039 0,142 0,133 0,136 0,136 0,130 0,132 0,132
BIAS 0,345 0,348 0,109 -0,004 0,008 0,002 0,017 0,017 0,006 0,020 0,020
PV 0,076 0,093 1,638 0,982 0,775 0,909 0,951 0,951 0,926 0,947 0,947
20%
d2 0,496 0,499 0,778 0,930 0,920 0,933 0,933 0,933 0,938 0,931 0,931
r 0,400 0,410 0,670 0,857 0,855 0,877 0,883 0,883 0,892 0,886 0,886
RMSD 0,480 0,483 0,372 0,076 0,192 0,179 0,177 0,177 0,168 0,175 0,175
30%
MAD 0,390 0,393 0,282 0,022 0,146 0,134 0,131 0,131 0,127 0,129 0,129
160
BIAS 0,337 0,344 0,100 -0,007 0,005 0,000 0,012 0,012 0,004 0,016 0,016
PV 0,078 0,097 1,674 0,975 0,745 0,865 0,944 0,944 0,883 0,963 0,963
d2 0,501 0,506 0,791 0,936 0,918 0,934 0,939 0,939 0,943 0,940 0,940
MNAR
r 0,528 0,506 0,595 0,718 0,785 0,819 0,819 0,819 0,817 0,786 0,786
RMSD 0,426 0,422 0,360 0,193 0,213 0,195 0,182 0,182 0,184 0,198 0,198
MAD 0,353 0,347 0,268 0,097 0,139 0,131 0,133 0,133 0,126 0,143 0,143
BIAS 0,353 0,347 0,113 0,061 0,088 0,063 0,042 0,042 0,048 0,046 0,046
PV 0,155 0,188 2,353 1,295 1,246 1,360 1,215 1,215 1,209 1,223 1,223
5%
d2 0,519 0,523 0,714 0,820 0,864 0,890 0,897 0,897 0,895 0,878 0,878
r 0,404 0,391 0,513 0,681 0,777 0,802 0,789 0,789 0,820 0,786 0,786
RMSD 0,453 0,456 0,371 0,206 0,228 0,215 0,214 0,214 0,189 0,209 0,209
MAD 0,376 0,378 0,279 0,102 0,153 0,150 0,152 0,152 0,130 0,143 0,143
BIAS 0,376 0,378 0,101 0,059 0,085 0,067 0,053 0,053 0,053 0,052 0,052
PV 0,148 0,177 2,181 1,637 1,479 1,533 1,495 1,495 1,314 1,403 1,403
10%
d2 0,493 0,494 0,680 0,773 0,854 0,872 0,870 0,870 0,892 0,872 0,872
r 0,380 0,363 0,581 0,702 0,787 0,813 0,789 0,789 0,817 0,764 0,764
RMSD 0,481 0,495 0,379 0,182 0,233 0,214 0,214 0,214 0,202 0,224 0,224
MAD 0,400 0,415 0,291 0,078 0,171 0,155 0,161 0,161 0,149 0,160 0,160
BIAS 0,400 0,415 0,136 0,054 0,109 0,086 0,072 0,072 0,065 0,057 0,057
PV 0,124 0,153 2,225 1,792 1,298 1,342 1,242 1,242 1,290 1,299 1,299
20%
d2 0,478 0,475 0,705 0,786 0,854 0,878 0,870 0,870 0,888 0,860 0,860
r 0,407 0,399 0,596 0,539 0,768 0,799 0,787 0,787 0,812 0,782 0,782
RMSD 0,495 0,511 0,375 0,170 0,246 0,225 0,222 0,222 0,210 0,222 0,222
MAD 0,414 0,433 0,290 0,060 0,181 0,164 0,166 0,166 0,155 0,161 0,161
BIAS 0,414 0,433 0,137 0,044 0,121 0,097 0,075 0,075 0,080 0,069 0,069
PV 0,120 0,150 2,120 1,449 1,219 1,265 1,264 1,264 1,221 1,267 1,267
30%
d2 0,479 0,476 0,717 0,749 0,839 0,867 0,869 0,869 0,882 0,868 0,868
161
9.11 Apêndice A11: Indicadores de performance para um único padrão de dados faltantes
com a configuração 3 “em linha”
Ind. MI MD VP MC EM EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
r 0,157 0,133 0,543 0,783 0,817 0,841 0,841 0,840 0,845 0,845
RMSD 0,462 0,469 0,447 0,287 0,265 0,249 0,249 0,249 0,247 0,247
MAD 0,374 0,376 0,337 0,213 0,188 0,182 0,182 0,181 0,176 0,176
BIAS -0,079 -0,091 0,017 -0,007 0,001 0,001 0,001 -0,001 0,000 0,000
PV 0,057 0,072 1,067 0,675 0,716 0,768 0,768 0,734 0,797 0,797
5%
d2 0,348 0,360 0,748 0,873 0,896 0,911 0,911 0,909 0,915 0,915
r 0,181 0,163 0,632 0,830 0,857 0,877 0,877 0,866 0,881 0,881
RMSD 0,475 0,479 0,424 0,268 0,248 0,233 0,233 0,241 0,228 0,228
MAD 0,384 0,386 0,317 0,199 0,178 0,175 0,175 0,173 0,168 0,168
BIAS -0,043 -0,055 -0,017 0,000 -0,003 -0,001 -0,001 -0,002 0,002 0,002
PV 0,054 0,069 1,109 0,739 0,798 0,891 0,891 0,832 0,837 0,837
10%
d2 0,325 0,346 0,797 0,905 0,922 0,935 0,935 0,928 0,936 0,936
r 0,219 0,198 0,638 0,841 0,862 0,861 0,861 0,873 0,855 0,855
RMSD 0,470 0,474 0,422 0,261 0,246 0,253 0,253 0,238 0,261 0,261
MAD 0,383 0,385 0,315 0,196 0,180 0,187 0,187 0,172 0,189 0,189
BIAS -0,033 -0,043 -0,010 0,008 0,009 0,007 0,007 0,009 0,011 0,011
PV 0,051 0,065 1,128 0,798 0,863 0,985 0,985 0,920 1,042 1,042
20%
d2 0,320 0,347 0,799 0,913 0,926 0,927 0,927 0,933 0,924 0,924
r 0,204 0,192 0,616 0,853 0,871 0,844 0,844 0,876 0,826 0,826
RMSD 0,477 0,479 0,435 0,254 0,241 0,281 0,281 0,238 0,276 0,276
MAD 0,386 0,388 0,330 0,192 0,178 0,208 0,208 0,173 0,208 0,208
BIAS -0,032 -0,042 -0,033 0,004 0,005 0,004 0,004 0,003 -0,005 -0,005
PV 0,053 0,061 1,078 0,809 0,876 1,127 1,127 0,925 0,804 0,804
30%
d2 0,318 0,335 0,784 0,920 0,931 0,917 0,917 0,935 0,904 0,904
r 0,208 0,198 0,587 0,846 0,868 0,765 0,765 0,860 0,720 0,720
RMSD 0,477 0,479 0,451 0,260 0,244 0,349 0,349 0,252 0,376 0,376
MAD 0,385 0,386 0,344 0,198 0,181 0,254 0,254 0,184 0,261 0,261
BIAS -0,034 -0,042 -0,005 0,005 0,008 0,003 0,003 -0,007 0,003 0,003
PV 0,056 0,070 1,081 0,795 0,870 1,175 1,175 0,909 1,130 1,130
40%
d2 0,323 0,347 0,765 0,916 0,930 0,870 0,870 0,926 0,843 0,843
MAR
r 0,467 0,466 0,642 0,809 0,843 0,865 0,865 0,834 0,845 0,845
RMSD 0,406 0,403 0,387 0,218 0,199 0,186 0,186 0,205 0,198 0,198
MAD 0,336 0,333 0,287 0,167 0,146 0,138 0,138 0,149 0,134 0,134
BIAS 0,233 0,231 0,102 -0,021 -0,014 0,019 0,019 -0,015 0,008 0,008
PV 0,078 0,101 1,711 0,664 0,785 0,793 0,793 0,802 0,806 0,806
5%
d2 0,506 0,513 0,769 0,887 0,913 0,926 0,926 0,909 0,915 0,915
r 0,523 0,536 0,616 0,830 0,867 0,872 0,872 0,851 0,853 0,853
RMSD 0,447 0,440 0,404 0,212 0,190 0,188 0,188 0,201 0,201 0,201
MAD 0,374 0,368 0,298 0,163 0,139 0,140 0,140 0,144 0,136 0,136
BIAS 0,294 0,289 0,158 -0,019 -0,019 0,004 0,004 -0,015 0,012 0,012
PV 0,074 0,095 1,437 0,652 0,800 0,901 0,901 0,821 0,878 0,878
10%
d2 0,517 0,527 0,749 0,898 0,927 0,932 0,932 0,919 0,922 0,922
r 0,500 0,502 0,633 0,830 0,861 0,865 0,865 0,867 0,857 0,857
RMSD 0,487 0,482 0,378 0,208 0,190 0,190 0,190 0,187 0,196 0,196
20%
MAD 0,409 0,406 0,274 0,156 0,138 0,140 0,140 0,135 0,137 0,137
162
BIAS 0,353 0,351 0,108 0,001 -0,004 0,015 0,015 -0,001 0,011 0,011
PV 0,066 0,090 1,491 0,668 0,824 0,893 0,893 0,835 0,928 0,928
d2 0,510 0,519 0,772 0,900 0,925 0,928 0,928 0,928 0,924 0,924
r 0,436 0,456 0,630 0,850 0,877 0,870 0,870 0,880 0,865 0,865
RMSD 0,519 0,514 0,384 0,202 0,185 0,192 0,192 0,183 0,196 0,196
MAD 0,432 0,428 0,282 0,151 0,135 0,140 0,140 0,133 0,138 0,138
BIAS 0,380 0,379 0,117 -0,012 -0,014 0,001 0,001 -0,009 0,007 0,007
PV 0,059 0,085 1,399 0,704 0,843 0,905 0,905 0,859 0,907 0,907
30%
d2 0,498 0,508 0,772 0,913 0,934 0,931 0,931 0,936 0,928 0,928
r 0,414 0,440 0,640 0,855 0,889 0,869 0,869 0,887 0,858 0,858
RMSD 0,532 0,525 0,375 0,201 0,178 0,193 0,193 0,179 0,201 0,201
MAD 0,444 0,437 0,285 0,150 0,129 0,142 0,142 0,131 0,142 0,142
BIAS 0,393 0,389 0,127 0,004 -0,004 0,005 0,005 -0,002 0,004 0,004
PV 0,060 0,085 1,275 0,705 0,847 0,871 0,871 0,856 0,886 0,886
40%
d2 0,491 0,503 0,776 0,916 0,940 0,930 0,930 0,940 0,924 0,924
MNAR
r 0,281 0,258 0,701 0,809 0,837 0,876 0,876 0,850 0,869 0,869
RMSD 0,450 0,449 0,462 0,239 0,221 0,197 0,197 0,212 0,201 0,201
MAD 0,370 0,368 0,358 0,163 0,149 0,139 0,139 0,150 0,134 0,134
BIAS 0,240 0,233 0,220 0,028 0,021 0,042 0,042 0,023 0,034 0,034
PV 0,072 0,094 2,067 0,828 0,850 0,877 0,877 0,864 0,860 0,860
5%
d2 0,437 0,430 0,763 0,894 0,912 0,931 0,931 0,918 0,928 0,928
r 0,309 0,292 0,604 0,799 0,828 0,854 0,854 0,824 0,849 0,849
RMSD 0,434 0,432 0,429 0,223 0,208 0,196 0,196 0,211 0,199 0,199
MAD 0,354 0,351 0,328 0,158 0,141 0,142 0,142 0,145 0,139 0,139
BIAS 0,261 0,255 0,173 0,022 0,009 0,019 0,019 0,003 0,017 0,017
PV 0,082 0,107 1,768 0,799 0,859 0,961 0,961 0,871 0,953 0,953
10%
d2 0,463 0,460 0,727 0,888 0,908 0,922 0,922 0,905 0,919 0,919
r 0,239 0,212 0,631 0,782 0,814 0,831 0,831 0,808 0,822 0,822
RMSD 0,478 0,479 0,391 0,239 0,221 0,222 0,222 0,227 0,228 0,228
MAD 0,402 0,404 0,297 0,167 0,153 0,160 0,160 0,155 0,159 0,159
BIAS 0,316 0,313 0,112 0,041 0,027 0,036 0,036 0,023 0,035 0,035
PV 0,066 0,096 1,647 0,830 0,895 1,076 1,076 0,952 1,087 1,087
20%
d2 0,456 0,451 0,763 0,877 0,899 0,907 0,907 0,895 0,901 0,901
r 0,200 0,199 0,607 0,804 0,829 0,832 0,832 0,825 0,828 0,828
RMSD 0,511 0,509 0,400 0,233 0,220 0,226 0,226 0,223 0,227 0,227
MAD 0,424 0,424 0,308 0,166 0,154 0,164 0,164 0,154 0,161 0,161
BIAS 0,352 0,347 0,127 0,033 0,021 0,036 0,036 0,016 0,031 0,031
PV 0,056 0,087 1,490 0,906 0,970 1,066 1,066 0,987 1,057 1,057
30%
d2 0,456 0,456 0,751 0,892 0,908 0,908 0,908 0,906 0,906 0,906
r 0,158 0,153 0,574 0,805 0,834 0,831 0,831 0,828 0,820 0,820
RMSD 0,509 0,510 0,416 0,236 0,219 0,225 0,225 0,224 0,232 0,232
MAD 0,423 0,426 0,323 0,169 0,154 0,167 0,167 0,157 0,167 0,167
BIAS 0,344 0,342 0,133 0,049 0,032 0,040 0,040 0,026 0,034 0,034
PV 0,059 0,092 1,473 0,891 0,985 1,019 1,019 1,001 1,044 1,044
40%
d2 0,448 0,446 0,729 0,890 0,910 0,907 0,907 0,907 0,901 0,901
163
9.12 Apêndice A12: Indicadores de performance para um único padrão de dados faltantes
com a configuração 5 “em linha”
Ind. MI MD VP MC EM EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
r 0,128 0,112 0,567 0,780 0,797 0,838 0,838 0,811 0,845 0,845
RMSD 0,479 0,484 0,422 0,297 0,286 0,258 0,258 0,277 0,254 0,254
MAD 0,378 0,381 0,305 0,219 0,198 0,183 0,183 0,195 0,181 0,181
BIAS -0,089 -0,099 -0,024 -0,018 -0,005 -0,004 -0,004 -0,013 -0,014 -0,014
PV 0,039 0,054 0,821 0,609 0,662 0,720 0,720 0,666 0,704 0,704
5%
d2 0,310 0,328 0,764 0,866 0,881 0,907 0,907 0,888 0,910 0,910
r 0,192 0,175 0,555 0,793 0,826 0,860 0,860 0,845 0,854 0,854
RMSD 0,475 0,479 0,442 0,293 0,272 0,246 0,246 0,257 0,251 0,251
MAD 0,385 0,386 0,331 0,222 0,195 0,179 0,179 0,184 0,182 0,182
BIAS -0,069 -0,076 0,017 -0,019 -0,012 -0,003 -0,003 -0,007 -0,002 -0,002
PV 0,038 0,052 0,909 0,666 0,777 0,824 0,824 0,761 0,842 0,842
10%
d2 0,311 0,326 0,753 0,878 0,903 0,924 0,924 0,913 0,921 0,921
r 0,194 0,175 0,678 0,814 0,850 0,606 0,606 0,856 0,850 0,850
RMSD 0,481 0,484 0,400 0,283 0,258 0,522 0,522 0,254 0,260 0,260
MAD 0,390 0,391 0,303 0,217 0,187 0,226 0,226 0,184 0,191 0,191
BIAS -0,060 -0,066 -0,037 -0,002 -0,003 -0,019 -0,019 -0,007 -0,015 -0,015
PV 0,035 0,050 1,082 0,706 0,828 1,755 1,755 0,863 0,870 0,870
20%
d2 0,297 0,315 0,822 0,894 0,919 0,751 0,751 0,923 0,919 0,919
r 0,177 0,164 0,606 0,831 0,855 0,343 0,343 0,868 0,292 0,292
RMSD 0,486 0,488 0,442 0,274 0,260 1,451 1,451 0,248 1,726 1,726
MAD 0,393 0,395 0,336 0,213 0,190 0,514 0,514 0,182 0,526 0,526
BIAS -0,034 -0,036 -0,045 -0,003 0,005 0,036 0,036 0,001 0,096 0,096
PV 0,033 0,047 1,026 0,723 0,898 9,836 9,836 0,916 13,396 13,396
30%
d2 0,255 0,292 0,779 0,904 0,923 0,371 0,371 0,930 0,286 0,286
r 0,169 0,159 0,580 0,814 0,828 -0,030 -0,030 0,817 0,713 0,713
RMSD 0,492 0,494 0,462 0,289 0,286 9,025 9,025 0,303 0,353 0,353
MAD 0,396 0,397 0,354 0,222 0,209 2,969 2,969 0,220 0,270 0,270
BIAS -0,047 -0,052 -0,041 -0,007 0,003 -0,810 -0,810 -0,004 -0,026 -0,026
PV 0,037 0,052 1,044 0,719 0,919 325,704 325,704 1,036 0,669 0,669
40%
d2 0,274 0,300 0,762 0,895 0,909 0,030 0,030 0,902 0,831 0,831
MAR
r 0,336 0,300 0,721 0,791 0,837 0,878 0,878 0,837 0,867 0,867
RMSD 0,418 0,416 0,285 0,209 0,188 0,167 0,167 0,188 0,173 0,173
MAD 0,343 0,341 0,210 0,170 0,144 0,126 0,126 0,140 0,127 0,127
BIAS 0,265 0,258 0,080 -0,008 -0,007 0,023 0,023 -0,007 0,017 0,017
PV 0,071 0,098 1,254 0,609 0,768 0,887 0,887 0,780 0,868 0,868
5%
d2 0,480 0,476 0,830 0,871 0,909 0,934 0,934 0,909 0,927 0,927
r 0,402 0,364 0,571 0,808 0,864 0,862 0,862 0,864 0,840 0,840
RMSD 0,441 0,439 0,422 0,224 0,191 0,192 0,192 0,189 0,207 0,207
MAD 0,360 0,357 0,314 0,179 0,145 0,140 0,140 0,139 0,148 0,148
BIAS 0,272 0,267 0,203 -0,032 -0,030 -0,003 -0,003 -0,014 0,005 0,005
PV 0,057 0,081 1,274 0,545 0,728 0,901 0,901 0,741 0,912 0,912
10%
d2 0,491 0,490 0,700 0,872 0,920 0,926 0,926 0,922 0,915 0,915
r 0,422 0,400 0,578 0,797 0,862 0,869 0,869 0,854 0,847 0,847
RMSD 0,453 0,452 0,402 0,216 0,181 0,178 0,178 0,185 0,191 0,191
20%
MAD 0,372 0,370 0,285 0,173 0,136 0,133 0,133 0,138 0,138 0,138
164
BIAS 0,312 0,310 0,125 -0,010 -0,021 -0,003 -0,003 -0,011 0,015 0,015
PV 0,054 0,076 1,645 0,518 0,728 0,894 0,894 0,753 0,863 0,863
d2 0,499 0,502 0,728 0,864 0,920 0,930 0,930 0,918 0,917 0,917
r 0,379 0,336 0,594 0,791 0,857 0,857 0,857 0,853 0,836 0,836
RMSD 0,467 0,471 0,411 0,225 0,191 0,193 0,193 0,193 0,209 0,209
MAD 0,384 0,386 0,299 0,179 0,143 0,144 0,144 0,142 0,150 0,150
BIAS 0,317 0,321 0,121 -0,010 -0,028 -0,012 -0,012 -0,023 -0,003 -0,003
PV 0,046 0,072 1,710 0,539 0,765 0,953 0,953 0,811 1,001 1,001
30%
d2 0,489 0,490 0,739 0,865 0,919 0,924 0,924 0,919 0,913 0,913
r 0,336 0,311 0,629 0,813 0,870 0,851 0,851 0,875 0,847 0,847
RMSD 0,503 0,502 0,409 0,220 0,187 0,207 0,207 0,184 0,208 0,208
MAD 0,412 0,410 0,302 0,175 0,140 0,154 0,154 0,134 0,151 0,151
BIAS 0,353 0,352 0,130 -0,008 -0,020 -0,026 -0,026 -0,019 -0,004 -0,004
PV 0,041 0,070 1,704 0,583 0,792 0,985 0,985 0,845 0,990 0,990
40%
d2 0,481 0,485 0,758 0,883 0,928 0,920 0,920 0,933 0,919 0,919
MNAR
r 0,008 -0,034 0,772 0,713 0,764 0,850 0,850 0,766 0,850 0,850
RMSD 0,474 0,478 0,323 0,304 0,282 0,229 0,229 0,279 0,228 0,228
MAD 0,385 0,386 0,246 0,219 0,201 0,166 0,166 0,203 0,165 0,165
BIAS 0,186 0,177 0,101 0,027 0,027 0,034 0,034 0,020 0,029 0,029
PV 0,045 0,063 1,229 0,660 0,784 0,831 0,831 0,760 0,816 0,816
5%
d2 0,324 0,294 0,861 0,831 0,868 0,917 0,917 0,868 0,917 0,917
r 0,097 0,055 0,649 0,741 0,813 0,860 0,860 0,826 0,863 0,863
RMSD 0,472 0,474 0,428 0,279 0,242 0,213 0,213 0,232 0,210 0,210
MAD 0,385 0,386 0,333 0,206 0,174 0,153 0,153 0,164 0,150 0,150
BIAS 0,229 0,220 0,196 0,019 0,001 0,007 0,007 0,009 0,015 0,015
PV 0,048 0,071 1,377 0,676 0,789 0,895 0,895 0,727 0,852 0,852
10%
d2 0,390 0,372 0,756 0,848 0,897 0,926 0,926 0,902 0,926 0,926
r 0,173 0,122 0,623 0,736 0,817 0,829 0,829 0,813 0,838 0,838
RMSD 0,464 0,472 0,405 0,261 0,220 0,217 0,217 0,222 0,209 0,209
MAD 0,383 0,390 0,302 0,199 0,159 0,155 0,155 0,159 0,152 0,152
BIAS 0,274 0,277 0,099 0,035 0,003 0,011 0,011 0,000 0,014 0,014
PV 0,049 0,073 1,684 0,654 0,766 0,871 0,871 0,735 0,821 0,821
20%
d2 0,437 0,426 0,759 0,842 0,898 0,907 0,907 0,894 0,911 0,911
r 0,111 0,072 0,590 0,715 0,796 0,818 0,818 0,790 0,814 0,814
RMSD 0,473 0,483 0,421 0,268 0,230 0,222 0,222 0,233 0,224 0,224
MAD 0,393 0,401 0,315 0,204 0,167 0,162 0,162 0,169 0,162 0,162
BIAS 0,288 0,293 0,101 0,040 0,006 0,006 0,006 0,000 0,007 0,007
PV 0,048 0,083 1,743 0,674 0,792 0,905 0,905 0,790 0,894 0,894
30%
d2 0,432 0,421 0,738 0,831 0,887 0,902 0,902 0,883 0,899 0,899
r 0,102 0,067 0,616 0,754 0,818 0,778 0,778 0,821 0,798 0,798
RMSD 0,515 0,523 0,409 0,260 0,228 0,257 0,257 0,224 0,242 0,242
MAD 0,425 0,433 0,309 0,199 0,168 0,189 0,189 0,163 0,177 0,177
BIAS 0,338 0,342 0,101 0,041 0,003 0,015 0,015 0,009 0,036 0,036
PV 0,044 0,080 1,610 0,704 0,870 0,969 0,969 0,835 0,873 0,873
40%
d2 0,438 0,429 0,758 0,855 0,901 0,880 0,880 0,902 0,888 0,888
165
9.13 Apêndice A13: Indicadores de performance para um único padrão de dados faltantes
com a configuração 7 “em linha”
Ind. MI MD VP MC EM EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
5% r 0,242 0,219 0,567 0,784 0,832 0,865 0,865 0,859 0,866 0,866 RMSD 0,474 0,477 0,435 0,303 0,270 0,243 0,243 0,249 0,243 0,243 MAD 0,380 0,383 0,318 0,225 0,195 0,180 0,180 0,180 0,178 0,178 BIAS -0,064 -0,071 -0,045 -0,021 -0,017 -0,013 -0,013 -0,018 -0,017 -0,017 PV 0,042 0,059 0,842 0,725 0,743 0,751 0,751 0,675 0,723 0,723 d2 0,325 0,346 0,762 0,876 0,905 0,924 0,924 0,916 0,923 0,923
10% r 0,246 0,235 0,570 0,775 0,817 0,612 0,612 0,835 0,850 0,850 RMSD 0,454 0,456 0,423 0,290 0,264 0,450 0,450 0,251 0,241 0,241 MAD 0,365 0,365 0,319 0,221 0,195 0,199 0,199 0,185 0,176 0,176 BIAS -0,104 -0,110 -0,015 -0,019 -0,005 -0,023 -0,023 -0,007 -0,003 -0,003 PV 0,048 0,066 1,006 0,689 0,769 1,446 1,446 0,727 0,799 0,799 d2 0,362 0,384 0,764 0,869 0,899 0,763 0,763 0,906 0,918 0,918
20% r 0,225 0,220 0,657 0,826 0,857 0,880 0,880 0,866 0,874 0,874 RMSD 0,476 0,477 0,402 0,273 0,250 0,231 0,231 0,241 0,236 0,236 MAD 0,382 0,382 0,302 0,207 0,183 0,171 0,171 0,176 0,173 0,173 BIAS -0,077 -0,080 -0,035 -0,019 -0,011 -0,003 -0,003 -0,008 -0,001 -0,001 PV 0,042 0,057 1,009 0,710 0,824 0,888 0,888 0,788 0,880 0,880 d2 0,332 0,356 0,810 0,900 0,922 0,937 0,937 0,927 0,933 0,933
30% r 0,237 0,230 0,673 0,838 0,865 0,638 0,638 0,876 0,599 0,599 RMSD 0,480 0,480 0,400 0,266 0,247 0,529 0,529 0,237 0,598 0,598 MAD 0,388 0,386 0,308 0,205 0,182 0,262 0,262 0,174 0,300 0,300 BIAS -0,068 -0,063 -0,035 -0,007 -0,003 -0,030 -0,030 -0,006 -0,043 -0,043 PV 0,037 0,053 1,039 0,723 0,847 1,947 1,947 0,822 2,306 2,306 d2 0,317 0,338 0,818 0,908 0,927 0,766 0,766 0,933 0,725 0,725
40% r 0,223 0,216 0,618 0,836 0,855 0,411 0,411 0,870 0,202 0,202 RMSD 0,470 0,469 0,427 0,263 0,253 1,097 1,097 0,238 1,702 1,702 MAD 0,379 0,378 0,327 0,204 0,186 0,616 0,616 0,177 0,869 0,869 BIAS -0,061 -0,053 -0,040 -0,016 -0,007 0,090 0,090 -0,006 -0,038 -0,038 PV 0,043 0,052 1,077 0,762 0,936 6,308 6,308 0,876 13,160 13,160 d2 0,326 0,326 0,785 0,908 0,924 0,495 0,495 0,931 0,299 0,299
MAR
5% r 0,292 0,270 0,716 0,655 0,811 0,903 0,903 0,850 0,910 0,910 RMSD 0,404 0,403 0,305 0,258 0,198 0,145 0,145 0,176 0,141 0,141 MAD 0,328 0,326 0,238 0,190 0,149 0,108 0,108 0,130 0,108 0,108 BIAS 0,247 0,240 0,091 -0,044 -0,028 0,001 0,001 0,004 0,020 0,020 PV 0,088 0,118 1,515 0,526 0,677 0,724 0,724 0,738 0,725 0,725 d2 0,470 0,467 0,818 0,782 0,890 0,943 0,943 0,916 0,946 0,946
10% r 0,270 0,252 0,642 0,680 0,790 0,837 0,837 0,798 0,823 0,823 RMSD 0,384 0,383 0,380 0,251 0,210 0,185 0,185 0,205 0,194 0,194 MAD 0,308 0,304 0,293 0,186 0,158 0,140 0,140 0,153 0,145 0,145 BIAS 0,202 0,195 0,139 -0,029 -0,028 -0,006 -0,006 -0,012 0,022 0,022 PV 0,089 0,115 1,820 0,536 0,655 0,705 0,705 0,687 0,637 0,637 d2 0,459 0,454 0,752 0,801 0,875 0,906 0,906 0,884 0,893 0,893
20% r 0,267 0,253 0,600 0,718 0,814 0,846 0,846 0,824 0,825 0,825 RMSD 0,408 0,409 0,396 0,245 0,206 0,186 0,186 0,198 0,197 0,197 MAD 0,327 0,326 0,297 0,187 0,157 0,141 0,141 0,149 0,143 0,143 BIAS 0,234 0,232 0,161 -0,041 -0,041 -0,007 -0,007 -0,025 0,016 0,016 PV 0,087 0,117 1,613 0,514 0,674 0,800 0,800 0,681 0,723 0,723
166
d2 0,468 0,468 0,732 0,816 0,888 0,915 0,915 0,896 0,900 0,900 30% r 0,274 0,260 0,564 0,731 0,807 0,837 0,837 0,815 0,830 0,830
RMSD 0,432 0,439 0,417 0,236 0,206 0,191 0,191 0,200 0,193 0,193 MAD 0,351 0,357 0,299 0,180 0,153 0,143 0,143 0,148 0,139 0,139 BIAS 0,278 0,286 0,112 -0,026 -0,037 -0,013 -0,013 -0,027 0,003 0,003 PV 0,091 0,131 1,944 0,527 0,701 0,871 0,871 0,696 0,823 0,823 d2 0,477 0,478 0,716 0,828 0,887 0,911 0,911 0,892 0,907 0,907
40% r 0,262 0,245 0,594 0,744 0,819 0,837 0,837 0,825 0,839 0,839 RMSD 0,460 0,471 0,421 0,232 0,201 0,195 0,195 0,196 0,193 0,193 MAD 0,377 0,386 0,310 0,176 0,149 0,147 0,147 0,146 0,143 0,143 BIAS 0,318 0,330 0,139 -0,021 -0,034 -0,018 -0,018 -0,021 -0,004 -0,004 PV 0,092 0,132 2,019 0,527 0,722 0,941 0,941 0,727 0,931 0,931 d2 0,475 0,474 0,725 0,836 0,895 0,912 0,912 0,900 0,914 0,914
MNAR
5% r 0,258 0,236 0,684 0,763 0,832 0,896 0,896 0,831 0,877 0,877 RMSD 0,430 0,428 0,322 0,208 0,180 0,151 0,151 0,180 0,165 0,165 MAD 0,355 0,352 0,249 0,162 0,136 0,107 0,107 0,130 0,115 0,115 BIAS 0,298 0,289 0,121 0,013 0,025 0,049 0,049 0,027 0,060 0,060 PV 0,098 0,135 1,588 0,527 0,727 0,882 0,882 0,717 0,804 0,804 d2 0,472 0,470 0,786 0,846 0,902 0,938 0,938 0,902 0,923 0,923
10% r 0,242 0,221 0,616 0,740 0,808 0,810 0,810 0,798 0,787 0,787 RMSD 0,405 0,405 0,379 0,225 0,199 0,200 0,200 0,205 0,212 0,212 MAD 0,330 0,327 0,295 0,169 0,148 0,144 0,144 0,150 0,151 0,151 BIAS 0,243 0,237 0,166 0,008 0,011 0,024 0,024 0,015 0,044 0,044 PV 0,093 0,127 1,601 0,634 0,821 0,823 0,823 0,815 0,760 0,760 d2 0,466 0,461 0,733 0,847 0,895 0,894 0,894 0,889 0,877 0,877
20% r 0,259 0,240 0,555 0,738 0,823 0,821 0,821 0,830 0,757 0,757 RMSD 0,433 0,434 0,417 0,232 0,196 0,200 0,200 0,192 0,235 0,235 MAD 0,352 0,353 0,316 0,176 0,146 0,146 0,146 0,141 0,163 0,163 BIAS 0,278 0,275 0,176 -0,008 -0,010 0,022 0,022 -0,002 0,064 0,064 PV 0,088 0,122 1,628 0,581 0,764 0,844 0,844 0,748 0,723 0,723 d2 0,475 0,473 0,702 0,840 0,902 0,901 0,901 0,905 0,853 0,853
30% r 0,280 0,271 0,558 0,751 0,821 0,809 0,809 0,828 0,795 0,795 RMSD 0,451 0,458 0,423 0,219 0,191 0,202 0,202 0,187 0,210 0,210 MAD 0,372 0,378 0,308 0,167 0,140 0,146 0,146 0,137 0,147 0,147 BIAS 0,319 0,327 0,139 0,001 -0,008 0,028 0,028 -0,002 0,034 0,034 PV 0,096 0,136 2,047 0,588 0,807 0,902 0,902 0,785 0,900 0,900 d2 0,479 0,480 0,701 0,848 0,902 0,894 0,894 0,905 0,886 0,886
40% r 0,254 0,245 0,556 0,739 0,813 0,821 0,821 0,820 0,798 0,798 RMSD 0,472 0,479 0,431 0,226 0,197 0,199 0,199 0,193 0,210 0,210 MAD 0,392 0,397 0,318 0,173 0,146 0,147 0,147 0,142 0,150 0,150 BIAS 0,342 0,349 0,149 0,002 -0,009 0,006 0,006 -0,002 0,033 0,033 PV 0,099 0,139 2,037 0,552 0,779 0,954 0,954 0,767 0,867 0,867 d2 0,471 0,472 0,698 0,837 0,897 0,904 0,904 0,900 0,888 0,888
167
9.14 Apêndice A14: Indicadores de performance para um único padrão de dados faltantes
com a configuração 3 “em coluna”
Ind. MI MD VP MC EM EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
5% r 0,164 0,126 0,591 0,912 0,870 0,879 0,853 0,853 0,879 0,853 0,853 RMSD 0,486 0,491 0,441 0,162 0,244 0,236 0,260 0,260 0,236 0,260 0,260 MAD 0,384 0,387 0,337 0,084 0,173 0,164 0,189 0,189 0,164 0,189 0,189 BIAS -0,008 -0,020 0,036 -0,019 0,004 0,017 0,028 0,028 0,017 0,028 0,028 PV 0,047 0,057 0,949 0,754 0,672 0,753 0,640 0,640 0,753 0,640 0,640 d2 0,287 0,294 0,772 0,946 0,922 0,931 0,909 0,909 0,931 0,909 0,909
10% r 0,118 0,093 0,571 0,914 0,881 0,882 0,841 0,841 0,893 0,831 0,831 RMSD 0,517 0,522 0,474 0,121 0,247 0,244 0,283 0,283 0,234 0,305 0,305 MAD 0,414 0,418 0,359 0,050 0,182 0,177 0,212 0,212 0,174 0,218 0,218 BIAS 0,008 -0,005 0,011 0,004 0,005 0,006 0,009 0,009 0,012 0,036 0,036 PV 0,045 0,056 0,950 0,815 0,692 0,779 0,832 0,832 0,802 1,023 1,023 d2 0,264 0,282 0,760 0,951 0,930 0,935 0,913 0,913 0,941 0,909 0,909
20% r 0,181 0,169 0,588 0,928 0,858 0,868 0,762 0,762 0,868 0,762 0,762 RMSD 0,485 0,488 0,456 0,061 0,254 0,245 0,356 0,356 0,245 0,356 0,356 MAD 0,387 0,388 0,341 0,013 0,189 0,179 0,234 0,234 0,179 0,234 0,234 BIAS -0,004 -0,013 -0,009 -0,001 0,009 0,005 0,011 0,011 0,005 0,011 0,011 PV 0,049 0,062 1,068 1,088 0,740 0,805 1,161 1,161 0,805 1,161 1,161 d2 0,286 0,306 0,766 0,961 0,920 0,928 0,868 0,868 0,928 0,868 0,868
30% r 0,202 0,199 0,572 0,914 0,860 0,873 0,516 0,516 0,873 0,516 0,516 RMSD 0,492 0,493 0,468 0,030 0,256 0,245 0,847 0,847 0,245 0,847 0,847 MAD 0,394 0,394 0,353 0,004 0,192 0,181 0,421 0,421 0,181 0,421 0,421 BIAS -0,024 -0,032 -0,012 0,000 -0,012 -0,005 0,030 0,030 -0,005 0,030 0,030 PV 0,042 0,054 1,030 0,798 0,770 0,839 3,884 3,884 0,839 3,884 3,884 d2 0,280 0,299 0,755 0,959 0,922 0,932 0,609 0,609 0,932 0,609 0,609
40% r 0,171 0,174 0,554 0,873 0,850 0,871 0,839 0,839 0,871 0,839 0,839 RMSD 0,494 0,494 0,476 0,017 0,264 0,247 0,272 0,272 0,247 0,272 0,272 MAD 0,398 0,397 0,358 0,001 0,202 0,184 0,210 0,210 0,184 0,210 0,210 BIAS 0,003 -0,006 -0,008 0,000 -0,011 -0,011 -0,010 -0,010 -0,011 -0,010 -0,010 PV 0,049 0,059 1,030 0,504 0,746 0,824 0,690 0,690 0,824 0,690 0,690 d2 0,289 0,309 0,744 0,924 0,915 0,930 0,906 0,906 0,930 0,906 0,906
MAR
5% r 0,348 0,325 0,556 0,909 0,907 0,915 0,884 0,884 0,915 0,884 0,884 RMSD 0,506 0,503 0,458 0,164 0,196 0,185 0,234 0,234 0,185 0,234 0,234 MAD 0,417 0,413 0,336 0,103 0,148 0,142 0,172 0,172 0,142 0,172 0,172 BIAS 0,261 0,253 0,091 0,018 0,023 0,012 0,096 0,096 0,012 0,096 0,096 PV 0,043 0,055 1,156 0,760 0,725 0,818 0,781 0,781 0,818 0,781 0,781 d2 0,461 0,460 0,742 0,945 0,945 0,953 0,924 0,924 0,953 0,924 0,924
10% r 0,358 0,355 0,520 0,938 0,926 0,919 0,886 0,886 0,919 0,886 0,886 RMSD 0,553 0,549 0,494 0,141 0,192 0,195 0,237 0,237 0,195 0,237 0,237 MAD 0,464 0,460 0,368 0,079 0,145 0,145 0,176 0,176 0,145 0,176 0,176 BIAS 0,298 0,292 0,082 0,021 0,031 0,012 0,063 0,063 0,012 0,063 0,063 PV 0,039 0,048 1,033 0,882 0,728 0,797 0,757 0,757 0,797 0,757 0,757 d2 0,463 0,465 0,719 0,961 0,954 0,955 0,931 0,931 0,955 0,931 0,931
20% r 0,301 0,299 0,575 0,920 0,905 0,906 0,875 0,875 0,906 0,875 0,875 RMSD 0,519 0,520 0,458 0,100 0,201 0,200 0,232 0,232 0,200 0,232 0,232 MAD 0,430 0,430 0,341 0,039 0,149 0,145 0,175 0,175 0,145 0,175 0,175 BIAS 0,254 0,257 0,045 -0,006 0,006 -0,009 0,031 0,031 -0,009 0,031 0,031 PV 0,042 0,054 1,175 0,974 0,769 0,840 0,856 0,856 0,840 0,856 0,856
168
d2 0,438 0,442 0,753 0,966 0,947 0,950 0,932 0,932 0,950 0,932 0,932 30% r 0,394 0,395 0,589 0,930 0,903 0,910 0,883 0,883 0,910 0,883 0,883
RMSD 0,531 0,528 0,464 0,071 0,211 0,204 0,232 0,232 0,204 0,232 0,232 MAD 0,436 0,434 0,343 0,019 0,160 0,151 0,175 0,175 0,151 0,175 0,175 BIAS 0,263 0,263 0,058 -0,008 -0,014 -0,019 0,017 0,017 -0,019 0,017 0,017 PV 0,036 0,047 1,137 0,876 0,780 0,862 0,852 0,852 0,862 0,852 0,852 d2 0,454 0,461 0,760 0,967 0,946 0,952 0,937 0,937 0,952 0,937 0,937
40% r 0,388 0,391 0,569 0,920 0,904 0,913 0,866 0,866 0,913 0,866 0,866 RMSD 0,531 0,530 0,470 0,055 0,207 0,199 0,249 0,249 0,199 0,249 0,249 MAD 0,436 0,436 0,350 0,013 0,158 0,149 0,186 0,186 0,149 0,186 0,186 BIAS 0,270 0,273 0,058 -0,004 -0,005 -0,009 0,029 0,029 -0,009 0,029 0,029 PV 0,035 0,046 1,139 0,600 0,809 0,893 0,933 0,933 0,893 0,933 0,933 d2 0,457 0,464 0,748 0,968 0,947 0,954 0,928 0,928 0,954 0,928 0,928
MNAR
5% r 0,366 0,344 0,527 0,819 0,844 0,868 0,873 0,873 0,868 0,873 0,873 RMSD 0,526 0,525 0,481 0,215 0,241 0,222 0,235 0,235 0,222 0,235 0,235 MAD 0,442 0,439 0,356 0,114 0,164 0,153 0,177 0,177 0,153 0,177 0,177 BIAS 0,354 0,350 0,171 0,073 0,081 0,068 0,118 0,118 0,068 0,118 0,118 PV 0,060 0,077 1,438 0,928 0,907 0,964 0,852 0,852 0,964 0,852 0,852 d2 0,483 0,484 0,699 0,885 0,907 0,924 0,912 0,912 0,924 0,912 0,912
10% r 0,306 0,307 0,466 0,853 0,879 0,868 0,797 0,797 0,868 0,797 0,797 RMSD 0,562 0,559 0,516 0,195 0,241 0,245 0,307 0,307 0,245 0,307 0,307 MAD 0,472 0,469 0,391 0,092 0,168 0,173 0,222 0,222 0,173 0,222 0,222 BIAS 0,334 0,330 0,118 0,069 0,083 0,057 0,074 0,074 0,057 0,074 0,074 PV 0,045 0,056 1,107 0,948 0,845 0,909 0,957 0,957 0,909 0,957 0,957 d2 0,455 0,458 0,676 0,897 0,927 0,926 0,884 0,884 0,926 0,884 0,884
20% r 0,260 0,253 0,515 0,830 0,836 0,851 0,722 0,722 0,851 0,722 0,722 RMSD 0,518 0,522 0,459 0,138 0,257 0,243 0,362 0,362 0,243 0,362 0,362 MAD 0,429 0,432 0,343 0,046 0,180 0,172 0,245 0,245 0,172 0,245 0,245 BIAS 0,307 0,312 0,073 0,027 0,086 0,068 0,093 0,093 0,068 0,093 0,093 PV 0,055 0,071 1,257 1,076 0,906 0,955 1,303 1,303 0,955 1,303 1,303 d2 0,452 0,455 0,712 0,903 0,904 0,916 0,832 0,832 0,916 0,832 0,832
30% r 0,299 0,287 0,528 0,781 0,850 0,865 0,734 0,734 0,865 0,734 0,734 RMSD 0,539 0,546 0,457 0,123 0,253 0,240 0,365 0,365 0,240 0,365 0,365 MAD 0,446 0,453 0,343 0,036 0,183 0,174 0,250 0,250 0,174 0,250 0,250 BIAS 0,317 0,329 0,064 0,016 0,065 0,052 0,074 0,074 0,052 0,074 0,074 PV 0,044 0,059 1,094 0,794 0,907 0,958 1,278 1,278 0,958 1,278 1,278 d2 0,456 0,460 0,721 0,889 0,915 0,926 0,844 0,844 0,926 0,844 0,844
40% r 0,274 0,263 0,493 0,754 0,852 0,864 0,745 0,745 0,864 0,745 0,745 RMSD 0,528 0,538 0,466 0,110 0,251 0,238 0,357 0,357 0,238 0,357 0,357 MAD 0,437 0,447 0,352 0,030 0,185 0,176 0,243 0,243 0,176 0,243 0,243 BIAS 0,311 0,326 0,052 0,015 0,073 0,056 0,077 0,077 0,056 0,077 0,077 PV 0,046 0,064 1,148 0,655 0,969 1,009 1,351 1,351 1,009 1,351 1,351 d2 0,454 0,459 0,700 0,883 0,915 0,925 0,847 0,847 0,925 0,847 0,847
169
9.15 Apêndice A15: Indicadores de performance para um único padrão de dados faltantes
com a configuração 5 “em coluna”
Ind. MI MD VP MC EM EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
5% r 0,190 0,185 0,501 0,887 0,859 0,860 0,857 0,857 0,861 0,840 0,840 RMSD 0,486 0,488 0,479 0,167 0,255 0,252 0,272 0,272 0,252 0,308 0,308 MAD 0,383 0,383 0,369 0,082 0,185 0,177 0,206 0,206 0,180 0,229 0,229 BIAS -0,021 -0,033 0,056 -0,022 -0,029 0,003 0,037 0,037 -0,014 0,036 0,036 PV 0,051 0,066 0,853 0,774 0,713 0,732 1,080 1,080 0,732 1,295 1,295 d2 0,306 0,334 0,712 0,932 0,917 0,920 0,923 0,923 0,920 0,908 0,908
10% r 0,219 0,210 0,484 0,877 0,879 0,885 0,695 0,695 0,892 0,400 0,400 RMSD 0,484 0,485 0,499 0,140 0,237 0,233 0,481 0,481 0,225 1,365 1,365 MAD 0,384 0,385 0,390 0,056 0,172 0,166 0,301 0,301 0,163 0,558 0,558 BIAS 0,028 0,009 0,020 -0,003 -0,005 0,004 -0,016 -0,016 -0,013 0,078 0,078 PV 0,046 0,060 0,963 0,899 0,809 0,894 1,816 1,816 0,862 8,957 8,957 d2 0,288 0,323 0,702 0,933 0,934 0,939 0,806 0,806 0,942 0,416 0,416
20% r 0,142 0,126 0,500 0,902 0,879 0,887 0,576 0,576 0,889 0,314 0,314 RMSD 0,492 0,497 0,486 0,078 0,238 0,229 0,731 0,731 0,228 1,516 1,516 MAD 0,388 0,393 0,371 0,015 0,179 0,169 0,456 0,456 0,172 0,502 0,502 BIAS -0,009 -0,028 -0,016 0,005 -0,029 -0,020 -0,068 -0,068 -0,024 0,049 0,049 PV 0,058 0,073 0,928 1,163 0,740 0,797 3,234 3,234 0,835 10,402 10,402 d2 0,291 0,307 0,714 0,940 0,930 0,937 0,674 0,674 0,939 0,339 0,339
30% r 0,173 0,169 0,540 0,870 0,863 0,879 0,569 0,569 0,873 0,176 0,176 RMSD 0,506 0,507 0,480 0,037 0,260 0,245 0,809 0,809 0,252 4,182 4,182 MAD 0,399 0,401 0,370 0,004 0,198 0,184 0,498 0,498 0,188 1,121 1,121 BIAS 0,007 -0,013 -0,004 0,000 -0,020 -0,020 -0,093 -0,093 -0,029 -0,130 -0,130 PV 0,044 0,059 0,900 0,674 0,727 0,795 3,616 3,616 0,820 68,313 68,313 d2 0,274 0,303 0,737 0,929 0,921 0,933 0,655 0,655 0,930 0,097 0,097
40% r 0,176 0,171 0,510 0,903 0,850 0,866 0,637 0,637 0,859 0,263 0,263 RMSD 0,501 0,503 0,494 0,010 0,269 0,256 0,547 0,547 0,263 1,791 1,791 MAD 0,398 0,400 0,380 0,001 0,205 0,193 0,377 0,377 0,197 0,778 0,778 BIAS 0,006 -0,013 -0,012 0,000 -0,022 -0,025 -0,025 -0,025 -0,024 0,037 0,037 PV 0,047 0,064 0,923 0,396 0,713 0,797 1,923 1,923 0,820 13,296 13,296 d2 0,280 0,310 0,719 0,962 0,913 0,925 0,766 0,766 0,922 0,275 0,275
MAR
5% r 0,229 0,228 0,467 0,923 0,931 0,926 0,910 0,910 0,913 0,888 0,888 RMSD 0,532 0,530 0,505 0,187 0,194 0,199 0,225 0,225 0,217 0,262 0,262 MAD 0,435 0,434 0,378 0,123 0,143 0,145 0,163 0,163 0,165 0,199 0,199 BIAS 0,145 0,138 0,049 -0,008 -0,010 -0,002 0,049 0,049 -0,001 0,073 0,073 PV 0,035 0,044 0,689 0,860 0,781 0,797 0,728 0,728 0,718 0,574 0,574 d2 0,325 0,333 0,686 0,957 0,960 0,958 0,945 0,945 0,948 0,916 0,916
10% r 0,315 0,307 0,517 0,958 0,947 0,947 0,926 0,926 0,941 0,903 0,903 RMSD 0,549 0,546 0,502 0,131 0,185 0,181 0,210 0,210 0,194 0,250 0,250 MAD 0,456 0,453 0,392 0,071 0,135 0,129 0,152 0,152 0,140 0,190 0,190 BIAS 0,158 0,146 -0,013 -0,015 -0,037 -0,032 0,007 0,007 -0,033 0,040 0,040 PV 0,035 0,043 0,704 0,994 0,759 0,819 0,766 0,766 0,733 0,598 0,598 d2 0,343 0,348 0,713 0,975 0,967 0,969 0,957 0,957 0,963 0,931 0,931
20% r 0,192 0,169 0,470 0,939 0,925 0,932 0,896 0,896 0,929 0,870 0,870 RMSD 0,528 0,529 0,497 0,107 0,199 0,190 0,229 0,229 0,191 0,255 0,255 MAD 0,436 0,438 0,373 0,041 0,148 0,139 0,174 0,174 0,144 0,191 0,191 BIAS 0,154 0,148 -0,052 -0,017 -0,029 -0,032 -0,008 -0,008 -0,017 0,022 0,022 PV 0,045 0,054 0,723 0,907 0,780 0,836 0,725 0,725 0,826 0,748 0,748
170
d2 0,340 0,344 0,685 0,959 0,956 0,962 0,939 0,939 0,961 0,926 0,926 30% r 0,286 0,273 0,549 0,943 0,922 0,934 0,853 0,853 0,918 0,872 0,872
RMSD 0,540 0,538 0,478 0,065 0,210 0,194 0,293 0,293 0,214 0,265 0,265 MAD 0,437 0,436 0,366 0,016 0,159 0,146 0,217 0,217 0,161 0,202 0,202 BIAS 0,153 0,145 -0,048 -0,004 -0,006 -0,013 -0,004 -0,004 -0,019 0,027 0,027 PV 0,034 0,042 0,702 0,721 0,757 0,816 1,032 1,032 0,802 0,717 0,717 d2 0,354 0,362 0,735 0,966 0,955 0,963 0,922 0,922 0,954 0,925 0,925
40% r 0,303 0,271 0,552 0,944 0,915 0,929 0,758 0,758 0,912 0,748 0,748 RMSD 0,554 0,554 0,482 0,048 0,223 0,204 0,427 0,427 0,226 0,416 0,416 MAD 0,453 0,454 0,370 0,010 0,169 0,154 0,282 0,282 0,163 0,288 0,288 BIAS 0,173 0,169 -0,033 -0,005 -0,010 -0,021 0,002 0,002 -0,027 0,003 0,003 PV 0,028 0,038 0,692 0,656 0,733 0,797 1,407 1,407 0,801 1,255 1,255 d2 0,363 0,371 0,735 0,975 0,950 0,960 0,859 0,859 0,951 0,858 0,858
MNAR
5% r 0,214 0,218 0,393 0,849 0,871 0,889 0,869 0,869 0,909 0,830 0,830 RMSD 0,500 0,497 0,503 0,226 0,240 0,224 0,238 0,238 0,199 0,300 0,300 MAD 0,422 0,418 0,383 0,133 0,162 0,152 0,174 0,174 0,145 0,236 0,236 BIAS 0,195 0,189 0,036 0,031 0,030 0,028 0,031 0,031 0,027 0,141 0,141 PV 0,049 0,062 0,868 0,942 0,985 1,002 0,909 0,909 0,883 0,593 0,593 d2 0,400 0,397 0,647 0,925 0,932 0,942 0,930 0,930 0,951 0,868 0,868
10% r 0,309 0,315 0,421 0,876 0,908 0,915 0,893 0,893 0,935 0,861 0,861 RMSD 0,546 0,539 0,522 0,178 0,219 0,211 0,235 0,235 0,185 0,275 0,275 MAD 0,456 0,448 0,413 0,087 0,150 0,144 0,175 0,175 0,128 0,212 0,212 BIAS 0,226 0,213 0,004 0,035 0,026 0,006 0,016 0,016 0,000 0,068 0,068 PV 0,039 0,052 0,726 0,830 0,870 0,948 0,769 0,769 0,830 0,638 0,638 d2 0,415 0,414 0,654 0,933 0,951 0,956 0,939 0,939 0,964 0,909 0,909
20% r 0,233 0,234 0,424 0,850 0,911 0,916 0,862 0,862 0,926 0,785 0,785 RMSD 0,526 0,524 0,509 0,128 0,208 0,203 0,255 0,255 0,190 0,335 0,335 MAD 0,433 0,431 0,381 0,046 0,152 0,145 0,193 0,193 0,138 0,227 0,227 BIAS 0,195 0,191 -0,038 0,016 0,020 0,007 0,020 0,020 0,013 0,004 0,004 PV 0,044 0,056 0,758 0,728 0,823 0,885 0,705 0,705 0,855 1,060 1,060 d2 0,381 0,382 0,659 0,915 0,951 0,956 0,919 0,919 0,960 0,882 0,882
30% r 0,267 0,263 0,500 0,833 0,904 0,912 0,843 0,843 0,917 0,777 0,777 RMSD 0,546 0,545 0,490 0,100 0,228 0,216 0,289 0,289 0,209 0,351 0,351 MAD 0,444 0,443 0,371 0,029 0,168 0,157 0,213 0,213 0,157 0,251 0,251 BIAS 0,208 0,207 -0,020 0,013 0,043 0,023 -0,002 -0,002 0,020 -0,007 -0,007 PV 0,039 0,052 0,735 0,534 0,784 0,844 0,941 0,941 0,834 1,021 1,021 d2 0,392 0,395 0,707 0,907 0,945 0,952 0,916 0,916 0,955 0,878 0,878
40% r 0,238 0,212 0,508 0,749 0,897 0,909 0,823 0,823 0,909 0,822 0,822 RMSD 0,558 0,562 0,494 0,089 0,238 0,222 0,317 0,317 0,222 0,306 0,306 MAD 0,454 0,457 0,375 0,022 0,179 0,163 0,243 0,243 0,164 0,230 0,230 BIAS 0,211 0,215 -0,009 0,010 0,038 0,020 -0,009 -0,009 0,004 0,042 0,042 PV 0,034 0,050 0,735 0,381 0,773 0,821 1,022 1,022 0,834 0,708 0,708 d2 0,385 0,387 0,711 0,876 0,941 0,950 0,905 0,905 0,951 0,896 0,896
171
9.16 Apêndice A16: Indicadores de performance para um único padrão de dados faltantes
com a configuração 7 “em coluna”
Ind. MI MD VP MC EM EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
MCAR
5% r 0,214 0,209 0,546 0,910 0,877 0,875 0,852 0,852 0,876 0,414 0,414 RMSD 0,505 0,508 0,511 0,162 0,251 0,251 0,320 0,320 0,251 2,458 2,458 MAD 0,396 0,398 0,386 0,087 0,181 0,177 0,224 0,224 0,177 0,860 0,860 BIAS -0,063 -0,075 -0,025 -0,031 -0,047 -0,036 0,040 0,040 -0,041 0,527 0,527 PV 0,048 0,059 1,170 0,820 0,748 0,741 1,397 1,397 0,780 25,048 25,048 d2 0,322 0,340 0,744 0,946 0,928 0,927 0,913 0,913 0,929 0,276 0,276
10% r 0,303 0,276 0,520 0,925 0,882 0,883 0,759 0,759 0,888 0,782 0,782 RMSD 0,490 0,492 0,507 0,125 0,242 0,239 0,463 0,463 0,236 0,323 0,323 MAD 0,391 0,393 0,389 0,053 0,181 0,175 0,300 0,300 0,173 0,236 0,236 BIAS -0,021 -0,036 -0,015 -0,018 -0,023 -0,010 0,053 0,053 -0,018 0,057 0,057 PV 0,037 0,048 1,060 0,924 0,749 0,802 1,914 1,914 0,824 0,587 0,587 d2 0,313 0,332 0,726 0,953 0,932 0,936 0,839 0,839 0,938 0,861 0,861
20% r 0,224 0,191 0,439 0,833 0,859 0,866 0,724 0,724 0,878 0,323 0,323 RMSD 0,483 0,488 0,530 0,097 0,254 0,249 0,409 0,409 0,238 1,702 1,702 MAD 0,381 0,386 0,404 0,021 0,188 0,181 0,283 0,283 0,175 0,656 0,656 BIAS -0,018 -0,030 0,006 0,000 -0,017 -0,022 0,008 0,008 -0,016 0,131 0,131 PV 0,043 0,057 1,039 1,016 0,749 0,783 1,385 1,385 0,843 13,064 13,064 d2 0,301 0,311 0,675 0,905 0,921 0,925 0,839 0,839 0,934 0,314 0,314
30% r 0,235 0,221 0,446 0,843 0,856 0,871 0,534 0,534 0,871 0,058 0,058 RMSD 0,490 0,492 0,527 0,042 0,260 0,248 0,638 0,638 0,249 3,959 3,959 MAD 0,387 0,388 0,407 0,005 0,195 0,183 0,411 0,411 0,182 1,218 1,218 BIAS -0,027 -0,036 -0,014 -0,001 -0,009 -0,016 -0,064 -0,064 -0,019 0,161 0,161 PV 0,037 0,047 0,984 0,581 0,756 0,792 2,171 2,171 0,854 61,834 61,834 d2 0,282 0,295 0,677 0,917 0,919 0,929 0,693 0,693 0,930 0,088 0,088
40% r 0,203 0,171 0,455 0,834 0,838 0,850 0,616 0,616 0,844 0,280 0,280 RMSD 0,489 0,493 0,522 0,020 0,273 0,264 0,523 0,523 0,270 1,267 1,267 MAD 0,389 0,392 0,401 0,002 0,206 0,192 0,370 0,370 0,200 0,611 0,611 BIAS -0,010 -0,010 -0,025 0,000 -0,007 -0,016 -0,030 -0,030 -0,013 0,100 0,100 PV 0,041 0,056 1,002 0,490 0,773 0,788 1,697 1,697 0,819 6,863 6,863 d2 0,271 0,301 0,684 0,906 0,911 0,917 0,766 0,766 0,915 0,381 0,381
MAR
5% r 0,169 0,166 0,433 0,900 0,895 0,897 0,888 0,888 0,902 0,856 0,856 RMSD 0,545 0,544 0,548 0,224 0,243 0,241 0,255 0,255 0,240 0,308 0,308 MAD 0,438 0,439 0,412 0,132 0,168 0,177 0,200 0,200 0,176 0,242 0,242 BIAS 0,099 0,090 -0,109 0,029 0,009 0,008 0,020 0,020 -0,017 0,104 0,104 PV 0,035 0,046 0,702 1,001 0,839 0,769 0,657 0,657 0,670 0,527 0,527 d2 0,267 0,292 0,665 0,946 0,943 0,942 0,930 0,930 0,938 0,888 0,888
10% r 0,208 0,192 0,519 0,911 0,903 0,918 0,901 0,901 0,911 0,851 0,851 RMSD 0,560 0,561 0,514 0,190 0,238 0,221 0,251 0,251 0,231 0,304 0,304 MAD 0,461 0,461 0,387 0,096 0,177 0,165 0,195 0,195 0,176 0,229 0,229 BIAS 0,145 0,140 -0,092 0,021 0,003 0,005 0,030 0,030 -0,008 0,078 0,078 PV 0,031 0,042 0,712 1,122 0,758 0,768 0,610 0,610 0,709 0,594 0,594 d2 0,304 0,315 0,716 0,950 0,945 0,953 0,932 0,932 0,947 0,898 0,898
20% r 0,304 0,275 0,393 0,919 0,907 0,920 0,880 0,880 0,925 0,623 0,623 RMSD 0,528 0,528 0,545 0,105 0,226 0,210 0,258 0,258 0,203 0,584 0,584 MAD 0,426 0,426 0,403 0,035 0,169 0,156 0,195 0,195 0,153 0,323 0,323 BIAS 0,123 0,115 -0,061 0,000 -0,003 -0,012 0,017 0,017 0,000 0,064 0,064 PV 0,032 0,042 0,669 0,912 0,794 0,843 0,638 0,638 0,841 1,898 1,898
172
d2 0,327 0,339 0,632 0,956 0,948 0,956 0,924 0,924 0,959 0,748 0,748 30% r 0,230 0,206 0,425 0,884 0,911 0,926 0,868 0,868 0,932 0,406 0,406
RMSD 0,538 0,539 0,533 0,091 0,220 0,200 0,267 0,267 0,193 1,047 1,047 MAD 0,436 0,438 0,397 0,026 0,165 0,149 0,201 0,201 0,147 0,500 0,500 BIAS 0,152 0,145 -0,038 -0,007 0,005 -0,007 0,033 0,033 -0,003 0,161 0,161 PV 0,035 0,045 0,737 0,664 0,770 0,832 0,650 0,650 0,866 4,543 4,543 d2 0,336 0,342 0,653 0,942 0,949 0,960 0,918 0,918 0,964 0,517 0,517
40% r 0,298 0,295 0,461 0,921 0,907 0,923 0,860 0,860 0,928 0,567 0,567 RMSD 0,544 0,542 0,530 0,059 0,230 0,211 0,287 0,287 0,204 0,708 0,708 MAD 0,443 0,442 0,398 0,014 0,176 0,161 0,217 0,217 0,154 0,440 0,440 BIAS 0,137 0,134 -0,080 -0,008 0,003 -0,002 0,038 0,038 0,002 0,137 0,137 PV 0,028 0,037 0,673 0,510 0,797 0,828 0,576 0,576 0,845 2,357 2,357 d2 0,329 0,350 0,673 0,962 0,949 0,958 0,906 0,906 0,961 0,696 0,696
MNAR
5% r 0,135 0,140 0,457 0,906 0,914 0,918 0,911 0,911 0,938 0,871 0,871 RMSD 0,582 0,582 0,606 0,228 0,235 0,230 0,242 0,242 0,206 0,300 0,300 MAD 0,487 0,489 0,458 0,140 0,162 0,170 0,195 0,195 0,149 0,245 0,245 BIAS 0,097 0,094 -0,268 0,003 0,008 -0,014 -0,020 -0,020 -0,008 0,063 0,063 PV 0,031 0,039 0,582 0,919 0,904 0,868 0,738 0,738 0,735 0,554 0,554 d2 0,258 0,279 0,646 0,951 0,955 0,957 0,948 0,948 0,962 0,908 0,908
10% r 0,203 0,210 0,493 0,915 0,915 0,927 0,889 0,889 0,932 0,860 0,860 RMSD 0,565 0,564 0,534 0,192 0,222 0,205 0,253 0,253 0,201 0,304 0,304 MAD 0,470 0,469 0,404 0,115 0,164 0,154 0,206 0,206 0,158 0,239 0,239 BIAS 0,184 0,184 -0,119 0,013 0,032 0,019 0,021 0,021 0,025 0,109 0,109 PV 0,025 0,034 0,791 0,906 0,838 0,870 0,674 0,674 0,782 0,578 0,578 d2 0,351 0,356 0,699 0,957 0,953 0,961 0,932 0,932 0,961 0,896 0,896
20% r 0,314 0,323 0,402 0,954 0,925 0,928 0,868 0,868 0,930 0,738 0,738 RMSD 0,569 0,565 0,566 0,088 0,216 0,211 0,286 0,286 0,208 0,424 0,424 MAD 0,468 0,463 0,431 0,033 0,161 0,157 0,218 0,218 0,152 0,289 0,289 BIAS 0,164 0,159 -0,088 0,000 0,013 -0,009 0,018 0,018 0,004 0,034 0,034 PV 0,024 0,032 0,602 0,774 0,798 0,849 0,612 0,612 0,819 1,121 1,121 d2 0,354 0,358 0,634 0,973 0,958 0,961 0,915 0,915 0,962 0,851 0,851
30% r 0,224 0,226 0,393 0,914 0,915 0,924 0,856 0,856 0,926 0,822 0,822 RMSD 0,543 0,542 0,545 0,076 0,215 0,202 0,275 0,275 0,200 0,306 0,306 MAD 0,441 0,439 0,412 0,022 0,164 0,151 0,212 0,212 0,147 0,231 0,231 BIAS 0,173 0,170 -0,058 0,005 0,030 0,005 0,025 0,025 0,009 0,055 0,055 PV 0,032 0,043 0,721 0,716 0,784 0,845 0,659 0,659 0,843 0,730 0,730 d2 0,351 0,355 0,632 0,953 0,952 0,959 0,912 0,912 0,960 0,896 0,896
40% r 0,235 0,236 0,441 0,880 0,905 0,916 0,798 0,798 0,923 0,476 0,476 RMSD 0,548 0,547 0,533 0,051 0,232 0,216 0,339 0,339 0,208 0,844 0,844 MAD 0,447 0,447 0,403 0,010 0,178 0,164 0,256 0,256 0,155 0,421 0,421 BIAS 0,152 0,152 -0,086 0,003 0,028 0,007 0,000 0,000 0,004 0,029 0,029 PV 0,030 0,042 0,666 0,422 0,786 0,834 0,943 0,943 0,837 3,118 3,118 d2 0,333 0,348 0,660 0,931 0,946 0,955 0,890 0,890 0,958 0,602 0,602
173
9.17 Apêndice A17: Coeficiente e erro-padrão dos modelos de associação com penalização
sob MCAR
% Penali- zação
Estatística EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
β 0,004311 0,004308 0,004333 0,004296 0,004297 0,004320 não
EP(β) 0,001059 0,001056 0,001058 0,001058 0,001053 0,001058 β 0,004320 0,004314 0,004342 0,004306 0,004303 0,004329
5% sim
EP(β) 0,001069 0,001068 0,001069 0,001069 0,001064 0,001069 β 0,004353 0,004268 0,004372 0,004360 0,004360 0,004388
não EP(β) 0,001054 0,001052 0,001052 0,001057 0,001057 0,001055 β 0,004311 0,004228 0,004329 0,004318 0,004316 0,004345
10% sim
EP(β) 0,001081 0,001079 0,001079 0,001084 0,001084 0,001081 β 0,004337 0,004178 0,004369 0,004330 0,004237 0,004400
não EP(β) 0,001055 0,001045 0,001048 0,001054 0,001048 0,001044 β 0,004279 0,004125 0,004310 0,004277 0,004182 0,004341
20% sim
EP(β) 0,001112 0,001102 0,001105 0,001111 0,001105 0,001100 β 0,004259 0,004161 0,004392 0,004421 0,004251 0,004593
não EP(β) 0,001047 0,001037 0,001045 0,001057 0,001048 0,001050 β 0,004164 0,004061 0,004287 0,004322 0,004138 0,004480
30% sim
EP(β) 0,001140 0,001130 0,001137 0,001150 0,001140 0,001142 β 0,004479 0,004558 0,004571 0,004673 0,004546 0,004697
não EP(β) 0,001061 0,001042 0,001055 0,001052 0,001011 0,001060 β 0,004474 0,004522 0,004553 0,004672 0,004512 0,004674
40% sim
EP(β) 0,001187 0,001168 0,001180 0,001177 0,001134 0,001186
174
9.18 Apêndice A18: Coeficiente e erro-padrão dos modelos de associação com penalização
sob MNAR
% Penali- zação
Estatística EM Spline
EM ARIMA
EM MAG
EM-MR Spline
EM-MR ARIMA
EM-MR MAG
5% não β 0,004322 0,004265 0,004325 0,004291 0,004263 0,004303 EP(β) 0,001059 0,001057 0,001059 0,001059 0,001053 0,001059 sim β 0,004317 0,004263 0,004321 0,004288 0,004262 0,004299 EP(β) 0,001065 0,001062 0,001064 0,001064 0,001059 0,001064
10% não β 0,004314 0,004196 0,004303 0,004315 0,004222 0,004307 EP(β) 0,001055 0,001054 0,001055 0,001058 0,001059 0,001056 sim β 0,004356 0,004245 0,004346 0,004359 0,004270 0,004350 EP(β) 0,001072 0,001070 0,001071 0,001074 0,001076 0,001072
20% não β 0,004347 0,004167 0,004308 0,004385 0,004196 0,004343 EP(β) 0,001049 0,001047 0,001047 0,001049 0,001046 0,001043 sim β 0,004376 0,004214 0,004338 0,004415 0,004242 0,004373 EP(β) 0,001082 0,001081 0,001080 0,001083 0,001080 0,001076
30% não β 0,004289 0,004029 0,004315 0,004400 0,004201 0,004425 EP(β) 0,001052 0,001043 0,001052 0,001053 0,001049 0,001052 sim β 0,004314 0,004081 0,004331 0,004418 0,004239 0,004431 EP(β) 0,001104 0,001096 0,001103 0,001104 0,001101 0,001102
40% não β 0,004300 0,003877 0,004352 0,004449 0,003966 0,004498 EP(β) 0,001056 0,001027 0,001056 0,001059 0,001011 0,001059 sim β 0,004368 0,003989 0,004407 0,004511 0,004073 0,004543 EP(β) 0,001121 0,001097 0,001120 0,001125 0,001083 0,001123
175
9.19 Apêndice A19: Script com exemplo de análise usando a biblioteca ares (artigo 3)
# analise para a tese usando ares library(ares) setwd("D:\\Usuarios\\Washingt\\Pesquisas\\Doutorado \\tese\\artigo_ares_r") data <- import.data("aihrio8a.csv") setup(data,"Date",date.format="%d/%m/%Y") desc.data() desc.vars(c("resp5","PM10","SO2","CO","NO2","O3"),d igits=2) par(mfrow=c(2,1)) plot.event(resp5,df=0,new=FALSE) plot.pollutant(PM10,df=0,new=FALSE) zumbi <- gen.holidays(doe,"zumbi","20/11") sebastiao <- gen.holidays(doe,"sebastiao","20/01") f <- resp5~ns(time,12)+weekdays+christmas+newyear+p assion+ easter+corpus+tiradentes+trabalho+independencia+ap arecida+ finados+republica+zumbi+sebastiao+long_weekends mod <- fit.core(f) diagnostics(mod) f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends mod <- fit.core(f) diagnostics(mod) explore.temp(mod,tmpmax,df=5) f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8) mod <- fit.core(f) diagnostics(mod) explore.humid(mod,wet,df=5) f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8)+ns(l(wet,2),4) mod <- fit.core(f) diagnostics(mod) f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8)+ns(l(wet,2),4)+rai n mod <- fit.core(f) diagnostics(mod) # estimando os efeitos dos poluentes r1 <- estimate.risks(mod,c("PM10","SO2","CO","NO2", "O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="si mplelag", lag.struc=list(l=0:10,ma=1:5),unit=c(10,10,1,10,1 0)) r2 <- estimate.risks(mod,c("PM10","SO2","CO","NO2", "O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="pd lm", pdlm.struc=list(l=10,deg=2),unit=rep(10,5)) cor(cbind.data.frame(PM10,SO2,CO,NO2,O3),use="pairw ise.complete.obs") r3 <- estimate.risks(mod,c("PM10","SO2","CO","O3"), labels=c("PM10","SO2","CO","O3"),method="dual", lag.struc=list(l=0:2,ma=1:5)) # análise de iteração manual r4 <- estimate.risks(mod,c("PM10","SO2","CO","NO2", "O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="si mplelag", lag.struc=list(l=0:2,ma=1:5),modifier=warm_season ,unit=c(10,10,1,10,10))
176
9.20 Apêndice A20: CD-ROM com o código fonte e arquivos binários das bibliotecas mtsdi
(artigo 3) e ares (artigo 4)
Livros Grátis( http://www.livrosgratis.com.br )
Milhares de Livros para Download: Baixar livros de AdministraçãoBaixar livros de AgronomiaBaixar livros de ArquiteturaBaixar livros de ArtesBaixar livros de AstronomiaBaixar livros de Biologia GeralBaixar livros de Ciência da ComputaçãoBaixar livros de Ciência da InformaçãoBaixar livros de Ciência PolíticaBaixar livros de Ciências da SaúdeBaixar livros de ComunicaçãoBaixar livros do Conselho Nacional de Educação - CNEBaixar livros de Defesa civilBaixar livros de DireitoBaixar livros de Direitos humanosBaixar livros de EconomiaBaixar livros de Economia DomésticaBaixar livros de EducaçãoBaixar livros de Educação - TrânsitoBaixar livros de Educação FísicaBaixar livros de Engenharia AeroespacialBaixar livros de FarmáciaBaixar livros de FilosofiaBaixar livros de FísicaBaixar livros de GeociênciasBaixar livros de GeografiaBaixar livros de HistóriaBaixar livros de Línguas
Baixar livros de LiteraturaBaixar livros de Literatura de CordelBaixar livros de Literatura InfantilBaixar livros de MatemáticaBaixar livros de MedicinaBaixar livros de Medicina VeterináriaBaixar livros de Meio AmbienteBaixar livros de MeteorologiaBaixar Monografias e TCCBaixar livros MultidisciplinarBaixar livros de MúsicaBaixar livros de PsicologiaBaixar livros de QuímicaBaixar livros de Saúde ColetivaBaixar livros de Serviço SocialBaixar livros de SociologiaBaixar livros de TeologiaBaixar livros de TrabalhoBaixar livros de Turismo