UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE...

181
UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE MEDICINA SOCIAL ANÁLISE, IMPUTAÇÃO DE DADOS E INTERFACES COMPUTACIONAIS EM ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite Junger Tese apresentada como requisito parcial para obtenção do grau de Doutor em Saúde Coletiva, Programa de Pós- graduação em Saúde Coletiva – área de concentração em Epidemiologia, do Instituto de Medicina Social da Universidade do Estado do Rio de Janeiro. Orientador: Antonio Ponce de Leon Rio de Janeiro 2008

Transcript of UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE...

Page 1: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE MEDICINA SOCIAL

ANÁLISE, IMPUTAÇÃO DE DADOS E INTERFACES COMPUTACIONAIS EM ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS

Washington Leite Junger

Tese apresentada como requisito parcial para obtenção do grau de Doutor em Saúde Coletiva, Programa de Pós-graduação em Saúde Coletiva – área de concentração em Epidemiologia, do Instituto de Medicina Social da Universidade do Estado do Rio de Janeiro.

Orientador: Antonio Ponce de Leon

Rio de Janeiro 2008

Page 2: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

Page 3: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

ii

C A T A L O G A Ç Ã O N A F O N T E

U E R J / R E D E S I R I U S / C B C

J95 Junger, Washington Leite. Análise, imputação de dados e interfaces computacionais em estudos de séries temporais

epidemiológicas / Washington Leite Junger. – 2008. 178f.

Orientador: Antonio Ponce de Leon.

Tese (doutorado) – Universidade do Estado do Rio de Janeiro, Instituto de Medicina Social.

1. Análise de séries temporais – Processamento de dados – Teses. 2. Ar – Poluição – Teses. 3. Epidemiologia – Teses. 4. Estatística – Processamento de dados – Teses. I. Ponce de Leon, Antonio. II. Universidade do Estado do Rio de Janeiro. Instituto de Medicina Social. III. Título.

CDU 519.246.8 __________________________________________________________________________________________

Page 4: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

iii

Aluno: Washington Leite Junger Título da Tese: ANÁLISE, IMPUTAÇÃO DE DADOS E INTERFACES COMPUTACIONAIS EM ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Aprovada em 01 de abril de 2008. __________________________________ Prof. Antonio Ponce de Leon (orientador) IMS-UERJ __________________________________ Profª. Cláudia Medina Coeli IESC-UFRJ __________________________________ Prof. José Ueleres Braga IMS-UERJ __________________________________ Prof. Michael Eduardo Reichenheim IMS-UERJ __________________________________ Prof. Nelson da Cruz Gouveia FM-USP

Page 5: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

iv

Aos meus pais

Page 6: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

v

AGRADECIMENTOS

A Antonio Ponce de Leon por ser um grande mentor.

A José Ueleres pela leitura criteriosa da tese.

A Michael Reichenreim pelas conversas sobre Epidemiologia.

A Cristina pelo apoio incondicional.

A minha família por lidar com minha ausência.

Ao CNPq pelo financiamento do doutorado.

A todos que de alguma forma colaboraram para a realização deste trabalho.

Page 7: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

vi

A Matemática não mente. Mente quem faz mau uso dela.

A. Einstein

Page 8: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

vii

RESUMO

A poluição do ar é um problema de saúde pública em grandes centros urbanos e seus

efeitos são freqüentemente observados na morbidade e mortalidade por doenças respiratórias

e cardiovasculares, câncer de pulmão, diminuição da função respiratória, absenteísmo escolar

e problemas relacionados com a gravidez. Estudos também sugerem que os grupos mais

suscetíveis são as crianças e os idosos.

Esta tese apresenta estudos sobre o efeito da poluição do ar na saúde na saúde na cidade

do Rio de Janeiro e aborda aspectos metodológicos sobre a análise de dados e imputação de

dados faltantes em séries temporais epidemiológicas. A análise de séries temporais foi usada

para estimar o efeito da poluição do ar na mortalidade de pessoas idosas por câncer de pulmão

com dados dos anos 2000 e 2001. Este estudo teve como objetivo avaliar se a poluição do ar

está associada com antecipação de óbitos de pessoas que já fazem parte de uma população de

risco. Outro estudo foi realizado para avaliar o efeito da poluição do ar no baixo peso ao

nascer de nascimentos a termo. O desenho deste estudo foi o de corte transversal usando os

dados disponíveis no ano de 2002. Em ambos os estudos foram estimados efeitos moderados

da poluição do ar.

Aspectos metodológicos dos estudos epidemiológicos da poluição do ar na saúde

também são abordados na tese. Um método para imputação de dados faltantes é proposto e

implementado numa biblioteca para o aplicativo R. A metodologia de imputação é avaliada e

comparada com outros métodos freqüentemente usados para imputação de séries temporais de

concentrações de poluentes atmosféricos por meio de técnicas de simulação. O método

proposto apresentou desempenho superior aos tradicionalmente utilizados. Também é

realizada uma breve revisão da metodologia usada nos estudos de séries temporais sobre os

efeitos da poluição do ar na saúde. Os tópicos abordados na revisão estão implementados

numa biblioteca para a análise de dados de séries temporais epidemiológicas no aplicativo

Page 9: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

viii

estatístico R. O uso da biblioteca é exemplificado com dados de internações hospitalares de

crianças por doenças respiratórias no Rio de Janeiro. Os estudos de cunho metodológico

foram desenvolvidos no âmbito do estudo multicêntrico para avaliação dos efeitos da poluição

do ar na América Latina – o Projeto ESCALA.

Palavras-chave: Poluição do ar, Epidemiologia ambiental, Séries temporais, Modelagem

estatística, Estatística computacional

Page 10: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

ix

ABSTRACT

Air pollution is a public health problem in major urban areas and its effects are

frequently observed in the morbidity and mortality due respiratory and cardiovascular causes,

lung cancer, decreasing in the respiratory function, school absenteeism, and pregnancy

outcomes.

This thesis presents studies on the effects of air pollution on health in the rio ed

Janeiro city and tackle some methodological issues on data analysis and missing data

imputation in epidemiologic time series. Daily time series were used to estimate the effect of

the air pollution on deaths among the elderly due to lung cancer during 2000 and 2001. The

purpose of the study was to evaluate if air pollution is associated with premature deaths of

people that already are in risk population. Another study was conducted to assess the

relationship between air pollution and low birth weight of singleton full term babies. A cross-

sectional design was used on data available during the year 2002. Moderate effects of the air

pollution were estimated in both studies.

Methodological aspects of epidemiologic studies on air pollution are also approached.

A data imputation method is presented and implemented as library for the statistical package

R. The imputation methodology is evaluated and compared to others often used for data

imputation in time series of air pollutant concentrations, through simulation techniques. The

proposed method has shown best performance compared to those traditionally used.

A brief review on the methodology used in the time series studies on the effects of air

pollution on health is also presented. The issues approached in the review are also

implemented as a library for the analysis of epidemiologic time series in R. The use of the

library is exemplified with the analysis on the data of hospital admissions of children due to

respiratory causes in the city of Rio de Janeiro. The methodological studies were carried out

Page 11: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

x

under the umbrella of the multi-city study to assess the effects of air pollution on health in the

Latin America – the ESCALA Project.

Keywords: Environmental epidemiology, Air pollution, Time series, Statistical modeling,

Statistical computing

Page 12: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

xi

LISTA DE FIGURAS Figura 3-1 Mortalidade diária por câncer de pulmão durante o período de estudo..................37

Figura 3-2 Riscos relativos e intervalos de confiança para exposição ao CO para defasagens e

acumulados ...............................................................................................................................39

Figura 4-1 Média diária de peso (em gramas) e proporção diária de baixo peso (< 2.500 g) ao

nascer, de recém-nascidos a termo no município do Rio de Janeiro em 2002. A linha suave é

uma spline com 6 graus de liberdade........................................................................................52

Figura 6-1 Número de internações por DAR em crianças e concentrações de PM10 diárias 120

Figura 6-2 Resíduos do modelo suavizados contra a temperatura máxima ...........................123

Figura 6-3 Valores previstos, resíduos contra o tempo, distância de Cook, função de

correlação parcial, periodograma dos resíduos e de quantis dos resíduos contra quantis da

distribuição normal .................................................................................................................125

Figura 6-4 Gráficos da trajetória dos riscos relativos estimados usando defasagens simples (a)

e modelo de defasagem distribuída com um polinômio de grau 2 (b) até 10 dias .................129

Page 13: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

xii

LISTA DE TABELAS Tabela 3-1 Estatísticas descritivas das variáveis ambientais e desfechos dia a dia..................37

Tabela 3-2 Riscos relativos e intervalos de confiança para exposição ao CO..........................38

Tabela 4-1 Estatísticas descritivas para peso ao nascer e poluentes atmosféricos no Rio de

Janeiro em 2002........................................................................................................................53

Tabela 4-2 Média e desvio padrão de peso ao nascer, proporção de baixo peso ao nascer e RO

ajustadas para variáveis de controle e categorias de exposição................................................54

Tabela 4-3 RO ajustadas e intervalos de confiança de 95% para baixo peso ao nascer por

intervalos interquartis de exposição em cada trimestre da gestação. .......................................55

Tabela 4-4 RO ajustadas para variação de 10 µg/m³ (exceto CO para o qual foi calculado para

uma variação de 1 µg/m³) na concentração dos poluentes para cada trimestre da gestação. ...56

Tabela 5-1 Medidas sumárias de concentrações de PM10 em 10 estações de São Paulo em

µg/m³. .......................................................................................................................................82

Tabela 5-2 Correlações de Pearson para as concentrações de PM10 entre as estações.............83

Tabela 5-3 Correlações de Pearson das concentrações de PM10 entre as estações estratificadas

por trimestre..............................................................................................................................83

Tabela 5-4 Resumo das simulações com a configuração “dispersas” ......................................90

Tabela 5-5 Indicadores de performance para um único padrão de dados faltantes com

configuração “dispersas” ..........................................................................................................94

Tabela 5-6 Coeficiente e erro-padrão dos modelos de associação com penalização sob MAR

..................................................................................................................................................97

Tabela 6-1: Estatísticas descritivas de DAR em crianças e poluentes....................................120

Tabela 6-2: Coeficientes e riscos relativos para diferentes exposições de PM10, SO2, CO, NO2

e O3. MAv é o indicador de médias móveis. k é igual 10.......................................................126

Page 14: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

xiii

LISTA DE ABREVIATURAS AIC – Critério de Informação de Akaike

APHEA – Air Pollution and Health: European Approach

ARIMA – Autoregressive Integrated Moving Average

BPN – Baixo Peso ao Nascer

CETESB – Companhia de Tecnologia de Saneamento Ambiental

CID – Classificação Internacional de Doenças

CIUR – Crescimento Intrauterino Restrito

CO – Monóxido de Carbono

CONAMA – Conselho Nacional do Meio Ambiente

DAR – Doenças do aparelho respiratório

DP – Desvio-padrão

DPOC – Doenças pulmonares obstrutivas crônicas

E(i) – Estação de monitoramento i

EM – Expectation-Maximization

EM-MR – Expectation-Maximization com múltiplos regimes

ENSP – Escola Nacional de Saúde Pública

EPA – Environment Protection Agency

ESCALA – Estúdios de Salud y Contaminación del Aire em Latinoamérica

EUA – Estados Unidos da América

FEEMA - Fundação Estadual de Engenharia de Meio Ambiente

HAP – Hidrocarbonetos Policíclicos Aromáticos

HEI – Health Effects Institute

IC – Intervalo de confiança

INCA – Instituto Nacional do Câncer

MAD – Desvio médio absoluto

MAG – Modelos Aditivos Generalizados

MAR – Missing at random

MAv – Moving averages

MC – Média condicional

MCAR – Missing completely at random

MD – Mediana

MDDP – Modelo de defasagem distribuiída polinomial

Page 15: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

xiv

MI – Média incondicional

MLG – Modelos lineares generalizados

MNAR – Missing non at random

MR – Múltiplos regimes

ND – Não disponível

NMMAPS – National Morbidity and Mortality

NO2 – Dióxidos de Nitrogênio

NOX – Óxidos de Nitrogênio

O3 – Ozônio

OC – Observações completas

OPAS – Organização Panamericana de Saúde

P(n) – Percentil n

PAPA – Public Health and Air Pollution in Asia

PM10 – Material particulado até 10 micra de volume aerodinâmico

PM2,5 – Material particulado até 2,5 micra de volume aerodinâmico

PTS – Partículas Totais em Suspensão

PV – Variância proporcional

RMRJ – Região Metropolitana do Rio de Janeiro

RMSD – Desvio médio quadrático

RO – Razão de odds

RR – Risco relativo

SIM – Sistema de Informação sobre Mortalidade

SINASC – Sistema de Informação sobre Nascidos Vivos

SMAC – Secretaria de Meio Ambiente da Cidade do Rio de Janeiro

SO2 – Dióxidos de Enxofre

SUS – Sistema Único de Saúde

VIGIAR – Vigilância em Saúde Ambiental relacionada com a Qualidade do Ar

VP – Vizinho mais próximo

WHO – World Health Organization

Page 16: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

xv

SUMÁRIO 1 INTRODUÇÃO ............................................................................................................................. 17

1.1 Apresentação ............................................................................................................................. 17

1.2 Programa Ares-Rio .................................................................................................................... 18

1.3 Projeto ESCALA....................................................................................................................... 19

1.4 Poluição do ar e efeitos na saúde............................................................................................... 20

1.5 Justificativas .............................................................................................................................. 24

1.5.1 Poluição do ar e mortalidade por câncer de pulmão ........................................................ 24

1.5.2 Poluição do ar e baixo peso ao nascer ............................................................................. 24

1.5.3 Imputação de dados faltantes em séries temporais .......................................................... 25

1.5.4 Análise de séries temporais em epidemiologia ambiental ............................................... 27

2 OBJETIVOS .................................................................................................................................. 29

2.1 Objetivos gerais......................................................................................................................... 29

2.2 Objetivos específicos................................................................................................................. 29

3 ARTIGO 1: Associação entre mortalidade diária por câncer de pulmão e poluição do ar

no município do Rio de Janeiro: um estudo ecológico de séries temporais ............................................ 31

3.1 Introdução.................................................................................................................................. 33

3.2 Material e Métodos.................................................................................................................... 35

3.3 Resultados ................................................................................................................................. 36

3.4 Discussão................................................................................................................................... 39

3.5 Referências ................................................................................................................................ 40

4 ARTIGO 2: Poluição do ar e baixo peso ao nascer no município do Rio de Janeiro, 2002 .......... 43

4.1 Introdução.................................................................................................................................. 46

4.2 Metodologia............................................................................................................................... 48

4.3 Resultados ................................................................................................................................. 51

Page 17: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

xvi

4.4 Discussão................................................................................................................................... 57

4.5 Referências ................................................................................................................................ 61

5 ARTIGO 3: Imputação de dados faltantes em séries temporais de poluição atmosférica ............. 65

5.1 Introdução.................................................................................................................................. 68

5.2 Métodos ..................................................................................................................................... 72

5.2.1 Procedimento de imputação............................................................................................. 72

5.2.2 Penalização pela informação perdida............................................................................... 75

5.2.3 Dados ............................................................................................................................... 76

5.2.4 Estudo de simulação ........................................................................................................ 76

5.2.5 Indicadores de performance............................................................................................. 79

5.2.6 Recursos computacionais................................................................................................. 81

5.3 Resultados e discussão .............................................................................................................. 81

5.3.1 Descrição dos dados......................................................................................................... 81

5.3.2 Análise de validade .......................................................................................................... 84

5.3.3 Indicadores de performance............................................................................................. 92

5.3.4 Penalização pela informação perdida............................................................................... 95

5.4 Conclusões................................................................................................................................. 97

5.5 Referências .............................................................................................................................. 101

6 ARTIGO 4: Ares: uma biblioteca em R para análises de séries temporais em estudos

sobre a poluição do ar e efeitos na saúde............................................................................................... 103

6.1 Introdução................................................................................................................................ 105

6.2 Métodos ................................................................................................................................... 107

6.2.1 Pressupostos................................................................................................................... 107

6.2.2 Estimação....................................................................................................................... 109

6.2.3 Diagnósticos................................................................................................................... 111

Page 18: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

xvii

6.2.4 Tendência e sazonalidade............................................................................................... 112

6.2.5 Calendário e epidemias .................................................................................................. 114

6.2.6 Fatores meteorológicos .................................................................................................. 115

6.2.7 Efeito dos poluentes....................................................................................................... 116

6.3 Aplicação................................................................................................................................. 118

6.3.1 Dados ............................................................................................................................. 118

6.3.2 Resultados ...................................................................................................................... 119

6.4 Conclusões............................................................................................................................... 130

6.5 Referências .............................................................................................................................. 131

7 CONCLUSÕES ........................................................................................................................... 136

8 REFERÊNCIAS........................................................................................................................... 140

9 APÊNDICES................................................................................................................................ 149

9.1 Apêndice A1: Fluxograma do algoritmo de imputação de dados com componente

temporal ............................................................................................................................................ 150

9.2 Apêndice A2: Fluxograma do estudo de simulação ................................................................ 151

9.3 Apêndice A3: Resumo das simulações com a configuração “esparsa”...................................152

9.4 Apêndice A4: Resumo das simulações com a configuração 3 “em linha”.............................. 153

9.5 Apêndice A5: Resumo das simulações com a configuração 5 “em linha”.............................. 154

9.6 Apêndice A6: Resumo das simulações com a configuração 7 “em linha”.............................. 155

9.7 Apêndice A7: Resumo das simulações com a configuração 3 “em coluna” ........................... 156

9.8 Apêndice A8: Resumo das simulações com a configuração 5 “em coluna” ........................... 157

9.9 Apêndice A9: Resumo das simulações com a configuração 7 “em coluna” ........................... 158

9.10 Apêndice A10: Indicadores de performance para um único padrão de dados

faltantes com a configuração “esparsa” ............................................................................................ 159

9.11 Apêndice A11: Indicadores de performance para um único padrão de dados

Page 19: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

xviii

faltantes com a configuração 3 “em linha”....................................................................................... 161

9.12 Apêndice A12: Indicadores de performance para um único padrão de dados

faltantes com a configuração 5 “em linha”....................................................................................... 163

9.13 Apêndice A13: Indicadores de performance para um único padrão de dados

faltantes com a configuração 7 “em linha”....................................................................................... 165

9.14 Apêndice A14: Indicadores de performance para um único padrão de dados

faltantes com a configuração 3 “em coluna” .................................................................................... 167

9.15 Apêndice A15: Indicadores de performance para um único padrão de dados

faltantes com a configuração 5 “em coluna” .................................................................................... 169

9.16 Apêndice A16: Indicadores de performance para um único padrão de dados

faltantes com a configuração 7 “em coluna” .................................................................................... 171

9.17 Apêndice A17: Coeficiente e erro-padrão dos modelos de associação com

penalização sob MCAR .................................................................................................................... 173

9.18 Apêndice A18: Coeficiente e erro-padrão dos modelos de associação com

penalização sob MNAR.................................................................................................................... 174

9.19 Apêndice A19: Script com exemplo de análise usando a biblioteca ares (artigo 3) .......... 175

9.20 Apêndice A20: CD-ROM com o código fonte e arquivos binários das bibliotecas

mtsdi (artigo 3) e ares (artigo 4) ....................................................................................................... 176

Page 20: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

17

1 INTRODUÇÃO

1.1 Apresentação

Esta tese de doutorado está inserida no Programa Ares-Rio de investigação dos

efeitos da poluição do ar na cidade do Rio de Janeiro, em desenvolvimento nesta

universidade. Os temas abordados na tese representam perguntas de investigação e questões

metodológicas, relacionadas com os efeitos da poluição do ar na saúde humana, abordadas

pelo programa desde sua criação em 2001. Assim, esta tese descreve a trajetória de pesquisa

do seu autor, que tem atuado no Programa Ares-Rio desde sua criação.

Este trabalho está composto de duas partes que compartilham um tema comum “a

poluição do ar e os efeitos na saúde”. Os artigos 1 e 2 constituem temas de investigação dos

efeitos da poluição do ar em subpopulações específicas da cidade do Rio de Janeiro, com o

objetivo de contribuir para a identificação dos fatores de riscos ambientais relacionados com

os eventos de saúde. Estes artigos já foram publicados nos periódicos científicos Revista

Brasileira de Cancerologia e Cadernos de Saúde Pública, respectivamente. Os artigos 3 e 4

têm caráter metodológico e têm como objetivo contribuir com novas ferramentas para o

desenvolvimento de estudos sobre os efeitos da poluição do ar na saúde. Ênfase é dada aos

estudos de séries temporais epidemiológicas. Apesar de orientados para os estudos dos efeitos

da poluição do ar na saúde, os aspectos metodológicos abordados e desenvolvidos nesta tese

podem ser aplicados em outras áreas da Epidemiologia com pouca ou nenhuma adaptação.

Cada artigo apresentado nesta tese constitui uma unidade individual com vistas à

publicação. Assim, na seção de introdução é realizada uma revisão mais ampla sobre o tema

poluição do ar e efeitos na saúde com ênfase nos métodos epidemiológicos. Na seção de

introdução de cada artigo, o leitor poderá identificar os elementos de revisão bibliográfica

enfatizando o tema abordado no respectivo artigo. O leitor poderá notar ainda que algumas

Page 21: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

18

referências bibliográficas são comuns a mais de um artigo.

Este volume está organizado da seguinte forma: o Capítulo 1 contextualiza a tese no

programa de investigação em que foi desenvolvida, apresenta um histórico do método

epidemiológico em estudos sobre poluição doar e efeitos na saúde e apresenta as justificativas

para a realização de cada estudo. Os objetivos de cada estudo estão descritos no Capítulo 2.

Os Capítulos 3 e 4 apresentam os artigos referentes aos estudos epidemiológicos realizados na

cidade do Rio de Janeiro. Os Capítulos 5 e 6 apresentam os artigos referentes aos estudos

metodológicos. Ao final de cada artigo estão listadas as referências bibliográficas do

respectivo artigo e no Capítulo 8 estão listadas todas as referências bibliográficas usadas na

tese. A seção de apêndices, nas páginas finais do volume, inclui tabelas e outros materiais não

publicáveis dos artigos. Os códigos fonte e arquivos binários referentes às bibliotecas

desenvolvidas como parte dos estudos metodológicos estão incluídos em um CD-ROM no

Apêndice A20.

1.2 Programa Ares-Rio

O Programa Ares-Rio tem suas atividades orientadas para o desenvolvimento de

estudos sobre os efeitos da poluição do ar na saúde da população da cidade do Rio de Janeiro.

Entretanto, estudos recentes incluem cidades vizinhas pertencentes à Região Metropolitana do

Rio de Janeiro (RMRJ) e a cidade de Vitória no estado do Espírito Santo, em colaboração com

pesquisadores da Escola Nacional de Saúde Pública (ENSP) da Fiocruz e com o Ministério da

Saúde. O programa Ares-Rio também colabora com pesquisadores de diversas instituições do

Rio de Janeiro, São Paulo e Mato Grosso no estudo de avaliação dos efeitos da queima de

biomassa à saúde da população da Amazônia Legal conhecida como Arco do Desmatamento.

Este estudo é um dos subprojetos do Instituto do Milênio Integração de abordagens do

ambiente, uso da terra e dinâmica social na Amazônia: as relações homem-ambiente e o

Page 22: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

19

desafio da sustentabilidade. O Programa também é membro do Projeto ESCALA (Estudios de

Salud y Contaminación del Aire en Latinoamérica), um estudo multicêntrico sobre os efeitos

da poluição do ar na saúde, incluindo cidades do Brasil, Chile e México. No Brasil a

colaboração se dá por meio da Faculdade de Medicina da Universidade de São Paulo.

Considerando aspectos metodológicos, o Programa Ares-Rio tem investigado com

maior ênfase os modelos semi-paramétricos para dados de contagem com dependência

temporal, os métodos de imputação de dados faltantes e o uso do aplicativo estatístico R (R

Development Core Team, 2007) em estudos epidemiológicos, que são objetos desta tese. Os

principais trabalhos metodológicos desenvolvidos no âmbito do Programa Ares-Rio estão

implementados em bibliotecas para o R. Atualmente, o Programa está também desenvolvendo

uma interface gráfica orientada para a análise de dados epidemiológicos usando o R em

colaboração com o Ministério da Saúde.

Do ponto de vista institucional, os pesquisadores do Programa Ares-Rio são

membros do grupo técnico assessor do VIGIAR, o Programa Nacional de Vigilância em

Saúde Ambiental Relacionada com a Qualidade do Ar do Ministério da Saúde (Brasil, 2006).

Esta participação inclui a definição de indicadores ambientais e de saúde e de metodologias

com aplicações na vigilância em saúde e, ainda, a capacitação de técnicos do VIGIAR das

secretarias estaduais de saúde em tais metodologias.

1.3 Projeto ESCALA

O Projeto ESCALA (Estudios de Salud y Contaminación del Aire en Latinoamérica)

é um projeto multicêntrico que reúne um grupo de investigadores a fim de avaliar os efeitos

da poluição do ar na saúde em várias cidades da América Latina. Os membros do projeto

usam um protocolo comum de análise a fim de obter informações comparáveis para diversos

grupos de idades e causas. Atualmente participam do projeto 3 cidades brasileiras, 3 chilenas

Page 23: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

20

e 3 mexicanas. A meta do Projeto ESCALA é contribuir com a discussão internacional sobre

os efeitos de curto prazo da poluição do ar e prover informação para os gestores latino-

americanos a fim de apoiar políticas de redução e controle da poluição atmosférica (Gouveia

et al, 2007).

1.4 Poluição do ar e efeitos na saúde

Os estudos epidemiológicos constituem uma das linhas de investigação empregadas

para caracterizar os efeitos da poluição na saúde. Em oposição aos estudos de laboratório ou

ensaios clínicos, os estudos epidemiológicos observacionais abordam os efeitos dos poluentes

em suspensão na atmosfera em populações. Seus resultados podem descrever a relação entre a

exposição e o evento de interesse e avaliar os efeitos em subgrupos específicos da população,

e.g. pessoas idosas. Geralmente, estudos epidemiológicos são desenvolvidos com a finalidade

de determinar se a poluição do ar constitui perigo para as pessoas, ou conhecer a relação entre

níveis de exposição e eventos de saúde ou, ainda, avaliar como populações suscetíveis se

comportam quando expostas a altas concentrações de poluição do ar (Samet e Jaakkola,

1999).

Grandes eventos de poluição do ar ocorridos na primeira metade do século XX

estabeleceram que altas concentrações de poluentes atmosféricos podem resultar em aumentos

na morbidade e na mortalidade. Os eventos mais conhecidos ocorreram em 1930, no Vale

Meuse, Bélgica; 1948, em Donora, EUA e 1952 em Londres, Inglaterra (Brunekreef e

Holgate, 2002; Greater London Authority, 2002; Schwartz, 1994). Na segunda metade do

século, foram adotadas medidas para a redução da emissão de poluentes na atmosfera e

episódios de poluição de grande magnitude não voltaram a ocorrer. As principais medidas

foram a criação do Clean Air Act britânico em 1956 e do Clean Air Act nos EUA em 1963 e

suas várias emendas (EPA, 1990).

Page 24: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

21

Nos EUA, no início da década de 1970, iniciou-se um programa nacional de estudos

epidemiológicos conhecido como Community Health and Surveillance System. Este foi o

primeiro programa com a finalidade de avaliar o efeito da poluição do ar na saúde em larga

escala usando estudos epidemiológicos. Em seguida, Ferris e colaboradores (1979)

investigaram os efeitos de óxidos de enxofre e material particulado na saúde. O estudo ficou

conhecido como Six City Study e incluía 20.000 crianças e adultos provenientes de 6 cidades

americanas com elevados níveis de poluição. Na década de 1980, o mesmo grupo

implementou um segundo estudo de âmbito nacional incluindo 24 cidades para investigar os

efeitos dos aerossóis ácidos (Speizer, 1989). Os estudos envolvendo várias cidades se

tornaram necessários devido aos baixos efeitos observados em função da redução dos níveis

de poluentes ambientais (Samet e Jaakkola, 1999).

Na década de 1990 houve uma crescente onda de estudos usando séries temporais para

avaliar os efeitos da poluição do ar na saúde. Estes estudos buscavam estimar associações

entre concentrações diárias de contaminantes com contagens diárias de eventos de saúde

como óbitos, internações hospitalares e atendimentos de emergência, obtendo estimativa do

efeito agudo. Os estudos epidemiológicos de séries temporais têm o atrativo de os dados de

saúde serem coletados rotineiramente, os dados ambientais com fim de regulação e os fatores

de confusão normalmente são dados de domínio público. Este último não é necessariamente

verdade em algumas cidades (Schwartz et al, 1996). Os estudos de séries temporais onde os

dados estão disponíveis produzem resultados rápidos e apresentam baixo custo de execução.

O desenvolvimento de novas técnicas estatísticas mais flexíveis para a análise de séries

temporais, a disponibilidade de aplicativos de análise de dados e a popularização de

computadores mais rápidos e acessíveis também facilitaram o sucesso desta metodologia.

Alguns dos primeiros estudos usando a metodologia de análise de séries temporais

epidemiológicas foram publicados no início da década de 1990. Schwartz e colaboradores

Page 25: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

22

(1991) usaram diários com sintomas respiratórios e encontraram associação entre tosse em

crianças e dióxido de enxofre em Los Angeles, EUA. Sunyer e colaboradores (1991) usaram o

mesmo desenho para estimar a associação entre poluição do ar e atendimentos de emergência

em Barcelona, Espanha. Schwartz e Marcus (1990) encontraram associação de material

particulado com a mortalidade em Londres, Inglaterra, usando dados dos períodos de inverno

dos anos 1958 a 1972. Entretanto, uma busca pelos termos “time series air pollution health”

no PubMed (www.pubmed.org) revela o estudo de Goldstein e Rausch (1978) que usa uma

análise de séries temporais com dados diários para avaliar o efeito da poluição do ar na

morbidade. Análise de séries temporais usando modelos de regressão de Poisson foi a

metodologia usada nas análises do projeto APHEA (Air Pollution and Health: A European

Approach) (Katsouyanni et al, 1996).

Um grande passo para análise de séries temporais em estudos dos efeitos agudos da

poluição do ar foi a adoção dos modelos aditivos generalizados (MAG). Os MAG permitem

modelar estruturas como tendência e sazonalidade de forma não linear, introduzindo grande

flexibilidade à modelagem. Associações não lineares dos fatores de confusão como

temperatura e umidade podem ser modeladas por meio de funções suaves. Um dos primeiros

trabalhos usando modelos de regressão de Poisson semi-paramétricos publicados é o estudo

de Hajat e colaboradores (2001) no qual investigaram a associação entre poluição do ar e

consultas diárias em clínica geral por queixa de rinite alérgica em Londres.

A análise de séries temporais usando modelos de regressão de Poisson via MAG

formaram a metodologia padrão de análises nos estudos multi-cidades desenvolvidos na

Europa, o APHEA2 (Air Pollution and Health: A European Approach) (Katsouyanni et al,

2001), e nos Estados Unidos, o NMMAPS (National Morbidity and Mortality Air Pollution

Study) (Samet et al, 2000), na Ásia, o PAPA (Public Health and Air Pollution in Asia) (HEI,

2004). A mesma estratégia está sendo adotada nas análises das séries temporais no projeto

Page 26: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

23

ESCALA, um projeto multicêntrico envolvendo cidades do Brasil, México e Chile (Gouveia

et al, 2007). Este trabalho está sendo desenvolvido no âmbito do projeto ESCALA. A

metodologia é apresentada em detalhes no Capítulo 6.

Atualmente, o aumento nos níveis de poluição se deve principalmente ao crescimento

da frota de veículos automotores, que hoje em alguns países representa a principal fonte

poluidora. As emissões devidas à queima de combustíveis fósseis são muito menores hoje do

que há 50 anos. Entretanto, as concentrações de poluentes fotoquímicos como o ozônio (O3) e

óxidos de nitrogênio (NOx) têm crescido rapidamente em função do aumento da frota de

veículos automotores (Brunekreef e Holgate, 2002). Nos países da América Latina e o Caribe,

a grande preocupação concerne aos crescimentos econômico e populacional que demandam

transporte e geração de energia. Estes fatores são importantes determinantes da qualidade do

ar (PAHO, 2005). Estudos desenvolvidos na Cidade do México (Romieu et al, 1992; Telez-

Rojo et al, 2001), Santiago (Cifuentes et al, 2000), São Paulo (Martins et al, 2004; Gouveia e

Fletcher, 2000; Saldiva et al, 1995) e Rio de Janeiro (Brasil, 2005; Gouveia et al, 2003;

Daumas et al, 2004) mostram que a poluição do ar urbana constitui uma questão de saúde

pública na região. A queima de biomassa relacionada com a agricultura também contribui

consideravelmente para o aumento das emissões de poluentes na atmosfera (Ignotti et al,

2007; Arbex et al, 2004).

No Brasil, as ações para o controle da qualidade do ar incluem a Resolução CONAMA

03/1990 que estabelece os padrões de qualidade do ar (Brasil, 1990) e a criação em 2001 da

Vigilância em Saúde Ambiental relacionada à Qualidade do Ar (VIGIAR), no âmbito da

Secretaria de Vigilância em Saúde do Ministério da Saúde. O VIGIAR tem como objetivos

exercer a vigilância e produzir informações a fim de promover a redução e prevenção dos

agravos à saúde das populações expostas a poluentes atmosféricos (Brasil, 2006).

Page 27: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

24

1.5 Justificativas

1.5.1 Poluição do ar e mortalidade por câncer de pulmão

O câncer de pulmão é o tipo mais comum da doença e apresenta baixa sobrevida,

sobretudo em países em desenvolvimento. A estimativa de incidência para 2008 no Brasil é de

19 casos por 100 mil habitantes do sexo masculino e 10 novos casos por 100 mil mulheres

(INCA, 2007). A alta incidência de câncer de pulmão da ordem de 90% associada com o

tabagismo complica a identificação de poluentes atmosféricos relacionados com a etiologia do

câncer de pulmão, agindo de forma independente ou associados com o tabaco (Zamboni,

2002; McClellan e Jackson, 1999).

O objetivo deste estudo é avaliar o efeito da poluição do ar em uma população com

grande suscetibilidade, adultos e pessoas com idade maior que 65 anos com câncer de

pulmão. Como o desenho adotado para o estudo avalia apenas o efeito de curto prazo, este

estudo não busca associar a poluição do ar com a instalação da neoplasia no indivíduo, mas

sim com o agravamento da doença pré-existente e conseqüente diminuição da sobrevida. O

estudo foi motivado por investigações que avaliam o efeito da poluição do ar na mortalidade

por doenças pulmonares obstrutivas crônicas (DPOC). Em tais estudos, a subpopulação com

maior suscetibilidade é formada pelos indivíduos que sofrem de DPOC (Sunyer et al, 2000).

1.5.2 Poluição do ar e baixo peso ao nascer

No Brasil, estudos têm encontrado associações entre poluentes atmosféricos e eventos

de saúde relacionados com a gravidez. Em São Paulo, Pereira e colaboradores (1998), com

dados de 1991 e 1992, encontraram associação positiva entre NO2, SO2 e CO e mortalidade

intra-uterina. Também em São Paulo, com dados do ano de 1997, Gouveia e colaboradores

(2004) encontraram associação positiva entre os níveis de PM10 e CO e baixo peso ao nascer

de recém-nascidos a termo de gestação única. Diversos estudos sobre os efeitos da poluição

Page 28: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

25

do ar sobre os desfechos da gravidez têm sido desenvolvidos em todo o mundo, entretanto, o

conhecimento destes efeitos sobre a população é ainda muito restrito.

O objetivo deste trabalho é avaliar se exposição da mãe à poluição atmosférica durante

o período de gestação pode influenciar de forma deletéria o peso no nascimento. A relevância

do estudo deve-se ao fato de que o baixo peso ao nascer está fortemente relacionado com a

mortalidade infantil (Oliveira et al, 2007). A motivação para desenvolver este estudo no Rio

de Janeiro foi somar aos estudos de São Paulo informação para um melhor entendimento dos

efeitos da poluição em desfechos relacionados com a gravidez no Brasil.

1.5.3 Imputação de dados faltantes em séries temporais

O problema de dados incompletos surge com freqüência em estudos epidemiológicos,

por exemplo, itens não respondidos em um survey, pacientes que não comparecem ao follow-

up, dados de sistemas de informação em saúde não disponíveis para algumas unidades de

estudo etc. Durante muito tempo, o problema de dados incompletos tem sido extensivamente

estudado e vários métodos para lidar com o problema foram publicados na literatura

estatística (Schafer, 1997; Little, 1992; Little e Rubin, 1989, Dempster et al, 1977; Rubin,

1976; Beale e Little, 1975; Hartley e Hocking, 1971), porém pouca atenção tem sido dada em

textos epidemiológicos (Miettinen, 1985; Greenland e Rothman, 1998).

Rubin (1976) classifica dados incompletos de acordo com o mecanismo gerador do

padrão de valores faltantes. De acordo com esta classificação o conceito de dados “faltantes

completamente ao acaso” ou MCAR (missing completely at random) consiste simplesmente

em uma amostra aleatória de todos os valores observados e não-observados. Os dados

“faltantes ao acaso” ou MAR (missing at random) consiste em uma amostra aleatória dos

valores que foram efetivamente observados e os dados “faltantes não ao acaso” ou MNAR

Page 29: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

26

(missing non at random) cuja distribuição depende dos valores que estão faltantes e, portanto,

são também referidos como de causa não-ignorável.

Uma definição mais formal dos mecanismos de dados faltantes pode ser apresentada

dividindo o conjunto de dados Y , uma matriz n p× , em duas partes referentes aos dados

observados e aos dados faltantes, tal que ( , )obs fal=Y Y Y . É preciso definir também uma

matriz R com as mesmas dimensões de Y , tal que cada elemento de R tem valor 1 se o

respectivo elemento em Y está faltando e 0 caso contrário. É razoável admitir que a

distribuição de R está relacionada com Y e algum vetor de parâmetros desconhecidos

denotado por ζ . A hipótese de MCAR implica que ( ) ( )| , , |obs falP P=R Y Y ζ R ζ , sob MAR

( ) ( )| , , | ,obs fal obsP P=R Y Y ζ R Y ζ e sob MNAR ( ) ( )| , , | ,obs fal falP P=R Y Y ζ R Y ζ . O

pressuposto de MCAR é demasiado restritivo para as aplicações gerais. Em estudos

epidemiológicos é comum que a distribuição dos registros faltantes esteja relacionada com o

status de exposição ou doença. Assim, os pressupostos de MAR para o mecanismo gerador

dos dados faltantes podem ser mais realistas (Greenland e Finkle, 1995).

Em estudos sobre os efeitos da poluição do ar na saúde, os equipamentos de aferição

das concentrações de contaminantes na atmosfera sofrem freqüentemente mau funcionamento

que impossibilitam sua operação por horas ou mesmo dias. Mesmo redes de monitoramento

da qualidade do ar com adequada manutenção apresentam lacunas nos dados aferidos. O

município do Rio de Janeiro dispõe de duas pequenas redes de monitoramento num total de 6

estações. Lacunas persistentes nos dados podem comprometer a análise em estudos sobre os

efeitos da poluição do ar na saúde.

O objetivo deste trabalho é desenvolver uma metodologia de imputação de dados

faltantes em séries temporais ambientais. Em particular de concentrações de poluentes. A

configuração da rede consistindo de vários monitores dá ao conjunto de dados um caráter

multivariado. Esta característica é explorada pelo método, o que permite que este possa ser

Page 30: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

27

aplicado a dados exibindo configurações semelhantes. Um objetivo secundário do trabalho é

implementar a metodologia em uma biblioteca para o aplicativo de análise estatística R (R

Development Core Team, 2007). Este método de imputação de dados faltantes foi incorporado

ao protocolo de análise de dados do Projeto ESCALA.

1.5.4 Análise de séries temporais em epidemiologia ambiental

Os estudos de séries temporais sobre os efeitos da poluição do ar na saúde, geralmente,

utilizam dados de fontes secundárias agregados, tanto a exposição quanto o indicador de

saúde. As principais vantagens do uso deste desenho nos estudos epidemiológicos são que um

mesmo grupo de indivíduos avaliados ao longo do tempo tende a manter suas características

constantes durante o período de estudo. Fatores individuais como residência, ocupação, dieta,

tabagismo e atividades físicas não variam diariamente e, portanto, não precisam ser

controlados. Outros fatores de confusão em potencial como efeito de calendário, fatores

climáticos, epidemias e estruturas da própria série como tendência e sazonalidade podem ser

facilmente controlados. A análise estatística em estudos de séries temporais sobre a associação

entre poluentes atmosféricos e eventos de saúde envolve decisões baseadas em testes e

diagnósticos em cada etapa do processo. Alguns destes procedimentos de avaliação de

modelos são computacionalmente intensivos e muitas vezes requerem complexa programação

(Schwartz et al, 1996).

O objetivo deste trabalho é apresentar uma breve revisão da metodologia de análise de

séries temporais em estudos epidemiológicos sobre os efeitos da poluição do ar na saúde e

implementar tais metodologias na forma de uma biblioteca para o aplicativo R (R

Development Core Team, 2007). Um objetivo secundário deste trabalho é exemplificar o uso

da biblioteca usando dados de admissões hospitalares por doenças respiratórias em crianças

na cidade do Rio de Janeiro. A motivação para desenvolver este trabalho reside no fato que o

Page 31: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

28

estudo dos efeitos da poluição na saúde usando séries temporais é utilizado em vários estudos

em todo o mundo. Em particular, esta é a abordagem analítica primária do Projeto ESCALA.

Page 32: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

29

2 OBJETIVOS

2.1 Objetivos gerais

Avaliar o efeito da poluição do ar em populações suscetíveis no município do Rio de

Janeiro usando diferentes eventos de saúde.

Desenvolver metodologias de imputação e análise de séries temporais com a

implementação de interfaces computacionais no ambiente R para análise de dados em

epidemiologia ambiental.

2.2 Objetivos específicos

Artigo 1: Poluição do ar e mortalidade por câncer de pulmão

Estimar o efeito da poluição do ar na mortalidade considerando todas as idades e

idade maior que 65 anos devido a câncer de pulmão, na cidade do Rio de Janeiro.

Artigo 2: Poluição do ar e baixo peso ao nascer

Estimar os efeitos da exposição da mãe a poluentes atmosféricos durante o período

de gestação no peso da criança no nascimento, na cidade do Rio de Janeiro.

Artigo 3: Imputação de dados faltantes em séries temporais

Propor uma metodologia de imputação de dados faltantes em séries temporais

ambientais e implementar a metodologia de imputação em uma biblioteca para o aplicativo de

análise estatística R.

Artigo 4: Análise de séries temporais em epidemiologia ambiental

Page 33: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

30

Apresentar uma breve revisão da metodologia de análise de séries temporais em

estudos epidemiológicos sobre os efeitos da poluição do ar na saúde; implementar tais

metodologias na forma de uma biblioteca para o aplicativo R e exemplificar o uso da

biblioteca usando dados de admissões hospitalares por doenças respiratórias em crianças na

cidade do Rio de Janeiro.

Page 34: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

31

3 ARTIGO 1: Associação entre mortalidade diária por câncer de pulmão e poluição

do ar no município do Rio de Janeiro: um estudo ecológico de séries temporais

Short term association between lung cancer and air pollution in Rio de Janeiro: a daily time

series study

Washington Leite Junger

Antonio Ponce de Leon

Departamento de Epidemiologia

Instituto de Medicina Social

Universidade do Estado do Rio de Janeiro

Gulnar Azevedo e Silva Mendonça

Instituto Nacional do Câncer

Revista Brasileira de Cancerologia, 2005; 51(2):111-115

Page 35: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

32

Resumo

Diversos estudos têm mostrado associações estatísticas entre níveis de poluição

atmosférica e morbidade e/ou mortalidade nas populações. Os principais desfechos de saúde

considerados nestes estudos são as doenças respiratórias, cardiovasculares e, mais

recentemente, o câncer de pulmão. Neste trabalho, foi investigada a associação entre poluição

do ar e mortalidade por câncer de pulmão em idosos no município do Rio de Janeiro, entre

setembro de 2000 a dezembro de 2001. O desenho de estudo epidemiológico adotado foi o

ecológico com uma abordagem séries temporais diárias. Para ajuste dos fatores de confusão e

estimativa do efeito foi utilizada a regressão de Poisson semi-paramétrica. Foram encontrados

efeitos estatisticamente significativos para o monóxido de carbono (CO) com riscos relativos

1,130 (IC 95%: 1,000; 1,276) e 1,232 (IC 95%: 1,003; 1,515) para exposição ao CO com

defasagem de três dias e acumulada de sete dias respectivamente.

Abstract

Several studies have shown statistical association between air pollution levels and

morbidity and/or mortality in populations. The most common outcomes regarded in these

studies are respiratory and cardiovascular diseases and also lung cancer recently. The aim of

this work is to estimate the association between air pollution and lung cancer mortality among

elderly people in Rio de Janeiro, from September 2000 to December 2001. An ecological time

series approach was used. In order to adjust for confounders and estimate the effects of

interest, semiparametric Poisson regression was applied. Statistically significant effects were

found for carbon monoxide (CO) but not for the other pollutants analysed. The relative risks

were 1.130 (CI 95%: 1.000; 1.276) and 1.232 (CI 95%: 1.003; 1.515) for three days lagged

and cumulative seven days exposure to CO respectively.

Page 36: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

33

3.1 Introdução

Estudos recentes utilizando diferentes desenhos epidemiológicos têm fornecido

evidências sobre efeitos nocivos da poluição ambiental sobre a saúde da população. Aumentos

nos níveis de alguns poluentes atmosféricos têm sido associados com aumento de óbitos e de

morbidade por doenças, principalmente, respiratórias e cardiovasculares (Daumas et al, 2004;

Gouveia e Fletcher, 2000; Atkinson et al, 2001; Samet et al, 2000; Ponce de Leon et al, 1996).

A preocupação com efeitos deletérios da poluição recebeu maior atenção a partir dos

episódios de alta concentração de poluentes ocorridos no Vale Meuse, na Bélgica, em 1930,

em Donora (Pensilvânia), nos EUA, em 1948, e em Londres, na Inglaterra, em dezembro de

1952. Neste último, o número estimado de mortes prematuras foi de 4.000 e se estima que

entre dezembro de 1952 e março de 1953 foram registradas mais de 13.500 mortes acima do

esperado para o período (Bell et al, 2004).

Com a adoção de medidas visando reduzir a emissão de poluentes atmosféricos,

episódios como estes não foram mais reportados. Atualmente, o aumento nos níveis de

poluição é devido principalmente ao crescimento da frota de veículos automotores que hoje,

em algumas metrópoles, representa a principal fonte poluidora. O surgimento de novas

técnicas estatísticas viabilizou o estudo dos efeitos da poluição do ar sobre a saúde mesmo

quando os níveis de poluição ambiental são menores do que aqueles considerados como

nocivos pela Organização Mundial de Saúde (Brunekreef e Holgate, 2002).

Além da consistente relação com o aumento de internações e óbitos por doenças

respiratórias e cardiovasculares, alguns estudos epidemiológicos realizados nos últimos 40

anos também têm mostrado a existência de associação entre poluição ambiental e câncer de

pulmão (Katsouyanni e Pershagen, 1997; Pershagen, 1990). Entretanto, a atenção sobre esta

relação é difícil de se precisar muito em decorrência da forte predominância do papel do fumo

na etiologia desta doença (Cohen et al, 1997).

Page 37: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

34

Os principais agentes poluidores ambientais considerados carcinógenos são os

subprodutos da queima incompleta dos combustíveis fósseis, sobretudo o diesel. A poluição

do ar, principalmente em grandes centros urbanos, é formada por uma mistura bastante

variável e complexa destes compostos. Entre eles se destacam o benzeno, os benzo[a]pirenos

e os compostos orgânicos e inorgânicos. Os hidrocarbonetos policíclicos aromáticos (HAP)

incluem vários destes carcinógenos. Os óxidos de nitrogênio podem reagir com os HAP

formando potentes substâncias mutagênicas e carcinogênicas (Pershagen, 1990; Cohen et al,

1997; Speizer, 1986).

Flutuações de curto prazo nos níveis dos poluentes são determinadas por variações

meteorológicas locais e as concentrações destes poluentes normalmente estão correlacionadas

no tempo, assim qualquer um dos poluentes pode ser utilizado como um indicador da mistura.

Entretanto, em longo prazo, mudanças na emissão de poluentes podem resultar em

modificações substanciais na mistura de poluição do ar. É importante considerar que a

presença de agentes carcinógenos na mistura que compõe a poluição atmosférica poderia em

parte explicar porque a poluição do ar poderia aumentar o risco de câncer de pulmão e

possivelmente de outros cânceres (Katsouyanni e Pershagen, 1997; Cohen et al, 1997) ou

mesmo abreviar a sobrevida de pacientes com estes tipos de câncer. Estudo recente

desenvolvido em Montreal, Canadá, que utilizou metodologia estatística baseada em modelos

aditivos generalizados, encontrou efeitos significativos da poluição sobre a mortalidade por

câncer de pulmão (Goldberg et al, 2001).

O objetivo deste trabalho é avaliar o efeito da variação diária nas concentrações de

poluentes atmosféricos sobre o número diário de óbitos que têm como causa básica câncer de

pulmão, na população do município do Rio de Janeiro.

Page 38: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

35

3.2 Material e Métodos

Dados

A investigação da associação entre a exposição à poluição do ar e o número diário de

óbitos por câncer de pulmão, no Rio de Janeiro, foi realizada utilizando-se um desenho

ecológico de caráter temporal a partir de dados provenientes de fontes secundárias. O período

de estudo foi de setembro de 2000 a dezembro de 2001,

A partir do Sistema de Informações sobre Mortalidade (SIM), foram geradas séries

diárias de óbitos cuja causa básica informada no atestado de óbito foi “neoplasias malignas

dos brônquios e dos pulmões” (CID 10, código C34), para todas as idades e para idosos com

65 anos ou mais.

A estimativa média da exposição diária da população residente no Rio de Janeiro à

poluição foi obtida a partir das médias aritméticas das medidas das redes de monitoramento

da qualidade do ar da Secretaria Municipal do Meio Ambiente (SMAC) e da Fundação

Estadual de Engenharia de Meio Ambiente (FEEMA). Os poluentes atmosféricos analisados

foram: material particulado com até 10 micra de volume aerodinâmico (PM10), dióxido de

enxofre (SO2) e monóxido de carbono (CO), dióxido de nitrogênio (NO2) e ozônio (O3).

Para o ajuste dos dados em relação a fatores meteorológicos foram calculadas as

médias aritméticas das medidas de umidade e temperatura (mínima, média e máxima)

registradas pelos monitores localizados nos aeroportos civis e militares da cidade e pelo

monitor existente no bairro Maracanã. Os dados foram cedidos pelo Departamento de

Meteorologia da Aeronáutica e Departamento de Climatologia da Universidade do Estado do

Rio de Janeiro respectivamente. Dados faltantes foram imputados quando ao menos a metade

das observações diárias das concentrações do poluente estavam disponíveis. O método de

imputação leva em consideração as correlações entre as concentrações de poluentes no espaço

e sua estrutura temporal (Junger et al, 2003).

Page 39: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

36

Análise estatística

A análise estatística foi realizada utilizando-se modelos de regressão de Poisson semi-

paramétrica (modelos aditivos generalizados) implementada no pacote estatístico S-Plus

(Hastie e Tibishirani, 1990). A estratégia da análise consistiu em modelar a tendência e a

sazonalidade da série através de funções splines do tempo; os dias de semana e feriados

através de variáveis indicadoras; as condições meteorológicas através de funções splines da

temperatura e da umidade relativa do ar. Técnicas de diagnósticos usuais em análise de

regressão foram utilizadas para avaliar a inclusão ou exclusão de termos no modelo, bem

como a qualidade de ajuste do modelo final. Finalmente, foram adicionados ao modelo os

termos correspondentes às concentrações diárias dos poluentes assumindo-se que a associação

com a variável resposta é linear. Foram investigadas as associações da exposição no dia

corrente, defasagens de até três dias e médias móveis de dois a sete dias anteriores ao

desfecho. As médias móveis representam a exposição acumulada nos dias anteriores ao

desfecho. Desta forma, foi possível calcular o excesso de óbitos associados às flutuações nos

níveis de poluição (Schwartz et al, 1996; Katsouyanni et al, 1996).

Os riscos relativos (RR) para internações correspondem a um aumento de 10 µg/m3

nos níveis dos poluentes (exceto para o CO, para o qual se calculou o RR para um aumento de

1 ppm). Um nível de significância de 5% foi adotado nas análises.

3.3 Resultados

Estatísticas descritivas das variáveis de desfecho, de poluentes atmosféricos e dos

fatores de ajustamento estão dispostas na Tabela 3-1. Após a imputação não havia observações

faltando nas séries de PM10 e CO e aproximadamente 10% das observações estavam faltando

Page 40: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

37

nas séries de SO2 e O3. Entretanto, 43% dos dados de NO2 não estavam disponíveis, tornando

as estimativas do efeito deste poluente pouco precisas.

Tabela 3-1 Estatísticas descritivas das variáveis ambientais e desfechos dia a dia

Média DP Mín p10 p50 p90 Máx PM10 55,85 16,75 17,94 37,41 53,52 78,13 135,23 SO2 11,50 6,94 1,25 4,29 10,14 19,77 49,67 NO2 51,70 24,58 14,51 25,93 48,74 79,87 207,19 CO 1,20 0,45 0,42 0,69 1,14 1,80 3,06 O3 29,10 16,01 2,46 9,13 31,08 48,89 85,68 Temperatura máxima 29,71 3,78 20,12 24,61 29,65 34,70 38,52 Temperatura média 25,09 2,87 18,06 21,39 25,06 28,82 31,14 Temperatura mínima 21,67 2,74 14,90 17,98 21,62 25,06 26,86 Umidade Relativa 77,74 6,67 60,34 68,92 77,74 86,26 96,14 Neoplasias do pulmão

Todas as idades 3,07 1,77 0 1 3 5 10 65 anos ou mais 1,84 1,38 0 0 2 4 8

DP – Desvio padrão; pn – percentil n

O gráfico da Figura 3-1 descreve o número diário observado e suavizado de óbitos

cuja causa básica é câncer de pulmão. A curva suavizada pela spline não indica tendência de

longo prazo. Entretanto, podemos observar um padrão de sazonalidade com picos nos

períodos referentes a extremos de temperatura.

01/09/00 01/12/00 01/03/01 01/06/01 01/09/01 01/12/01

02

46

810

Óbi

tos

por

cânc

er d

e pu

lmão

observadosuavizado

Figura 3-1 Mortalidade diária por câncer de pulmão durante o período de estudo

Page 41: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

38

Após o ajuste pelos fatores de confusão (sazonalidade, temperatura e umidade), as

variáveis de concentrações diárias dos poluentes foram introduzidas no modelo uma por vez,

assim como as defasagens e as médias móveis.

Na análise da série de óbitos de indivíduos com mais de 65 anos cuja causa básica foi

câncer de pulmão, não foi encontrada associação significativa com nenhum dos poluentes

analisados. No entanto, considerando-se todas as idades, apesar de não terem sido

encontradas associações significativas para os poluentes analisados PM10, SO2, NO2 e O3, a

exposição ao monóxido de carbono se mostrou associada ao aumento de óbitos por câncer de

pulmão com uma defasagem de três dias (RR= 1,130, IC 95% 1,000; 1,276) e exposição

acumulada dos últimos sete dias (RR = 1,232, IC 95% 1,003; 1,515), como mostram a Tabela

3-2 e a Figura 3-2.

Tabela 3-2 Riscos relativos e intervalos de confiança para exposição ao CO

Medida da exposição RR IC(95%) dia corrente 1,018 (0,898; 1,154) defasagem de 1 dia 1,052 (0,931; 1,189) defasagem de 2 dias 1,084 (0,959; 1,226) defasagem de 3 dias 1,130 (1,000; 1,276) acumulado 2 dias 1,051 (0,911; 1,213) acumulado 3 dias 1,098 (0,936; 1,288) acumulado 4 dias 1,168 (0,982; 1,388) acumulado 5 dias 1,176 (0,977; 1,414) acumulado 6 dias 1,201 (0,987; 1,462) acumulado 7 dias 1,232 (1,003; 1,515)

Page 42: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

39

0.80

0.90

1.00

1.10

1.20

1.30

1.40

1.50

1.60

dia cor r ente def 1 def 2 def 3 acum 2 acum 3 acum 4 acum 5 acum 6 acum 7

CO

Figura 3-2 Riscos relativos e intervalos de confiança para exposição ao CO para defasagens e acumulados

3.4 Discussão

Apesar das limitações inerentes ao desenho de estudo utilizado neste trabalho, foi

possível encontrar associação estatisticamente significativa entre poluição do ar e mortalidade

por câncer de pulmão no município do Rio de Janeiro. Para interpretarmos os resultados

obtidos neste estudo devemos considerar que o câncer de pulmão é uma doença crônica e que

a informação tendo como causa básica de óbito de pulmão, não permite que se conheça

exatamente qual foi o evento que levou o indivíduo à morte.

Com as restrições impostas pelo desenho epidemiológico utilizado neste estudo, que

avalia a relação entre poluição e óbito num período de até sete dias entre exposição e

desfecho, não podemos avaliar a poluição do ar como fator envolvido na causalidade da

doença uma vez que o processo de carcinogênese é iniciado com grande defasagem de tempo.

De fato, este estudo pode apenas sugerir causalidade entre poluição do ar e complicações que

podem ter agravado o quadro clínico levando ao óbito dos pacientes já acometidos pelo

câncer de pulmão.

Page 43: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

40

A capacidade do organismo de suportar estresse e se manter estável é maior no

indivíduo adulto e diminui com a idade ou doenças. Os efeitos da poluição do ar na saúde

envolvem principalmente idosos e portadores de doenças crônicas (Frank e Tankersley, 2002).

Indivíduos expostos a altas concentrações de monóxido de carbono no ambiente sofrem um

aumento da concentração de carboxihemoglobina e diminuição da concentração de oxigênio

no sangue. Portadores de doenças pulmonares crônicas como câncer de pulmão e doença

pulmonar obstrutiva crônica (DPOC) têm sua capacidade pulmonar diminuída pela doença e

não são capazes de manter o equilíbrio da pressão de O2 e CO no sangue (Casarett, 1999).

Este padrão de efeito do CO sobre a mortalidade é coerente com a hipótese de harvesting ou

colheita (Schwartz, 2001).

A fim de estimar a curva dose-resposta, foi ajustado um modelo para cada poluente e

defasagem de exposição e, portanto, um total de 50 testes de hipótese foram realizados.

Embora o número de resultados estatisticamente significativos seja próximo do esperado ao

nível de 5%, os resultados encontrados neste trabalho são compatíveis com outro estudo dos

mesmos autores (ainda não publicado) que investigou a associação entre poluição do ar e

mortalidade por DPOC, encontrando riscos relativos em torno de 1,24 e estatisticamente

significativos para a exposição média de seis e sete dias anteriores ao desfecho. É possível

que o aumento de óbitos em função de aumento de poluição por monóxido de carbono possam

ser explicados por mecanismos de restrição pulmonar. Mais estudos que investiguem de forma

sistemática e por períodos prolongados de tempo esta relação devem ser desenvolvidos e

outros fatores envolvidos na etiologia da doença, e.g. tabagismo, devem ser considerados.

3.5 Referências

Atkinson RW, Anderson HR, Sunyer J, Ayres J, Baccini M, Vonk JM et al. Acute effects of particulate air pollution on respiratory admissions: results from APHEA 2 project. Air Pollution and Health: a European Approach. Am J Respir Crit Care Med 2001; 164(10 Pt

Page 44: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

41

1):1860-1866.

Bell ML, Davis DL, Fletcher T. A retrospective assessment of mortality from the London smog episode of 1952: the role of influenza and pollution. Environ Health Perspect 2004; 112(1):6-8.

Brunekreef B, Holgate ST. Air pollution and health. Lancet 2002; 360(9341):1233-1242.

Casarett LJ, Doull J, Klaassen CD, Watkins JB. Casarett and Doull's toxicology : the basic science of poisons : companion handbook . New York: McGraw-Hill, 1999.

Cohen AJ, Pope CA, Speizer FE. Ambient air pollution as a risk factor for lung cancer. Salud Publica de Mexico 1997; 39(4):346-355.

Daumas RP, Mendonca GA, Ponce AdL. [Air pollution and mortality in the elderly in Rio de Janeiro: a time-series analysis]. Cad Saude Publica 2004; 20(1):311-319.

Frank R, Tankersley C. Air pollution and daily mortality: a hypothesis concerning the role of impaired homeostasis. Environ Health Perspect 2002; 110(1):61-65.

Goldberg MS, Burnett RT, Bailar JC, III, Brook J, Bonvalot Y, Tamblyn R et al. The association between daily mortality and ambient air particle pollution in Montreal, Quebec. 2. Cause-specific mortality. Environ Res 2001; 86(1):26-36.

Gouveia N, Fletcher T. Respiratory diseases in children and outdoor air pollution in Sao Paulo, Brazil: a time series analysis. Occup Environ Med 2000; 57(7):477-483.

Hastie T, Tibshirani R. Generalized Additive Models. London: Chapman and Hall, 1990.

Junger WL. Imputação de dados faltando em séries temporais multivariadas via algoritmo EM. Instituto de Matemática e Estatística. Universidade do Estado do Rio de Janeiro, 2002.

Katsouyanni K, Pershagen G. Ambient air pollution exposure and cancer. Cancer Causes Control 1997; 8(3):284-291.

Katsouyanni K, Schwartz J, Spix C, Touloumi G, Zmirou D, Zanobetti A et al. Short term effects of air pollution on health: a European approach using epidemiologic time series data: the APHEA protocol. J Epidemiol Community Health 1996; 50 Suppl 1:S12-S18.

Pershagen G. Air pollution and cancer. IARC Sci Publ 1990;(104):240-251.

Ponce de Leon A, Anderson HR, Bland JM, Strachan DP, Bower J. Effects of air pollution on daily hospital admissions for respiratory disease in London between 1987-88 and 1991-92. J Epidemiol Community Health 1996; 50 Suppl 1:s63-s70.

Samet JM, Dominici F, Zeger SL, Schwartz J, Dockery DW. The National Morbidity, Mortality, and Air Pollution Study. Part I: Methods and methodologic issues. Res Rep Health Eff Inst 2000;(94 Pt 1):5-14.

Schwartz J, Spix C, Touloumi G, Bacharova L, Barumamdzadeh T, Le Tertre A et al.

Page 45: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

42

Methodological issues in studies of air pollution and daily counts of deaths or hospital admissions. J Epidemiol Community Health 1996; 50 Suppl 1:S3-11.

Schwartz J. Is there harvesting in the association of airborne particles with daily deaths and hospital admissions? Epidemiology 2001; 12(1):55-61.

Speizer FE. Overview of the risk of respiratory cancer from airborne contaminants. Environ Health Perspect 1986; 70:9-15.

Page 46: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

43

4 ARTIGO 2: Poluição do ar e baixo peso ao nascer no município do Rio de Janeiro,

2002

Air pollution and low birth weight in the city of Rio de Janeiro, 2002

Washington Leite Junger

Antonio Ponce de Leon

Departamento de Epidemiologia

Instituto de Medicina Social

Universidade do Estado do Rio de Janeiro

Cadernos de Saúde Pública, 2007; 23 sup 4:S588-S598

Page 47: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

44

Resumo

Estudos têm mostrado de forma consistente os efeitos da poluição do ar sobre a saúde

e, recentemente, pesquisadores têm voltado sua atenção para os desfechos relacionados com a

gravidez. O objetivo deste trabalho é avaliar o efeito da poluição do ar sobre o peso ao nascer

de recém-nascidos a termo e de gestação única no município do Rio de Janeiro.

O desenho deste estudo foi o de corte transversal tendo como base o ano de 2002. Os

dados sobre os nascimentos foram obtidos do Sistema de Informação sobre Nascidos Vivos

(SINASC) do Ministério da Saúde. Foi definido como tendo baixo peso os recém-nascidos

pesando menos de 2500 gramas. A exposição das mães em poluente foi estimada como a

média do poluente para cada trimestre de gestação tomando como referência a data de

nascimento. Razões de odds (RO) ajustadas foram estimadas para cada fator de risco em

potencial. Regressão logística foi usada para estimar o efeito da poluição do ar bem como

identificar os fatores maternos e da gravidez associados com o baixo peso ao nascer.

Para PM10, CO e NO2, foram encontrados aumentos não significativos. Para SO2, a

RO do quarto intervalo interquartil de exposição no terceiro trimestre de gestação foi 1,149

(IC95%: 1,016;1,301). Para o O3, a RO estimada foi 0,830 (IC95%: 0,750;0,987). Quando a

variável de exposição foi introduzida no modelo como uma medida contínua, as RO para

PM10, CO e SO2 no terceiro trimestre foram não significativas e iguais a 1,089, 2,223 e 1,259,

respectivamente.

Apesar de algumas limitações, os resultados deste estudo sugerem que, mesmo após

controlar por diversos fatores determinantes do baixo peso ao nascer conhecidos, a associação

entre poluição atmosférica e a ocorrência de baixo peso ao nascer ainda pode ser detectada no

município do Rio de Janeiro. Os efeitos estimados podem ter sido atenuados devido ao viés de

classificação não diferencial na exposição.

Page 48: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

45

Abstract

Studies have consistently shown effects of air pollution on health, and, recently,

researchers have also addressed effects related to pregnancy. The objective of this study is to

evaluate the effect of air pollution on low birth weight of full term singleton newborns in the

municipality of Rio de Janeiro.

This study has a cross sectional design based on the year 2002. Data on live births

were obtained from the Birth Information System (SINASC) of the Ministry of Health. Low

birth weight was defined as newborns weighting less than 2,500 grams. Maternal exposure to

air pollution was taken as the average of a pollutant over each trimester of pregnancy and was

assessed taking into account the birth date. Adjusted odds ratios (OR) were estimated for each

potential risk factor. Logistic regression was used in order to assess the effect of air pollutants

and identify the maternal and pregnancy risk factors associated with low birth weight.

For PM10, CO, and NO2, no significant increases were detected. For SO2, the OR of

the forth quartile range of exposure in the third trimester of pregnancy was 1.149 (IC95%:

1.016;1.301). For O3, the estimated OR was 0.830 (IC95%: 0.750;0.987). When exposure

variable was regarded as a continuous measure, the OR for PM10, CO, and SO2 in the third

trimester were not statistically significant and respectively equal to 1.089, 2.223, and 1.259.

In spite of some limitations, the results of this study suggest that, even after controlling

for several known risk factors for low birth weight, the association between air pollution and

the occurrence of low birth weight still can be detected in the municipality of Rio de Janeiro.

The estimated effect may have been attenuated due to non differential misclassification bias

on exposure.

Page 49: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

46

4.1 Introdução

Um número crescente de estudos publicados por todo o mundo, principalmente nos

últimos 20 anos, têm mostrado evidências consistentes dos efeitos nocivos da poluição do ar

na saúde humana. Estes efeitos têm sido observados na morbidade e na mortalidade mesmo

quando os níveis de poluição atmosférica são considerados moderados ou baixos (Brunekreef

e Holgate, 2002). Embora, os mecanismos pato-fisiológico dos efeitos da poluição não sejam

completamente conhecidos, a literatura sugere que os grupos mais suscetíveis são as crianças,

os idosos e portadores de doenças crônicas (Kunzli, 2005; Maroziene e Grazuleviciene, 2002).

Os eventos de saúde mais freqüentemente estudados são a morbidade e mortalidade por

doenças respiratórias e cardiovasculares (Daumas et al, 2004; Atkinson et al, 2001; Gouveia e

Fletcher, 2000; Lin et al, 1999; Borja-Aburto, 1997; Anderson et al, 1996; Ballester et al,

1996; Schwartz, 1996; Ponce de Leon et al, 1996; Pope et al, 1995; Burnet et al, 1995), câncer

de pulmão (Junger et al, 2005; Cohen et al, 1997), diminuição da função respiratória (Ward e

Ayres, 2004; Hoek e Brunekreef, 1993) e absenteísmo escolar (Romieu et al, 1992).

O crescimento populacional e a conseqüente demanda por transporte e geração de

energia, aumentando a emissão de poluentes derivados da queima de combustíveis fósseis, é

de grande preocupação nas áreas urbanas na região da América Latina e Caribe (OPAS, 2005).

Recentemente, os efeitos da poluição do ar sobre desfechos relacionados com a

gravidez têm sido considerados em alguns estudos (Lacasana et al, 2005; Sram et al, 2005;

Maisonet et al, 2004). Estudos indicam que o feto e o recém-nascido são mais suscetíveis que

os adultos às substâncias tóxicas ambientais (Perera et al, 2004). A hipótese de que

substâncias presentes no ambiente podem interferir com a gestação é plausível se forem

considerados os efeitos do fumo materno ativo e ambiental no feto (Ojembarrena et al, 2005;

Nakamura et al, 2004; Kharrazi et al, 2004).

Page 50: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

47

Um estudo conduzido na República Checa entre 1986 e 1988, usando dados de rotina,

encontrou associação positiva entre partículas totais em suspensão (PTS), dióxido de enxofre

(SO2) e óxidos de nitrogênio (NOx) e mortalidade neonatal e pós-neonatal (Bobak e Leon,

1992). Em Seoul, um estudo conduzido nos anos 1996 e 1997, encontrou associação positiva

entre exposição a monóxido de carbono (CO), SO2, dióxido de nitrogênio (NO2) e PTS no

primeiro trimestre de gestação e baixo peso ao nascer de recém-nascidos a termo, isto é, com

idade gestacional entre 37 e 44 semanas (Ha et al, 2001). Num estudo desenvolvido na região

nordeste dos Estados Unidos, entre 1994 e 1996, Maisonet e colaboradores (2001)

encontraram associação positiva entre CO e SO2 e baixo peso ao nascer de recém-nascidos a

termo, no terceiro e segundo trimestre da gestação respectivamente. Em outro estudo

realizado na Lituânia, em 1998, também foi encontrada associação entre NO2 e baixo peso ao

nascer de recém-nascidos de gestação única durante o primeiro trimestre de gestação

(Maroziene e Grazuleviciene, 2002). Na Califórnia, no ano 2000, foi encontrada associação

entre material particulado até 2,5 micra de volume aerodinâmico (PM2,5) e baixo peso ao

nascer de recém-nascidos a termo (Basu et al, 2004). Também foi encontrada associação entre

PM2,5 e o tamanho do recém-nascido para a idade gestacional (Parker et al, 2005) e material

particulado até 10 micra de volume aerodinâmico (PM10) e CO e baixo peso entre 1994 e

2000 (Wilhelm e Ritz, 2005). Ainda na Califórnia, em outro estudo, entre 1975 e 1987, foi

encontrada associação entre ozônio (O3), PM10 e CO e baixo peso ao nascer e retardo do

crescimento intrauterino, para exposições nos primeiro e terceiro trimestres da gestação

(Salam et al, 2005). Em Sydney, entre 1998 e 2000, Mannes e colaboradores (2005)

encontraram associação positiva entre CO e NO2 e baixo peso ao nascer e tamanho pequeno

para a idade gestacional (small for gestational age), que neste estudo foi definido como mais

que dois desvios-padrão abaixo da média de pesos. Num estudo de coorte restrospectivo

realizado no leste do Canadá, entre 1988 e 2000, Dugandzic e colaboradores (2006)

Page 51: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

48

encontraram associação positiva entre concentrações de PM10 e SO2 no primeiro trimestre da

gestação e baixo peso ao nascer.

No Brasil, também se têm encontrado associações positivas entre poluentes

atmosféricos e desfechos da gravidez. Em São Paulo, Pereira e colaboradores (1998), em

1991 e 1992, encontraram associação positiva entre NO2, SO2 e CO e mortalidade intra-

uterina. Evidência da exposição do feto à poluição ambiental foi corroborada pela associação

positiva entre carboxi-hemoglobina presente no sangue do cordão umbilical de recém-

nascidos de mães não fumantes e concentrações ambientais de CO. Ainda em São Paulo, no

ano 1997, Gouveia e colaboradores (2004) encontraram associação positiva entre os níveis de

PM10 e CO e baixo peso ao nascer de recém-nascidos a termo de gestação única. Embora

vários estudos sobre os efeitos da poluição do ar sobre os desfechos da gravidez tenham sido

desenvolvidos em todo o mundo, o conhecimento destes efeitos sobre a população é ainda

muito restrito.

Baixo peso ao nascer está fortemente relacionado com a mortalidade infantil e é um

indicador bastante sensível dos efeitos ambientais. Assim, o objetivo deste trabalho é avaliar o

efeito da poluição do ar sobre o peso ao nascer de recém-nascidos a termo e de gestação única

no município do Rio de Janeiro no ano 2002.

4.2 Metodologia

Neste estudo de base populacional foram analisados todos os nascimentos a termo (37

ou mais semanas) de gestação única ocorridos no município do Rio de Janeiro no ano 2002.

Foram excluídos recém-nascidos com peso inferior a 1.000 gramas (g) e superior a 5.500 g

por serem mais prováveis de terem nascido de uma gravidez de risco, podendo contribuir para

a superestimação dos efeitos da poluição do ar. O mesmo critério se aplica às gestações

Page 52: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

49

múltiplas. Foi considerada na análise uma variável binária com valor igual a 1 para peso ao

nascer menor que 2.500 gramas e 0 caso contrário, denominada baixo peso ao nascer.

Os dados sobre os nascimentos foram obtidos do Sistema de Informação sobre

Nascidos Vivos (SINASC) do Ministério da Saúde. Todos os nascimentos resultam numa

certidão de nascimento necessária para o registro da criança. Para cada nascimento são

registradas informações da mãe: idade, escolaridade, local de residência, número de filhos

vivos, número de filhos mortos, número de consultas pré-natal; e do recém-nascido: data do

nascimento, peso, sexo, raça/cor, apgar, tipo de gravidez (simples, gêmeos ou múltiplos),

tempo de gestação (em semanas), local do nascimento (casa, hospital etc) e método do parto

(cesáreo ou vaginal).

O SINASC apresenta boa cobertura, principalmente em alguns campos como peso,

sexo, método do parto e idade da mãe (Silva et al, 2001). Entretanto, alguns campos como

quantidade de filhos vivos e quantidade de filhos mortos apresenta uma grande quantidade de

dados faltantes.

A exposição à poluição atmosférica foi medida através da média diária das medidas

horárias de SO2 e PM10, máximo diário das medidas horárias de NO2 e O3 e máximo diário

das médias móveis de oito horas de CO, e obtidas das duas estações de monitoramento

operadas pela Fundação Estadual de Engenharia do Meio Ambiente (FEEMA) e das quatro

operadas pela Secretaria Municipal do Meio Ambiente (SMAC), no município do Rio de

Janeiro. A exposição média para o município num dado dia foi calculada quando ao menos

uma estação tinha a medida disponível. Algumas estações apresentavam dados faltantes para

alguns poluentes, neste caso um método de imputação foi aplicado para preencher parte das

lacunas (Junger et al, 2003).

A exposição da mãe foi estimada a partir da média dos poluentes em cada trimestre de

gestação usando como referência a data de nascimento da criança. Cada nascimento foi

Page 53: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

50

relacionado com a exposição média da mãe em cada trimestre de gestação. Para cada intervalo

interquartil do indicador de poluição atmosférica foi atribuído uma categoria ou nível de

exposição. O primeiro intervalo interquartil foi usado como referência. Os efeitos da poluição

também foram avaliados com a exposição representada por uma variável contínua.

As variáveis representando os potenciais fatores de confusão considerados nos

modelos foram: idade gestacional medida em semanas e categorizada em 37 a 41 semanas e

42 semanas ou mais; escolaridade da mãe medida em anos e categorizada em até 11 anos e 12

anos ou mais; a idade da mãe em anos categorizada em até 19 anos, de 20 a 29, 30 a 34, 35 a

39, 40 anos ou mais; número de consultas pré-natal categorizada em nenhuma, 1 a 3, 4 a 6 e 7

ou mais; o método do parto categorizado em vaginal e cesareo; sexo da criança; estado civil

da mãe categorizado em casada ou união consensual, solteira e separada ou viúva; raça e cor

da pele categorizada em branca, preta, amarela, parda e indígena. A variável indicando que se

tratava do primeiro filho não foi considerada no modelo final devido a quantidade de dados

faltando.

O efeito da sazonalidade foi ajustado através de uma spline cúbica da variável mês de

nascimento com 6 graus de liberdade. Os demais fatores foram introduzidos no modelo

através de variáveis binárias indicando o nível de exposição. Para os fatores ordenados foram

considerados o de menor valor como categoria de referência, exceto idade da mãe que se

tomou como referência a categoria 20 a 29 anos. A variável raça e cor da pele foi usada como

um indicador de desigualdade sócio-econômica. A variável escolaridade da mãe foi usada

como proxy para tabagismo materno. A exposição à poluição do ar referente a cada trimestre

de gestação foi avaliada separadamente.

Para investigar o efeito da poluição do ar bem como identificar os fatores maternos e

da gravidez associados com o baixo peso ao nascer foi utilizada a regressão logística. Razões

de odds (RO) ajustadas foram estimadas para os fatores de risco determinantes de baixo peso

Page 54: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

51

ao nascer. A qualidade de ajuste do modelo estimado foi avaliada usando estatísticas de

diagnóstico corrigidas pelo número de padrões de covariáveis como descritas por Hosmer e

Lemeshow (2000). As análises foram realizadas com o Stata versão 8 e R versão 2.3.0. Foi

adotado um nível de significância igual a 0,05 em todas as análises.

4.3 Resultados

Durante o ano de 2002. ocorreram no município do Rio de Janeiro 86.949

nascimentos. Destes, foram efetivamente incluídos na análise 77.987 (87%) recém-nascidos a

termo, ou seja, com idade gestacional maior ou igual a 37 semanas, de gestações únicas e com

peso maior que 1.000 g (muito baixo peso) e menor que 5.500 g (alto peso).

Os gráficos da Figura 4-1 apresentam a média diária de peso e a proporção diária de

baixo peso, menor que 2.500 g, dos nascimentos em 2002 no município do Rio de Janeiro.

Apesar do estudo compreender apenas um ano, observa-se que a média diária do peso ao

nascer apresenta um comportamento sazonal com médias mais baixas nos primeiros meses do

ano. As proporções diárias de baixo peso ao nascer apresentam um padrão semelhante no

sentido oposto.

O peso médio ao nascer dos recém-nascidos no ano 2002 que atenderam o critério de

elegibilidade foi 3.239 g. As estatísticas descritivas do peso ao nascer e os poluentes PM10,

SO2, CO, NO2 e O3 estão apresentadas na Tabela 4-1. Mesmo após a imputação das

concentrações de poluentes, 15% das medidas de NO2 e O3 ainda estavam faltando. Estes

indicadores estão disponíveis apenas em dois dos seis monitores de poluição do ar instalados

na cidade. Parte do ano 2001 representa a exposição das mães cujos filhos nasceram no início

do ano 2002. As concentrações médias de PM10 seguem um padrão sazonal semelhante ao do

peso ao nascer médio diário.

Page 55: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

52

Na Tabela 4-2, estão apresentados o total e percentual de indivíduos, a média e o

desvio-padrão de peso ao nascer, o percentual de baixo peso ao nascer e a RO ajustada para

cada categoria de exposição das variáveis de controle de confusão. Algumas categorias foram

agrupadas segundo a magnitude e significância estatística do efeito. A escolaridade da mãe foi

agrupada em duas categorias: até 11 anos e 12 anos ou mais de escolaridade. A idade da mãe

foi categorizada nas faixas até 19 anos, 20 a 29, 30 a 34, 35 a 39, 40 anos ou mais. A variável

referente a paridade, denominada primeiro filho, estava altamente associada com o baixo peso

ao nascer, porém foi excluída das análises por possuir uma cobertura em torno de apenas 32%

no município do Rio de Janeiro.

Figura 4-1 Média diária de peso (em gramas) e proporção diária de baixo peso (< 2.500 g) ao nascer, de recém-nascidos a termo no município do Rio de Janeiro em 2002. A linha suave é uma spline com 6 graus de liberdade.

A fim de estimar o efeito de cada poluente foi definido um modelo de regressão

logística composto pelas variáveis apresentadas na Tabela 4-2, denominado modelo central. A

idade gestacional de 42 semanas ou mais apresentou um efeito protetor com RO igual a 0,31.

A escolaridade da mãe não foi significativa e sua RO estimada foi 0,93 para a categoria 12

anos ou mais de estudos. Todas as faixas etárias das mães analisadas parecem aumentar a

probabilidade de baixo peso do recém-nascido quando comparadas com a faixa de 20 a 29

Page 56: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

53

anos: para a faixa até 19 anos a RO foi 1,34; para a faixa 30 a 34 a RO foi 1,12; para a faixa

35 a 39 foi 1,44 e para a faixa 40 anos ou mais a RO foi igual a 1,69.

Tabela 4-1 Estatísticas descritivas para peso ao nascer e poluentes atmosféricos no Rio de Janeiro em 2002.

ND(%) Média (DP) Min P10 P25 P50 P75 P90 Max

Peso 3239 ( 458 ) 1010 2680 2945 3230 3530 3815 5435

PM10 0,0 59,99 ( 18,47 ) 24,35 40,33 46,19 57,01 71,30 83,97 149,69

SO2 0,0 11,48 ( 5,94 ) 1,76 4,65 6,97 10,59 15,02 19,51 39,41

CO 0,0 1,15 ( 0,40 ) 0,33 0,69 0,83 1,12 1,38 1,69 2,53

NO2 15,3 73,04 ( 42,48 ) 2,75 17,65 37,85 69,80 101,55 122,10 226,45

O3 15,8 44,49 ( 27,89 ) 5,68 14,60 23,05 39,60 60,80 80,10 188,95 ND: observações diárias faltando para o cálculo da exposição; DP: desvio padrão; Pn: percentil n

O número de consultas pré-natal está associado inversamente com o baixo peso ao

nascer. A RO para a faixa 4 a 6 consultas foi 0,72 e para 7 ou mais consultas foi 0,52. O

método do parto, vaginal ou cesareo, não parece influenciar o baixo peso ao nascer. Recém-

nascidos do sexo feminino tiveram RO igual 1,52 para baixo peso ao nascer. Estado civil da

mãe parece aumentar as chances de baixo peso, quando solteira a RO foi igual 1,11. Quanto a

raça e cor de pele, apenas a cor preta e parda parecem estar associadas com o baixo peso ao

nascer com RO iguais a 1,54 e 1,28 respectivamente.

Apesar de não ter sido considerada no modelo para a associação entre a poluição do ar

e baixo peso ao nascer devido a grande quantidade de dados faltantes na variável paridade, a

RO para o indicador de que se tratava do primeiro foi 1,17 e significativa. Quando

considerada esta variável, mais de dois terços dos recém-nascidos eram excluídos da análise.

As RO para cada intervalo interquartil da distribuição dos poluentes estão

apresentadas na Tabela 4-3. O primeiro intervalo interquartil de cada poluente foi usado com

exposição de referência. Para todos os indicadores de poluição do ar foram encontradas

associações positivas em pelo uma das categorias de exposição, embora para a maioria destes

indicadores estas associações não sejam estatisticamente significativas.

Page 57: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

54

Tabela 4-2 Média e desvio padrão de peso ao nascer, proporção de baixo peso ao nascer e RO ajustadas para variáveis de controle e categorias de exposição.

Número Percentual ND (%) Média (DP) BPN (%) RO (IC 95%) Idade gestacional (semanas) 37 a 41 76865 98,6 0,7 4,52 1,00 42 ou mais 553 0,7 1,45 0,31 ( 0,15 a 0,65 ) Escolaridade da mãe (anos) Até 11 58550 75,1 2,6 3231,7 ( 462,2 ) 4,83 1,00 12 ou mais 17412 22,3 3263,8 ( 440,2 ) 3,43 0,93 ( 0,84 a 1,03 ) Idade da mãe (anos) Até 19 14330 18,4 0,2 3164,3 ( 444,7 ) 5,83 1,34 ( 1,22 a 1,47 ) 20 a 29 33110 42,5 3251,4 ( 451,0 ) 4,04 1,00 30 a 34 11457 14,7 3269,6 ( 464,4 ) 4,18 1,12 ( 1,00 a 1,26 ) 35 a 39 6349 8,2 3249,5 ( 480,9 ) 4,99 1,44 ( 1,26 a 1,65 ) 40 ou mais 1792 2,3 3221,7 ( 503,9 ) 6,36 1,69 ( 1,36 a 2,09 ) Consultas pré-natal Nenhuma 2904 3,7 3,1 3123,7 ( 486,0 ) 8,40 1,00 1 a 3 4804 6,2 3130,7 ( 490,5 ) 8,14 1,06 ( 0,89 a 1,28 ) 4 a 6 17819 22,9 3215,5 ( 466,8 ) 5,35 0,72 ( 0,61 a 0,84 ) 7 ou mais 50021 64,1 3265,3 ( 444,5 ) 3,57 0,52 ( 0,44 a 0,61 ) Método do parto Vaginal 41894 53,7 0,3 3203,8 ( 446,2 ) 4,97 1,00 Cesareo 35841 46,0 3280,4 ( 468,1 ) 4,00 1,01 ( 0,93 a 1,09 ) Sexo Masculino 39978 51,3 0,7 3297,8 ( 461,8 ) 3,67 1,00 Feminino 37465 48,0 3175,4 ( 445,0 ) 5,46 1,52 ( 1,41 a 1,63 ) Estado civil Casada ou consensual 32322 42,3 2,1 3260,0 ( 451,4 ) 3,94 1,00 Solteira 42990 55,1 3222,6 ( 461,8 ) 4,96 1,11 ( 1,02 a 1,20 ) Separada ou viúva 1074 1,4 3254,0 ( 469,0 ) 4,75 1,13 ( 0,83 a 1,55 ) Raça/Cor Branca 45427 63,0 7,5 3253,7 ( 447,2 ) 3,86 1,00 Preta 3928 5,4 3180,4 ( 478,5 ) 6,85 1,54 ( 1,33 a 1,78 ) Parda 22489 31,2 3215,9 ( 471,9 ) 5,50 1,28 ( 1,18 a 1,39 ) Amarela 132 0,2 3234,1 ( 407,2 ) 1,52 0,42 ( 0,10 a 1,72 ) Indígena 167 0,2 3196,6 ( 465,0 ) 5,39 1,17 ( 0,55 a 2,51 ) Primeiro filho* 8632 11,1 68,2 3198,6 ( 444,9 ) 4,89 1,17 ( 1,04 a 1,31 ) ND(%): observações faltantes; BPN: baixo peso ao nascer; RO: razão de odds ajustada; * ajustado separadamente

Para o PM10 os efeitos estimados no primeiro trimestre da gestação foram positivos e

não significativos com maior RO igual a 1,071 na categoria referente ao quarto intervalo

interquartil da exposição. No segundo trimestre da gestação, os efeitos também não foram

significativos. A maior RO foi referente ao segundo intervalo interquartil da exposição. Para o

terceiro e quarto intervalos interquartis, a RO foi menor que 1. No terceiro trimestre da

Page 58: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

55

gestação, embora não significativas, foram estimadas RO iguais a 1,109 e 1,093 para o

segundo e quarto intervalos interquartis da exposição respectivamente.

Os efeitos de SO2 no primeiro trimestre da gestação foram não significativos com um

pequeno aumento de 1,002 referente ao segundo intervalo interquartil da exposição. No

terceiro e quarto intervalos interquartis as RO foram negativas. Quanto ao segundo trimestre

da gestação, os efeitos também não foram significativos e apenas o terceiro intervalo

interquartil não foi positivo. Para o segundo intervalo interquartil a RO estimada foi 1,092 e

para o quarto 1,007. No terceiro trimestre, as RO referentes aos segundo e terceiro intervalos

interquartis foram menores que 1. Entretanto, para o quarto intervalo interquartil de exposição

a RO estimada foi 1,149 (IC95%: 1,016;1,301).

Tabela 4-3 RO ajustadas e intervalos de confiança de 95% para baixo peso ao nascer por intervalos interquartis de exposição em cada trimestre da gestação.

Primeiro trimestre Segundo trimestre Terceiro trimestre Poluente Quartil RO (IC 95%) RO (IC 95%) RO (IC 95%)

PM10 Q1 1,000 1,000 1,000 Q2 1,048 ( 0,884 a 1,243 ) 1,011 ( 0,855 a 1,196 ) 1,109 ( 0,931 a 1,320 ) Q3 1,040 ( 0,900 a 1,202 ) 0,946 ( 0,829 a 1,079 ) 0,940 ( 0,825 a 1,070 ) Q4 1,071 ( 0,881 a 1,303 ) 0,976 ( 0,838 a 1,138 ) 1,093 ( 0,955 a 1,250 )

SO2 Q1 1,000 1,000 1,000 Q2 1,002 ( 0,848 a 1,184 ) 1,092 ( 0,923 a 1,292 ) 0,930 ( 0,754 a 1,148 ) Q3 0,993 ( 0,848 a 1,163 ) 0,940 ( 0,829 a 1,066 ) 0,888 ( 0,785 a 1,005 ) Q4 0,981 ( 0,785 a 1,226 ) 1,007 ( 0,898 a 1,130 ) 1,149 ( 1,016 a 1,301 ) CO Q1 1,000 1,000 1,000 Q2 1,007 ( 0,900 a 1,127 ) 1,016 ( 0,916 a 1,127 ) 1,007 ( 0,886 a 1,144 ) Q3 1,107 ( 0,934 a 1,313 ) 0,931 ( 0,806 a 1,076 ) 0,993 ( 0,836 a 1,179 ) Q4 1,141 ( 0,900 a 1,447 ) 0,988 ( 0,844 a 1,156 ) 1,032 ( 0,875 a 1,216 )

NO2 Q1 1,000 1,000 1,000 Q2 0,946 ( 0,767 a 1,168 ) 0,997 ( 0,828 a 1,200 ) 0,990 ( 0,837 a 1,171 ) Q3 0,923 ( 0,776 a 1,098 ) 0,903 ( 0,755 a 1,079 ) 1,008 ( 0,876 a 1,162 ) Q4 1,010 ( 0,884 a 1,154 ) 0,911 ( 0,787 a 1,054 ) 1,026 ( 0,826 a 1,276 )

O3 Q1 1,000 1,000 1,000 Q2 1,002 ( 0,898 a 1,118 ) 0,951 ( 0,757 a 1,193 ) 0,980 ( 0,860 a 1,117 ) Q3 0,998 ( 0,786 a 1,267 ) 0,936 ( 0,819 a 1,070 ) 0,860 ( 0,750 a 0,987 ) Q4 0,904 ( 0,737 a 1,109 ) 1,088 ( 0,956 a 1,238 ) 0,990 ( 0,839 a 1,170 )

Quanto ao CO, apesar de não significativos, aos maiores efeitos foram estimados no

primeiro trimestre da gestação. Foi observado um gradiente de efeito que vai de 1,007 a 1,141

Page 59: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

56

para exposições do segundo ao quarto intervalo interquartil. No segundo trimestre, a RO

referente ao segundo intervalo interquartil de exposição é igual a 1,016. Para o terceiro e

quarto intervalos interquartis, as RO foram menores que 1. No terceiro trimestre da gestação,

para o segundo e quarto intervalos interquartis de exposição os efeitos estimados foram 1,007

e 1,032, respectivamente, e para o terceiro 0,993. Estes também não foram significativos.

Os efeitos de NO2 também não foram significativos. Para o quarto intervalo

interquartil de exposição no primeiro trimestre de gestação foi igual a 1,010. Para os terceiro e

quarto intervalos interquartis do terceiro trimestre de gestação iguais a 1,008 e 1,026

respectivamente. No segundo trimestre da gestação as RO foram menores que 1 e não

significativas.

As estimativas do efeito do O3 foram menores que um para todos os níveis de

exposição avaliados exceto para o segundo intervalo interquartil no primeiro trimestre de

gestação e o quarto intervalo interquartil do segundo trimestre. Estes foram iguais 1,002 e

1,088 respectivamente, e sem significância estatística. Foi encontrado um efeito negativo

significativo referente ao terceiro intervalo interquartil de exposição no terceiro trimestre da

gestação igual 0,860 (IC95%: 0,750;0,987).

Tabela 4-4 RO ajustadas para variação de 10 µg/m³ (exceto CO para o qual foi calculado para uma variação de 1 µg/m³) na concentração dos poluentes para cada trimestre da gestação.

Primeiro trimestre Segundo trimestre Terceiro trimestre Poluente RO (IC 95%) RO (IC 95%) RO (IC 95%)

PM10 0,843 ( 0,645 a 1,103 ) 0,952 ( 0,751 a 1,207 ) 1,089 ( 0,886 a 1,338 )

SO2 0,579 ( 0,269 a 1,245 ) 1,255 ( 0,516 a 3,052 ) 1,259 ( 0,460 a 3,442 ) CO* 0,656 ( 0,270 a 1,594 ) 0,892 ( 0,298 a 2,667 ) 2,223 ( 0,629 a 7,858 )

NO2 1,041 ( 0,965 a 1,124 ) 0,952 ( 0,885 a 1,023 ) 0,966 ( 0,904 a 1,031 )

O3 1,009 ( 0,907 a 1,123 ) 1,020 ( 0,925 a 1,125 ) 0,949 ( 0,830 a 1,084 ) * Para 1 µg/m³

Não foram encontradas associações estatisticamente significativas quando a variável

de exposição foi introduzida no modelo como uma medida contínua. Os efeitos para a

Page 60: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

57

variação de 10 µg/m³, exceto CO (que foi calculado para uma variação de 1 µg/m³), estão

apresentados na Tabela 4-4. Entretanto, no primeiro trimestre da gestação foram encontrados

efeitos positivos para NO2 igual 1,041 e O3 igual a 1,009. No segundo trimestre, foram

encontradas RO iguais a 1,255 para SO2 e a 1,020 para O3. No terceiro trimestre da gestação

as RO estimadas foram 1,089 para PM10, 1,259 para SO2 e 2,223 para CO.

Modelos com dois poluentes incluídos simultaneamente foram avaliados quando a

correlação linear entre eles foi menor que 0,15, em valor absoluto, para cada trimestre de

gestação. Foram avaliados os seguintes modelos com dois poluentes: SO2 e O3 no primeiro

trimestre e PM10 e O3 no segundo e terceiro trimestre de gestação. Não foram encontradas

associações significativas no modelo com múltiplos poluentes no mesmo trimestre de

gestação.

4.4 Discussão

Os resultados deste estudo sugerem que existe uma associação entre poluição

atmosférica e a ocorrência de baixo peso ao nascer no município do Rio de Janeiro. Após

controlar por diversos fatores de confusão em potencial, foi estimado que recém-nascidos de

mães expostas a concentrações moderadas ou altas dos agentes poluentes da atmosfera

analisados, principalmente nos primeiro e terceiro trimestres de gestação, são mais prováveis

de nascer com peso inferior a 2.500 g.

Com relação ao PM10, SO2 e CO, a maioria das associações estimadas é positiva

embora apenas para o SO2 referente ao quarto intervalo interquartil de exposição no terceiro

trimestre da gestação tenha sido estatisticamente significativa. É importante considerar que a

exposição materna foi estimada como a média de seis estações de monitoramento que medem

estes poluentes em todo o município considerando a data de nascimento e, portanto, a

exposição materna individual pode estar superestimada em alguns casos e subestimada em

Page 61: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

58

outros. Logo, é inerente ao desenho de estudo adotado a possibilidade de erro de classificação

não diferencial na exposição.

Este aspecto pode se agravar para os indicadores de NO2 e O3 uma vez que estes foram

medidos em apenas dois pontos da cidade. Neste caso, é razoável supor que o erro de

classificação da exposição possa ser ainda maior. Como conseqüência do erro de classificação

não diferencial da exposição, os resultados encontrados neste estudo podem estar

subestimados.

Mães que não estão sujeitas a uma gravidez de risco tendem a se locomover mais pela

cidade, sobretudo nos primeiro e segundo trimestres da gestação diminuindo o erro de

classificação não diferencial da exposição. Portanto, a análise apenas dos nascimentos de

mães residentes próximo aos monitores não diminuiria necessariamente o erro de

classificação. Além disto, algumas mães residem mais próximo a fontes de emissão de

poluição existentes que outras. A medida de exposição utilizada neste estudo, apesar de sua

limitação, pode ser considerada adequada na falta de uma medida de exposição individual.

A escolha de uma janela de três meses para a estimativa da exposição da mãe à

poluição do ar é baseada no fato de que muitos estudos que avaliam desfechos da gravidez

utilizam o trimestre de gestação como unidade de mensuração. Na estimativa da exposição da

mãe para cada trimestre foi usada apenas a data do nascimento como referência. Porém, a

idade gestacional maior que 42 semanas ocorreu em menos de 1% dos nascimentos. Logo,

pode haver um pequeno viés na estimativa da exposição materna nestes casos de forma não

diferencial atenuando os efeitos encontrados.

Os pontos fortes deste estudo é que ainda foi possível encontrar efeito da poluição

após controlar por muitos dos fatores determinantes de baixo peso ao nascer discutidos na

literatura como sexo, período gestacional, número de consultas pré-natal, estado civil, status

sócio-econômico através da variável raça e cor da pele, idade e escolaridade da mãe. O peso

Page 62: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

59

ao nascer registrado no SINASC parece ter boa qualidade, logo não é provável que exista erro

de classificação na condição de baixo peso ao nascer. Fatores como hábitos nutricionais,

tabagismo ativo ou passivo durante a gestação, peso da mãe anterior à gestação, estado de

morbidade materna e exposição ocupacional associados com o baixo peso ao nascer não

estavam disponíveis. Entretanto, estes fatores variam de forma independente da poluição do ar

e portanto não constituem fatores de confusão.

O tabagismo materno é um dos principais fatores determinantes de desfechos

relacionados com a gestação, entre eles, o crescimento intrauterino restrito (CIUR) e o baixo

peso ao nascer (Ojembarrena et al, 2005; Nakamura et al, 2004; Kharrazi et al, 2004; Perera et

al, 2004). Entretanto, no Brasil, parece existir uma correlação entre tabagismo e escolaridade

da mãe (Barbieri et al, 2000); assim, a primeira é parcialmente ajustada pela inclusão da

última no modelo. Apesar de raça e cor da pele e classe social serem conceitos diferentes, raça

e cor da pele é uma dimensão de estratificação social que pode diferenciar o acesso a serviços

de saúde. Por estarem correlacionadas, a variável raça e cor da pele é freqüentemente usada

como um indicador de status sócio-econômico (Travassos e Williams, 2004). A inclusão desta

variável no modelo foi fundamentada neste critério.

Os mecanismos envolvidos na redução do crescimento fetal associados com a

exposição à poluição do ar podem variar durante a gestação, mas os diversos estudos não

concordam sobre o período de maior suscetibilidade. O desenvolvimento fetal ocorre em

diferentes estágios, o ganho de peso ocorre predominantemente no terceiro trimestre (Gouveia

et al, 2004; Mongelli e Biswas, 2001). Os resultados deste estudo são coerentes com este

aspecto. Nas duas estratégias de modelagem, categorias de exposição em intervalos

interquartis e exposição contínua, os maiores efeitos, mesmo que não significativos, parecem

ocorrer no terceiro trimestre da gestação. Exceto para CO que parece ter um efeito maior no

primeiro trimestre.

Page 63: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

60

Já se sabe que CO interfere com o transporte do oxigênio para o feto. O CO pode

cruzar a barreira placentária e, além disto, o feto é mais vulnerável ao envenenamento por CO

pois existe um acúmulo 10 a 15 % maior no sangue fetal que nos níveis maternos. Ainda, sua

eliminação é menor no sangue do feto que no da mãe (Ha et al, 2001). Pereira e colaboradores

(1998) encontraram uma significativa relação dose-resposta entre concentrações de CO e a

presença de carboxi-hemoglobina no sangue do cordão umbilical de mães não fumantes em

São Paulo, reforçando a plausibilidade biológica entre concentrações de poluentes na

atmosfera e mortes fetais.

Os resultados deste estudo são consistentes com aqueles encontrados em outras

cidades ou regiões onde foram encontrados efeitos da exposição da mãe ao SO2 no primeiro

ou terceiro trimestre da gestação. Na República Checa foram encontradas associações entre

partículas PTS e SO2 e mortalidade neonatal por doenças respiratórias (Bobak e Leon, 1992).

Na Coréia foram encontradas RO 1,08 e 0,91 para CO referentes ao primeiro e terceiro

trimestres; para NO2 com RO 1,07 e 0,95 referentes ao primeiro e terceiro trimestres; para

SO2 com RO 1,06 e 0,93 referentes ao primeiro e terceiro trimestres respectivamente e PTS

com RO 1,04 e 0,95 referentes ao primeiro e terceiro trimestres (Ha et al, 2001). No nordeste

dos Estados Unidos foram encontrados efeito do CO com RO igual a 1,04 para o quarto

intervalo interquartil no terceiro trimestre; para o SO2 com RO igual 1,13 referente ao quarto

intervalo interquartil no segundo trimestre de gestação e para PM10 não foram encontrados

efeitos significativos (Maisonet et al, 2001). No Canadá, num estudo de coorte retrospectiva,

foram encontradas associações referentes a SO2 com RO igual a 1,36 no primeiro trimestre da

gestação, a PM com RO igual a 1,33 referente ao primeiro trimestre e não foram encontradas

associações com O3 (Dugandzic et al, 2006).

Mesmo após a imputação de dados, os poluentes NO2 e O3 ainda permaneceram com

cerca de 15% das médias diárias faltando. Logo, as estimativas dos efeitos para estes

Page 64: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

61

indicadores podem estar enviesadas. Os campos referentes ao número de filhos vivos e mortos

do SINASC apresentam em torno de 60% de dados faltantes, assim, mesmo sendo um

importante fator de risco para o baixo peso ao nascer, a variável paridade foi excluída da

análise.

Apesar das limitações envolvidas neste trabalho, foi possível estimar, de forma

consistente com a literatura, o efeito da poluição do ar sobre o peso ao nascer de recém-

nascidos a termo de gestação única no município do Rio de Janeiro. O desfecho baixo peso ao

nascer tem sido fortemente relacionado com a mortalidade infantil e é um indicador bastante

sensível dos efeitos ambientais. Este importante desfecho tem sido pouco estudado em

epidemiologia ambiental. Os resultados deste trabalho complementam aqueles desenvolvidos

em São Paulo (Gouveia et al, 2004; Perera et al, 1998) permitindo um melhor entendimento

dos efeitos da poluição sobre a saúde nas grandes cidades brasileiras.

4.5 Referências

Anderson H, Ponce DL, Bland J, Bower J, Strachan D. Air pollution and daily mortality in London: 1987-92. BMJ 1996; 312:665-669.

Atkinson R, Anderson H, Sunyer J, Ayres J, Baccini M, Vonk J et al. Acute effects of particulate air pollution on respiratory admissions: results from APHEA 2 project. Air Pollution and Health: a European Approach. American Journal of Respiratory and Critical Care Medicine 2001; 164:1860-1866.

Ballester F, Corella D, Perez-Hoyos S, Hervas A. Air pollution and mortality in Valencia, Spain: a study using the APHEA methodology. International Journal of Epidemiology 1996; 50:527-533.

Barbieri MA, Silva AA, Bettiol H, Gomes UA. Risk factors for the increasing trend in low birth weight among live births born by vaginal delivery, Brazil. Rev Saude Publica 2000; 34:596-602.

Basu R, Woodruff TJ, Parker JD, Saulnier L, Schoendorf KC. Comparing exposure metrics in the relationship between PM2,5 and birth weight in California. J Expo Anal Environ Epidemiol 2004; 14:391-396.

Bobak M, Leon DA. Air pollution and infant mortality in the Czech Republic, 1986-88.

Page 65: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

62

Lancet 1992; 340:1010-1014.

Borja-Aburto V, Loomis D, Bangdiwala S, Shy C, Rascon-Pacheco R. Ozone, suspended particulates, and daily mortality in Mexico City. American Journal of Epidemiology 1997; 145:258-268.

Brunekreef B, Holgate S. Air pollution and health. 2002; 360:1233-1242.

Burnett R, Dales R, Krewski D, Vincent R, Dann T, Brook J. Associations between ambient particulate sulfate and admissions to Ontario hospitals for cardiac and respiratory diseases. American Journal of Epidemiology 1995; 142:15-22.

Cohen A, Pope C, Speizer F. Ambient air pollution as a risk factor for lung cancer. Salud Publica de Mexico 1997; 39:346-355.

Daumas R, Mendonca G, Ponce de Leon A. [Air pollution and mortality in the elderly in Rio de Janeiro: a time-series analysis]. Cadernos de Saúde Pública 2004; 20:311-319.

Dugandzic R, Dodds L, Stieb D, Smith-Doiron M. The association between low level exposures to ambient air pollution and term low birth weight: a retrospective cohort study. Environ Health 2006; 5(3):1-8.

Gouveia N, Bremner SA, Novaes HMD. Association between ambient air pollution and birth weight in Sao Paulo, Brazil. J Epidemiol Community Health 2004; 58:11-17.

Gouveia N, Fletcher T. Respiratory diseases in children and outdoor air pollution in Sao Paulo, Brazil: a time series analysis. Occup Environ Med 2000; 57:477-483.

Ha E, Hong Y, Lee B, Woo B, Schwartz J, Christiani D. Is air pollution a risk factor for low birth weight in Seoul?. 2001; 12:643-648.

Hoek G, Brunekreef B. Acute effects of a winter air pollution episode on pulmonary function and respiratory symptoms of children. Arch Environ Health 1993; 48:328-335.

Hosmer D.W., Lemeshow S. Applied Logistic Regression. New York, John Wiley & Sons 2000.

Junger W, Ponce de Leon A, Mendonca G. Short term association between lung cancer and air pollution in Rio de Janeiro: a daily time series study. Revista Brasileira de Cancerologia 2005; 51:111-115.

Junger WL, Santos Narcisa, Ponce de Leon A. Imputação de dados faltantes em séries temporais multivariadas via algoritmo EM. Cadernos do IME 2003; 15:8-21.

Kharrazi M, DeLorenze G, Kaufman F L, Eskenazi B, Bernet JTJ, Graham S et al. Environmental Tobbaco Smoke and Pregnancy Outcome. Epidemiology 2004; 15:660-670.

Kunzli N TIB. Air pollution: from lung to heart. Swiss Med Weekly 2005; 135:697-702.

Lacasana M, Esplugues A, Ballester F. Exposure to ambient air pollution and prenatal and

Page 66: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

63

early childhood health effects. Eur J Epidemiol 2005; 20:183-199.

Lin C, Martins M, Farhat S, Pope C, Conceicao G, Anastacio V et al. Air pollution and respiratory illness of children in Sao Paulo, Brazil. Paediatric and Perinatal Epidemiology 1999; 13:475-488.

Maisonet M, Bush T, Correa A, Jaakkola J. Relation between ambient air pollution and low birth weight in the Northeastern United States. 2001; 109 Suppl 3:351-6:351-356.

Maisonet M, Correa A, Misra D, Jaakkola JJK. A review of the literature on the effects of ambient air pollution on fetal growth. Environ Res 2004; 95:106-115.

Mannes T, Jalaludin B, Morgan G, Lincoln D, Sheppeard V, Corbett S. Impact of ambient air pollution on birth weight in Sydney, Australia. Occup Environ Med 2005; 62:524-530.

Maroziene L, Grazuleviciene R. Maternal exposure to low-level air pollution and pregnancy outcomes: a population-based study. Environ Health 2002; 1:6.

Mongelli M, Biswas A. A fetal growth standard derived from multiple modalities. Early Hum Dev 2001; 60:171-177.

Nakamura MU, Alexandre SM, Santos JFK, Souza E, Sass N, Beck APA et al. Obstetric and perinatal effects of active and/or passive smoking during pregnancy. São Paulo Medical Journal 2004; 122:94-98.

Ojembarrena AA, Fernández JC, Velasco AG, Chullen G Y, Bayle MS. Peso al nascimiento y tabquismo familiar. Annals of Pediatrics 2005; 63:116-119.

OPAS, Pan American Health Organization. An assessment of health effects of ambient air pollution in Latin America and Caribbean. PAHO 2005.

Parker JD, Woodruff TJ, Basu R, Schoendorf KC. Air pollution and birth weight among term infants in California. Pediatrics 2005; 115:121-128.

Pereira L, Loomis D, Conceicao G, Braga A, Arcas R, Kishi H et al. Association between air pollution and intrauterine mortality in Sao Paulo, Brazil. Environ.Health Perspect 1998; 106:325-329.

Perera FP, Rauh V, Whyatt RM, Tsai W, Bernert JT, Tu Y et al. Molecular evidence of an interaction between prenatal environmental exposures and birth outcomes in a multiethnic population. Environ Health Perspect 2004; 112:626-630.

Ponce de Leon A, Anderson H, Bland J, Strachan D, Bower J. Effects of air pollution on daily hospital admissions for respiratory disease in London between 1987-88 and 1991-92. Journal of Epidemiology and Community Health 1996; 50 Suppl 1:s63-s70.

Pope C, Thun M, Namboodiri M, Dockery D, Evans J, Speizer F et al. Particulate Air-Pollution As A Predictor of Mortality in A Prospective-Study of Us Adults. American Journal of Respiratory and Critical Care Medicine 1995; 151:669-674.

Page 67: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

64

Romieu I, Lugo M, Velasco S, Sanchez S, Meneses F, Hernandez M. Air pollution and school absenteeism among children in Mexico City. 1992; 136:1524-1531.

Salam MT, Millstein J, Li YF, Lurmann FW, Margolis HG, Gililand FD. Birth outcomes and prenatal exposure to ozone, carbon monoxide and particulate matter: results from the Childresn's Health Study. Environmental Health Perspectives 2005; 113:1638-1644.

Schwartz J. Air pollution and hospital admissions for respiratory disease. Epidemiology 1996; 7:20-28.

Silva AA, Ribeiro VS, Borba AFJ, Coimbra LC, Silva RA. [Evaluation of data quality from the information system on live births in 1997-1998]. Rev Saude Publica 2001; 35:508-514.

Sram RJ, Binkova B, Dejmek J, Bobak M. Ambient air pollution and pregnancy outcomes: a review of the literature. Environ Health Perspect 2005; 113:375-382.

Travassos C, Williams DR. The concept and measurement of race and their relationship to public health: a review focused on Brazil and the United States. Cad Saude Publica 2004; 20:660-678.

Ward DJ, Ayres JG. Particulate air pollution and panel studies in children: a systematic review. Occup Environ Med 2004; 61:e13.

Wilhelm M, Ritz B. Local variations in CO and particulate air pollution and adverse birth outcomes in Los Angeles County, California, USA. Environ Health Perspect 2005; 113:1212-1221.

Page 68: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

65

5 ARTIGO 3: Imputação de dados faltantes em séries temporais de poluição

atmosférica

Imputation of missing data in time series of air pollution

Washington Leite Junger

Antonio Ponce de Leon

Departamento de Epidemiologia

Instituto de Medicina Social

Universidade do Estado do Rio de Janeiro

Page 69: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

66

Resumo

Dados faltantes são um problema freqüente em estudos epidemiológicos sobre os

efeitos da poluição do ar na saúde. Os equipamentos de aferição da qualidade do ar podem

apresentar falhas que impossibilitem seu funcionamento por até vários dias seguidos. Estas

lacunas podem causar distorções na quantificação da exposição. O mecanismo gerador dos

dados faltantes é geralmente ignorado. A análise de dados incluindo apenas as observações

disponíveis, sem um tratamento estatístico para a questão de dados faltantes, pode produzir

estimativa viesada da medida de efeito e subestimar sua precisão.

Neste trabalho são propostos alguns procedimentos de imputação de dados em séries

temporais multivariadas, e.g concentrações diárias de poluentes atmosféricos, baseados no

algoritmo EM (expectation-maximization). A trajetória temporal das séries é modelada com o

uso de splines, modelos de regressão ou modelos ARIMA (autoregressive integrated moving

average) com múltiplos regimes de covariâncias. Um estudo de simulação com diversas

configurações de dados faltantes é usado para avaliar a validade destes métodos e daqueles

que estão disponíveis como padrão na maioria dos aplicativos de análise estatística. Os

métodos são avaliados também quanto a sua performance por meio de indicadores de acurácia

e concordância. Em adição, um critério de penalização pela informação perdida é proposto

afim de contemplar no modelo de estudo a incerteza introduzida pela imputação.

Os resultados dos estudos de simulação permitem afirmar que: (i) a análise de dados

considerando apenas as unidades de observação completas subestimaram o efeito do poluente

no evento de saúde mesmo com pequena quantidade de dados faltantes; (ii) as imputações

pela média e pela mediana apresentaram este efeito superestimado, grande dispersão das

estimativas e baixa concordância dos valores imputados com os originais; (iii) os

procedimentos multivariados apresentaram melhor desempenho e acurácia que os

univariados; (iv) os métodos multivariados com ajuste do componente temporal apresentaram

Page 70: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

67

maior acurácia e precisão. Também apresentaram menores erros de previsão e maior

concordância entre os valores imputados e os originais, sobretudo os procedimentos baseados

em splines com múltiplos regimes de covariâncias. A validade e o desempenho dos métodos

foram avaliadas inclusive com dados faltantes devido a causas não ignoráveis. Os métodos

propostos neste trabalho estão implementados na biblioteca mtsdi para o aplicativo estatístico

R.

Page 71: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

68

5.1 Introdução

O problema de dados incompletos surge com freqüência em estudos epidemiológicos,

por exemplo, itens não respondidos em um survey, pacientes que não comparecem ao follow-

up, dados de sistemas de informação em saúde não disponíveis para algumas unidades de

estudo etc. Em estudos sobre os efeitos da poluição do ar na saúde, os equipamentos de

aferição das concentrações de contaminantes na atmosfera sofrem freqüentemente mau

funcionamento que impossibilitam sua operação por horas ou mesmo dias. Durante muito

tempo, o problema de dados incompletos tem sido extensivamente estudado e vários métodos

para lidar com o problema foram publicados na literatura estatística (Schafer, 1997; Little,

1992; Little e Rubin, 1989, Dempster et al, 1977; Rubin, 1976; Beale e Little, 1975; Hartley e

Hocking, 1971), porém pouca atenção tem sido dada em textos epidemiológicos (Miettinen,

1985; Greenland e Rothman, 1998). Entretanto, diversos autores têm estudado os efeitos da

análise de dados incompletos na estimação de medidas epidemiológicas usando simulação

estocástica (Gorelick, 2006; Plaia e Bondì, 2006; Junninen et al, 2004; Engels e Diehr, 2003),

e ainda novos procedimentos de análise têm sido propostos. Alguns procedimentos são

simples e acabam produzindo estimativas viesadas e outros mais sofisticados dependem de

fortes pressupostos sobre o mecanismo gerador do padrão de dados faltantes e complicadas

implementações computacionais (Little e Rubin, 1987; Schafer, 1997).

Rubin (1976) classifica dados incompletos de acordo com o mecanismo gerador do

padrão de valores faltantes em dados “faltantes completamente ao acaso” ou MCAR (missing

completely at random), dados “faltantes ao acaso” ou MAR (missing at random) e dados

“faltantes não ao acaso” ou MNAR (missing non at random). O pressuposto de MCAR é

restritivo demais para as aplicações gerais. Em estudos epidemiológicos é comum que a

distribuição dos registros faltantes esteja relacionada com o status de exposição ou doença.

Page 72: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

69

Assim, os pressupostos de MAR para o mecanismo gerador dos dados faltantes podem ser

mais realistas (Greenland e Finkle, 1995).

O procedimento de análise mais comum e implementado como padrão na maioria dos

aplicativos estatísticos consiste na exclusão das unidades de observação com valores não

aferidos em uma ou mais covariáveis; também conhecida como análise de dados completos.

Este procedimento somente produz estimativas não viesadas sob os pressupostos restritivos de

MCAR. Ainda, dependendo do número de covariáveis no modelo e da quantidade de dados

faltantes, pode haver perda significante da precisão dos estimadores (Greenland e Rothman,

1998; Greenland e Finkle, 1995). Se os dados faltantes são MAR, a análise de dados

completos não é mais baseada em uma amostra da população de origem e é provável que

ocorra viés de seleção (Donders et al, 2006). Esta abordagem é mais problemática na análise

de séries temporais, pois a exclusão de unidades observacionais incompletas pode alterar

consideravelmente as estruturas de dependência temporal, tendência e sazonalidade (Box et

al, 1994).

A análise de regressão usando apenas as unidades observacionais completas pode ser

estendida com o método da variável indicadora, que consiste em incluir no modelo uma

variável com valores 1 se a covariável tem o valor correspondente faltando ou 0 em caso

contrário (Vach e Blettner, 1991). Miettinen (1985) aponta que este método também não

garante validade das estimativas e que quando aplicado às covariáveis que constituem fatores

de confusão, estes são apenas parcialmente controlados.

Além da análise de dados incluindo apenas as unidades observacionais com registros

completos há na literatura uma grande variedade de procedimentos para estimar parâmetros

de modelos com dados incompletos. Os principais procedimentos podem ser classificados em

dois grandes grupos: os baseados em modelos e os baseados em imputação (Little e Rubin,

1989). Apesar dos procedimentos baseados em modelos serem mais flexíveis, não

Page 73: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

70

dependerem de métodos ad hoc e produzirem estimativas da variância considerando os dados

incompletos, estes podem envolver a solução de complicadas equações de verossimilhança

(Little e Rubin, 1989; Hartley e Hocking, 1971). Tais procedimentos freqüentemente

requerem rotinas computacionais específicas para cada problema; o que dificulta sua

implementação em aplicativos estatísticos. Por outro lado, os procedimentos baseados em

imputação consistem em preencher os valores faltantes e analisar o conjunto de dados

resultante usando métodos convencionais. Alguns procedimentos baseados em imputação são

simples e implementados na maioria dos aplicativos estatísticos, por exemplo, substituição

pela média incondicional da covariável. Procedimentos mais sofisticados também envolvem

grande esforço computacional e dificuldade de implementação, por exemplo, a imputação

múltipla (Schafer, 1997).

A principal desvantagem dos procedimentos baseados em imputação é que em sua

maioria a imprecisão devida à imputação não é contemplada na análise e portanto a variância

dos estimadores é subestimada. Os procedimentos mais simples de imputação freqüentemente

levam a estimativas viesadas das associações (Donders et al, 2006). A imputação múltipla

produz estimativas da variância levando em consideração que a distribuição da variável com

valores faltantes não realmente foi observada; o que se traduz em intervalos de confiança mais

precisos (Schafer, 1997). A imputação múltipla não está amplamente implementada nos

aplicativos estatísticos, sobretudo para modelos de séries temporais. A sua implementação

depende da classe de modelo utilizada e é computacionalmente intensiva.

A imputação múltipla não será objeto deste artigo; serão considerados apenas os

procedimentos de imputação única mais freqüentemente abordados na literatura. Um

procedimento simples e disponível na maioria dos aplicativos estatísticos consiste na

substituição do valor faltante pela média incondicional. Sob MAR, este procedimento leva a

estimativas não consistentes da variância dos estimadores dos coeficientes de regressão; sob

Page 74: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

71

MCAR, as estimativas da variância são consistentes, porém subestimadas. Logo, os testes de

hipóteses e intervalos de confiança são distorcidos pelo viés e pela precisão superestimada

(Little e Rubin, 1989; Little, 1992). A imputação com a mediana pode produzir melhores

resultados no caso de variáveis com distribuição assimétrica (Miettinen, 1985). A imputação

única baseada na média incondicional ou na média condicional tende a distorcer a distribuição

marginal dos dados imputados devido à maior concentração de observações em torno da

média. Esta distorção é mais preocupante se as caudas da distribuição são de interesse no

estudo, e.g. cálculo dos intervalos de confiança (Little e Rubin, 1989).

Um aperfeiçoamento do procedimento para a imputação única de dados mencionada

acima consiste em usar a informação das várias covariáveis observadas na mesma unidade

observacional para imputar o respectivo valor faltante de uma dada variável por meio de um

modelo de regressão linear. Os coeficientes da regressão são estimados usando as unidades

completas. Sob MCAR, os dados imputados produzem estimativas consistentes do efeito da

variável de estudo (Little, 1992).

O método de Buck (Buck, 1960) é um procedimento para imputação de dados baseado

na média condicional para dados com distribuição normal multivariada. Neste método, as

observações faltantes em uma variável são estimados como uma regressão linear das variáveis

observadas e os coeficientes de regressão, como função do vetor média e da matriz de

covariâncias amostrais baseados nas observações completas. Hartley e Hocking (1971)

propuseram as equações iterativas para a estimação por máxima verossimilhança do vetor de

médias e da matriz de covariâncias de uma distribuição normal multivariada com dados

faltantes. Este método foi estendido para outras distribuições da família exponencial e ficou

conhecido como algoritmo EM (expectation-maximisation) (Dempster et al, 1977). O

algoritmo EM aplicado sob os pressupostos da distribuição normal multivariada neste

contexto é uma versão iterativa do método de Buck (McLachlan e Krishnan , 1997).

Page 75: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

72

Neste trabalho propomos um método para imputação de dados faltantes em séries

temporais multivariadas inspirado no algoritmo EM. Além das estruturas de dependência

entre as variáveis, o método também leva em consideração as estruturas de dependência

temporal de cada variável. Diferentes estratégias de modelagem dos componentes temporais

das séries temporais são propostas. Um estudo de simulação foi desenvolvido a fim de avaliar

a validade do procedimento proposto e comparar sua performance com aqueles mais

freqüentemente encontrados. O método está implementado como um pacote ao aplicativo

estatístico R (R Development Core Team, 2007). Este trabalho foi desenvolvido como parte

do Projeto ESCALA (Estudios de Salud y Contaminación del Aire en Latinoamérica)

(Gouveia et al, 2007).

5.2 Métodos

5.2.1 Procedimento de imputação

Seja tx , ( )1, ,t n= … , a t -ésima realização do vetor aleatório X , com distribuição

normal multivariada, com m componentes não observados. O vetor tx pode ser arranjado de

forma que os m componentes faltantes sejam colocados nas primeiras posições, ou seja,

( )( )1 1, , , , ,T

t t tm tpt mx x x x+= … …x , e representado como ( )1 2,T

t t t=x x x . Considere B janelas

com diferentes regimes de covariâncias ao longo do tempo. A estimativa do vetor média no

instante t e janela b , ( )1, ,b B= … , pode ser particionado seguindo a mesma configuração

dos componentes de tx , isto é,

1

2

tt

t

=

µµ

µ

ɶɶ

ɶ e 11 12

21 22

b bb

b b

=

Σ ΣΣ

Σ Σ

ɶ ɶɶ

ɶ ɶ.

Page 76: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

73

O algoritmo de imputação consiste em (1) substituir os valores faltantes por valores

estimados, (2) estimar os parâmetros µ e Σ do modelo normal subjascente (as estimativas de

µ são usadas apenas para estimar Σ ) e o nível de cada série temporal univariada tµ (usado

para imputar os dados faltantes), (3) reestimar os valores faltantes considerando os parâmetros

atualizados e o nível da cada série temporal. Este processo é repetido até que os valores

estimados cessem de variar1.

As estimativas iniciais 0µɶ e 0Σɶ são respectivamente o vetor média e a matriz de

covariâncias amostrais considerando apenas os dados observados. Na iteração ( )1k + do

passo E do algoritmo EM modificado, os valores faltantes são imputados como a média

condicional aos valores observados e os parâmetros estimados na iteração anterior dada por

( ) ( ) ( ) ( ) ( ) ( ) ( )( )1 -11

k k k k k k kt t t t b t b b t tE+ = = 1 2 1 12 22 2 2x X | x ,µ ,Σ µ +Σ Σ x -µɶ ɶ ɶɶ ɶ ɶ ɶ

e as contribuições para as covariâncias são dadas por

�( ) ( ) ( ) ( ) ( ) ( ) ( )1

-11 1 1 1 2 11 12 22 21 1 1

kk k k k k kT T T

t t t t t t b b b b b t tE+

= = x x X X | x ,µ ,Σ Σ -Σ Σ Σ + x xɶ ɶ ɶ ɶ ɶɶ ɶ ɶ

e

�( ) ( ) ( )1

1 2 1 2 2 1 2

kk kT T T

t t t t t t b t tE+

= = x x X X | x ,µ ,Σ x xɶɶ ɶ ɶ .

No passo M, são computadas as estimativas de máxima verossimilhança revisadas de

bµ e bΣ , considerando implícito o índice da interação ( )1k + , 1

bn

b bt btn

==∑µ xɶ ɶ e

1

bn T Tb bt bt b b bt

n=

=∑Σ x x -µ µɶ ɶ ɶ . A estimativa bµɶ é usada apenas para o cálculo de bΣɶ .

A contribuição do componente temporal de cada série univariada é estimado de modo

ad hoc, isto é, são necessários modelos adicionais para a estimação de tµ . Neste método de

1 Nota para a tese: O fluxograma do algoritmo de imputação com componente temporal é apresentado no Apêndice A1.

Page 77: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

74

imputação, estão implementadas três opções de estimação do nível das séries temporais:

modelo ARIMA, spline cúbica não paramétrica e modelo aditivo generalizado (MAG).

Seja ( )1 2, , ,T

t t t tpX X X=X … um vetor aleatório com distribuição normal multivariada.

Suponha que cada componente tjX , com 1, ,j p= … , possa ser representado por um processo

ARIMA( p,d,q) denotado por

1 1 2 2 1 1 2 2d

jt jt jt p jt p jt jt jt q jt qx x x x a a a aφ φ φ θ θ θ− − − − − −∇ = + + + + − − − −⋯ ⋯,

em que d∇ é o operador de diferença de ordem d , as constantes φ são os coeficientes

autoregressivos e θ os coeficientes de média móvel. A estimativa do nível para a variável

jX no instante t é a previsão um passo a frente do modelo ARIMA dada por

( ) ( )1 2| , ,jt jt j t j tE X x xµ − − =

ɶ … . A estimativa do nível é calculada usando as informações

passadas de jX (Box et al, 1994).

No caso das splines cúbicas não paramétricas, considere que tµ pode ser estimado por

uma função suave jg , com 1, ,j p= … . A curva jg é estimada tal que o funcional

( ) ( ){ } { }22 ''

1

bK

j t kk aS g X g g dxν λ

== − +∑ ∫ seja minimizado. Os pontos 1 2, , , Kν ν ν…

ordenados no intervalo [ ],a b são os nós e λ é o parâmetro de suavização da curva. A solução

deste problema é uma spline cúbica natural (Green e Silverman, 1994). Cada variável jX tem

seu nível dado por ( )jt jtg xµ = .

A estimativa de jtµ também pode ser obtida por meio de um modelo de regressão. A

principal vantagem deste método é a possibilidade de incluir no modelo de imputação

informação proveniente de h variáveis externas ao conjunto incompleto de dados, e.g.

1 2, , , hZ Z Z… , tal que possam contribuir para explicar a variabilidade de cada série temporal.

Modelos lineares generalizados (McGullagh e Nelder, 1989) e modelos aditivos generalizados

Page 78: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

75

(Hastie e Tibshirani, 1990) estão implementos na biblioteca para imputação de dados no

aplicativo estatístico R desenvolvida a partir deste trabalho. Os modelos aditivos

generalizados são bastante flexíveis e podem incluir no seu preditor funções suaves das

covariáveis. As estimativas de jtµ , com 1, ,j p= … , são da forma

( )0jt u u v vu vZ g Zµ β β= + +∑ ∑ , as constantes β são coeficientes da partição linear do

modelo, u v h+ = e ( )g ⋅ são funções suaves das covariáveis.

5.2.2 Penalização pela informação perdida

Em estudos de séries temporais sobre os efeitos da poluição do ar na saúde, a medida

de exposição geralmente é determinada por alguma medida sumária, e.g. a média aritmética,

das concentrações medidas nas diversas estações de monitoramento instalados na região de

estudo. Contudo, após a imputação dos dados faltantes, em alguns dias a exposição terá sido

determinada por medidas observadas e medidas imputadas. A fim de produzir estimativas da

variância que levem em consideração que a informação em algumas observações foram

estimadas, e não efetivamente medidas, é adequado definir algum critério de penalização para

estas medidas de exposição.

A penalização pode se dar por meio da atribuição dos pesos tw para cada observação

do modelo de regressão generalizada para estimar a associação entre o poluente e os eventos

de saúde, a fim de considerar a variabilidade extra introduzida pelo processo de imputação na

precisão dos estimadores. Uma função de penalização naive consiste em uma quantidade

linear inversamente proporcional ao número de valores imputados em uma dada linha do

banco de dados de concentrações de poluentes, denotada por ( )1t tw k m p= − , em que tm é

o número de componentes (estações) faltantes no vetor observado de comprimento p no

instante t e k é uma constante arbitrária. A constante k controla o desconto que será dado ao

Page 79: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

76

valor médio correspondente à exposição no instante t . A escolha de 0.5k = tem mostrado

bons resultados, produzindo intervalos de confiança mais conservadores para a medida de

associação. Outras funções de penalização estão sendo investigadas pelos autores.

5.2.3 Dados

Uma das dificuldades na avaliação de procedimentos de imputação de dados faltantes

é que geralmente não há como comparar os valores imputados com os valores originais. A

geração de dados simulados com variáveis correlacionadas e com dependência temporal não é

trivial; e o melhor modelo pode não ser capaz de capturar toda a dinâmica inerente ao

processo estocástico subjacente. Por isto, neste trabalho, optou-se por usar dados reais. Foi

possível obter uma amostra de dados completos com 366 dias consecutivos com

concentrações de material particulado até 10 micra (PM10) em microgramas por metro cúbico

(µg/m³), proveniente de 10 estações de monitoramento da qualidade do ar instaladas no

município de São Paulo no ano 2004. Os dados foram registrados e cedidos pela Companhia

de Tecnologia de Saneamento Ambiental (CETESB) do Estado de São Paulo no âmbito do

projeto ESCALA. Por simplicidade, as estações serão referidas pelos rótulos E1 a E10,

Os métodos propostos neste artigo assumem que os dados completos têm distribuição

normal. Entretanto, dados ambientais geralmente não seguem esta distribuição. Assim, todas

as imputações foram realizadas usando o logaritmo natural dos dados originais para melhor

aproximação da distribuição normal e estabilidade da variância para os métodos baseados em

regressão (Box e Cox, 1964). Os dados imputados foram transformados de volta para a escala

original para estimar o efeito do PM10 no evento de saúde.

5.2.4 Estudo de simulação

A fim de avaliar a validade dos métodos de imputação propostos neste artigo e

Page 80: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

77

possibilitar a comparação com outros existentes na literatura foi conduzido um estudo de

simulação baseado na geração de padrões representativos de diversos cenários de dados

faltantes. Os padrões de dados faltantes considerados foram os resultantes da combinação de

mecanismos de geração de dados faltantes, proporções de dados faltantes e configurações das

lacunas.

Foram investigadas proporções iguais a 5%, 10%, 20%, 30% e 40% de dados

faltantes. A literatura indica (Greenland e Rothman, 1998; Miettinen, 1985) que para uma

pequena proporção de dados faltantes e um grande número de observações a análise de dados

completos produz bons resultados, portanto o cenário de 5% foi incluído como referência. A

proporção de 40%, por outro lado, serve para avaliar os métodos de imputação sob condições

extremas de informação perdida.

Amostras sem reposição foram usadas a fim de alcançar a quantidade de valores

faltantes desejada em cada rodada. Os dados MCAR foram gerados como uma amostra

aleatória de todas as observações do conjunto de dados utilizado. Dados MAR foram

selecionados aleatoriamente com a condição de que a média dos valores observados nas

outras colunas da mesma linha excedessem um determinado quantil da distribuição da

variável na coluna sendo gerada. Os dados MNAR foram gerados de forma semelhante,

exceto que o valor observado naquele índice de linha e coluna excedessem um determinado

quantil, isto é, a distribuição dos valores faltantes foi condicionada aos valores que teriam

sido observados.

Em séries temporais de concentrações de poluentes atmosféricos é comum a

ocorrência de lacunas que incluem vários dias em uma estação de monitoramento e/ou lacunas

que incluam várias estações no mesmo dia. Diferentes configurações de lacunas foram

investigadas. As lacunas “esparsas” foram formadas por valores faltantes isolados, isto é, não

consecutivos em linha ou coluna. Também foram avaliados segmentos com valores faltantes

Page 81: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

78

consecutivos “em linha” e “em coluna” com comprimentos variando entre 3, 5 e 7. A escolha

dos comprimentos define um gradiente na direção de uma situação extrema de falta de

informação. Para gerar as configurações “em linha” e “em coluna” apenas a posição do

primeiro elemento da lacuna foi sorteado. E, por último mas não menos importante e que de

fato representa uma situação mais realista de dados faltantes, foram consideradas as lacunas

“dispersas”. Estas foram geradas sem nenhum tipo de restrição de comprimento ou

localização. Assim, foi possível gerar configurações que incluem dados faltantes isolados e

diversos comprimentos de lacunas em linha e em coluna.

A metodologia considerada estado da arte para a análise de séries temporais sobre os

efeitos da poluição do ar na sáude consiste no uso de modelos de regressão de Poisson

(Schwartz et al, 1996) via modelos aditivos generalizados (Hastie e Tibshirani, 1990). Após

controlar pelos potenciais fatores de confusão previstos no modelo teórico (Schwartz et al,

1996), o valor da função exponencial do coeficiente de regressão da variável de exposição em

um modelo de regressão de Poisson é interpretado como o risco relativo ou a razão de taxas

(Greenland e Rothman, 1998) correspondente a um acréscimo de uma unidade na variável de

exposição. Um modelo estatístico para quantificar a associação entre concentrações médias

diárias de PM10 e o número diário de internações por doenças respiratórias em crianças foi

estimado; e o coeficiente (e erro padrão) da concentração média diária de PM10 foi comparado

com os coeficientes estimados sob os diversos cenários de dados faltantes. Splines penalizadas

foram usadas para modelar associações não lineares (Dominici et al, 2002).

Cada cenário de dados faltantes foi replicado 100 vezes e imputado usando alguns

procedimentos univariados e multivariados comuns na literatura e aquele proposto neste

artigo com diferentes ajustes do componente temporal. Entre os univariados foram usados a

média incondicional, a mediana e o vizinho mais próximo. Os multivariados incluem a média

condicional (regressão) e o algoritmo EM para a distribuição normal. A extensão do algoritmo

Page 82: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

79

EM proposta neste artigo usou filtros temporais univariados baseados em curvas suaves da

classe spline, modelos ARIMA e modelos aditivos generalizados com variáveis exógenas.

Como temperatura e umidade fazem parte do modelo de associação, estas variáveis não foram

incluídas no modelo de imputação a fim de evitar o ajuste em excesso (overfitting). Ao final

de cada replicação os coeficientes estimados foram resumidos usando média de Monte Carlo e

o resultado comparado com o valor de referência2.

O processo de simulação de cenários e imputação de dados faltantes usando diversas

metodologias é computacionalmente intensivo†. Assim, dada a diversidade de metodologias

disponíveis na literatura e cenários de dados faltantes, aqueles avaliados neste artigo

constituem apenas algumas possibilidades para a análise de dados incompletos. A fim de

garantir a reprodutibilidade do estudo, foi utilizada uma única semente geradora de números

aleatórios embutido no R.

5.2.5 Indicadores de performance

Além da análise de validade com múltiplas replicações, os métodos também foram

avaliados em termos de qualidade da imputação em uma única replicação de um padrão

escolhido ao acaso. Os valores imputados foram avaliados quanto a sua acurácia,

concordância e dispersão.

O desvio médio quadrático foi usado para estimar a média geral do erro de cada

método de imputação.

( )2

1

1 m

i iiRMSD x x

m == −∑ ɶ

2 Nota para a tese: O fluxograma do estudo de simulação está apresentado no Apêndice A2. † Usando códigos otimizados em um processador Pentium 4 com 3.2 GHz, núcleo duplo e 2 GB de memória RAM a simulação levou aproximadamente 500 horas de processamento.

Page 83: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

80

O desvio médio absoluto foi usado como uma medida mais sensível do erro do

modelo, pois é menos influenciada por grandes diferenças entre os valores originais e os

imputados.

1

1 m

i iiMAD x x

m == −∑ ɶ

O viés foi calculado como a média das diferenças entre os valores originais e os

imputados.

( )1

1 m

i iiBIAS x x

m == −∑ ɶ

Para avaliar a dispersão de cada método, a variância amostral dos valores imputados

foi comparada com a variância dos valores originais. A variância proporcional foi calculada

da forma abaixo.

( )( )

var

var

xPV

x=

ɶ

O coeficiente de correlação de Pearson é o indicador mais comum para avaliar o

desempenho de métodos de imputação.

( )cov ,

var( ) var( )

x xr

x x=

ɶ

ɶ

Entretanto, o valor do coeficiente de correlação pode não estar relacionado com o

tamanho das discrepâncias entre os valores originais e os imputados. Para contornar este

problema, Willmott (1982) propôs um índice de concordância 2d .

( )( )

2

12 2

1

1

m

i iim

i ii

x xd

x x x x

=

=

− = − − + −

∑∑

ɶ

ɶ

Os valores de 2d variam entre 0 e 1, em que 1 indica concordância perfeita e 0 a

ausência de concordância. Nas equações acima, m denota o número de valores faltantes no

Page 84: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

81

conjunto de dados simulado, ix são os valores originais, ixɶ são os valores imputados,

1, ,i m= … , e x é a média dos valores imputados.

5.2.6 Recursos computacionais

Diversas rotinas para a simulação de padrões de dados faltantes, imputações

univariadas e média condicional e respectivas análises foram implementadas usando o

aplicativo estatístico R (R Development Core Team, 2007). O algoritmo EM normal

multivariado bem como os métodos propostos neste artigo estão implementados na biblioteca

R mtsdi (multivariate time-series data imputation) desenvolvida como parte integrante deste

artigo. A biblioteca mtsdi é uma coleção de rotinas para a imputação de dados faltantes em

séries temporais multivariadas.

5.3 Resultados e discussão

5.3.1 Descrição dos dados

A fim de obter um valor de referência para as imputações em cada método e cenário,

foi estimado um modelo de associação para avaliar o efeito das concentrações de PM10 sobre

o número diário de internações por doenças respiratórias em crianças no município de São

Paulo, no ano 2004. As concentrações diárias das 10 estações de monitoramento disponíveis

foram usadas para calcular um indicador diário da exposição média para o município. O

modelo de Poisson estimado com o conjunto completo dos dados foi formado por uma spline

com 6 graus de liberdade (gl) do índice de tempo para ajustar a tendência e sazonalidade, uma

spline com 4 gl da temperatura média com 2 dias de defasagem e uma spline com 4 gl da

umidade no mesmo dia para ajustar os fatores meteorológicos e termos lineares para o ajuste

dos efeitos dos dias da semana e feriados. O efeito da exposição foi avaliado com um termo

Page 85: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

82

linear. O coeficiente estimado foi igual a 0,004321 e o erro-padrão igual 0,001063 ou em

percentual de risco relativo, para a variação de uma unidade na concentração média de PM10,

igual a 0,433% com intervalo de confiança de 95% igual a (0,224;0,643).

Tabela 5-1 Medidas sumárias de concentrações de PM10 em 10 estações de São Paulo em µg/m³.

Estação Média Mínimo Mediana Máximo

E1 37,2 16,9 9,7 23,8 34,5 46,3 91,5E2 44,1 25,1 10,6 26,7 38,0 55,5 160,6E3 36,4 16,0 8,7 24,5 33,4 44,8 98,0E4 38,9 18,5 10,7 25,0 34,1 49,6 112,5E5 45,0 24,3 10,7 27,2 38,4 57,3 149,6E6 45,5 20,0 6,9 30,9 43,1 55,5 132,4E7 45,3 23,6 8,7 29,0 41,0 55,8 173,0E8 51,6 26,5 7,3 31,4 46,3 68,8 155,9E9 49,7 25,7 9,9 30,3 45,8 62,9 164,3E10 38,0 18,5 6,7 25,6 34,0 46,9 129,2

Desviopadrão

1º Quartil 2º Quartil

Na Tabela 5-1 estão apresentadas as medidas sumárias para as concentrações de PM10

nas 10 estações de monitoramentos utilizadas neste estudo. Apesar de se observar valores que

violam os padrões de qualidade do ar estabelecidos pela Organização Mundial de Saúde

(WHO, 2006) em algumas estações, as estatísticas descritivas não indicaram a ocorrência de

valores outliers. A Tabela 5-2 apresenta os coeficientes de correlação linear de Pearson para as

concentrações de PM10 entre as estações incluídas no estudo. Apenas 7 pares de estações

apresentaram correlação inferior a 0,7 e apenas um menor que 0,6. Este padrão denota uma

distribuição razoavelmente homogênea do material particulado ao longo do ano 2004 na

cidade de São Paulo, o que sugere um melhor desempenho pode ser obtido usando os métodos

de imputação multivariados.

Page 86: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

83

Tabela 5-2 Correlações de Pearson para as concentrações de PM10 entre as estações

E1 E2 E3 E4 E5 E6 E7 E8 E9 E10

E1 1 0,81 0,93 0,81 0,80 0,73 0,81 0,80 0,74 0,78E2 0,81 1 0,89 0,87 0,70 0,82 0,81 0,85 0,71 0,82E3 0,93 0,89 1 0,84 0,77 0,79 0,83 0,83 0,74 0,83E4 0,81 0,87 0,84 1 0,63 0,72 0,72 0,82 0,68 0,79E5 0,80 0,70 0,77 0,63 1 0,72 0,80 0,75 0,65 0,68E6 0,73 0,82 0,79 0,72 0,72 1 0,73 0,79 0,72 0,76E7 0,81 0,81 0,83 0,72 0,80 0,73 1 0,75 0,58 0,82E8 0,80 0,85 0,83 0,82 0,75 0,79 0,75 1 0,60 0,75E9 0,74 0,71 0,74 0,68 0,65 0,72 0,58 0,60 1 0,58

E10 0,78 0,82 0,83 0,79 0,68 0,76 0,82 0,75 0,58 1

A análise de correlação estratificada por trimestres, por outro lado, revelou um padrão

heterogêneo das concentrações de material particulado ao longo do ano. Os coeficientes de

correlação de Pearson para cada trimestre estão apresentados na Tabela 5-3. Este padrão

corrobora a utilização de métodos multivariados que incorporem múltiplos regimes de

covariâncias.

A previsão de PM10 por meio de modelos é complicada já que este consiste de uma

mistura de grande variedade de partículas com diferentes composições químicas (Fuller et al,

2002). Entretanto, como mostram a Tabela 5-2 e a Tabela 5-3, as concentrações de PM10

medidas nas 10 estações da cidade de São Paulo em 2004 apresentaram correlação alta na

maior parte do ano.

Tabela 5-3 Correlações de Pearson das concentrações de PM10 entre as estações estratificadas por trimestre

Correlações no 1º Trimestre

E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E1 E1 0,38 0,85 0,52 0,76 0,23 0,52 0,28 0,67 0,62 E2 0,87 E2 0,59 0,73 0,35 0,72 0,51 0,68 0,39 0,77 E3 0,93 0,92 E3 0,64 0,73 0,40 0,62 0,47 0,55 0,75 E4 0,90 0,83 0,86 E4 0,32 0,63 0,36 0,73 0,45 0,81 E5 0,87 0,79 0,86 0,77 E5 0,14 0,66 0,10 0,60 0,51 E6 0,83 0,88 0,87 0,78 0,73 E6 0,21 0,74 0,37 0,50 E7 0,78 0,75 0,80 0,69 0,76 0,70 E7 0,17 0,41 0,53 E8 0,88 0,86 0,87 0,85 0,78 0,81 0,64 E8 0,12 0,58 E9 0,84 0,81 0,84 0,78 0,73 0,83 0,57 0,76 E9 0,45 C

orr

elaç

ões

no

Tri

mes

tre

E10 0,88 0,91 0,91 0,85 0,81 0,82 0,79 0,84 0,77 E10

Correlações no 3º Trimestre

E1 E2 E3 E4 E5 E6 E7 E8 E9 E10

Page 87: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

84

E1 E1 0,89 0,94 0,88 0,89 0,85 0,89 0,90 0,66 0,86 E2 0,86 E2 0,96 0,90 0,82 0,85 0,92 0,88 0,61 0,90 E3 0,95 0,84 E3 0,90 0,87 0,91 0,91 0,91 0,67 0,90 E4 0,81 0,82 0,75 E4 0,81 0,80 0,86 0,87 0,60 0,89 E5 0,63 0,66 0,59 0,52 E5 0,86 0,84 0,86 0,66 0,77 E6 0,63 0,66 0,65 0,55 0,36 E6 0,82 0,85 0,67 0,76 E7 0,79 0,75 0,77 0,71 0,57 0,44 E7 0,86 0,53 0,89 E8 0,76 0,69 0,71 0,66 0,68 0,34 0,67 E8 0,50 0,84 E9 0,76 0,77 0,74 0,63 0,58 0,69 0,58 0,52 E9 0,47 C

orr

elaç

ões

no

Tri

mes

tre

E10 0,60 0,62 0,64 0,62 0,12 0,62 0,57 0,29 0,48 E10

5.3.2 Análise de validade

A fim de estudar a validade dos métodos de imputação propostos neste artigo e

compará-los com métodos mais disponíveis, o banco de dados de concentrações de PM10 com

3.660 valores observados foi submetido a 100 replicações de cada configuração de dados

faltantes. Desta forma, foi possível avaliar a distribuição dos coeficientes de regressão

estimados para o modelo de associação, usando como medida ecológica de exposição a média

de material particulado obtida após cada procedimento de imputação. Os efeitos estimados em

cada configuração estão apresentados em percentuais de risco relativo.

Lacunas de comprimento 1

A primeira configuração estudada consiste de dados faltantes em lacunas de

comprimento 1, ou seja , não há valores faltantes contíguos em linha ou coluna. Esta

configuração é bastante singular e pouco comum na prática. A análise de dados usando apenas

as unidades de observação completas (OC) produziu boas estimativas do risco relativo com

5% de dados faltantes. Considerando todos os mecanismos, as estimativas do efeito tenderam

a diminuir à medida que aumentou o número de dados faltantes. Sob MAR, mesmo com 10%

dos valores não observados, a média dos efeitos estimados foi 0,432, ou seja, uma diferença

na terceira casa decimal em relação ao valor de referência. A imputação pela média

incondicional (MI) ou mediana (MD) superestimaram consideravelmente a medida de efeito,

Page 88: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

85

mesmo com 5% de dados faltantes. A média dos coeficientes aumentou consideravelmente à

medida que aumentou o número de dados faltantes, e.g. para proporções de dados faltantes

maiores que 20%, os efeitos estimados foram em torno 0,5 não importando o mecanismo. A

imputação pela média ou mediana também produziu estimativas com as maiores dispersões

observadas. O método do vizinho mais próximo univariado (VP) nesta configuração, também

produziu boas estimativas com diferença na segunda casa decimal. A média condicional ou

regressão (MC) tendeu a subestimar o efeito à medida que aumentou o número de dados

faltantes e chegou a 0,414 para 30% de dados faltantes. Entretanto, sob MAR esta diferença

não excedeu 0,005. De um modo geral, o método da média condicional produziu estimativas

com variação na segunda casa decimal e com pequena dispersão.

O algoritmo EM e os procedimentos de imputação propostos neste artigo apresentaram

estimativas muito próximas do valor de referência para todas as combinações de mecanismos

e proporções de dados faltantes nesta configuração. As diferenças entre os efeitos estimados e

o valor de referência foram menores que 0,01. Sob MAR, estas diferenças foram menores que

0,005. Nesta configuração, mesmo sob MNAR as estimativas foram acuradas e precisas; o

maior desvio-padrão estimado não excedeu 0,02. Entretanto, sob MCAR a precisão foi mais

baixa. Os procedimentos que usam uma spline para estimação do nível de cada série temporal

tenderam a ser mais precisos devido a estabilidade das previsões esperadas de um modelo de

suavização. Por outro lado, os procedimentos baseados em modelos ARIMA tenderam a ser

menos precisos devido à maior variabilidade de suas previsões 3. Não foi possível gerar 40%

de dados faltantes sem valores contíguos para o número de variáveis e observações do estudo.

Lacunas em linhas

A simulação de padrões de dados faltantes com a configuração de lacunas “em linha”

3 Nota para tese: Tabela com resultados detalhados no Apêndice A3.

Page 89: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

86

apresentou resultados com comportamentos semelhantes, porém com diferentes magnitudes.

Nesta aplicação, as lacunas de 3 e 5 estações equivalem a 30 e 50% de dados faltantes em um

mesmo dia. Com 5% de dados faltantes, todos os procedimentos de imputação avaliados

apresentaram bom desempenho, exceto a imputação pela média e pela mediana. Estes

tenderam a superestimar consideravelmente a associação entre concentrações de PM10 e o

número de internações por doenças respiratórias em crianças considerando todos os

mecanismos; e tenderam a aumentar à medida que aumentou o número de dados faltantes, e.g.

com 40% de dados faltantes, o efeito estimado passou de 0,5%. O procedimento do vizinho

mais próximo também tendeu a produzir estimativas mais altas à medida que aumentou o

percentual de valores faltantes. A análise de dados completos tendeu a subestimar os efeitos à

medida que aumentou a quantidade de dados faltantes. O procedimento de imputação pela

média condicional é baseada em unidades completas para estimar o modelo de previsão dos

valores faltantes; logo, nesta configuração, a análise de dados completos e imputação pela

média condicional produziram os mesmos resultados.

Os métodos multivariados apresentaram os melhores resultados. Usando o algoritmo

EM, a maior diferença em relação ao valor de referência foi igual a 0,008, sob MNAR e com

40% de dados faltantes. O procedimento apresentou uma ligeira tendência a superestimar os

efeitos à medida que aumentou o número de dados faltantes. O método EM usando uma

spline para previsão do nível de cada série temporal e múltiplos regimes (MR) de covariâncias

apresentou os efeitos estimados mais próximos do valor de referência; a maior diferença

observada foi de 0,004 para mais e para menos, exceto para 40% de dados faltantes sob

MNAR.

Na configuração “em linha” com lacunas de 3 e 5 estações, 40% de dados faltantes e

sob MCAR os métodos baseados no algoritmo EM com ajuste do componente temporal e

múltiplos regimes de covariância apresentaram problemas de convergência, principalmente

Page 90: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

87

com os métodos cujas previsões têm maior variabilidade como o ARIMA e MAG. Os valores

estimados foram consideravelmente mais baixos que o valor de referência e apresentaram

grande dispersão. Este problema parece estar relacionado com a amostra de dados faltantes

selecionada, pois não se repetiu quando re-analisado usando outra semente do gerador de

números aleatórios.

Sob MAR e MNAR, os procedimentos propostos neste artigo se mostraram bastante

acurados e precisos, com diferenças em relação ao valor de referência inferiores a 0,01, e com

uma pequena tendência a subestimar o efeito à medida que o número de dados faltantes

aumenta. A exceção foi observada com os procedimentos baseados nos modelos ARIMA que

tendem a superestimar o efeito quando aumenta a quantidade de dados faltantes, além de

apresentarem maior dispersão dos efeitos estimados. Nestas configurações se destacou

novamente o método baseado em spline para a previsão do nível das séries temporais e com

múltiplos regimes de covariâncias. Mesmo considerando os dados faltantes por causa não

ignorável, as diferenças em relação aos valores de referência foram inferiores a 0,005 4.

A simulação usando lacunas de 7 estações com a mesma configuração “em linha”, o

que nesta aplicação significa que 70% da informação de um dado dia foi perdida, apresentou

resultados diferentes para os métodos multivariados. Os métodos univariados (OC, MI, MD,

VP) e a média condicional apresentaram resultados com padrões semelhantes. Todos

tenderam a subestimar o efeito considerando todos os mecanismos, embora as diferenças

pudessem ser negligenciadas para 5% de dados faltantes. Os valores estimados do efeito

decresceram consideravelmente à medida que aumentou a quantidade de dados faltantes. Os

procedimentos que apresentaram diferenças com maior magnitude foram a média

incondicional, a mediana e o vizinho mais próximo 5.

As estimativas produzidas pelo método EM foram bastante acuradas para aplicações

4 Nota para tese: Tabela com resultados detalhados no Apêndice A4 e no Apêndice A5. 5 Nota para tese: Tabela com resultados detalhados no Apêndice A6.

Page 91: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

88

práticas. A maior diferença observada foi 0,005 para 40% de dados faltantes sob MNAR; mas

com uma leve tendência de aumento à medida que o número de dados faltantes aumentaram.

Os procedimentos de imputação com componente temporal baseados em splines obtiveram as

melhores estimativas com erro inferior a 0,004 e menor dispersão. Os procedimentos de

imputação baseados em modelos MAG se comportaram de forma semelhante. Os

procedimentos baseados em modelos ARIMA superestimaram o efeito e apresentaram maior

dispersão dos efeitos estimados.

Lacunas em colunas

A configuração de dados faltantes “em coluna” é muito comum em dados de

monitoramento da qualidade do ar. Falhas nos equipamentos de aferição, telemetria ou

armazenamento dos dados podem durar vários dias até serem reparadas. Neste estudo, form

avaliados comprimentos (em dias) de lacunas que representam falhas de curta e média

duração, 3 e 5 dias respectivamente. A configuração com duração de 7 dias consecutivos

representa uma situação extrema de falta de dados. Com 5% de dados faltantes, todos os

métodos analisados apresentaram erro igual a +/-0,001 exceto a imputação pela média e pela

mediana, que superestimou o efeito, e análise de dados completos com lacunas de 7 dias que

apresentou um erro igual a -0,003. Em todas as configurações “em coluna” a análise de dados

completos e imputação pela média condicional mostraram um gradiente decrescente nos

efeitos estimados à medida que aumentou o número de dados faltantes. Sob MCAR, os efeitos

estimados foram inferiores a 0,4. Por outro lado, a imputação pela média, pela mediana e pelo

vizinho mais próximo mostraram um gradiente na direção de valores mais altos à medida que

aumentou o número de dados faltantes. Sob MCAR com 40% de dados faltantes e lacunas de

3 dias, os efeitos estimados usando imputação pela média e pela mediana chegaram a 0,55.

Os métodos baseados no algoritmo EM apresentaram uma leve tendência a subestimar

Page 92: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

89

o efeito à medida que aumentou a proporção de dados faltantes sob MCAR. Entretanto, os

métodos EM e EM com spline ou modelo MAG para o ajuste do nível das séries temporais

apresentaram diferenças menores que 0,01. Os métodos baseados em splines apresentaram

menor dispersão das estimativas. Os métodos baseados nos modelos ARIMA apresentaram

maior dispersão e tendência a subestimar o efeito à medida que aumentou a quantidade de

dados faltantes. Sob MAR e MNAR, os métodos baseados no algoritmo EM apresentaram

diferenças que não excederam 0,006 para 40% de dados faltantes e lacunas de 7 dias. Foram

encontradas diferenças menores para 10, 20 ou 30%. Com exceção dos métodos baseados em

modelos ARIMA, as estimativas usando ajuste do componente temporal foram mais precisas

mesmo com lacunas de 7 dias.

Lacunas de linhas e colunas sem restrição

As configurações analisadas acima representam situações de dados faltantes bastante

comuns, mas que na prática não ocorrem de forma isolada. Seu estudo serviu principalmente

para avaliar os métodos de imputação sob condições extremas de dados faltantes. A

configuração que representa de forma mais adequada a realidade de dados faltantes em bancos

de dados de poluição atmosférica consiste em uma mistura das configurações esparsa, em

linha e em coluna com diferentes comprimentos. Esta configuração foi gerada sorteando a

posição de cada elemento sem restrição de posição ou comprimento da lacuna. Assim, padrões

bastante complexos de dados faltantes puderam ser formados.

A Tabela 5-4 apresenta os resultados resumidos das simulações utilizando uma

configuração “dispersa” ou sem restrições. Com 5% de dados faltantes, todos os métodos

avaliados apresentaram estimativas com diferenças inferiores a 0,002, com exceção dos

métodos de imputação pela média e pela mediana. Sob MCAR, a análise considerando apenas

as unidades de observação completas e a imputação pela média condicional tenderam a

Page 93: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

90

subestimar o efeito à medida que aumentou a quantidade de dados faltantes. Por outro lado, os

métodos baseados na média, na mediana e no vizinho mais próximo superestimaram

consideravelmente o efeito. A superestimação foi crítica para a imputação pela média e pela

mediana, que com 40% de dados faltantes o risco estimado chegou 0,575. O algoritmo EM

produziu estimativas acuradas com diferença inferior a 0,002. Os métodos baseados no

algoritmo EM e com ajuste do componente temporal também apresentaram boa acurácia

exceto para os métodos baseados nos modelos ARIMA que tenderam a subestimar o efeito

com o aumento do número de valores faltantes, além de exibirem maior dispersão.

Tabela 5-4 Resumo das simulações com a configuração “dispersas”

OC MI MD VP MC EM EM

Spline EM

ARIMA EM

MAG EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

0,431 0,448 0,448 0,436 0,433 0,434 0,433 0,433 0,433 0,433 0,432 0,433 5% (0,008) (0,015) (0,015) (0,012) (0,007) (0,006) (0,005) (0,007) (0,006) (0,005) (0,009) (0,006)

0,428 0,464 0,464 0,439 0,428 0,431 0,431 0,431 0,431 0,431 0,431 0,431 10%

(0,014) (0,023) (0,023) (0,015) (0,013) (0,010) (0,009) (0,014) (0,009) (0,009) (0,015) (0,009)

0,423 0,502 0,502 0,441 0,424 0,431 0,429 0,430 0,428 0,431 0,429 0,431 20%

(0,017) (0,037) (0,037) (0,024) (0,017) (0,014) (0,013) (0,016) (0,014) (0,013) (0,017) (0,013)

0,415 0,547 0,547 0,447 0,416 0,433 0,431 0,431 0,429 0,431 0,428 0,431 30%

(0,023) (0,053) (0,052) (0,032) (0,023) (0,019) (0,018) (0,025) (0,018) (0,020) (0,026) (0,019)

0,406 0,575 0,575 0,452 0,406 0,434 0,431 0,426 0,430 0,432 0,422 0,433 40%

(0,030) (0,073) (0,074) (0,037) (0,030) (0,022) (0,022) (0,030) (0,021) (0,026) (0,032) (0,023) MAR

0,432 0,445 0,445 0,436 0,433 0,433 0,433 0,433 0,433 0,432 0,432 0,432 5% (0,006) (0,012) (0,012) (0,008) (0,005) (0,004) (0,004) (0,005) (0,004) (0,004) (0,006) (0,004)

0,431 0,463 0,463 0,439 0,432 0,435 0,433 0,435 0,433 0,432 0,435 0,432 10%

(0,010) (0,017) (0,017) (0,010) (0,009) (0,007) (0,006) (0,009) (0,007) (0,007) (0,012) (0,007)

0,429 0,490 0,490 0,441 0,430 0,436 0,434 0,438 0,433 0,433 0,437 0,433 20%

(0,015) (0,028) (0,028) (0,017) (0,014) (0,009) (0,009) (0,013) (0,009) (0,010) (0,016) (0,010)

0,422 0,518 0,519 0,447 0,422 0,438 0,434 0,437 0,433 0,434 0,436 0,434 30%

(0,018) (0,040) (0,041) (0,021) (0,018) (0,013) (0,012) (0,020) (0,011) (0,013) (0,022) (0,012)

0,419 0,551 0,552 0,454 0,419 0,443 0,435 0,439 0,433 0,435 0,437 0,433 40%

(0,022) (0,047) (0,048) (0,025) (0,022) (0,015) (0,015) (0,024) (0,017) (0,016) (0,028) (0,018) MNAR

0,431 0,445 0,445 0,436 0,433 0,433 0,433 0,433 0,432 0,433 0,432 0,433 5% (0,007) (0,012) (0,012) (0,008) (0,007) (0,005) (0,005) (0,007) (0,005) (0,005) (0,008) (0,005)

0,428 0,459 0,459 0,439 0,430 0,432 0,431 0,433 0,431 0,432 0,432 0,431 10%

(0,011) (0,020) (0,020) (0,012) (0,010) (0,008) (0,008) (0,011) (0,008) (0,008) (0,013) (0,008)

0,423 0,487 0,487 0,446 0,425 0,433 0,431 0,432 0,430 0,433 0,431 0,432 20%

(0,015) (0,030) (0,031) (0,021) (0,015) (0,012) (0,011) (0,017) (0,011) (0,011) (0,019) (0,011)

0,418 0,517 0,517 0,453 0,419 0,434 0,430 0,435 0,428 0,433 0,433 0,431 30%

(0,019) (0,041) (0,042) (0,023) (0,019) (0,016) (0,014) (0,024) (0,013) (0,014) (0,026) (0,014)

Page 94: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

91

0,408 0,539 0,538 0,457 0,408 0,433 0,429 0,430 0,427 0,431 0,425 0,430 40%

(0,024) (0,049) (0,049) (0,025) (0,024) (0,022) (0,018) (0,029) (0,019) (0,018) (0,033) (0,020)

Sob MAR, a análise com dados completos e a imputação pela média condicional

tenderam a subestimar o efeito à medida que aumentou a quantidade de dados faltantes. Os

métodos de imputação pela média, pela mediana e pelo vizinho mais próximo produziram

estimativas mais elevadas como aumentou a proporção de dados faltantes. O algoritmo EM

também apresentou uma tendência a estimar valores mais altos para o efeito com maiores

quantidade de dados faltantes. Os métodos de imputação com ajuste do componente temporal

apresentaram maior acurácia e precisão. A maior diferença estimada foi igual a 0,006 para

40% de dados faltantes usando modelos ARIMA para previsão do nível da série temporal.

A imputação de dados faltantes gerados sob o mecanismo MNAR também

apresentaram bons resultados. Entretanto, a análise de dados completos e imputação pela

média condicional tenderam a subestimar o efeito ao passo que os métodos de imputação pela

média incondicional, pela mediana e pelo vizinho mais próximo tenderam a superestimar o

efeito à medida que aumentou o número de dados faltantes. O algoritmo EM apresentou

estimativas com diferenças de 0,001. Os métodos baseados em splines para ajuste do

componente temporal apresentaram valores bastante acurados e com maior precisão que o

algoritmo EM; o método baseado em spline sem mudança de regime de covariâncias

apresentou um gradiente em direção a valores mais baixos quando aumentou o número de

dados faltantes. Os métodos baseados nos modelos MAG e ARIMA com múltiplos regimes de

covariâncias produziram boas estimativas, com erro inferior a 0,003. Os métodos baseados

nos modelos ARIMA apresentaram maior dispersão das estimativas.

Em resumo, as diferentes configurações analisadas apresentaram comportamentos

semelhantes. As análises de dados usando apenas as unidades de observação completas assim

como a de dados imputados com a média condicional tenderam a subestimar o efeito à medida

Page 95: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

92

que aumentou o número de dados faltantes. Por outro lado, a imputação pela média e pela a

mediana superestimou consideravelmente a medida de efeito. O viés aumentou quando

aumentou o número de dados faltantes. A imputação pelo algoritmo EM produziu estimativas

válidas para pequenas quantidades de dados, mas tendeu a perder a validade em cenários de

grandes proporções de dados faltantes. Entre os métodos propostos neste artigo, os

procedimentos que usam spline para previsão do componente temporal foram mais estáveis

em diferentes configurações de dados faltantes. Os procedimentos baseados em modelos

ARIMA tenderam a superestimar o efeito quando grandes proporções de dados estão faltantes

sob MCAR.

Os procedimentos com múltiplos regimes de covariâncias podem sofrer problemas de

convergência para algumas configurações com grande proporção de dados faltantes e muitos

níveis de estratificação, pois um dado estrato pode dispor de poucas observações para estimar

a matriz de covariâncias.

5.3.3 Indicadores de performance

Além de avaliar a validade dos métodos de imputação por meio do estudo da

distribuição dos efeitos estimados em diferentes cenários de dados faltantes, utilizando

diferentes metodologias, também foi avaliada a performance para a configuração “dispersa”

de um único padrão, equivalente a uma única replicação do estudo de simulação. Esta única

configuração foi considerada devido à sua representatividade em problemas de dados faltantes

normalmente encontrados na análise de dados em epidemiologia ambiental 6. Na

6 Nota para tese: Tabelas com os resultados detalhados para todas as configurações do Apêndice A10 ao Apêndice A16.

Page 96: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

93

Tabela 5-5 estão apresentados os indicadores de performance para algumas situações extremas

de dados faltantes sob MCAR, MAR e MNAR. De um modo geral, observa-se um gradiente

de crescimento ou decrescimento nos indicadores em função da quantidade de dados faltantes.

Na análise de dados completos não há imputação, logo não é possível calcular estes

indicadores.

Page 97: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

94

Tabela 5-5 Indicadores de performance para um único padrão de dados faltantes com configuração “dispersas”

Ind. MI MD VP MC EM EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

RMSD 0,458 0,462 0,421 0,181 0,239 0,230 0,219 0,219 0,220 0,237 0,237 MAD 0,365 0,367 0,309 0,088 0,169 0,161 0,167 0,167 0,156 0,172 0,172 BIAS -0,057 -0,070 -0,067 -0,005 -0,005 -0,010 -0,017 -0,017 -0,016 -0,014 -0,014

PV 0,053 0,066 1,041 0,907 0,732 0,818 0,839 0,839 0,851 0,906 0,906 r 0,248 0,232 0,617 0,870 0,861 0,872 0,886 0,886 0,885 0,868 0,868

5%

d2 0,346 0,359 0,784 0,928 0,921 0,930 0,938 0,938 0,938 0,930 0,930 RMSD 0,475 0,476 0,424 0,012 0,252 0,232 0,317 0,317 0,246 0,663 0,663 MAD 0,382 0,382 0,322 0,001 0,193 0,175 0,219 0,219 0,179 0,309 0,309 BIAS -0,016 -0,030 -0,014 0,000 -0,006 0,000 0,010 0,010 -0,008 0,035 0,035

PV 0,045 0,055 1,100 0,773 0,756 0,834 1,166 1,166 0,887 2,646 2,646 r 0,216 0,211 0,638 0,953 0,856 0,880 0,807 0,807 0,866 0,551 0,551

40%

d2 0,293 0,313 0,795 0,969 0,919 0,935 0,895 0,895 0,929 0,674 0,674 MAR

RMSD 0,421 0,416 0,344 0,124 0,150 0,138 0,155 0,155 0,133 0,159 0,159 MAD 0,346 0,342 0,256 0,076 0,117 0,108 0,119 0,119 0,103 0,117 0,117 BIAS 0,286 0,281 0,059 -0,008 0,001 -0,010 0,006 0,006 -0,011 0,005 0,005 PV 0,094 0,114 1,633 0,783 0,804 0,961 0,988 0,988 0,910 0,979 0,979 r 0,499 0,504 0,660 0,885 0,903 0,920 0,900 0,900 0,925 0,895 0,895

5%

d2 0,526 0,534 0,790 0,937 0,946 0,959 0,948 0,948 0,960 0,945 0,945 RMSD 0,517 0,521 0,403 0,039 0,206 0,186 0,191 0,191 0,181 0,197 0,197 MAD 0,422 0,425 0,304 0,007 0,156 0,140 0,143 0,143 0,136 0,150 0,150 BIAS 0,383 0,390 0,136 -0,002 0,001 -0,002 0,019 0,019 0,004 0,019 0,019 PV 0,077 0,095 1,658 0,770 0,694 0,827 0,876 0,876 0,852 0,927 0,927 r 0,416 0,419 0,640 0,889 0,839 0,871 0,866 0,866 0,879 0,860 0,860

40%

d2 0,500 0,503 0,767 0,971 0,906 0,930 0,928 0,928 0,935 0,925 0,925 MNAR

RMSD 0,424 0,420 0,368 0,193 0,213 0,194 0,189 0,189 0,182 0,200 0,200 MAD 0,352 0,346 0,278 0,099 0,139 0,131 0,139 0,139 0,124 0,146 0,146 BIAS 0,352 0,346 0,120 0,066 0,092 0,063 0,046 0,046 0,048 0,042 0,042 PV 0,158 0,191 2,506 1,283 1,283 1,388 1,264 1,264 1,222 1,278 1,278 r 0,511 0,490 0,593 0,713 0,787 0,821 0,806 0,806 0,817 0,779 0,779

5%

d2 0,514 0,518 0,705 0,808 0,863 0,890 0,888 0,888 0,895 0,874 0,874

RMSD 0,539 0,554 0,415 0,133 0,255 0,226 0,223 0,223 0,214 0,266 0,266 MAD 0,464 0,480 0,316 0,038 0,189 0,168 0,167 0,167 0,159 0,185 0,185 BIAS 0,464 0,480 0,165 0,034 0,116 0,091 0,083 0,083 0,076 0,066 0,066 PV 0,121 0,144 2,304 1,099 1,267 1,324 1,191 1,191 1,269 1,540 1,540 r 0,384 0,364 0,545 0,572 0,747 0,797 0,780 0,780 0,805 0,718 0,718

40%

d2 0,461 0,456 0,674 0,765 0,828 0,868 0,862 0,862 0,879 0,824 0,824

Considerando a imputação sob MCAR, os métodos univariados (MI, MD e VP)

apresentaram valores altos de desvio médio quadrático (RMSD) e desvio médio absoluto

(MAD). A imputação pela média incondicional ou mediana consiste em substituir o valor

faltante por uma constante; logo estes métodos apresentaram grande subdispersão em relação

Page 98: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

95

aos valores originais, como pode ser verificado pelos valores baixos da variância proporcional

(PV). Por outro lado, o método do vizinho mais próximo tendeu a introduzir superdispersão,

sobretudo se o mecanismo dos dados faltantes é não ignorável. Os métodos univariados

também apresentaram os mais baixos valores para o coeficiente de correlação (r ) e o índice

de concordância (2d ). Mesmo sob MAR, estes métodos apresentaram baixo desempenho. O

método de imputação pela média condicional, bem como pelo algoritmo EM, apresentou bom

desempenho com valores baixos de RMSD e MAD e com ligeira subdispersão. Os

coeficientes de correlação foram superiores a 8,5 e índices de concordância acima de 0,92.

Os métodos de imputação com ajuste do componente temporal apresentaram baixos

valores de RMSD, MAD e viés (BIAS) e altos valores do coeficiente de correlação e do

índice de concordância. As exceções foram os métodos baseados em modelos MAG e ARIMA

com múltiplos regimes de covariâncias. Estes também apresentaram significante

superdispersão em relação aos valores originais. O desempenho dos métodos multivariados

melhorou consideravelmente sob MAR e foram observados baixos valores de RMSD e MAD

associados a altos valores do coeficiente de correlação e do índice de concordância.

Observou-se um bom equilíbrio entre as variâncias dos valores imputados e dos originais,

inclusive entre aqueles métodos com maior variabilidade da previsão como os baseados em

modelos MAG e ARIMA. Mesmo sob MNAR, os métodos propostos com ajuste do

componente temporal apresentaram bom desempenho; sobretudo, sobre os métodos

univariados.

5.3.4 Penalização pela informação perdida

A Tabela 5-6 mostra os valores dos coeficientes de regressão do modelo de associação

e respectivos erros-padrão estimados sob MAR, com e sem um fator de penalização da

informação perdida. Foram considerados os procedimentos de imputação com ajuste do

Page 99: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

96

componente temporal com proporções de 5 a 40% de dados faltantes. A função de penalização

adotada foi ( )1 0.5t tw m p= − . Os valores da Tabela 5-6 devem ser comparados com o valor

de referência do coeficiente do modelo estimado com o conjuto completo de dados que foi

igual a 0,004321 e o seu erro-padrão igual 0,001063. O padrão de dados faltantes utilizado foi

o mesmo da análise de performance.

Mesmo com 5% de dados faltantes, os modelos estimados após a imputação sem a

penalização levaram a uma pequena subestimação do erro-padrão do coeficiente de PM10, Por

outro lado, a estimação com penalização produz estimativas do efeito ligeiramente mais

baixos, mas com maior incerteza associada. Este padrão se repete para todas as proporções de

dados faltantes e métodos de imputação analisados. Nota-se que para maiores proporções de

dados faltantes, e.g. 30 e 40%, a variância dos estimadores foi ainda mais inflada. Os modelos

estimados com imputação sob MCAR apresentaram resultados similares. Sob MNAR com

imputação baseada nos modelos ARIMA com 5% de dados faltantes, os erros-padrão

penalizados foram ligeiramente inferiores aos estimados com os dados originais7. É

importante enfatizar que as imputações baseadas nos modelos ARIMA apresentaram grande

variabilidade e eventualmente problemas de convergência.

7 Nota para tese: Tabelas com os resultados para MCAR e MNAR estão no Apêndice A17 e no Apêndice A18 respectivamente.

Page 100: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

97

Tabela 5-6 Coeficiente e erro-padrão dos modelos de associação com penalização sob MAR

% Penali- zação

Estatística EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

β 0,004316 0,004248 0,004330 0,004295 0,004261 0,004314 não

EP(β) 0,001061 0,001060 0,001062 0,001061 0,001058 0,001061 β 0,004301 0,004236 0,004313 0,004281 0,004247 0,004299

5% sim

EP(β) 0,001066 0,001066 0,001067 0,001066 0,001063 0,001066 β 0,004324 0,004202 0,004321 0,004307 0,004238 0,004305

não EP(β) 0,001061 0,001063 0,001061 0,001063 0,001071 0,001061 β 0,004343 0,004229 0,004340 0,004328 0,004264 0,004325

10% sim

EP(β) 0,001077 0,001079 0,001076 0,001079 0,001086 0,001077 β 0,004334 0,004137 0,004307 0,004285 0,004115 0,004277

não EP(β) 0,001057 0,001058 0,001055 0,001057 0,001059 0,001054 β 0,004340 0,004162 0,004314 0,004295 0,004146 0,004287

20% sim

EP(β) 0,001088 0,001089 0,001086 0,001088 0,001091 0,001085 β 0,004362 0,004103 0,004394 0,004335 0,004097 0,004398

não EP(β) 0,001064 0,001056 0,001063 0,001063 0,001066 0,001064 β 0,004352 0,004124 0,004375 0,004326 0,004118 0,004376

30% sim

EP(β) 0,001113 0,001107 0,001112 0,001112 0,001117 0,001113 β 0,004436 0,004050 0,004473 0,004426 0,004006 0,004473

não EP(β) 0,001074 0,001050 0,001074 0,001073 0,001031 0,001074 β 0,004466 0,004126 0,004494 0,004456 0,004091 0,004492

40% sim

EP(β) 0,001137 0,001118 0,001136 0,001136 0,001103 0,001136

Este critério de penalização, ainda que naive, na maioria dos casos, assegura que a

medida de efeito estimada terá intervalo de confiança igual ou maior que o intervalo da

estimativa obtida com o conjunto completo de dados. Portanto, diminuindo a probabilidade de

rejeitar a hipótese de que o efeito da exposição em estudo é nulo.

5.4 Conclusões

Em estudos epidemiológicos sobre os efeitos da poluição atmosférica na saúde a

completude dos dados ambientais é geralmente um fator limitador. Mesmo quando estes

dados são provenientes de grandes redes de monitoramento da qualidade do ar com controle

de qualidade adequado, não é incomum apresentar dados faltantes. Nas últimas duas décadas,

estudos de séries temporais têm sido conduzidos em todo o mundo a fim de avaliar o efeito de

curto prazo da poluição do ar na saúde das populações. A medida de exposição de uma

Page 101: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

98

população é geralmente definida como a média das concentrações do contaminante medidas

em várias estações em um dado dia. E, como sugere este estudo, mesmo com pequenas

quantidades de dados faltantes, pode-se observar viés na medida de associação e

superestimação da precisão.

As simulações mostraram que com 5% de dados faltantes a análise com unidades

completas produz boas estimativas, não importando o mecanismo dos dados faltantes. Neste

caso, a quantidade de dados faltantes é muito pequena para comprometer a eficiência

estatística. Mesmo com esta quantidade de dados faltantes, a imputação pela média ou

mediana deve ser evitada. A validade da análise com unidades completas começa a degenerar

para proporções de valores faltantes acima de 10%. O uso dos métodos multivariados é

recomendado para proporções maiores de dados faltantes ou para reconstruir a distribuição

dos dados e diminuir o impacto da informação perdida sobre a precisão dos estimadores.

Os procedimentos de imputação propostos neste artigo apresentaram boa acurácia para

os padrões de dados faltantes com lacunas de comprimentos variados, em um mesmo dia ou

em vários dias contíguos. Seqüências de vários dias com dados faltantes ocorrem com

freqüência no monitoramento da qualidade do ar. Mesmo para lacunas de sete dias

consecutivos, os efeitos estimados foram muito próximos do valor de referência.

A imputação pelo vizinho mais próximo produziu boas estimativas para pequenas

lacunas de dados, mas perdeu a qualidade para grandes seqüências de dados faltantes. O

método de imputação pela média condicional ou regressão também apresentou estimativas

acuradas para pequenas quantidades de dados faltantes nas diversas configurações, sobretudo

sob MAR. Entretanto, como o modelo de previsão depende das unidades completas, para

grandes quantidades de dados faltantes podem restar poucas observações para estimar os

coeficientes de regressão. O efeito do poluente tendeu a diminuir rapidamente à medida que

aumenta o número de dados faltantes.

Page 102: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

99

A imputação via o algoritmo EM para a distribuição normal multivariada sem ajuste

temporal apresentou boas estimativas em todas as configurações avaliadas. As concentrações

de PM10 das estações arroladas no estudo são fortemente correlacionadas entre si, o que

proporcionou a boa acurácia deste método. Nesta aplicação, uma contribuição importante do

ajuste do componente temporal foi na precisão das estimativas. As medidas de associação

estimadas com os dados imputados pelos métodos com contribuição temporal apresentaram

menor dispersão.

O procedimento de imputação com a previsão do nível das séries temporais por meio

de modelos ARIMA apresentou grande variabilidade nas estimativas do efeito do poluente. Os

procedimentos baseado nos modelos MAG mostraram menor dispersão nas estimativas,

porém dependem da disponibilidade de variáveis que possam ser usadas como uma fonte

externa de informação. Nem sempre isto é possível. Variáveis sobre fatores meteorológicos

podem ser bons preditores para explicar a variabilidade das concentrações do poluente.

Entretanto, não devem ser usadas com este fim se também estiverem preconizadas no modelo

teórico do objeto em estudo. Os procedimentos baseados em splines apresentaram maior

acurácia e precisão. Os modelos de suavização por definição produzem previsões com baixa

variabilidade; portanto, este método é a opção padrão para o ajuste do nível de cada série

temporal na biblioteca mtsdi, desenvolvida como parte deste estudo.

Os procedimentos de imputação com múltiplos regimes de covariâncias, de um modo

geral, apresentaram melhores resultados. Entretanto, o uso de janelas trimestrais com apenas

um ano de dados fez com que algumas matrizes de covariâncias fossem estimadas com

poucas observações para alguns padrões de dados faltantes. Esta situação causou alguns

problemas de convergência, principalmente para o procedimento baseado nos modelos

ARIMA.

Page 103: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

100

A análise de performance corroborou a baixa qualidade dos métodos de imputação

univariados. Estes métodos mostraram falta de acurácia com altos valores para os erros de

previsão e, ainda, subdispersão e baixa correlação dos valores imputados em relação aos

originais. Mesmo com 5% dos dados faltantes, estes métodos apresentaram baixo

desempenho. Por outro lado, os métodos multivariados apresentaram bom desempenho para

maiores proporções e grandes lacunas de dados faltantes.

O problema da superestimação da precisão de estimativas obtidas a partir da análise de

dados imputados pode ser atenuado com o uso de um fator de penalização pela informação

perdida. Embora naive, a função de penalização linear proposta permitiu incorporar alguma

incerteza na análise estatística dos dados imputados produzindo intervalos de confiança

maiores e compatíveis com os obtidos usando o conjunto completo de dados. Outras funções

de penalização estão sendo investigadas pelos autores.

Os procedimentos de imputação propostos neste trabalho apresentaram bom

desempenho em diversas situações de dados faltantes. Mesmo sob MNAR, alguns resultados

se mostraram válidos. Entretanto, o analista deve considerar que dados imputados são apenas

boas estimativas dos valores que teriam sido observados. A imputação de padrões complexos

com um grande número de dados faltantes deve receber especial atenção.

A metodologia proposta neste trabalho pode ser aplicada a qualquer conjunto de dados

faltantes que possa ser transformado em um problema de estimação de parâmetros de uma

distribuição normal multivariada. A transformação logarítmica é apropriada em muitas

situações e, opcionalmente, pode ser aplicada internamente na biblioteca mtsdi (multivariate

time-series data imputation). A biblioteca mtsdi está em constante desenvolvimento e pode ser

obtida dos autores via correio eletrônico. Esta será disponibilizada na página de repositório do

R por ocasião da publicação deste artigo.

Page 104: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

101

5.5 Referências

Beale EML, Little RJA. Missing Values in Multivariate analysis. Journal of the Royal Statistical Society, B. 1975; 37:129-145.

Box G, Cox DR. An analysis of transformations. Journal of the Royal Statistical Society, B. 1964;26(2):211–252.

Box G, Jenkins G, Reinsel G. Time Series Analysis. Forecasting and Control. 3 ed. New Jersey, Prentice Hall, 1994.

Buck SF. A Method of Estimation of Missing Values in Multivariate Data suitable for use with an Electronic Computer. Journal of the Royal Statistical Society, B. 1960; 22:302-306.

Dempster A, Laird N, Rubin D. Maximum Likelihood from Incomplete Data via the Algorithm EM. Journal of the Royal Statistical Society, B. 1977;39:1-38.

Dominici F, McDermott A, Zeger SL, Samet JM. On the use of generalized additive models in time-series studies of air pollution and health. American Journal of Epidemiology. 2002;156:193-203.

Donders ART, Heijden G (van der), Stijnen T, Moons KGM. Review: A gentle introduction to imputation of missing values. Journal of Clinical Epidemiology. 2006;59:1087-1091.

Engels JM, Diehr P. Imputation of missing longitudinal data: a comparison of methods. Journal of Clinical Epidemiology. 2003;56:968-976.

Fuller GW, Carslaw DC, Lodge HW. An empirical approach for the prediction of daily mean PM10 concentrations. Atmospheric Environment. 2002;36:1431-1441.

Gorelick MH. Bias arising from missing data in predictive models. Journal of Clinical Epidemiology. 2006;59:1115-1123.

Gouveia N, Cifuentes L, Ponce de Leon A, Carbajal L, Hurtado M, Romieu I. ESCALA Project (Estudio de Salud y Contaminación del Aire en Latinoamérica). Health Effects Institute. Annual Conference 2007. Program and Abstracts. Chicago, 2007

Green PJ, Silverman BW. Nonparametric Regression and Generalized Linear Models: a roughness penalty approach. London, Chapman and Hall, 1994.

Greenland S, Finkle WD. A critical look at methods for handling missing covariates in epidemiologic regression analyses. American Journal of Epidemiology. 1995;142(12):1255-1264.

Greenland S, Rothman KJ. Modern epidemiology. 2 ed. Philadelphia, Lippincott-Raven, 1998.

Hartley HO, Hocking RR. The analysis of incomplete data. Biometrics. 1971;27:783–823.

Page 105: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

102

Hastie TJ, Tibishirani RJ. Generalized Additive Models. London, Chapman and Hall, 1990.

Junninen H, Niska H, Tuppurainen K, Ruuskanen J, Kolehmainen, M. methods for imputation of missing values in air quality data sets. Atmospheric Environment. 2004;38:2895-2907.

Little RJA, Rubin DB. Statistical analysis with missing data. New York, Wiley, 1989.

Little RJA. Regression with missing X's: a review. Journal of the American Statistical Association. 1992; 87(420): 1227-1237.

McGullagh P, Nelder JA. Generalized linear models. London, Chapman and Hall, 1989.

McLachlan GJ, Krishnan T. The EM algorithm and extensions. New York, John Wiley and Sons, 1997.

Miettinen OS. Theoretical epidemiology. Principle of occurrence research in medicine. New York, Wiley, 1985.

Plaia A, Bondì AL. Single imputation method of missing values in environmental pollution data sets. Atmospheric Environment. 2006;40:7316-7330.

R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2007. http://www.r-project.org.

Rubin DB. Inference and missing data. Biometrika. 1976; 63(3):581–92.

Schafer JL. Analysis of incomplete multivariate data. London, Chapman & Hall, 1997.

Schwartz J, Spix C, Touloumi G, Bacharova L, Barumamdzadeh T, Le Tertre A et al. Methodological issues in studies of air pollution and daily counts of deaths or hospital admissions. J Epidemiol Community Health 1996; 50 Suppl 1:S3-11.

Vach W, Blettner M. Biased estimation of the odds ratio in case-control study due to the use of ad hoc methods of correcting for missing values for confounding variables. American Journal of Epidemiology. 1991; 134:895-907.

WHO, World Health Organization. Air quality guidelines for particulate matter, ozone, nitrogen dioxide and sulfur dioxide. Global update 2005. Summary of risk assessment. Geneva, 2006.

Wilmott CJ. Some comments on the evaluation of model performance. Bulletin of the American Meteorological Society. 1982;63:1309-1313.

Page 106: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

103

6 ARTIGO 4: Ares: uma biblioteca em R para análises de séries temporais em estudos

sobre a poluição do ar e efeitos na saúde

Ares: an R library for time series analysis in air pollution and health effects studies

Washington Leite Junger

Antonio Ponce de Leon

Departamento de Epidemiologia

Instituto de Medicina Social

Universidade do Estado do Rio de Janeiro

Page 107: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

104

Resumo

Modelos de séries temporais para estimar o efeito da poluição do ar sobre a saúde têm

sido extensivamente usados em estudos ecológicos com dados secundários. Devido ao baixo

custo e disponibilidade dos dados, é uma primeira abordagem analítica na investigação dos

efeitos da poluição do ar. A análise de séries temporais usando modelos aditivos generalizados

se tornou a metodologia padrão em diversos estudos multicêntricos para avaliar os efeitos da

poluição atmosférica na saúde. Este trabalho está sendo desenvolvido no âmbito do projeto

ESCALA, um projeto multicêntrico envolvendo cidades do Brasil, México e Chile.

Este trabalho apresenta uma breve revisão da metodologia de análise de séries temporais

em estudos epidemiológicos sobre os efeitos da poluição do ar na saúde e sua implementação

na forma de uma biblioteca para o aplicativo R, denominada ares. O uso da biblioteca é

exemplificado em detalhes usando dados de admissões hospitalares por doenças respiratórias

em crianças na cidade do Rio de Janeiro no período setembro de 2000 a agosto de 2002.

Page 108: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

105

6.1 Introdução

Grandes eventos de poluição do ar ocorridos na primeira metade do século XX

estabeleceram que altas concentrações de poluentes atmosféricos podem resultar em aumentos

na morbidade e na mortalidade. Os eventos mais conhecidos ocorreram em 1930 no Vale

Meuse, Bélgica; 1948 em Donora, EUA, e 1952 em Londres, Inglaterra (Brunekreef e

Holgate, 2002; Greater London Authority, 2002; Schwartz, 1994). Na segunda metade do

século, foram adotadas medidas para a redução da emissão de poluentes na atmosfera, e

episódios de poluição de grande magnitude não voltaram a ocorrer. Entretanto, estudos

epidemiológicos utilizando diversas metodologias têm fornecido evidências sobre efeitos

nocivos da exposição à poluição do ar à saúde. Os eventos de saúde mais freqüentemente

associados com a poluição do ar são a morbidade e mortalidade por doenças respiratórias e

cardiovasculares (Daumas et al, 2004; Atkinson et al, 2001; Gouveia e Fletcher, 2000; Lin et

al, 1999; Borja-Aburto, 1997; Anderson et al, 1996; Ballester et al, 1996; Schwartz, 1996;

Ponce de Leon et al, 1996; Pope et al, 1995; Burnet et al, 1995), câncer de pulmão (Junger et

al, 2005; Cohen et al, 1997), diminuição da função respiratória (Ward e Ayres, 2004; Hoek e

Brunekreef, 1993) e absenteísmo escolar (Romieu et al, 1992). Estes estudos também

estabelecem que os grupos mais suscetíveis são as crianças e os idosos.

Atualmente, o aumento nos níveis de poluição se deve principalmente ao crescimento

da frota de veículos automotores, que hoje em alguns países representa a principal fonte de

poluição. As emissões devidas à queima de combustíveis fósseis são muito menores hoje do

que há 50 anos. Entretanto, as concentrações de poluentes fotoquímicos como o ozônio (O3) e

óxidos de nitrogênio (NOx) têm crescido rapidamente em função do aumento da frota de

veículos automotores (Brunekreef e Holgate, 2002). Nos países da América Latina e o Caribe,

a grande preocupação concerne aos crescimentos econômico e populacional que demandam

aumento de transporte e geração de energia. Estes fatores são importantes determinantes da

Page 109: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

106

qualidade do ar (PAHO, 2005). Estudos desenvolvidos na Cidade do México (Romieu et al,

1992; Telez-Rojo et al, 2001), Santiago (Cifuentes et al, 2000), São Paulo (Martins et al,

2004; Gouveia e Fletcher, 2000; Saldiva et al, 1995) e Rio de Janeiro (Brasil, 2005; Gouveia

et al, 2003; Daumas et al, 2004) mostram que a poluição do ar urbana constitui uma questão

de saúde pública na região. A queima de biomassa relacionada com a agricultura também

contribui consideravelmente para o aumento das emissões de poluentes na atmosfera (Ignotti

et al, 2007; Arbex et al, 2004).

Do ponto de vista metodológico, a dificuldade consiste em detectar variações na

ocorrência de eventos de saúde associados a eventos de poluição atmosférica de baixa

magnitude. O desenho epidemiológico mais utilizado na maioria dos estudos desenvolvidos

nos últimos vinte anos é o estudo ecológico. O seu uso está fundamentado na hipótese de que

variações diárias nas concentrações de poluentes atmosféricos em um longo período de tempo

são determinantes de variações diárias de eventos como mortalidade, hospitalizações e outros

indicadores de saúde (Brunekreef e Holgate, 2002). O avanço das técnicas estatísticas tem

viabilizado o estudo dos possíveis efeitos da poluição do ar sobre a saúde nos cenários atuais,

em que os níveis de contaminantes no ar são menores do que aqueles usualmente

considerados nocivos. Particularmente, os modelos de séries temporais têm desempenhado

um papel relevante como ferramenta de análise nestes estudos (Schwartz et al, 1996).

Os estudos de séries temporais sobre os efeitos da poluição do ar na saúde, geralmente,

utilizam dados de fontes secundárias agregados, tanto da exposição quanto dos indicadores de

saúde. As principais vantagens do uso deste desenho nos estudos epidemiológicos são que um

mesmo grupo de indivíduos avaliados ao longo do tempo tende a manter suas características

constantes durante o período de estudo. Fatores individuais como residência, ocupação, dieta,

tabagismo e atividades físicas não variam diariamente e, portanto, não precisam ser

controlados. Outros fatores de confusão em potencial como efeito de calendário, fatores

Page 110: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

107

climáticos, epidemias e estruturas da própria série como tendência e sazonalidade podem ser

facilmente controlados. A principal desvantagem deste desenho é que a medida de efeito é

viesada no nível individual (Schwartz et al, 1996; Katsouyanni et al, 1996). Entretanto,

porque o monitoramento e controle da qualidade do ar são baseadas em medidas ambientais,

muitos estudos epidemiológicos avaliam o efeito da poluição do ar na saúde com base na

medida de exposição média da população sem a intenção de avaliar o efeito com base na

exposição individual (Dominici, 2004).

Do ponto de vista do modelo operacional, a análise estatística em estudos de séries

temporais sobre a associação entre contaminantes atmosféricos e eventos de saúde envolve

decisões baseadas em testes e diagnósticos em cada etapa do processo. Alguns destes

procedimentos de avaliação de modelos são computacionalmente intensivos e muitas vezes

requerem complexa programação (Schwartz et al, 1996).

Este trabalho apresenta uma breve revisão da metodologia de análise de séries

temporais em estudos epidemiológicos sobre os efeitos da poluição do ar na saúde e sua

implementação na forma de uma biblioteca para o aplicativo R (R Development Core Team,

2007). O uso das funções é exemplificado em detalhes usando dados de admissões

hospitalares por doenças respiratórias em crianças na cidade do Rio de Janeiro. Este trabalho

foi desenvolvido no âmbito do Projeto ESCALA (Estudios de Salud y Contaminación del Aire

en Latinoamérica) (Gouveia et al, 2007).

6.2 Métodos

6.2.1 Pressupostos

A biblioteca ares consiste na implementação de diversas técnicas estatísticas relevantes

ou imprescindíveis na estimação e diagnóstico do modelo operacional, usando o ambiente de

análise estatística R. O aplicativo R é um ambiente software livre formado por uma coleção de

Page 111: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

108

rotinas para análises descritivas, modelagem estatística e análises gráficas de dados. É

extensível por meio de programação, isto é, novas funções podem ser escritas pelo usuário

sob a forma de bibliotecas. Ares é um acrônimo para “ar e saúde”.

Nos estudos de séries temporais sobre os efeitos da poluição do ar na saúde, o que se

pretende avaliar é o quanto da variabilidade da variável de desfecho está associada à

variabilidade da variável de exposição. A análise de correlação usual entre os dois indicadores

não é adequada para estimar esta associação já que existem estruturas inerentes à dinâmica

das séries temporais como tendência, sazonalidade e autocorrelação que podem enviesar as

estimativas do efeito e da precisão. Em adição, efeitos do calendário, como dias da semana e

feriados, greves, epidemias e condições meteorológicas freqüentemente constituem fatores de

confusão da associação entre poluição do ar e eventos de saúde (Schwartz et al, 1996).

Diariamente, apenas uma pequena parcela da população morre ou é internada e este

número representa uma contagem. Logo, um modelo probabilístico adequado para o processo

subjacente é o de Poisson. No modelo de Poisson, assume-se um risco µ homogêneo na

população. Entretanto, o processo pode não ser estacionário ao longo do tempo e o risco pode

variar no tempo em função de variáveis preditoras 1 2, , , pX X X… . A regressão de Poisson é

uma abordagem adequada para modelar tais eventos de saúde. Em adição, o modelo de

regressão de Poisson na sua forma canônica é um modelo de risco relativo (Schwartz et al,

1996). O modelo preditivo geral para o risco pode representado da seguinte forma

( )

( ) ( )1 1

~ ,

log , .

t t

J K

t j jt k kt k ptj k J

y Poisson

X f X X

µ

µ α γ λ β= = +

= + + +∑ ∑ (1)

Na equação 1 acima, os coeficientes γ descrevem a variação linear relativa no

logaritmo da média diária de eventos de saúde para a variação em uma unidade nas variáveis

1 2, , , JX X X… . Da mesma forma, o coeficiente β descreve tal variação em relação à variável

de exposição pX . Considerando a propriedade de modelo de risco relativo da regressão de

Page 112: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

109

Poisson, a variação de uma unidade na variável pX provoca uma variação na média da

variável de desfecho na mesma direção e de magnitude ( )exp β , igual ao risco relativo. Por

exemplo, se a variável pX for concentrações de PM10, pode-se determinar a variação na

média diária de internações hospitalares ou óbitos associada com a variação 1 µg/m³ do

poluente. Os modelos de regressão de Poisson semi-paramétricos permitem a modelagem de

associações não lineares denotadas pelas funções ( ),k kt kf X λ , com 1, ,k J K= + … , na

equação 1.

A estratégia de modelagem consiste em definir um modelo de linha de base (core

model) que contenha toda a informação conhecida para explicar a variabilidade do desfecho,

exceto a exposição, e.g. variáveis de controle de confusão, modificadores de efeito e ajuste

dos componentes estruturais da série temporal. Uma vez definido o modelo de linha de base,

a variável de exposição é adicionada de forma linear no modelo para estimar o efeito do

poluente sobre a variável de desfecho. A escolha de cada variável e função para compor o

modelo de linha de base requer uma análise específica que depende do seu papel no modelo.

6.2.2 Estimação

O modelo de regressão de Poisson pode ser formulado como um membro da família

exponencial e pode ser estimado usando a metodologia dos modelos lineares generalizados

(MLG). Esta característica permite usar todo o arcabouço de estimação e diagnóstico existente

para esta classe de modelos (McCullagh e Nelder, 1989) que está implementada na maioria

dos aplicativos de análise estatística. Os MLG podem ser estendidos para acomodar funções

não lineares. O modelo semi-paramétrico da equação 1 faz parte da classe dos modelos

aditivos generalizados (MAG) (Hastie e Tibishirani, 1990. Hastie e Tibishirani, 1986). Em um

processo de Poisson a variância é igual a média µ ; entretanto, processos de contagem

Page 113: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

110

freqüentemente apresentam superdispersão, com a variância proporcional a média. Nestes

casos, quasi-verossimilhança deve ser usada para estimação adequada da precisão (McCullagh

e Nelder, 1989).

Os MAG têm sido extensivamente usados nos estudos de séries temporais sobre os

efeitos da poluição atmosférica na saúde devido à sua flexibilidade para o ajuste de efeitos

não lineares de tendência e sazonalidade bem como de fatores meteorológicos, em oposição

aos modelos totalmente paramétricos (Dominici et al, 2002). Os MAG estendem os MLG

substituindo o preditor linear da forma j jjxη β=∑ por um preditor genérico

( )j jjf xη =∑ . Entretanto, algumas funções ( )f ⋅ podem ser lineares, formando o modelo da

equação 1. Em geral, as funções ( ),k kt kf X λ são funções suaves das variáveis explicativas

kX , kλ seu respectivo parâmetro de suavização e 1, ,k J K= + … (Hastie e Tibishirani, 1990).

As funções da classe spline têm propriedades matemáticas interessantes e devem ser

preferidas (Green e Silverman, 1985)8. Hastie e Tibishirani (1990) apresentam em detalhes

outras funções suavizadoras, e.g. a regressão local ponderada (lowess).

Os MAG estimam a parte paramétrica do modelo usando o método scoring de Fisher

(McCullagh e Nelder, 1989), da mesma forma que o MLG, e a parte não paramétrica usando o

algoritmo backfitting (Friedman e Stuetzle, 1971) quando mais de uma função suave é

incluída no modelo. Apesar de seu uso em estudos epidemiológicos, os MAG com backfitting

não estimam adequadamente a incerteza dos estimadores. Dominici e colaboradores (2002)

recomendam gerar a base de cada spline cúbica natural e estimar o modelo de forma linear, ou

seja, como um MLG. Desta forma, variância da estimativa do efeito é calculada de forma

exata.

8 Nota para a tese: Mais detalhes sobre as splines são apresentados na seção de metodologia do Artigo 3.

Page 114: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

111

6.2.3 Diagnósticos

Em cada passo no processo de modelagem a escolha das variáveis preditoras e a forma

como elas se relacionam com o desfecho é determinada por uma série de diagnósticos. Os

diagnósticos são usados para avaliar se os pressupostos do modelo estão sendo preservados, a

fim de garantir a validade e a precisão das estimativas obtidas. A maioria dos diagnósticos de

seleção de modelos é baseada nos resíduos que, em essência, medem o afastamento entre os

valores observados e os valores preditos pelo modelo. Para que os resíduos possam ser

comparáveis com a distribuição normal, diversas transformações dos resíduos em MLG estão

propostas na literatura (McCullagh e Nelder, 1989). Um estudo detalhado sobre resíduos e

suas propriedades em MLG é realizado por Pierce e Schafer (1986). Eles mostram que os

resíduos de deviance apresentam as melhores propriedades e sugerem os resíduos de deviance

ajustados, dados por 1 6dr µ+ , em que dr são os resíduos de deviance usuais e 1 µ é

coeficiente de assimetria da distribuição de Poisson. Esta opção de resíduos está

implementada como padrão na biblioteca ares e podem ser extraídos do modelo por meio da

função get.residuals . Outras opções de resíduos estão também disponíveis na

biblioteca.

Os resíduos do modelo de linha de base devem ter, no máximo possível, características

de um ruído branco, ou seja, devem seguir uma distribuição normal com média zero, variância

constante e ausência de autocorrelação (Box et al, 1994). Os gráficos diagnósticos usuais da

análise de regressão são ferramentas importantes para avaliar o sucesso em cada etapa da

análise. O gráfico dos resíduos contra o tempo pode exibir padrões sazonais não controlados

no modelo e potenciais outliers. Este gráfico está implementado na função

plot.residuals . A análise de influência das observações pode corroborar ou refutar a

existência de outliers. O gráfico da distância de Cook (Cook e Weisberg, 1982) está

implementado na função plot.cook . O gráfico de dispersão dos resíduos contra duas vezes

Page 115: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

112

a raiz quadrada dos valores previstos pelo modelo serve para avaliar se a relação entre as

covariáveis e o desfecho exibe alguma forma funcional (Atkinson, 1985). Este gráfico está

implementado na função grafico.infocte . A normalidade dos resíduos pode ser

avaliada com o gráfico de quantis implementado na função plot.qq . Para avaliar se os

resíduos se afastam efetivamente da curva de probabilidade normal, é interessante a

construção de uma banda de confiança para os resíduos por meio de simulação. Este gráfico

também é útil para detectar pontos outliers. O envelope simulado proposto por Atkinson

(1985) está implementado na função plot.envelope .

Valores medidos ao longo do tempo, e.g. em dias consecutivos, não são independentes e

apresentam autocorrelação. Por outro lado, não é razoável assumir, por exemplo, que a

mortalidade em um dado dia possa influenciar a mortalidade no dia seguinte. Entretanto, a

autocorrelação observada na variável de desfecho pode ser devida à autocorrelação nas

variáveis preditoras do desfecho. Em estudos de séries temporais sobre poluição do ar e

efeitos na saúde, a autocorrelação geralmente é controlada pelas variáveis meteorológicas e

indicadores de epidemias (Schwartz et al, 1996). Se a autocorrelação não for devidamente

controlada poderá ser detectada no diagnóstico dos resíduos do modelo. A autocorrelação

pode ser verificada e estimada por meio das funções de autocorrelação e autocorrelação

parcial (Box et al, 1994). A última estima a correlação entre as observações defasadas no

tempo corrigida pelas defasagens intermediárias. Esta é a opção padrão na função

plot.pacf da biblioteca ares. A autocorrelação não enviesa a estimativa do efeito, mas faz

com que seu erro-padrão seja subestimado.

6.2.4 Tendência e sazonalidade

Em estudos de séries temporais, além de necessário controlar os fatores de confusão

previstos no modelo teórico, há variações sistemáticas que também devem ser controladas.

Page 116: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

113

Cabe ressaltar que nestes estudos o que se busca estimar é o efeito agudo, de curto prazo.

Duas variáveis podem estar correlacionadas porque apresentam o mesmo comportamento

sistemático de longo prazo, em oposição às variações de curto prazo. Logo, para avaliar se as

duas variáveis apresentam correlação de curto prazo, os componentes sistemáticos de longo

prazo devem ser controlados. A tendência de uma série temporal pode ser não-linear. A

estimação usando uma abordagem paramétrica pura inclui, por exemplo, o uso de funções

polinomiais de diversos graus para controlar a tendência.

Outro componente sistemático que ocorre nas séries temporais diz respeito às variações

cíclicas, em particular as que ocorrem com período de um ano ou sazonalidade. As variáveis

de eventos de saúde, fatores meteorológicos e poluição geralmente exibem sazonalidade. A

sazonalidade, tal como a tendência, também induz correlação entre as variáveis mesmo que

não exista uma relação causal entre elas. Numa abordagem paramétrica, a sazonalidade pode

ser controlada, por exemplo, com o uso de curvas senoidais com períodos equivalentes aos

das variações cíclicas sob controle ou variáveis dummies mensais. Na biblioteca ares,

senóides podem ser incluídas no modelo usando a função sincos . Existem variações

cíclicas com período superior a um ano que podem se confundir com a tendência da série

temporal em estudos com poucos anos de dados. Também existem variações com período

inferior a um ano, por exemplo, dias da semana, que nem sempre estão presentes nas séries

temporais, mas devem ser verificadas e, se necessário, controladas. Os efeitos dos dias da

semana são controlados com o uso de variáveis dummies.

Há várias formas de controlar a variabilidade dos componentes estruturais da série

temporal (Schwartz, 1996). Entretanto, uma das principais vantagens de usar uma abordagem

semi-paramétrica para a estimação de modelos de séries temporais em epidemiologia

ambiental é a possibilidade de usar uma função suave do tempo de observação (em dias), e.g.

spline, para o controle de tendência e sazonalidade. Esta abordagem permite que os dois

Page 117: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

114

componentes estruturais sejam modelados simultaneamente. No entanto, seu uso propõe um

problema: quanto suave deve ser a curva para um controle adequado da tendência e da

sazonalidade? Apesar de existir métodos automáticos para seleção do grau de suavização da

curva como a validação cruzada e a validação cruzada generalizada (Wahba, 2000; Craven e

Wahba, 1979), estes normalmente não produzem resultados satisfatórios na prática. Então, o

processo de seleção é empírico, baseado nos diagnósticos do modelo apresentados acima, no

periodograma e em estatísticas de parcimônia, e.g. critério de informação de Akaike (AIC)

(Hastie e Tibshirani, 1990). Em geral, com graus de liberdade suficientes, as curvas suaves

são capazes de controlar também as variações cíclicas intermediárias.

A escolha da forma funcional mais adequada para o controle dos componentes cíclicos

nos estudos de séries temporais epidemiológicas pode ser suportada pelo periodograma. O

periodograma consiste na decomposição da série temporal como uma superposição de curvas

senoidais de diversas freqüências (Diggle, 1990). Sua utilidade prática reside no fato de que

este pode ser analisado como uma distribuição empírica dos padrões cíclicos da série

temporal. Em adição, pode ser usado com um caráter exploratório mostrando variações

cíclicas com períodos não conhecidos previamente. Aplicado nos resíduos do modelo, o

periodograma revela padrões de variação cíclicas ainda não controlados. Um periodograma

customizado está implementado na função periodogram da biblioteca ares. Padrões

sazonais são representados no periodograma por períodos de aproximadamente 365 dias e

padrões semanais por períodos em torno de 7 dias.

6.2.5 Calendário e epidemias

Em estudos sobre os efeitos da poluição ar na saúde, é comum que os eventos

relacionados com o calendário confundam a associação entre o contaminante e o desfecho.

Por exemplo, greves de transporte tendem a mudar o padrão de exposição da poluição e o

Page 118: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

115

acesso ao serviço de saúde. Feriados podem ter efeito similares. Portanto, é imprescindível

que seja investigado o efeito de tais eventos. Na biblioteca ares, variáveis indicadoras de

feriados ou greves podem ser facilmente geradas com a função gen.holidays . Feriados

móveis como Páscoa e Carnaval, fixos como Natal e Ano Novo e nacionais, dos países

participantes do projeto ESCALA, são gerados automaticamente quando da inicialização do

banco de dados. A fim de se obter modelos mais parcimoniosos, os feriados podem ser

agrupados de acordo com sua magnitude e sinal do efeito.

O controle de epidemias de influenza no Brasil é muito difícil já que os dados

normalmente não estão disponíveis. Como as epidemias de influenza tendem a determinar

um padrão sazonal, um adequado controle da sazonalidade deve produzir também um controle

satisfatório de epidemias de influenza. Braga e colaboradores (2000) propõe o uso de

internações hospitalares por pneumonia como controle de epidemias respiratórias sob o

argumento que o controle apenas por influenza pode não incluir alguns episódios de epidemia.

Para o controle de epidemias podem ser usadas variáveis dummies e/ou polinômios cúbicos do

número de casos para períodos maiores. A última abordagem permite que os dados

determinem a curva da epidemia.

6.2.6 Fatores meteorológicos

Após controlar os componentes sistemáticos da série temporal e os efeitos de

calendário, é imprescindível incluir no modelo termos que controlem a variabilidade de curto

prazo devida aos fatores meteorológicos. É bem conhecido na literatura que temperatura e

umidade estão associadas com a mortalidade e morbidade; sobretudo com os desfechos

cardiovasculares e respiratórios (Días Jiménez et al, 2005; Cagle e Hubbard, 2005; Braga et

al, 2001). Os fatores meteorológicos geralmente são bem representados pelas medidas de

temperatura e umidade. A dependência dos eventos de saúde nos fatores meteorológicos

Page 119: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

116

normalmente é não linear. Várias abordagens estão disponíveis para modelar associações não

lineares, e.g. suavização, polinômio e funções lineares por partes. Os gráficos da suavização

dos resíduos do modelo contra os indicadores de temperatura e de umidade podem indicar a

forma funcional da associação. Na biblioteca ares, os dois gráficos podem ser obtidos com as

funções explore.temp e explore.humid respectivamente. Geralmente, splines cúbicas

naturais são usadas para modelar a associação dos fatores meteorológicos. Associações

lineares por partes podem ser modeladas usando a função lspline que gera uma base para

uma spline linear por partes (Gould, 1993). O efeito da temperatura pode se manifestar no

mesmo dia ou apresentar alguma latência. Portanto, deve-se explorar o efeito dos fatores

meteorológicos sobre o evento de saúde no mesmo dia e defasagens, bem como o efeito

acumulados de alguns dias.

Algumas análises realizadas com dados do Rio de Janeiro mostraram que a quantidade

de chuva em um dado dia pode distorcer a associação entre poluição do ar e atendimentos ou

internações hospitalares por sintomas respiratórios em crianças. Enchentes são comuns

quando ocorrem chuvas muito fortes e o acesso às unidades de saúde se torna limitado.

Chuvas também tendem a diminuir a concentração de contaminantes em suspensão na

atmosfera. O mesmo padrão não foi observado em desfechos relacionados à população idosa.

6.2.7 Efeito dos poluentes

Uma vez que o modelo de linha de base inclua os potenciais fatores de confusão é

possível estimar o efeito da poluição atmosférica sobre o evento de saúde. O efeito de cada

poluente pode ser observado no mesmo dia ou em alguns dias após a exposição dependendo

do mecanismo biológico e de outros fatores (Katsouyanni et al, 1996). Em adição, o efeito

pode ser observado no mesmo dia e persistir por alguns dias. Uma abordagem comumente

empregada consiste em avaliar a defasagem do efeito do poluente de forma independente, ou

Page 120: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

117

seja, considerando modelos separados para o efeito no mesmo dia e para as defasagens de até

alguns dias. Para investigar o efeito prolongado do poluente, são empregadas médias móveis

da exposição com diferentes números de defasagem.

Uma abordagem para modelar a latência do efeito do poluente é considerar um modelo

com múltiplas defasagens de exposições simultaneamente, sendo que cada defasagem é

representada por uma variável explicativa. O problema desta abordagem é que estas variáveis

de exposição defasada apresentam alto grau de colinearidade devido a autocorrelação,

causando instabilidade no processo de estimação. Um método para modelar este

comportamento é restringir os coeficientes na forma de um polinômio de baixa ordem nas

defasagens da exposição, o modelo de defasagem distribuída polinomial (MDDP). O MDDP

foi inicialmente proposto por Almon (1965) e sua aplicação em epidemiologia ambiental é

explorada em detalhes por Schwartz (2000). Uma extensão não paramétrica mais flexível do

modelo de defasagem distribuída usando spline em vez de polinômio foi proposta por

Zanobetti e colaboradores (2000). A versão paramétrica do modelo de defasagem distribuída

está implementado na função pdlm da biblioteca ares.

Os poluentes podem apresentar efeitos diferentes ao longo do ano, e.g. verão e inverno.

Para explorar a modificação do efeito em um período específico do ano, uma variável

indicadora é incluída no modelo junto com um termo de interação com o poluente. Entretanto,

para diminuir o risco de obter falsas conclusões, a análise de interação deve se limitar a dois

níveis, a menos que hipótese a ser testada tenha sido formulada previamente (Schwartz,

1996). O efeito da poluição do ar geralmente é pequeno e com poder limitado para detectar

interações. Portanto, a análise de interação com vários níveis pode não produzir inferências

válidas. Um modelo de interação com dois níveis, períodos quente e frio, está implementado

na biblioteca ares.

A estimativa do efeito de vários poluentes simultâneos deve levar em consideração que

Page 121: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

118

alguns contaminantes são colineares e o modelo com múltiplos poluentes sofrerá instabilidade

na estimação. A composição de contaminantes em modelos com múltiplos poluentes pode ser

orientada pela análise de correlação. Devem ser considerados para o modelo multipoluentes

apenas aqueles que apresentarem baixa correlação. A estimação de modelos com dois

poluentes está prevista na biblioteca ares.

Os procedimentos acima não esgotam as possibilidades metodológicas para a análise de

séries temporais sobre poluição do ar e seus efeitos em eventos de saúde. Essencialmente, a

metodologia implementada na biblioteca ares reflete o protocolo de análise de séries

temporais do projeto ESCALA e outros estudos multicêntricos desenvolvidos na Europa e

EUA. A biblioteca dispõe ainda de diversas funções utilitárias com fins operacionais, e.g.

acesso a dados, geração de gráficos etc.

6.3 Aplicação

6.3.1 Dados

Para ilustrar a metodologia de análise de séries temporais epidemiológicas e o uso da

biblioteca ares, foram analisados dados de internações hospitalares por doenças do aparelho

respiratório (DAR) em crianças com idade até 5 anos na cidade do Rio de Janeiro. O período

de estudo é de setembro de 2000 a agosto de 2002. Os dados de saúde incluem todas as

internações em hospitais públicos ou privados conveniados ao Sistema Único de Saúde

(SUS) do Ministério da Saúde. Os dados de poluição do ar foram cedidos pelos órgãos

ambientais do estado e do município. Foram disponibilizadas concentrações diárias de

material particulado até 10 microns (PM10), dioxido de enxofre (SO2), monóxido de carbono

(CO), dióxido de nitrogênio (NO2) e ozônio (O3). As concentrações foram aferidas em 6

pontos da cidade, exceto para as de NO2 e O3 que estavam disponíveis em apenas 2 estações.

Um procedimento para imputação dos dados foi utilizado a fim de minimizar a perda de

Page 122: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

119

precisão das estimativas9. Mesmo após a imputação, NO2 apresentou uma grande quantidade

de valores faltantes e os resultados referentes a este contaminante devem ser considerados

com cautela. As concentrações de contaminantes estão expressas em micrograma por metro

cúbico (µg/m³), exceto CO que está em partes por milhão (ppm). Dados sobre temperatura e

umidade foram cedidos pela Aeronáutica e medidos em 4 pontos da cidade. Os dados sobre

precipitação de chuvas foram medidos em 32 estações instaladas no Rio de Janeiro.

6.3.2 Resultados

A biblioteca ares é carregada no R de maneira usual, com o comando

library(ares) . O banco de dados pode ser carregado com o comando data <-

import.data(“arquivo.ext”) . A função tentará identificar automaticamente o

aplicativo de origem do arquivo e selecionar o filtro de importação de dados adequado. Os

mais comuns estão implementados. Com o banco de dados já carregado no objeto data , este

deve ser inicializado com o comando setup(data,"Date",date.format =

"%d/%m/%Y",holidays=TRUE) . Date é o nome da variável com a data do evento no

formato texto. Na inicialização, são criadas variáveis para o tempo, dias da semana, meses,

trimestres, anos e, opcionalmente, feriados. Uma variável formatada como data, doe (date of

the event), também é criada. As variáveis criadas e respectivos tipos de dados são visualizados

com a função desc.data .

Medidas descritivas das variáveis de interesse podem ser obtidas com o comando

desc.vars(c("resp5","PM10","SO2","CO","NO2","O3")) . Com as opções

padrão e alguma formatação o comando produzirá a Tabela 6-1 com as estatísticas mais

usuais.

9 Nota para a tese: O método de imputação de dados usado é objeto de estudo do Artigo 3.

Page 123: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

120

Tabela 6-1: Estatísticas descritivas de DAR em crianças e poluentes

n na mean sd min max p25 p50 p75 resp5 730 0 15,75 7,78 1,00 43,00 10,00 15,00 20,00 PM10 728 2 57,57 17,20 17,94 139,73 44,84 54,61 67,68 SO2 690 40 11,73 6,64 1,25 49,67 6,79 10,53 15,12 CO 727 3 1,22 0,44 0,40 3,06 0,90 1,15 1,47 NO2 513 217 46,73 25,89 1,20 207,19 28,42 45,57 61,07 O3 656 74 28,07 16,95 2,46 88,83 13,58 25,84 39,00

Os gráficos das variáveis de desfecho e de exposição podem ser criados com os

comandos plot.event(resp5,df=0) e plot.pollutant(PM10,df=0)

respectivamente. A opção df=k , com 0k > , faz com que uma spline da variável com k

graus de liberdade seja adicionada ao gráfico; se omitida, as observações serão suavizadas por

uma spline com 5 graus de liberdade. O resultado está combinado na Figura 6-1 e é notória a

sazonalidade das internações de crianças por DAR no período do estudo.

010

2030

40

resp

5

01/09/0000 25/01/2001 20/06/2001 13/11/2001 08/04/0002

Daily counts of resp5

2060

100

140

PM

10

01/09/0000 25/01/2001 20/06/2001 13/11/2001 08/04/0002

Daily concentrations of PM10

Figura 6-1 Número de internações por DAR em crianças e concentrações de PM10 diárias

Page 124: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

121

Além das variáveis de feriados geradas internamente, novas variáveis indicando

feriados ou outras datas especiais podem ser criadas. A função gen.holidays cria

variáveis indicadoras dadas as datas, e.g. feriados locais, greves ou outras datas que devem ser

consideradas no modelo. Para criar variáveis referentes aos feriados regionais da cidade do

Rio de Janeiro, Zumbi e São Sebastião, usa-se os seguintes comandos

zumbi <- gen.holidays(doe,"zumbi","20/11") sebastiao <- gen.holidays(doe,"sebastiao","20/01")

O modelo de linha de base é especificado por meio de uma fórmula na notação usual do

R. A variável resposta é separada das variáveis preditoras por “~” e as variáveis preditoras

separadas por “+”. As funções para calcular defasagens ou médias móveis de variáveis,

senóides e splines podem ser inseridas diretamente na fórmula.

A tendência e sazonalidade da série de internações de crianças por doenças respiratórias

é controlada por meio de uma spline com 6 graus de liberdade por ano da variável time . O

efeito dos dias da semana é controlado pelo fator weekdays com um nível para cada dia da

semana. Os efeitos de calendário são controlados por meio das variáveis indicadoras dos

feriados geradas automaticamente ou com a função gen.holidays . A variável

long_weekends , indicando feriados prolongados, foi definida no próprio banco de dados.

As linhas de comandos para definir a fórmula e estimar o modelo de linha de base são

f <- resp5~ns(time,12)+weekdays+christmas+newyear+p assion+ easter+corpus+tiradentes+trabalho+independencia+ap arecida+ finados+republica+zumbi+sebastiao+long_weekends mod <- fit.core(f) A função ns faz parte da biblioteca interna R e gera a base para uma spline cúbica natural

com o número de graus de liberdade indicado no segundo argumento.

O objeto mod acomoda as informações referentes ao modelo estimado. O comando

print.summary(mod) imprime estatísticas descritivas dos resíduos, estimativas e testes

Page 125: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

122

de hipóteses dos coeficientes, estatísticas de qualidade do modelo e estimativa do parâmetro

de dispersão. O comando diagnostics(mod) , além de imprimir as informações sobre o

modelo, é um atalho para produzir os gráficos de valores previstos, resíduos contra o tempo,

distância de Cook, função de correlação parcial, periodograma dos resíduos e de quantis dos

resíduos contra quantis da distribuição normal. Após a análise dos diagnósticos, os feriados

com p-valor maior que 0,1 foram excluídos da análise e o modelo re-estimado.

A escolha do indicador de temperatura e da forma funcional a ser usada para o seu

controle no modelo foi auxiliada pela função explore.temp . O comando

explore.temp(mod,tmpmax,df=5) produz gráficos dos resíduos suavizados contra a

variável tmpmax com diferentes defasagens de tempo. A opção df=5 indica que uma spline

com 5 graus de liberdade será usada para a suavização. Os gráficos de temperatura estão

apresentados na Figura 6-2. A análise dos gráficos sugere que a temperatura com defasagem

de dois dias (lag 2) explica melhor a variabilidade do número diário de internações por DAR

em crianças. Se o indicador de temperatura não estiver especificado no protocolo de análise,

esta mesma análise dever ser reproduzida para os outros indicadores de temperatura

disponíveis. A fórmula do modelo agora pode ser atualizada para incluir temperatura. Logo,

considerando a associação não linear da temperatura com 4 graus de liberdade por ano, pode-

se re-estimar o modelo com os seguintes comandos

f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8) mod <- fit.core(f) A função l (lag) retorna a variável defasada no número unidades de tempo indicado no

segundo argumento.

Page 126: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

123

20 25 30 35

-3-2

-10

12

3

tmpmax (deg)

Dev

ianc

e re

sidu

als

20 25 30 35-3

-2-1

01

23

tmpmax lag1

20 25 30 35

-3-2

-10

12

3

tmpmax lag2

20 25 30 35

-3-2

-10

12

3

tmpmax ma01

Res

idua

ls

25 30 35

-3-2

-10

12

3

tmpmax ma02

20 25 30 35

-3-2

-10

12

3

tmpmax ma12

Smoothed residuals of series resp5 against temperature

5 degrees of freedom

Figura 6-2 Resíduos do modelo suavizados contra a temperatura máxima

A escolha do indicador de umidade segue a mesma análise realizada para a

temperatura. A biblioteca dispõe da função explore.humid que implementa a mesma

análise para a variável de umidade. Após executar o comando explore.humid(mod,

wet,df=5) e analisar os gráficos resultantes, observa-se que a umidade com defasagem de

2 dias pode explicar parte da variabilidade do desfecho. Então, considerando uma associação

não linear com 2 graus de liberdade por ano, propõe-se a seguinte atualização para o modelo

de linha de base

f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8)+ns(l(wet,2),4) mod <- fit.core(f)

Em cada alteração no modelo de linha de base os diagnósticos devem ser processados

Page 127: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

124

novamente. Outras configurações de ajuste da temperatura e umidade podem ser testadas

seguindo os mesmos procedimentos. Após a inclusão de cada termo de temperatura e

umidade, as mesma funções explore.temp e explore.humid podem ser usadas para

avaliar a efetividade do controle. O controle adequado é indicado pela ausência de padrão que

indique associação entre os resíduos do modelo com os correspondentes indicadores de

temperatura e umidade.

Com inclusão do indicador de precipitação de chuvas, o modelo de linha de base pode

ser indicado e re-estimado pelos seguintes comandos:

f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8)+ns(l(wet,2),4)+rai n mod <- fit.core(f)

O modelo de linha de base final inclui os fatores de confusão conhecidos e disponíveis

para a associação entre poluição do ar e admissão hospitalares de crianças por DAR. Os

diagnósticos do modelo estão apresentados na Figura 6-3. O gráfico de valores previstos

indica que o modelo reproduz bem a tendência e sazonalidade da série. O gráficos dos

resíduos ao longo do tempo sugere um bom controle da sazonalidade e não indica a

ocorrência de valores outliers. O gráfico da distância de Cook também não indica a ocorrência

de outliers. O gráfico da função de autocorrelação parcial não indica sazonalidade ou

autocorrelação não controlada, apesar do valor observado para uma defasagem de 23 dias.

Não há registro de dependência serial com esta defasagem para admissões hospitalares e é

mais provável que esta seja espúria. O periodograma dos resíduos indica que a variações

cíclicas da série estão devidamente controladas. O gráfico de normalidade dos resíduos não

mostra afastamento acentuado dos quantis dos resíduos em relação aos quantis da distribuição

normal, embora apresente desvios maiores para valores de resíduos mais altos.

Quanto ao resumo impresso do modelo, além da significância das estimativas dos

coeficientes da regressão, atenção deve ser dada a estatística de deviance residual igual a

Page 128: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

125

864.9 com 688 graus de liberdade. O parâmetro de dispersão estimado foi igual 1,25,

indicando uma pequena superdispersão, negligenciável na prática. O critério de informação de

Akaike igual 4203,9 foi o menor entre os modelos testados.

010

2030

40

Obs

erve

d an

d fit

ted

valu

es

01/09/0000 26/07/2001 20/06/2002

Observed and fitted daily counts of resp5

(f itted values in red)

-4-2

02

4

Dev

ianc

e re

sidu

als

01/09/0000 26/07/2001 20/06/2002

Residuals of series resp5

0 200 400 600

0.00

0.02

0.04

0.06

0.08

0.10

Observation

Dis

tanc

e

Cook distance of observations of series resp5

5 10 15 20 25

-0.0

50.

000.

05

Lag

Par

tial A

CF

PACF of the residuals of resp5

0.0 0.5 1.0 1.5 2.0 2.5 3.0

05

1015

Angular frequency (rad) / [Period on the top axis]

Inte

nsity

730 6.28 3.14 2.09Periodogram of Deviance residuals

-3 -2 -1 0 1 2 3

-3-2

-10

12

3Normality plot of residuals of series resp5

Standard Normal Quantiles

y

Figura 6-3 Valores previstos, resíduos contra o tempo, distância de Cook, função de correlação parcial, periodograma dos resíduos e de quantis dos resíduos contra quantis da distribuição normal

Uma vez definido o modelo de linha de base, pode-se adicionar ao modelo o poluente

com diferentes defasagens a fim de estimar o seu efeito. A biblioteca ares disponibiliza a

função estimate.risks , que é uma interface para várias abordagens de estimação do

efeito dos poluentes que inclui os modelos de defasagem simples com um único ou dois

poluentes e modelos de defasagem distribuída polinomiais. O modelo com um único poluente

pode incorporar um termo de interação com períodos quente e frio. A função retorna um

objeto com as tabelas de estimativas dos, vide Tabela 6-2, efeitos e produz os respectivos

Page 129: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

126

gráficos com estimativas pontuais e intervalos de confiança.

Tabela 6-2: Coeficientes e riscos relativos para diferentes exposições de PM10, SO2, CO, NO2 e O3. MAv é o indicador de médias móveis. k é igual 10

Centile1090 RR1090 LBRR1090 UBRR1090 RRk LBRRk UBRRk p.value PM10 Lag 0 41,4450 1,1030 1,0487 1,1601 1,0239 1,0115 1,0365 0,0001 Lag 1 41,4450 1,0932 1,0361 1,1534 1,0217 1,0086 1,0350 0,0011 Lag 2 41,4450 1,1341 1,0663 1,2061 1,0308 1,0156 1,0463 0,0001 MAv 0 to 1 41,4450 1,1270 1,0627 1,1951 1,0293 1,0148 1,0440 0,0001 MAv 0 to 2 41,4450 1,1815 1,1019 1,2669 1,0411 1,0237 1,0587 0,0000 MAv 0 to 3 41,4450 1,2221 1,1320 1,3194 1,0496 1,0304 1,0692 0,0000 MAv 0 to 4 41,4450 1,2237 1,1293 1,3259 1,0499 1,0298 1,0704 0,0000

MAv 0 to 5 41,4450 1,2096 1,1127 1,3150 1,0470 1,0261 1,0683 0,0000

SO2 Lag 0 15,2070 1,0172 0,9705 1,0661 1,0112 0,9805 1,0430 0,4780 Lag 1 15,2070 1,0439 0,9952 1,0950 1,0287 0,9968 1,0615 0,0780 Lag 2 15,2070 1,0449 0,9886 1,1044 1,0293 0,9925 1,0675 0,1203 MAv 0 to 1 15,2070 1,0455 0,9876 1,1067 1,0297 0,9919 1,0689 0,1256 MAv 0 to 2 15,2070 1,0662 0,9955 1,1419 1,0430 0,9970 1,0912 0,0671 MAv 0 to 3 15,2070 1,0838 1,0014 1,1730 1,0544 1,0009 1,1106 0,0460 MAv 0 to 4 15,2070 1,1117 1,0182 1,2137 1,0721 1,0120 1,1358 0,0181

MAv 0 to 5 15,2070 1,1377 1,0338 1,2520 1,0885 1,0221 1,1593 0,0083

CO Lag 0 1,1140 1,0511 0,9980 1,1070 1,0458 0,9982 1,0956 0,0594 Lag 1 1,1140 1,0433 0,9879 1,1019 1,0388 0,9892 1,0910 0,1275 Lag 2 1,1140 1,0105 0,9527 1,0719 1,0095 0,9574 1,0643 0,7275 MAv 0 to 1 1,1140 1,0661 1,0011 1,1352 1,0591 1,0010 1,1206 0,0460 MAv 0 to 2 1,1140 1,0730 0,9948 1,1574 1,0653 0,9953 1,1402 0,0681 MAv 0 to 3 1,1140 1,0790 0,9901 1,1758 1,0706 0,9911 1,1564 0,0829 MAv 0 to 4 1,1140 1,1142 1,0138 1,2245 1,1019 1,0124 1,1994 0,0248

MAv 0 to 5 1,1140 1,1311 1,0208 1,2533 1,1169 1,0187 1,2247 0,0186

NO2 Lag 0 61,2320 0,9539 0,8878 1,0249 0,9923 0,9808 1,0040 0,1974 Lag 1 61,2320 0,9169 0,8478 0,9917 0,9859 0,9734 0,9986 0,0301 Lag 2 61,2320 0,8931 0,8247 0,9672 0,9817 0,9690 0,9946 0,0054 MAv 0 to 1 61,2320 0,9285 0,8544 1,0092 0,9880 0,9746 1,0015 0,0810 MAv 0 to 2 61,2320 0,8898 0,8121 0,9749 0,9811 0,9666 0,9959 0,0123 MAv 0 to 3 61,2320 0,8842 0,8028 0,9738 0,9801 0,9648 0,9957 0,0125 MAv 0 to 4 61,2320 0,8939 0,8081 0,9889 0,9819 0,9658 0,9982 0,0295

MAv 0 to 5 61,2320 0,8675 0,7808 0,9639 0,9771 0,9604 0,9940 0,0082

O3 Lag 0 41,6200 1,0490 0,9755 1,1280 1,0116 0,9940 1,0294 0,1971 Lag 1 41,6200 1,0151 0,9437 1,0920 1,0036 0,9862 1,0214 0,6863 Lag 2 41,6200 1,0298 0,9546 1,1109 1,0071 0,9889 1,0256 0,4483 MAv 0 to 1 41,6200 1,0324 0,9529 1,1186 1,0077 0,9885 1,0273 0,4354 MAv 0 to 2 41,6200 1,0409 0,9539 1,1357 1,0097 0,9887 1,0311 0,3679 MAv 0 to 3 41,6200 1,0172 0,9268 1,1164 1,0041 0,9819 1,0268 0,7198 MAv 0 to 4 41,6200 1,0064 0,9131 1,1093 1,0015 0,9784 1,0252 0,8970 MAv 0 to 5 41,6200 1,0229 0,9240 1,1324 1,0054 0,9812 1,0303 0,6630

Page 130: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

127

Os dados das colunas da Tabela 6-2 são na ordem que aparecem: defasagem da exposição,

variação entre o 10º e o 90º percentil, risco relativo, limites inferior e superior do intervalo de

confiança para a variação entre o10º e 90º percentil, risco relativo, limites inferior e superior

do intervalo de confiança para a variação de k unidades do poluente, valor-p.

Inicialmente, será estimado o efeito dos poluentes com o esquema de defasagens

simples de 0 a 3 dias e médias móveis com defasagens de 1 a 5 dias. Esta análise é executada

com o comando abaixo

estimate.risks(mod,c("PM10","SO2","CO","NO2","O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="si mplelag", lag.struc=list(l=0:2,ma=1:5),unit=10) A função estimate.risks com method="simplelag" acrescenta ao modelo de

linha de base de forma linear cada poluente listado no segundo argumento e as defasagens

indicadas em lag.struc . A opção unit indica a variação da exposição para o cálculo do

risco relativo e labels indica rótulos alternativos para serem usados nas tabelas e gráficos

gerados pela função. A opção unit pode ser especificada de forma independente para cada

poluente ou omitida, e o risco relativo é calculado para 10 unidades do poluente, e.g. (µg/m³).

Os resultados obtidos pelo comando acima, após alguma formatação, estão resumidos na

Tabela 6-2.

Foram encontradas associações estatisticamente significativas entre aumentos na

concentração de poluentes e aumentos no número médio diários de internações de crianças

por DAR. Foi observado efeito do PM10 no mesmo dia e em todas as defasagens testadas.

Aumentos de 2,4 a 5% foram associados com um aumento de 10 µg/m³ de PM10. O efeito de

SO2 foi significativo apenas para as médias móveis incluindo o dia corrente e os últimos 3, 4 e

5 dias. Foram estimados aumentos de 5,4 a 8,9% para um aumento de 10 µg/m³. O aumento

de 1 ppm de CO mostrou estar associado com aumentos de 5,9 a 11,7% nas internações para

as médias móveis de até 5 dias anteriores.

Page 131: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

128

Para a estimativa do efeito usando modelos de defasagem distribuída polinomiais basta

indicar a opção method="pdlm" e definir a defasagem máxima e grau dos polinômios em

pdlm.struc . Um exemplo do comando segue abaixo

estimate.risks(mod,c("PM10","SO2","CO","NO2","O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="pd lm", pdlm.struc=list(l=10,deg=2)) Uma tabela semelhante à Tabela 6-2 é produzid, a bem como os gráficos com a trajetória do

efeito para cada poluente.

Na Figura 6-4, estão apresentados os gráficos com os efeitos de PM10 estimados usando

as abordagens de defasagem simples e o modelo de defasagem distribuída polinomial. Apesar

das diferentes escalas dos gráficos, nota-se que os valores estimados usando defasagens

simples são maiores que os valores estimados usando defasagens distribuídas. No primeiro, o

efeito de cada defasagem é estimado de forma independente, sem considerar distribuição

conjunta com as outras defasagens. Uma explicação para o padrão protetor apresentado a

partir da defasagem de 9 dias, no gráfico do modelo de defesagem distribuída polinomial,

pode ser que crianças mais suscetíveis manifestam o efeito da poluição são internadas,

medicadas e, mesmo após a alta, tendem a permanecer indoors, protegidas das poluição da

semana seguinte.

Page 132: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

129

(a) (b)

Figura 6-4 Gráficos da trajetória dos riscos relativos estimados usando defasagens simples (a) e modelo de defasagem distribuída com um polinômio de grau 2 (b) até 10 dias

A correlação entre os poluentes sugere que a análise deve ser restrita aos pares de

contaminantes PM10 e O3, SO2 e O3 e CO e O3. As estimativas para os efeitos com dois

poluentes podem ser obtida selecionando a opção method="dual" no comando abaixo

estimate.risks(mod,c("PM10","SO2","CO","O3"), labels=c("PM10","SO2","CO","O3"),method="dual", lag.struc=list(l=0:2,ma=1:5)) A função estimará o efeito para todas as combinações de dois poluentes que podem ser

formadas com os poluentes indicados e defasagens especificadas em lag.struc . Mesmo

estimado junto com o O3 os efeitos de PM10 e CO não sofreram alterações expressivas.

Outra análise com resultados interessantes é a investigação de períodos de baixa ou alta

temperatura como modificador de efeitos na associação entre o poluente e o evento de saúde.

Como exemplo, considere a variável warm_season que indica os dias com temperaturas

mais altas incluindo o verão. Ainda que não exista efeito estatisticamente significativo do

poluente para todo o período de análise, é possível que este o seja nos períodos em que a

interação é observada. Para estimar o efeito da interação da variável warm_season com os

Relative risk for 10 units variation of the pollutant

Pollutant: PM10Exposure

Rel

ativ

e ri

sk

Lag 0 Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Lag 7 Lag 8 Lag 9

0.98

0.99

11.

006

1.01

61.

026

1.03

61.

046

Relative risk for 10 units variation of the pollutant

Pollutant: PM10Exposure

Rel

ativ

e ris

k

Lag 0 Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Lag 7 Lag 8 Lag 9

0.98

30.

987

0.99

10.

995

0.99

91.

003

1.00

71.

011

1.01

5

Page 133: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

130

poluentes inclui-se a opção modifier=warm_season na função estimate.risks no

modelo de defasagens simples. A análise de interação não revelou diferenças na associação

entre os poluentes estudados e admissões hospitalares por DAR para os períodos quente e frio

do estudo.

A análise desenvolvida acima ilustra a aplicação da biblioteca ares em estudos de séries

temporais sobre os efeitos da poluição do ar na saúde10. A análise mostra que a poluição do ar

está associada com um aumento estatisticamente significativo no número de internações de

crianças por doenças respiratórias na cidade do Rio de Janeiro. Fica claro nos gráficos da

Figura 6-4 que o efeito do PM10 persiste por até vários dias.

6.4 Conclusões

Modelos de séries temporais para estimar o efeito da poluição do ar sobre a saúde têm

sido extensivamente usados nos últimos 20 anos. A metodologia é usada no contexto dos

desenhos ecológicos com dados secundários que, apesar de suas limitações, apresenta o

atrativo de usar dados que geralmente já foram coletados com fins administrativos ou de

regulação. Esta característica coloca os estudos ecológicos de séries temporais como uma

primeira abordagem metodológica na investigação dos efeitos da poluição do ar, já que

grandes cidades geralmente contam com uma rede de monitoramento da qualidade do ar

instalada. Como observado neste estudo, este desenho é capaz de detectar efeito da poluição

do ar mesmo quando as concentrações dos poluentes estão abaixo nos limites recomendados

pelos órgão ambientais. Contudo, em parte, seu sucesso se deve à flexibilidade dos MAG que

permite controlar associações não lineares de forma não paramétrica, simplificando

consideravelmente o processo de modelagem estatística.

A análise de séries temporais usando os MAG se tornou a metodologia padrão em

Page 134: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

131

diversos estudos multicêntricos para avaliar a os efeitos da poluição atmosférica na saúde. Há

trabalhos propondo diferentes abordagens para lidar com alguns problemas desta

metodologia, por exemplo, modelos dinâmicos para contornar a assunção de risco constante

(Chiogna, 2001). Entretanto, estas sofisticações metodológicas geralmente não estão

implementadas nos aplicativos de análise mais comuns ou envolvem um alto grau de

complexidade para implementação e acabam se tornando iniciativas isoladas. A estratégia de

análise das séries temporais epidemiológicas descrita neste trabalho reflete o protocolo de

análise de grandes estudos multicêntricos desenvolvidos na Europa, o APHEA2 (Air Pollution

and Health: A European Approach) (Katsouyanni et al, 2001), e nos Estados Unidos, o

NMMAPS (National Morbidity and Mortality Air Pollution Study) (Samet et al, 2000), na

Ásia, o PAPA (Public Health and Air Pollution in Asia) (HEI, 2004). A mesma estratégia está

sendo adotada nas análises das séries temporais no projeto ESCALA, um projeto

multicêntrico envolvendo cidades do Brasil, México e Chile (Gouveia et al, 2007). Este

trabalho está sendo desenvolvido no âmbito do projeto ESCALA.

A biblioteca ares é uma coleção de rotinas computacionais que implementam a

metodologia apresentada neste trabalho. As funções apresentadas acima e outras disponíveis

na biblioteca estão devidamente documentadas. A biblioteca é desenvolvida no ambiente de

análise estatística R e pode ser obtida na página do Programa Ares-Rio na Internet,

www.ims.uerj.br/ares-rio. Por ocasião da publicação deste artigo, poderá ser disponibilizada

na página de repositório do R.

6.5 Referências

Almon S. The distributed lag between capital appropriations and expenditures. Econometrica. 1965;33(1):178-196.

Anderson H, Ponce DL, Bland J, Bower J, Strachan D. Air pollution and daily mortality in London: 1987-92. BMJ 1996; 312:665-669.

10 Nota para a tese: O script completo das análises está apresentado no Apêndice 19.

Page 135: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

132

Arbex MA, Cançado JED, Pereira LAA, Braga ALF, Saldiva PHN. Biomass burning and its effects on health. Jornal Brasileiro de Pneumologia. 2004;30(2):158-175.

Atkinson AC. Plots, transformations and regression : an introduction to graphical methods of diagnostic regression. Oxford, Oxford Science Publications, 1985.

Atkinson R, Anderson H, Sunyer J, Ayres J, Baccini M, Vonk J et al. Acute effects of particulate air pollution on respiratory admissions: results from APHEA 2 project. Air Pollution and Health: a European Approach. American Journal of Respiratory and Critical Care Medicine 2001; 164:1860-1866.

Ballester F, Corella D, Perez-Hoyos S, Hervas A. Air pollution and mortality in Valencia, Spain: a study using the APHEA methodology. International Journal of Epidemiology 1996; 50:527-533.

Borja-Aburto V, Loomis D, Bangdiwala S, Shy C, Rascon-Pacheco R. Ozone, suspended particulates, and daily mortality in Mexico City. American Journal of Epidemiology 1997; 145:258-268.

Box G, Jenkins G, Reinsel G. Time Series Analysis. Forecasting and Control. 3 ed. New Jersey, Prentice Hall, 1994.

Braga ALF, Zanobetti A, Schwartz J. Do respiratory epidemics confound the association between air pollution and daily deaths? European Respiratory Journal. 2000;16:723-728.

Braga ALF, Zanobetti A, Schwartz J. The time course of weather-related deaths. Epidemiology. 2001;12:662-667.

Brunekreef B, Holgate S. Air pollution and health. 2002; 360:1233-1242.

Burnett R, Dales R, Krewski D, Vincent R, Dann T, Brook J. Associations between ambient particulate sulfate and admissions to Ontario hospitals for cardiac and respiratory diseases. American Journal of Epidemiology 1995; 142:15-22.

Cagle A, Hubbard R. Cold-related cardiac mortality in King County, Washington, USA 1980-2001. Annals of Human Biology. 2005;32(4):525–537.

Chiogna M, Gaetan C. Dynamic generalized linear models with application to environmental epidemiology. Journal of the Royal Statistical Society, C. 2002;51(4):453-468.

Cifuentes L, Vega J, Kopfer K, Lave L. Effect of the fine fraction of particulate matter versus the coarse mass and other pollutants on daily mortality in Santiago, Chile. 2000; 50:1287-1298.

Cohen A, Pope C, Speizer F. Ambient air pollution as a risk factor for lung cancer. Salud Publica de Mexico 1997; 39:346-355.

Cook RD, Weisberg S. Residuals and influence in regression. London, Chapman and Hall, 1982.

Craven P; Wahba G. Smoothing noisy data with spline functions. Numerische Mathematik. 1979;31:377-403.

Page 136: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

133

Daumas R, Mendonca G, Ponce de Leon A. [Air pollution and mortality in the elderly in Rio de Janeiro: a time-series analysis]. Cadernos de Saúde Pública 2004; 20:311-319.

Díaz Jiménez J, Linares Gil C, Garcia Herrera R. Impacto de las temperaturas extremas en la salud pública: futuras actuaciones. Revista Española Salud Publica. 2005;79(2)2:145-157.

Diggle PJ. Time series: a biostatistical introduction. London, Oxford, 1990.

Dominici F, McDermott A, Zeger SL, Samet JM. On the use of generalized additive models in time-series studies of air pollution and health. American Journal of Epidemiology. 2002;156:193-203.

Dominici F. Time-series analysis of air pollution and mortality: a statistical review. . Research Report. Health Effect Institute. 2004.

Friedman JH, Stuetzle W. Projection pursuit regression. Journal of the American Statistical Society. 1971;76(376):817-823.

Gould WW. Linear splines and piecewise linear functions. Stata Technical Bulletin. 1993;15:13–17.

Gouveia N, Cifuentes L, Ponce de Leon A, Carbajal L, Hurtado M, Romieu I. ESCALA Project (Estudio de Salud y Contaminación del Aire en Latinoamérica). Health Effects Institute. Annual Conference 2007. Program and Abstracts. Chicago, 2007

Gouveia N, Fletcher T. Respiratory diseases in children and outdoor air pollution in Sao Paulo, Brazil: a time series analysis. Occup Environ Med 2000; 57:477-483.

Gouveia, N, Mendonça, GA, Ponce de Leon, A, Correia, JE,Junger, WL, Freitas, CU, Daumas, RP, Martins, LC,Giusepe, L, Conceicao, GMS, Manerich, A, Cunha-Cruz, J. Air pollution and health effects in two Brazilian metropolis. Epidemiologia e Serviços de Saúde 2003; 12:29-40.

Greater London Authority. Fifty years on The struggle for air quality in London since the great smog of December 1952. City Hall 2002.

Green PJ, Silverman BW. Nonparametric regression and generalized linear models: a roughness penalty approach. London, Chapman and Hall, 1994.

Hastie T, Tibishirani R. Generalized additive models. Statistical Science. 1986;1:297-318.

Hastie TJ, Tibishirani RJ. Generalized Additive Models. London, Chapman and Hall, 1990.

HEI, Health Effects Institute. Revised Analyses of Time-Series Studies of Air Pollution and Health. Health Effects Institute 2003.

HEI, Health Effects Institute. Health Effects of Outdoor Air Pollution in Developing Countries of Asia: A Literature Review. Special Report 15. Health Effects Institute 2004.

Page 137: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

134

Hoek G, Brunekreef B. Acute effects of a winter air pollution episode on pulmonary function and respiratory symptoms of children. Arch Environ Health 1993; 48:328-335.

Ignotti E, Hacon, SS, Silva AMC, Junger, WL, Castro H. Effects of biomass burning in Amazon: method to select municipalities using death indicators. Revista Brasileira de Epidemiologia. 2007;10(4):453-464.

Junger W, Ponce de Leon A, Mendonca G. Short term association between lung cancer and air pollution in Rio de Janeiro: a daily time series study. Revista Brasileira de Cancerologia 2005; 51:111-115.

Katsouyanni K, Schwartz J, Spix C, Touloumi G, Zmirou D, Zanobetti A et al. Short term effects of air pollution on health: a European approach using epidemiologic time series data: the APHEA protocol. 1996; 50 Suppl 1:S12-S18.

Lin C, Martins M, Farhat S, Pope C, Conceicao G, Anastacio V et al. Air pollution and respiratory illness of children in Sao Paulo, Brazil. Paediatric and Perinatal Epidemiology 1999; 13:475-488.

Martins M, Fatigati F, Vespoli T, Martins L, Pereira L, Martins M et al. Influence of socioeconomic conditions on air pollution adverse health effects in elderly people: an analysis of six regions in Sao Paulo, Brazil. 2004; 58:41-46.

McGullagh P, Nelder JA. Generalized linear models. London, Chapman and Hall, 1989.

PAHO, Pan American Health Organization. An assessment of health effects of ambient air pollution in Latin America and Caribbean. Washington DC. 2005.

Pierce DA, Schafer DW. Residuals in generalized linear models. Journal of the American Statistical Association. 1986;81(396):977-986.

Ponce de Leon, Anderson H, Bland J, Strachan D, Bower J. Effects of air pollution on daily hospital admissions for respiratory disease in London between 1987-88 and 1991-92. Journal of Epidemiology and Community Health 1996; 50 Suppl 1:s63-s70.

Pope C, Thun M, Namboodiri M, Dockery D, Evans J, Speizer F et al. Particulate Air-Pollution As A Predictor of Mortality in A Prospective-Study of Us Adults. American Journal of Respiratory and Critical Care Medicine 1995; 151:669-674.

R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2007. http://www.r-project.org.

Romieu I, Lugo M, Velasco S, Sanchez S, Meneses F, Hernandez M. Air pollution and school absenteeism among children in Mexico City. 1992; 136:1524-1531.

Saldiva P, Pope C, Schwartz J, Dockery D, Lichtenfels A, Salge J et al. Air-Pollution and Mortality in Elderly People - A Time-Series Study in Sao-Paulo, Brazil. Archives of Environmental Health 1995; 50:159-163.

Samet JM, Dominici F, Zeger, SL, Schwartz J, Dockery DW. The National Morbidity, Mortality and Air Pollution Study PartI: Methods and Methodological Issues. Research Report. Health Effect Institute. 2000.

Schwartz J, Spix C, Touloumi G, Bacharova L, Barumamdzadeh T, Le Tertre A et al.

Page 138: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

135

Methodological issues in studies of air pollution and daily counts of deaths or hospital admissions. J Epidemiol Community Health 1996; 50 Suppl 1:S3-11.

Schwartz J. Air pollution and daily mortality: a review and meta analysis. Environ Res 1994; 64:36-52.

Schwartz J. Air pollution and hospital admissions for respiratory disease. Epidemiology 1996; 7:20-28.

Schwartz J. The distributed lag between air pollution and daily deaths. 2000; 11:320-326.

Schwartz J. The distributed lag between air pollution and daily deaths. Epidemiology. 2000;11:320-326.

Telez-Rojo M, Romieu I, Ruiz-Velasco S, Lezana M, Hernandez-Avila M. Daily respiratory mortality and PM10 pollution in Mexico City. 2001; 18:1076.

Wahba G. (smoothing) splines in nonparametric regression. Technical Report 1024, Department of Statistics - University of Wisconsin, September 2000.

Ward DJ, Ayres JG. Particulate air pollution and panel studies in children: a systematic review. Occup Environ Med 2004; 61:e13.

Zanobetti a, Wand MP, Schwartz J, Ryan LM. Generalized additive distributed lag models: quantifying mortality displacement. Biostatistics. 2000;1(3):279-292.

Page 139: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

136

7 CONCLUSÕES

Para interpretar os resultados obtidos no estudo apresentado no Artigo 1, deve-se

considerar que o câncer de pulmão é uma doença crônica e que o desfecho óbito por câncer de

pulmão não permite que se conheça exatamente qual foi o evento que levou o indivíduo à

morte. Também não é possível determinar se a poluição do ar é um fator relacionado com a

etiologia da doença, uma vez que o processo de carcinogênese é iniciado com grande

defasagem de tempo. O estudo pode apenas sugerir que a poluição do ar como um agente

agravante do quadro clínico, antecipando ao óbito dos pacientes já acometidos pelo câncer de

pulmão.

O número de resultados estatisticamente significativos obtidos neste estudo é próximo

do esperado ao nível de 5%. Ademais, uma parcela muito pequena da população morre devido

ao câncer de pulmão e os níveis de poluentes atmosféricos que a população experimenta são

cada vez menores, consistindo num baixo poder para detectar pequenos efeitos. É possível

que o aumento de óbitos em função do aumento das concentrações de monóxido de carbono

possam ser explicados por mecanismos de restrição pulmonar. Entretanto, estudos que

investiguem de forma sistemática e por períodos prolongados de tempo esta relação devem ser

desenvolvidos e outros fatores envolvidos na etiologia da doença, e.g. tabagismo, devem ser

considerados.

Os resultados do estudo apresentado no Artigo 2 sugerem a associação entre poluição

atmosférica e baixo peso ao nascer no município do Rio de Janeiro. Após controlar por

diversos fatores de riscos para o baixo peso ao nascer relatados na literatura, foi estimado que

recém-nascidos de mães expostas a concentrações moderadas ou altas de contaminantes

atmosféricos analisados são mais prováveis de nascer com peso inferior a 2500 g,

principalmente nos primeiro e terceiro trimestres de gestação.

Page 140: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

137

A maioria das associações estimadas é positiva embora apenas para o SO2 referente ao

quarto intervalo interquartil de exposição no terceiro trimestre da gestação tenha sido

estatisticamente significativa. É importante considerar que a exposição materna foi estimada

como a média de seis estações de monitoramento que medem estes poluentes em todo o

município considerando a data de nascimento e, portanto, existe a possibilidade de erro de

classificação não diferencial na exposição. Os poluentes NO2 e O3 foram medidos em apenas

dois pontos da cidade. Logo, é razoável assumir que o erro de classificação da exposição seja

ainda maior. Portanto, os resultados encontrados neste estudo podem estar subestimados.

A principal limitação do desenho adotado neste estudo diz respeito à medida de

exposição materna. A exposição média em um trimestre de gestação pode não ser o melhor

indicador da exposição, já que a média é muito suscetível a valores extremos. Entretanto,

diversos estudos abordaram o problema usando a mesma metodologia. Optou-se por um

desenho similar a fim de obter comparabilidade entre os estudos. Outro aspecto que deve ser

considerado no estudo do baixo peso ao nascer é o tabagismo ativo ou passivo durante o

período de gestação. Mas esta informação não está disponível nos sistemas de informação em

saúde e não podem ser contemplados diretamente neste desenho e sim por meio de variáveis

proxies.

Apesar das limitações, foi possível estimar, de forma consistente com a literatura, o

efeito da poluição do ar sobre o peso ao nascer de recém-nascidos a termo de gestação única

no município do Rio de Janeiro. Ainda, os resultados deste trabalho complementam aqueles

desenvolvidos em São Paulo (Gouveia et al, 2004; Perera et al, 1998).

Os resultados obtidos nos dois estudos, mesmo considerando suas limitações,

contribuem para revelar o panorama dos efeitos da poluição do ar na saúde da população

brasileira, sobretudo dos que vivem em centros urbanos. Um grande número dos estudos

epidemiológicos dos efeitos da poluição do ar tem sido desenvolvido no estado de São Paulo.

Page 141: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

138

O mapeamento representativo para o país dos agravos na saúde relacionados com a poluição

do ar requer que estudos comparáveis sejam desenvolvidos em diversas regiões.

Um elemento comum nos estudos epidemiológicos da poluição do ar é a ocorrência de

dados faltantes nas variáveis de exposição. Mesmo quando os dados são provenientes de

grandes redes de monitoramento da qualidade do ar com controle de qualidade adequado, não

é incomum apresentar dados faltantes. Este problema foi abordado no Artigo 3. Simulações

mostraram que com 5% de dados faltantes a análise com unidades completas produz boas

estimativas, não importando o mecanismo dos dados faltantes e a imputação pela média ou

mediana deve ser evitada. A validade da análise com unidades completas começa a degenerar

para proporções de valores faltantes acima de 10%. O uso dos métodos multivariados

propostos nesta tese é recomendado para proporções maiores de dados. Mesmo para lacunas

de sete dias consecutivos, os efeitos estimados foram muito próximos do valor de referência.

As medidas de associação estimadas com os dados imputados pelos métodos com

contribuição temporal propostos no Artigo 3 apresentaram menor dispersão das estimativas.

Dos três métodos de previsão do nível da série temporal utilizados, os procedimentos baseado

nos modelos MAG mostraram menor dispersão nas estimativas, mas a dependência na

disponibilidade de variáveis preditoras para as concentrações de poluentes externas ao modelo

de associação nem sempre é possível. Os procedimentos baseados em splines apresentaram

maior acurácia e precisão. Os procedimentos com múltiplos regimes de covariâncias

apresentaram melhores resultados. Também foi proposto um método de penalização pela

informação perdida a fim de corrigir a subestimação da variância dos estimadores. A função

de penalização linear proposta atribui a cada observação diária um peso em função do número

de valores imputados naquele dia. Estes pesos usados no modelo de associação produzem

intervalos de confiança mais conservadores, diminuindo a probabilidade de erro do tipo I.

Mesmo com dados faltantes de causa não ignorável alguns resultados se mostraram válidos.

Page 142: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

139

Esta metodologia de imputação de dados está sendo utilizada no âmbito do projeto

ESCALA. A metodologia está implementada na biblioteca mtsdi (multivariate time series

data imputation) para o aplicativo estatístico R. O código fonte e a biblioteca compilada está

disponível no CD-ROM do Apêndice A20.

O Artigo 4 descreve a implementação da metodologia de análise de séries temporais

epidemiológicas que tem sido usada nos últimos 20 anos. A metodologia é usada no contexto

dos desenhos ecológicos com dados secundários que, apesar de suas limitações, apresenta o

atrativo de usar dados que geralmente já foram coletados com fins administrativos ou de

regulação. A análise de séries temporais usando MAG se tornou a metodologia padrão em

diversos estudos multicêntricos desenvolvidos na Europa, nos EUA, na Ásia e mais

recentemente na América Latina, ao qual este estudo está relacionado. A biblioteca ares é uma

coleção de rotinas computacionais que implementam a metodologia apresentada neste

trabalho e também está disponível no CD-ROM do Apêndice A20.

Os artigos 3 e 4 contribuem com o desenvolvimento metodológico associado com os

estudos epidemiológicos dos efeitos da poluição do ar na saúde. Entretanto estas ferramentas

podem ser utilizadas em outros contextos em que a metodologia subjacente seja semelhante.

Os métodos de imputação podem ser usados em qualquer contexto em que o problema de

dados faltantes possa ser formulado como um problema de estimação de parâmetros de uma

distribuição normal multivariada. Portanto, esta metodologia contribui também em outras

áreas de aplicação da Epidemiologia.

Page 143: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

140

8 REFERÊNCIAS

Almon S. The distributed lag between capital appropriations and expenditures. Econometrica. 1965;33(1):178-196.

Anderson H, Ponce de Leon, Bland J, Bower J, Strachan D. Air pollution and daily mortality in London: 1987-92. BMJ 1996; 312:665-669.

Arbex MA, Cançado JED, Pereira LAA, Braga ALF, Saldiva PHN. Biomass burning and its effects on health. Jornal Brasileiro de Pneumologia. 2004;30(2):158-175.

Atkinson AC. Plots, transformations and regression : an introduction to graphical methods of diagnostic regression. Oxford, Oxford Science Publications, 1985.

Atkinson R, Anderson H, Sunyer J, Ayres J, Baccini M, Vonk J et al. Acute effects of particulate air pollution on respiratory admissions: results from APHEA 2 project. Air Pollution and Health: a European Approach. American Journal of Respiratory and Critical Care Medicine 2001; 164:1860-1866.

Ballester F, Corella D, Perez-Hoyos S, Hervas A. Air pollution and mortality in Valencia, Spain: a study using the APHEA methodology. International Journal of Epidemiology 1996; 50:527-533.

Barbieri MA, Silva AA, Bettiol H, Gomes UA. Risk factors for the increasing trend in low birth weight among live births born by vaginal delivery, Brazil. Rev Saude Publica 2000; 34:596-602.

Basu R, Woodruff TJ, Parker JD, Saulnier L, Schoendorf KC. Comparing exposure metrics in the relationship between PM2,5 and birth weight in California. J Expo Anal Environ Epidemiol 2004; 14:391-396.

Beale EML, Little RJA. Missing Values in Multivariate analysis. Journal of the Royal Statistical Society, B. 1975; 37:129-145.

Bell ML, Davis DL, Fletcher T. A retrospective assessment of mortality from the London smog episode of 1952: the role of influenza and pollution. Environ Health Perspect 2004; 112(1):6-8.

Bobak M, Leon DA. Air pollution and infant mortality in the Czech Republic, 1986-88. Lancet 1992; 340:1010-1014.

Borja-Aburto V, Loomis D, Bangdiwala S, Shy C, Rascon-Pacheco R. Ozone, suspended particulates, and daily mortality in Mexico City. American Journal of Epidemiology 1997; 145:258-268.

Box G, Cox DR. An analysis of transformations. Journal of the Royal Statistical Society, B.

Page 144: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

141

1964;26(2):211–252.

Box G, Jenkins G, Reinsel G. Time Series Analysis. Forecasting and Control. 3 ed. New Jersey, Prentice Hall, 1994.

Braga ALF, Zanobetti A, Schwartz J. Do respiratory epidemics confound the association between air pollution and daily deaths? European Respiratory Journal. 2000;16:723-728.

Braga ALF, Zanobetti A, Schwartz J. The time course of weather-related deaths. Epidemiology. 2001;12:662-667.

Brasil. Ministério da Saúde. Programa Nacional VIGIAR- Vigilância em Saúde Ambiental Relaciona à Qualidade do Ar. Brasília. 2006.

Brasil. Ministério do Meio Ambiente. Resolução CONAMA 003/1990. Brasília. 1990.

Brunekreef B, Holgate ST. Air pollution and health. Lancet 2002; 360(9341):1233-1242.

Buck SF. A Method of Estimation of Missing Values in Multivariate Data suitable for use with an Electronic Computer. Journal of the Royal Statistical Society, B. 1960; 22:302-306.

Burnett R, Dales R, Krewski D, Vincent R, Dann T, Brook J. Associations between ambient particulate sulfate and admissions to Ontario hospitals for cardiac and respiratory diseases. American Journal of Epidemiology 1995; 142:15-22.

Cagle A, Hubbard R. Cold-related cardiac mortality in King County, Washington, USA 1980-2001. Annals of Human Biology. 2005;32(4):525–537.

Casarett LJ, Doull J, Klaassen CD, Watkins JB. Casarett and Doull's toxicology : the basic science of poisons : companion handbook . New York: McGraw-Hill, 1999.

Chiogna M, Gaetan C. Dynamic generalized linear models with application to environmental epidemiology. Journal of the Royal Statistical Society, C. 2002;51(4):453-468.

Cifuentes L, Vega J, Kopfer K, Lave L. Effect of the fine fraction of particulate matter versus the coarse mass and other pollutants on daily mortality in Santiago, Chile. 2000; 50:1287-1298.

Cohen AJ, Pope CA, Speizer FE. Ambient air pollution as a risk factor for lung cancer. Salud Publica de Mexico 1997; 39(4):346-355.

Cook RD, Weisberg S. Residuals and influence in regression. London, Chapman and Hall, 1982.

Craven P; Wahba G. Smoothing noisy data with spline functions. Numerische Mathematik. 1979;31:377-403.

Daumas R, Mendonca G, Ponce de Leon A. [Air pollution and mortality in the elderly in Rio de Janeiro: a time-series analysis]. Cadernos de Saúde Pública 2004; 20:311-319.

Page 145: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

142

Dempster A, Laird N, Rubin D. Maximum Likelihood from Incomplete Data via the Algorithm EM. Journal of the Royal Statistical Society, B. 1977;39:1-38.

Díaz Jiménez J, Linares Gil C, Garcia Herrera R. Impacto de las temperaturas extremas en la salud pública: futuras actuaciones. Revista Española Salud Publica. 2005;79(2)2:145-157.

Diggle PJ. Time series: a biostatistical introduction. London, Oxford, 1990.

Dominici F, McDermott A, Zeger SL, Samet JM. On the use of generalized additive models in time-series studies of air pollution and health. American Journal of Epidemiology. 2002;156:193-203.

Dominici F. Time-series analysis of air pollution and mortality: a statistical review. . Research Report. Health Effect Institute. 2004.

Donders ART, Heijden G (van der), Stijnen T, Moons KGM. Review: A gentle introduction to imputation of missing values. Journal of Clinical Epidemiology. 2006;59:1087-1091.

Dugandzic R, Dodds L, Stieb D, Smith-Doiron M. The association between low level exposures to ambient air pollution and term low birth weight: a retrospective cohort study. Environ Health 2006; 5(3):1-8.

Engels JM, Diehr P. Imputation of missing longitudinal data: a comparison of methods. Journal of Clinical Epidemiology. 2003;56:968-976.

EPA, Environmental Protection Agency. Clean Air Act – 1990 amendments. 1990.

Ferris BG Jr, Speizer FE, Spengler JD, Dockery D, Bishop YM, Wolfson M, humble C. Effects ofsulfur oxides and respirable particles on human health. Methodology and demography of populations in study. American Review of Respiratory Disease. 19779;120(4):767-779.

Frank R, Tankersley C. Air pollution and daily mortality: a hypothesis concerning the role of impaired homeostasis. Environ Health Perspect 2002; 110(1):61-65.

Friedman JH, Stuetzle W. Projection pursuit regression. Journal of the American Statistical Society. 1971;76(376):817-823.

Fuller GW, Carslaw DC, Lodge HW. An empirical approach for the prediction of daily mean PM10 concentrations. Atmospheric Environment. 2002;36:1431-1441.

Goldberg MS, Burnett RT, Bailar JC, III, Brook J, Bonvalot Y, Tamblyn R et al. The association between daily mortality and ambient air particle pollution in Montreal, Quebec. 2. Cause-specific mortality. Environ Res 2001; 86(1):26-36.

Goldstein IF, Rausch LE. Time series analysis of morbidity data for assessment of acute environmental health effects. Environmental Research. 1978;17(2):266-275.

Gorelick MH. Bias arising from missing data in predictive models. Journal of Clinical Epidemiology. 2006;59:1115-1123.

Page 146: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

143

Gould WW. Linear splines and piecewise linear functions. Stata Technical Bulletin. 1993;15:13–17.

Gouveia N, Bremner SA, Novaes HMD. Association between ambient air pollution and birth weight in Sao Paulo, Brazil. J Epidemiol Community Health 2004; 58:11-17.

Gouveia N, Cifuentes L, Ponce de Leon A, Carbajal L, Hurtado M, Romieu I. ESCALA Project (Estudio de Salud y Contaminación del Aire en Latinoamérica). Health Effects Institute. Annual Conference 2007. Program and Abstracts. Chicago, 2007

Gouveia N, Fletcher T. Respiratory diseases in children and outdoor air pollution in Sao Paulo, Brazil: a time series analysis. Occup Environ Med 2000; 57(7):477-483.

Gouveia, N, Mendonça, GA, Ponce de Leon, A, Correia, JE,Junger, WL, Freitas, CU, Daumas, RP, Martins, LC,Giusepe, L, Conceicao, GMS, Manerich, A, Cunha-Cruz, J. Air pollution and health effects in two Brazilian metropolis. Epidemiologia e Serviços de Saúde 2003; 12:29-40.

Greater London Authority. Fifty years on The struggle for air quality in London since the great smog of December 1952. City Hall 2002.

Green PJ, Silverman BW. Nonparametric regression and generalized linear models: a roughness penalty approach. London, Chapman and Hall, 1994.

Greenland S, Finkle WD. A critical look at methods for handling missing covariates in epidemiologic regression analyses. American Journal of Epidemiology. 1995;142(12):1255-1264.

Greenland S, Rothman KJ. Modern epidemiology. 2 ed. Philadelphia, Lippincott-Raven, 1998.

Ha E, Hong Y, Lee B, Woo B, Schwartz J, Christiani D. Is air pollution a risk factor for low birth weight in Seoul?. 2001; 12:643-648.

Hajat S, Haines A, Atkinson RW, Bremner AS, Anderson HR, Emberlin J. Association between air pollution and daily consultations with general practitioners for llergic rhinitis in London, United Kingdom. American Journal of Epidemiology. 2001;153(7):704-714.

Hartley HO, Hocking RR. The analysis of incomplete data. Biometrics. 1971;27:783–823.

Hastie T, Tibishirani R. Generalized additive models. Statistical Science. 1986;1:297-318.

Hastie TJ, Tibishirani RJ. Generalized Additive Models. London, Chapman and Hall, 1990.

HEI, Health Effects Institute. Health Effects of Outdoor Air Pollution in Developing Countries of Asia: A Literature Review. Special Report 15. Health Effects Institute 2004.

HEI, Health Effects Institute. Revised Analyses of Time-Series Studies of Air Pollution and Health. Health Effects Institute 2003.

Page 147: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

144

Hoek G, Brunekreef B. Acute effects of a winter air pollution episode on pulmonary function and respiratory symptoms of children. Arch Environ Health 1993; 48:328-335.

Hosmer D.W., Lemeshow S. Applied Logistic Regression. New York, John Wiley & Sons 2000.

Ignotti E, Hacon, SS, Silva AMC, Junger, WL, Castro H. Effects of biomass burning in Amazon: method to select municipalities using death indicators. Revista Brasileira de Epidemiologia. 2007;10(4):453-464.

INCA, Instituto Nacional do Câncer. Estimativa 2008 - Incidência de Câncer no Brasil. 2007.

Junger W, Ponce de Leon A, Mendonca G. Short term association between lung cancer and air pollution in Rio de Janeiro: a daily time series study. Revista Brasileira de Cancerologia 2005; 51:111-115.

Junger WL, Santos Narcisa, Ponce de Leon A. Imputação de dados faltantes em séries temporais multivariadas via algoritmo EM. Cadernos do IME 2003; 15:8-21.

Junger WL. Imputação de dados faltando em séries temporais multivariadas via algoritmo EM. Instituto de Matemática e Estatística. Universidade do Estado do Rio de Janeiro, 2002.

Junninen H, Niska H, Tuppurainen K, Ruuskanen J, Kolehmainen, M. methods for imputation of missing values in air quality data sets. Atmospheric Environment. 2004;38:2895-2907.

Katsouyanni K, Pershagen G. Ambient air pollution exposure and cancer. Cancer Causes Control 1997; 8(3):284-291.

Katsouyanni K, Schwartz J, Spix C, Touloumi G, Zmirou D, Zanobetti A et al. Short term effects of air pollution on health: a European approach using epidemiologic time series data: the APHEA protocol. J Epidemiol Community Health 1996; 50 Suppl 1:S12-S18.

Katsouyanni K, Touloumi G, Samoli E, Gryparis A, LeTertre A, Monopolis Y, Rossi G, Zmirou D, Ballester F, Boumghar A, Anderson HR, Wojtyniak B, Paldy A, Braunstein R, Pekkanen J, Schindler C, Schwartz J. Confounding and effect modification in the short-term effects of ambient particles on total mortality: results from 29 European cities within the Aphea2 project. Epidemiology. 2001;12(5):521–531.

Kharrazi M, DeLorenze G, Kaufman F L, Eskenazi B, Bernet JTJ, Graham S et al. Environmental Tobbaco Smoke and Pregnancy Outcome. Epidemiology 2004; 15:660-670.

Kunzli N TIB. Air pollution: from lung to heart. Swiss Med Weekly 2005; 135:697-702.

Lacasana M, Esplugues A, Ballester F. Exposure to ambient air pollution and prenatal and early childhood health effects. Eur J Epidemiol 2005; 20:183-199.

Lin C, Martins M, Farhat S, Pope C, Conceicao G, Anastacio V et al. Air pollution and respiratory illness of children in Sao Paulo, Brazil. Paediatric and Perinatal Epidemiology 1999; 13:475-488.

Page 148: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

145

Little RJA, Rubin DB. Statistical analysis with missing data. New York, Wiley, 1989.

Little RJA. Regression with missing X's: a review. Journal of the American Statistical Association. 1992; 87(420): 1227-1237.

Maisonet M, Bush T, Correa A, Jaakkola J. Relation between ambient air pollution and low birth weight in the Northeastern United States. 2001; 109 Suppl 3:351-6:351-356.

Maisonet M, Correa A, Misra D, Jaakkola JJK. A review of the literature on the effects of ambient air pollution on fetal growth. Environ Res 2004; 95:106-115.

Mannes T, Jalaludin B, Morgan G, Lincoln D, Sheppeard V, Corbett S. Impact of ambient air pollution on birth weight in Sydney, Australia. Occup Environ Med 2005; 62:524-530.

Maroziene L, Grazuleviciene R. Maternal exposure to low-level air pollution and pregnancy outcomes: a population-based study. Environ Health 2002; 1:6.

Martins M, Fatigati F, Vespoli T, Martins L, Pereira L, Martins M et al. Influence of socioeconomic conditions on air pollution adverse health effects in elderly people: an analysis of six regions in Sao Paulo, Brazil. 2004; 58:41-46.

McGullagh P, Nelder JA. Generalized linear models. London, Chapman and Hall, 1989.

McLachlan GJ, Krishnan T. The EM algorithm and extensions. New York, John Wiley and Sons, 1997.

Miettinen OS. Theoretical epidemiology. Principle of occurrence research in medicine. New York, Wiley, 1985.

Mongelli M, Biswas A. A fetal growth standard derived from multiple modalities. Early Hum Dev 2001; 60:171-177.

Nakamura MU, Alexandre SM, Santos JFK, Souza E, Sass N, Beck APA et al. Obstetric and perinatal effects of active and/or passive smoking during pregnancy. São Paulo Medical Journal 2004; 122:94-98.

Ojembarrena AA, Fernández JC, Velasco AG, Chullen G Y, Bayle MS. Peso al nascimiento y tabquismo familiar. Annals of Pediatrics 2005; 63:116-119.

Oliveira ZAR, Bettiol H, Gutierrez MRP, Silva AAM, Barbieri MA. Factors associated with infant and adolescent mortality. Brazilian Journal of Medical and Biological Research. 2007;40:1245-1255.

PAHO, Pan American Health Organization. An assessment of health effects of ambient air pollution in Latin America and Caribbean. Washington DC. 2005.

Parker JD, Woodruff TJ, Basu R, Schoendorf KC. Air pollution and birth weight among term infants in California. Pediatrics 2005; 115:121-128.

Pereira L, Loomis D, Conceicao G, Braga A, Arcas R, Kishi H et al. Association between

Page 149: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

146

air pollution and intrauterine mortality in Sao Paulo, Brazil. Environ.Health Perspect 1998; 106:325-329.

Perera FP, Rauh V, Whyatt RM, Tsai W, Bernert JT, Tu Y et al. Molecular evidence of an interaction between prenatal environmental exposures and birth outcomes in a multiethnic population. Environ Health Perspect 2004; 112:626-630.

Pershagen G. Air pollution and cancer. IARC Sci Publ 1990;(104):240-251.

Pierce DA, Schafer DW. Residuals in generalized linear models. Journal of the American Statistical Association. 1986;81(396):977-986.

Plaia A, Bondì AL. Single imputation method of missing values in environmental pollution data sets. Atmospheric Environment. 2006;40:7316-7330.

Ponce de Leon A, Anderson H, Bland J, Strachan D, Bower J. Effects of air pollution on daily hospital admissions for respiratory disease in London between 1987-88 and 1991-92. Journal of Epidemiology and Community Health 1996; 50 Suppl 1:s63-s70.

Pope C, Thun M, Namboodiri M, Dockery D, Evans J, Speizer F et al. Particulate Air-Pollution As A Predictor of Mortality in A Prospective-Study of Us Adults. American Journal of Respiratory and Critical Care Medicine 1995; 151:669-674.

R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, 2007. http://www.r-project.org.

Romieu I, Lugo M, Velasco S, Sanchez S, Meneses F, Hernandez M. Air pollution and school absenteeism among children in Mexico City. 1992; 136:1524-1531.

Rubin DB. Inference and missing data. Biometrika. 1976; 63(3):581–92.

Salam MT, Millstein J, Li YF, Lurmann FW, Margolis HG, Gililand FD. Birth outcomes and prenatal exposure to ozone, carbon monoxide and particulate matter: results from the Childresn's Health Study. Environmental Health Perspectives 2005; 113:1638-1644.

Saldiva P, Pope C, Schwartz J, Dockery D, Lichtenfels A, Salge J et al. Air-Pollution and Mortality in Elderly People - A Time-Series Study in Sao-Paulo, Brazil. Archives of Environmental Health 1995; 50:159-163.

Samet JM, Dominici F, Zeger, SL, Schwartz J, Dockery DW. The National Morbidity, Mortality and Air Pollution Study PartI: Methods and Methodological Issues. Research Report. Health Effect Institute. 2000.

Schafer JL. Analysis of incomplete multivariate data. London, Chapman & Hall, 1997.

Schwartz J, Marcus A. Mortality and air pollution in London: a time series analysis. American Journal of Epidemiology. 1990;131(1):185-194.

Schwartz J, Spix C, Touloumi G, Bacharova L, Barumamdzadeh T, Le Tertre A et al. Methodological issues in studies of air pollution and daily counts of deaths or hospital

Page 150: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

147

admissions. J Epidemiol Community Health 1996; 50 Suppl 1:S3-11.

Schwartz J, Wypij D, Dockery D, Ware J, Zeger S, spengler J, Ferris B Jr. Daily diaries of respiratory symptoms and air pollution: methodological issues and results. Environmental Health Perspective. 1991;90:181-187.

Schwartz J. Air pollution and daily mortality: a review and meta analysis. Environ Res 1994; 64:36-52.

Schwartz J. Air pollution and hospital admissions for respiratory disease. Epidemiology 1996; 7:20-28.

Schwartz J. Is there harvesting in the association of airborne particles with daily deaths and hospital admissions? Epidemiology 2001; 12(1):55-61.

Schwartz J. The distributed lag between air pollution and daily deaths. Epidemiology. 2000;11:320-326.

Silva AA, Ribeiro VS, Borba AFJ, Coimbra LC, Silva RA. [Evaluation of data quality from the information system on live births in 1997-1998]. Rev Saude Publica 2001; 35:508-514.

Speizer FE. Overview of the risk of respiratory cancer from airborne contaminants. Environ Health Perspect 1986; 70:9-15.

Speizer FE. Studies of acid aerosols in six cities and in a new multi-city investigation: design issues. Environmental Health Perspective. 1989;79:61-67.

Sram RJ, Binkova B, Dejmek J, Bobak M. Ambient air pollution and pregnancy outcomes: a review of the literature. Environ Health Perspect 2005; 113:375-382.

Sunyer J, Antó JM, Murillo C, Saez M. Effects of air pollution on emergency room admissions for chronic obstructive pulmonary disease. American Journal of Epidemiology. 1991;134(3):277-286.

Sunyer J, Schwartz J, Tobías A, Macfarlane D, Garcia J, Antó JM. Patients with chronic obstructive pulmonary diseases are at increased risk of death associated with urban particle air pollution: a case-crossover analysis. American Journal of epidemiology. 2000;151:50-56.

Telez-Rojo M, Romieu I, Ruiz-Velasco S, Lezana M, Hernandez-Avila M. Daily respiratory mortality and PM10 pollution in Mexico City. 2001; 18:1076.

Travassos C, Williams DR. The concept and measurement of race and their relationship to public health: a review focused on Brazil and the United States. Cad Saude Publica 2004; 20:660-678.

Vach W, Blettner M. Biased estimation of the odds ratio in case-control study due to the use of ad hoc methods of correcting for missing values for confounding variables. American Journal of Epidemiology. 1991; 134:895-907.

Page 151: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

148

Wahba G. (smoothing) splines in nonparametric regression. Technical Report 1024, Department of Statistics - University of Wisconsin, September 2000.

Ward DJ, Ayres JG. Particulate air pollution and panel studies in children: a systematic review. Occup Environ Med 2004; 61:e13.

WHO, World Health Organization. Air quality guidelines for particulate matter, ozone, nitrogen dioxide and sulfur dioxide. Global update 2005. Summary of risk assessment. Geneva, 2006.

Wilhelm M, Ritz B. Local variations in CO and particulate air pollution and adverse birth outcomes in Los Angeles County, California, USA. Environ Health Perspect 2005; 113:1212-1221.

Wilmott CJ. Some comments on the evaluation of model performance. Bulletin of the American Meteorological Society. 1982;63:1309-1313.

Zamboni M. Epidemiologia do cancer de pulmão. Jornal de Pneumologia. 2002;28(1):41-47.

Zanobetti a, Wand MP, Schwartz J, Ryan LM. Generalized additive distributed lag models: quantifying mortality displacement. Biostatistics. 2000;1(3):279-292.

Page 152: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

149

9 APÊNDICES

Page 153: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

150

9.1 Apêndice A1: Fluxograma do algoritmo de imputação de dados com componente

temporal

Page 154: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

151

9.2 Apêndice A2: Fluxograma do estudo de simulação

Page 155: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

152

9.3 Apêndice A3: Resumo das simulações com a configuração “esparsa”

OC MI MD VP MC EM EM

Spline EM

ARIMA EM

MAG EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

0,432 0,450 0,450 0,436 0,432 0,432 0,432 0,433 0,432 0,433 0,434 0,433 5% (0,007) (0,016) (0,016) (0,012) (0,007) (0,006) (0,006) (0,007) (0,006) (0,007) (0,010) (0,007)

0,429 0,470 0,470 0,435 0,430 0,432 0,432 0,432 0,432 0,433 0,432 0,433 10%

(0,011) (0,022) (0,022) (0,015) (0,011) (0,008) (0,008) (0,011) (0,007) (0,008) (0,014) (0,008)

0,420 0,513 0,512 0,432 0,421 0,428 0,427 0,430 0,426 0,430 0,429 0,429 20%

(0,020) (0,035) (0,035) (0,023) (0,020) (0,015) (0,015) (0,021) (0,015) (0,014) (0,023) (0,014)

0,414 0,559 0,560 0,428 0,414 0,430 0,429 0,426 0,428 0,433 0,425 0,432 30%

(0,030) (0,053) (0,053) (0,026) (0,030) (0,023) (0,021) (0,032) (0,021) (0,020) (0,036) (0,020) MAR

0,432 0,447 0,447 0,436 0,433 0,434 0,433 0,434 0,433 0,433 0,434 0,433 5% (0,006) (0,012) (0,012) (0,007) (0,006) (0,004) (0,004) (0,006) (0,004) (0,004) (0,007) (0,005)

0,432 0,461 0,461 0,438 0,433 0,434 0,434 0,435 0,433 0,433 0,435 0,433 10%

(0,009) (0,017) (0,017) (0,010) (0,008) (0,006) (0,006) (0,008) (0,006) (0,006) (0,010) (0,006)

0,429 0,484 0,484 0,437 0,429 0,433 0,432 0,435 0,431 0,432 0,433 0,431 20%

(0,014) (0,021) (0,021) (0,013) (0,013) (0,009) (0,008) (0,013) (0,008) (0,009) (0,017) (0,010)

0,427 0,500 0,501 0,441 0,427 0,435 0,432 0,437 0,432 0,432 0,435 0,432 30%

(0,016) (0,029) (0,029) (0,014) (0,015) (0,011) (0,010) (0,015) (0,010) (0,010) (0,020) (0,011) MNAR

0,430 0,445 0,445 0,434 0,431 0,432 0,432 0,432 0,432 0,432 0,432 0,432 5% (0,008) (0,011) (0,011) (0,008) (0,007) (0,006) (0,006) (0,007) (0,006) (0,006) (0,008) (0,006)

0,429 0,458 0,458 0,437 0,430 0,432 0,431 0,433 0,431 0,432 0,434 0,432 10%

(0,011) (0,018) (0,018) (0,013) (0,010) (0,008) (0,007) (0,010) (0,007) (0,007) (0,013) (0,007)

0,425 0,482 0,482 0,442 0,427 0,432 0,431 0,433 0,430 0,433 0,432 0,432 20%

(0,014) (0,025) (0,025) (0,014) (0,013) (0,009) (0,009) (0,014) (0,009) (0,009) (0,018) (0,009)

0,418 0,496 0,496 0,440 0,419 0,428 0,427 0,431 0,425 0,430 0,429 0,428 30%

(0,015) (0,025) (0,025) (0,016) (0,015) (0,012) (0,011) (0,016) (0,011) (0,012) (0,020) (0,012)

Page 156: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

153

9.4 Apêndice A4: Resumo das simulações com a configuração 3 “em linha”

OC MI MD VP MC EM EM

Spline EM

ARIMA EM

MAG EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

0,431 0,444 0,444 0,434 0,431 0,433 0,433 0,434 0,433 0,432 0,433 0,433 5% (0,011) (0,020) (0,020) (0,014) (0,011) (0,007) (0,007) (0,010) (0,007) (0,007) (0,011) (0,007)

0,430 0,449 0,450 0,434 0,430 0,435 0,434 0,434 0,434 0,434 0,433 0,434 10%

(0,015) (0,032) (0,032) (0,020) (0,015) (0,011) (0,010) (0,014) (0,009) (0,009) (0,016) (0,009)

0,426 0,470 0,470 0,434 0,426 0,435 0,435 0,436 0,434 0,434 0,432 0,434 20%

(0,018) (0,047) (0,048) (0,027) (0,018) (0,013) (0,013) (0,018) (0,012) (0,014) (0,020) (0,013)

0,422 0,499 0,501 0,438 0,422 0,434 0,435 0,437 0,433 0,433 0,437 0,431 30%

(0,025) (0,059) (0,059) (0,039) (0,025) (0,020) (0,017) (0,025) (0,017) (0,019) (0,030) (0,019)

0,417 0,542 0,543 0,452 0,417 0,436 0,436 0,441 0,434 0,434 0,427 0,409 40%

(0,035) (0,085) (0,085) (0,047) (0,035) (0,026) (0,024) (0,037) (0,023) (0,025) (0,073) (0,079) MAR

0,432 0,438 0,439 0,432 0,432 0,433 0,433 0,434 0,433 0,433 0,434 0,432 5% (0,007) (0,017) (0,017) (0,010) (0,007) (0,005) (0,005) (0,006) (0,005) (0,005) (0,007) (0,005)

0,432 0,442 0,443 0,432 0,432 0,434 0,434 0,436 0,433 0,433 0,436 0,432 10%

(0,011) (0,025) (0,025) (0,013) (0,011) (0,007) (0,006) (0,009) (0,006) (0,006) (0,011) (0,006)

0,430 0,454 0,454 0,435 0,430 0,434 0,433 0,437 0,432 0,431 0,438 0,431 20%

(0,014) (0,036) (0,035) (0,020) (0,014) (0,009) (0,008) (0,013) (0,008) (0,009) (0,016) (0,009)

0,434 0,479 0,480 0,437 0,434 0,439 0,436 0,448 0,434 0,433 0,452 0,432 30%

(0,020) (0,051) (0,050) (0,025) (0,020) (0,014) (0,011) (0,021) (0,012) (0,011) (0,026) (0,012)

0,432 0,490 0,490 0,437 0,432 0,438 0,435 0,450 0,431 0,431 0,457 0,428 40%

(0,022) (0,056) (0,055) (0,028) (0,022) (0,015) (0,013) (0,023) (0,013) (0,014) (0,029) (0,014) MNAR

0,432 0,437 0,437 0,431 0,432 0,434 0,434 0,434 0,434 0,434 0,434 0,434 5% (0,008) (0,016) (0,016) (0,011) (0,008) (0,005) (0,005) (0,007) (0,005) (0,005) (0,008) (0,005)

0,431 0,446 0,446 0,435 0,431 0,435 0,434 0,435 0,434 0,434 0,435 0,434 10%

(0,011) (0,024) (0,024) (0,014) (0,011) (0,008) (0,007) (0,010) (0,007) (0,008) (0,012) (0,008)

0,428 0,457 0,457 0,433 0,428 0,436 0,435 0,438 0,433 0,434 0,439 0,434 20%

(0,014) (0,039) (0,039) (0,023) (0,014) (0,010) (0,009) (0,014) (0,009) (0,010) (0,018) (0,009)

0,427 0,474 0,474 0,438 0,427 0,436 0,435 0,441 0,433 0,434 0,445 0,434 30%

(0,017) (0,045) (0,045) (0,026) (0,017) (0,012) (0,012) (0,019) (0,012) (0,012) (0,024) (0,012)

0,428 0,490 0,491 0,445 0,428 0,441 0,438 0,449 0,436 0,437 0,454 0,437 40%

(0,021) (0,056) (0,057) (0,032) (0,021) (0,019) (0,017) (0,027) (0,016) (0,017) (0,029) (0,016)

Page 157: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

154

9.5 Apêndice A5: Resumo das simulações com a configuração 5 “em linha”

OC MI MD VP MC EM EM

Spline EM

ARIMA EM

MAG EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

0,430 0,431 0,431 0,428 0,430 0,432 0,432 0,431 0,432 0,432 0,431 0,432 5% (0,012) (0,026) (0,026) (0,019) (0,012) (0,009) (0,007) (0,012) (0,007) (0,007) (0,014) (0,007)

0,429 0,433 0,434 0,424 0,429 0,432 0,431 0,430 0,430 0,432 0,426 0,432 10%

(0,017) (0,037) (0,037) (0,027) (0,017) (0,013) (0,010) (0,019) (0,011) (0,009) (0,020) (0,009)

0,425 0,442 0,444 0,420 0,425 0,428 0,428 0,424 0,427 0,429 0,422 0,431 20%

(0,022) (0,049) (0,049) (0,032) (0,022) (0,016) (0,013) (0,025) (0,013) (0,012) (0,028) (0,012)

0,423 0,477 0,478 0,434 0,423 0,425 0,424 0,421 0,421 0,425 0,410 0,427 30%

(0,024) (0,069) (0,070) (0,051) (0,024) (0,018) (0,019) (0,031) (0,020) (0,018) (0,051) (0,019)

0,424 0,551 0,553 0,457 0,424 0,426 0,416 0,418 0,412 0,415 0,386 0,273 40%

(0,032) (0,075) (0,075) (0,061) (0,032) (0,028) (0,025) (0,049) (0,024) (0,029) (0,088) (0,179) MAR

0,433 0,434 0,434 0,430 0,433 0,432 0,432 0,433 0,432 0,432 0,434 0,433 5% (0,008) (0,023) (0,022) (0,014) (0,008) (0,006) (0,005) (0,009) (0,005) (0,005) (0,012) (0,005)

0,431 0,430 0,430 0,429 0,431 0,433 0,432 0,435 0,431 0,431 0,431 0,431 10%

(0,015) (0,031) (0,031) (0,018) (0,015) (0,010) (0,008) (0,015) (0,007) (0,007) (0,018) (0,007)

0,431 0,430 0,431 0,429 0,431 0,430 0,430 0,436 0,429 0,429 0,432 0,430 20%

(0,020) (0,040) (0,039) (0,025) (0,020) (0,013) (0,009) (0,020) (0,010) (0,010) (0,022) (0,009)

0,429 0,448 0,448 0,424 0,429 0,431 0,429 0,440 0,427 0,430 0,439 0,431 30%

(0,021) (0,055) (0,055) (0,031) (0,021) (0,016) (0,012) (0,026) (0,012) (0,012) (0,031) (0,012)

0,430 0,459 0,459 0,434 0,430 0,427 0,424 0,441 0,423 0,422 0,434 0,425 40%

(0,023) (0,056) (0,056) (0,031) (0,023) (0,018) (0,013) (0,033) (0,011) (0,013) (0,035) (0,013) MNAR

0,433 0,432 0,432 0,432 0,433 0,433 0,432 0,434 0,432 0,433 0,433 0,433 5% (0,011) (0,022) (0,022) (0,016) (0,011) (0,007) (0,005) (0,011) (0,005) (0,005) (0,012) (0,005)

0,430 0,435 0,436 0,433 0,430 0,433 0,432 0,433 0,431 0,433 0,433 0,433 10%

(0,015) (0,031) (0,031) (0,019) (0,015) (0,011) (0,007) (0,016) (0,007) (0,007) (0,018) (0,007)

0,431 0,434 0,434 0,434 0,431 0,432 0,430 0,438 0,429 0,432 0,432 0,432 20%

(0,019) (0,039) (0,039) (0,028) (0,019) (0,015) (0,011) (0,023) (0,010) (0,009) (0,023) (0,009)

0,427 0,453 0,453 0,432 0,427 0,430 0,425 0,436 0,424 0,433 0,439 0,433 30%

(0,023) (0,052) (0,052) (0,030) (0,023) (0,019) (0,014) (0,027) (0,013) (0,012) (0,033) (0,012)

0,428 0,471 0,471 0,442 0,428 0,431 0,425 0,444 0,423 0,432 0,441 0,431 40%

(0,024) (0,057) (0,057) (0,035) (0,024) (0,018) (0,015) (0,028) (0,013) (0,013) (0,034) (0,014)

Page 158: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

155

9.6 Apêndice A6: Resumo das simulações com a configuração 7 “em linha”

OC MI MD VP MC EM EM

Spline EM

ARIMA EM

MAG EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

0,429 0,424 0,425 0,424 0,429 0,433 0,434 0,431 0,434 0,434 0,432 0,434 5% (0,012) (0,027) (0,027) (0,021) (0,012) (0,009) (0,007) (0,011) (0,007) (0,007) (0,011) (0,007)

0,427 0,422 0,422 0,420 0,427 0,433 0,433 0,432 0,433 0,434 0,432 0,434 10%

(0,016) (0,039) (0,039) (0,026) (0,016) (0,012) (0,010) (0,017) (0,009) (0,010) (0,018) (0,010)

0,416 0,400 0,402 0,406 0,416 0,432 0,432 0,424 0,431 0,432 0,424 0,432 20%

(0,023) (0,060) (0,060) (0,039) (0,023) (0,016) (0,014) (0,025) (0,014) (0,014) (0,027) (0,014)

0,411 0,398 0,400 0,397 0,411 0,434 0,432 0,430 0,430 0,434 0,428 0,433 30%

(0,025) (0,069) (0,069) (0,050) (0,025) (0,020) (0,015) (0,032) (0,016) (0,017) (0,038) (0,017)

0,405 0,418 0,420 0,385 0,405 0,436 0,431 0,427 0,429 0,431 0,412 0,434 40%

(0,028) (0,085) (0,086) (0,058) (0,028) (0,021) (0,017) (0,039) (0,019) (0,020) (0,058) (0,020) MAR

0,431 0,426 0,426 0,428 0,431 0,432 0,432 0,434 0,432 0,432 0,435 0,432 5% (0,009) (0,023) (0,023) (0,016) (0,009) (0,007) (0,005) (0,011) (0,005) (0,005) (0,011) (0,005)

0,429 0,413 0,413 0,424 0,429 0,433 0,433 0,433 0,432 0,433 0,433 0,433 10%

(0,011) (0,031) (0,031) (0,022) (0,011) (0,009) (0,008) (0,013) (0,007) (0,008) (0,015) (0,008)

0,426 0,406 0,407 0,418 0,426 0,434 0,434 0,436 0,432 0,435 0,438 0,435 20%

(0,015) (0,042) (0,042) (0,027) (0,015) (0,013) (0,010) (0,020) (0,010) (0,011) (0,023) (0,010)

0,423 0,388 0,388 0,411 0,423 0,435 0,435 0,437 0,432 0,436 0,439 0,435 30%

(0,020) (0,057) (0,057) (0,039) (0,020) (0,016) (0,012) (0,028) (0,011) (0,013) (0,033) (0,012)

0,421 0,391 0,391 0,405 0,421 0,437 0,435 0,443 0,432 0,437 0,445 0,436 40%

(0,024) (0,062) (0,062) (0,045) (0,024) (0,020) (0,015) (0,032) (0,014) (0,016) (0,038) (0,015) MNAR

0,430 0,421 0,421 0,428 0,430 0,432 0,432 0,432 0,431 0,432 0,432 0,432 5% (0,009) (0,022) (0,022) (0,015) (0,009) (0,007) (0,005) (0,010) (0,005) (0,006) (0,010) (0,005)

0,429 0,417 0,418 0,421 0,429 0,433 0,432 0,434 0,431 0,432 0,434 0,432 10%

(0,012) (0,031) (0,030) (0,020) (0,012) (0,010) (0,008) (0,014) (0,007) (0,008) (0,015) (0,007)

0,424 0,405 0,405 0,418 0,424 0,435 0,433 0,437 0,430 0,435 0,439 0,433 20%

(0,019) (0,050) (0,050) (0,031) (0,019) (0,014) (0,010) (0,024) (0,010) (0,011) (0,027) (0,010)

0,423 0,399 0,399 0,415 0,423 0,437 0,433 0,441 0,429 0,434 0,441 0,432 30%

(0,021) (0,058) (0,059) (0,038) (0,021) (0,017) (0,012) (0,030) (0,012) (0,013) (0,032) (0,012)

0,423 0,407 0,407 0,412 0,423 0,438 0,433 0,449 0,427 0,434 0,453 0,431 40%

(0,025) (0,068) (0,068) (0,040) (0,025) (0,019) (0,015) (0,030) (0,015) (0,016) (0,035) (0,016)

Page 159: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

156

9.7 Apêndice A7: Resumo das simulações com a configuração 3 “em coluna”

OC MI MD VP MC EM EM

Spline EM

ARIMA EM

MAG EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

0,432 0,452 0,452 0,443 0,433 0,434 0,434 0,434 0,433 0,434 0,433 0,434 5% (0,008) (0,015) (0,015) (0,012) (0,007) (0,006) (0,006) (0,008) (0,006) (0,006) (0,010) (0,007)

0,430 0,466 0,466 0,446 0,431 0,433 0,431 0,434 0,431 0,431 0,433 0,432 10%

(0,012) (0,026) (0,025) (0,018) (0,011) (0,009) (0,008) (0,011) (0,008) (0,009) (0,013) (0,009)

0,416 0,495 0,495 0,463 0,418 0,428 0,427 0,427 0,427 0,427 0,426 0,428 20%

(0,019) (0,046) (0,046) (0,029) (0,018) (0,014) (0,013) (0,020) (0,013) (0,015) (0,023) (0,015)

0,412 0,533 0,533 0,471 0,412 0,430 0,428 0,427 0,425 0,429 0,425 0,427 30%

(0,024) (0,060) (0,060) (0,038) (0,024) (0,018) (0,017) (0,024) (0,017) (0,018) (0,025) (0,017)

0,399 0,549 0,550 0,482 0,399 0,428 0,425 0,423 0,423 0,427 0,419 0,425 40%

(0,032) (0,085) (0,085) (0,054) (0,032) (0,023) (0,021) (0,033) (0,022) (0,021) (0,035) (0,024) MAR

0,433 0,446 0,446 0,443 0,433 0,434 0,433 0,434 0,433 0,433 0,434 0,433 5% (0,006) (0,011) (0,011) (0,008) (0,005) (0,004) (0,004) (0,005) (0,004) (0,005) (0,007) (0,005)

0,432 0,460 0,460 0,452 0,433 0,435 0,433 0,435 0,433 0,433 0,434 0,433 10%

(0,010) (0,020) (0,020) (0,014) (0,009) (0,007) (0,007) (0,009) (0,007) (0,006) (0,013) (0,006)

0,431 0,482 0,482 0,469 0,431 0,436 0,434 0,438 0,433 0,434 0,436 0,433 20%

(0,016) (0,032) (0,032) (0,019) (0,015) (0,010) (0,009) (0,015) (0,009) (0,010) (0,020) (0,009)

0,423 0,496 0,496 0,484 0,424 0,436 0,433 0,434 0,431 0,434 0,430 0,433 30%

(0,017) (0,045) (0,045) (0,026) (0,017) (0,012) (0,010) (0,019) (0,011) (0,011) (0,023) (0,012)

0,417 0,520 0,520 0,496 0,418 0,437 0,432 0,436 0,430 0,433 0,429 0,431 40%

(0,023) (0,054) (0,053) (0,030) (0,023) (0,016) (0,014) (0,022) (0,014) (0,014) (0,026) (0,014) MNAR

0,432 0,448 0,448 0,444 0,434 0,434 0,433 0,434 0,433 0,434 0,434 0,434 5% (0,007) (0,014) (0,014) (0,010) (0,006) (0,005) (0,004) (0,006) (0,005) (0,005) (0,008) (0,005)

0,430 0,459 0,459 0,450 0,432 0,433 0,432 0,434 0,432 0,432 0,433 0,432 10%

(0,010) (0,021) (0,021) (0,014) (0,009) (0,007) (0,007) (0,010) (0,007) (0,008) (0,013) (0,008)

0,426 0,477 0,476 0,465 0,427 0,433 0,431 0,433 0,431 0,432 0,431 0,432 20%

(0,015) (0,030) (0,030) (0,017) (0,014) (0,010) (0,009) (0,015) (0,010) (0,010) (0,018) (0,010)

0,420 0,494 0,493 0,478 0,421 0,432 0,429 0,431 0,428 0,430 0,428 0,429 30%

(0,020) (0,044) (0,045) (0,030) (0,020) (0,015) (0,013) (0,020) (0,013) (0,013) (0,023) (0,014)

0,416 0,512 0,510 0,487 0,417 0,435 0,432 0,430 0,431 0,432 0,427 0,430 40%

(0,021) (0,051) (0,051) (0,034) (0,020) (0,015) (0,014) (0,021) (0,014) (0,016) (0,028) (0,016)

Page 160: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

157

9.8 Apêndice A8: Resumo das simulações com a configuração 5 “em coluna”

OC MI MD VP MC EM EM

Spline EM

ARIMA EM

MAG EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

0,432 0,448 0,448 0,445 0,433 0,434 0,433 0,434 0,433 0,432 0,433 0,433 5% (0,008) (0,016) (0,016) (0,015) (0,008) (0,006) (0,006) (0,008) (0,006) (0,007) (0,010) (0,007)

0,431 0,466 0,466 0,454 0,431 0,433 0,433 0,434 0,432 0,431 0,433 0,431 10%

(0,012) (0,027) (0,027) (0,020) (0,012) (0,010) (0,009) (0,012) (0,009) (0,009) (0,016) (0,009)

0,420 0,485 0,485 0,462 0,420 0,429 0,429 0,429 0,428 0,430 0,430 0,429 20%

(0,019) (0,042) (0,041) (0,034) (0,019) (0,017) (0,015) (0,020) (0,016) (0,013) (0,024) (0,014)

0,409 0,510 0,511 0,468 0,409 0,429 0,428 0,425 0,426 0,435 0,430 0,433 30%

(0,023) (0,067) (0,067) (0,047) (0,023) (0,021) (0,019) (0,024) (0,020) (0,021) (0,032) (0,020)

0,395 0,503 0,504 0,470 0,395 0,425 0,422 0,418 0,421 0,426 0,413 0,424 40%

(0,033) (0,086) (0,086) (0,063) (0,033) (0,030) (0,026) (0,035) (0,023) (0,028) (0,035) (0,028) MAR

0,432 0,442 0,442 0,442 0,433 0,434 0,434 0,434 0,433 0,432 0,432 0,432 5% (0,006) (0,011) (0,011) (0,012) (0,005) (0,004) (0,004) (0,005) (0,004) (0,004) (0,007) (0,004)

0,431 0,457 0,457 0,452 0,432 0,434 0,433 0,434 0,433 0,433 0,434 0,434 10%

(0,011) (0,016) (0,016) (0,017) (0,010) (0,007) (0,006) (0,010) (0,007) (0,006) (0,012) (0,006)

0,428 0,473 0,473 0,469 0,429 0,435 0,433 0,435 0,432 0,434 0,434 0,434 20%

(0,014) (0,029) (0,028) (0,022) (0,014) (0,009) (0,009) (0,014) (0,008) (0,009) (0,017) (0,009)

0,425 0,478 0,479 0,479 0,426 0,437 0,433 0,436 0,432 0,434 0,434 0,434 30%

(0,017) (0,037) (0,037) (0,030) (0,017) (0,012) (0,012) (0,015) (0,012) (0,014) (0,020) (0,013)

0,418 0,498 0,498 0,485 0,418 0,436 0,433 0,434 0,431 0,435 0,434 0,434 40%

(0,024) (0,055) (0,055) (0,036) (0,024) (0,017) (0,017) (0,023) (0,018) (0,016) (0,023) (0,016) MNAR

0,433 0,445 0,445 0,443 0,433 0,434 0,433 0,434 0,433 0,432 0,432 0,432 5% (0,007) (0,011) (0,011) (0,011) (0,006) (0,005) (0,005) (0,006) (0,005) (0,005) (0,009) (0,005)

0,431 0,457 0,457 0,452 0,432 0,433 0,433 0,434 0,432 0,433 0,435 0,433 10%

(0,010) (0,020) (0,020) (0,014) (0,010) (0,008) (0,007) (0,010) (0,007) (0,007) (0,013) (0,007)

0,427 0,474 0,474 0,461 0,428 0,434 0,432 0,434 0,431 0,430 0,431 0,431 20%

(0,016) (0,029) (0,029) (0,023) (0,016) (0,011) (0,010) (0,015) (0,010) (0,011) (0,017) (0,010)

0,425 0,487 0,487 0,478 0,425 0,435 0,431 0,436 0,431 0,431 0,426 0,431 30%

(0,020) (0,041) (0,042) (0,029) (0,020) (0,015) (0,013) (0,020) (0,013) (0,014) (0,022) (0,013)

0,418 0,485 0,484 0,478 0,418 0,435 0,431 0,433 0,429 0,430 0,429 0,430 40%

(0,022) (0,058) (0,058) (0,035) (0,022) (0,017) (0,015) (0,022) (0,015) (0,016) (0,028) (0,015)

Page 161: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

158

9.9 Apêndice A9: Resumo das simulações com a configuração 7 “em coluna”

OC MI MD VP MC EM EM

Spline EM

ARIMA EM

MAG EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

0,430 0,449 0,449 0,446 0,431 0,433 0,432 0,433 0,432 0,433 0,433 0,433 5% (0,008) (0,017) (0,017) (0,015) (0,008) (0,007) (0,006) (0,008) (0,006) (0,006) (0,010) (0,006)

0,429 0,460 0,460 0,457 0,430 0,432 0,431 0,432 0,430 0,432 0,432 0,431 10%

(0,013) (0,026) (0,026) (0,024) (0,012) (0,008) (0,008) (0,012) (0,008) (0,008) (0,015) (0,008)

0,427 0,489 0,489 0,470 0,427 0,435 0,433 0,436 0,432 0,433 0,434 0,432 20%

(0,021) (0,048) (0,048) (0,034) (0,021) (0,015) (0,014) (0,020) (0,014) (0,015) (0,022) (0,014)

0,409 0,491 0,492 0,471 0,410 0,432 0,430 0,431 0,428 0,431 0,420 0,430 30%

(0,030) (0,072) (0,072) (0,059) (0,030) (0,022) (0,020) (0,028) (0,022) (0,021) (0,052) (0,024)

0,388 0,473 0,473 0,469 0,388 0,419 0,421 0,412 0,417 0,420 0,409 0,417 40%

(0,040) (0,084) (0,085) (0,062) (0,040) (0,035) (0,031) (0,053) (0,030) (0,032) (0,042) (0,032) MAR

0,432 0,447 0,447 0,444 0,433 0,434 0,433 0,434 0,433 0,434 0,433 0,434 5% (0,007) (0,013) (0,012) (0,009) (0,006) (0,005) (0,004) (0,006) (0,004) (0,005) (0,010) (0,005)

0,432 0,458 0,458 0,455 0,433 0,434 0,433 0,435 0,433 0,434 0,433 0,434 10%

(0,009) (0,021) (0,021) (0,017) (0,009) (0,007) (0,006) (0,008) (0,006) (0,007) (0,013) (0,007)

0,430 0,469 0,469 0,467 0,431 0,435 0,434 0,435 0,433 0,434 0,432 0,434 20%

(0,016) (0,032) (0,032) (0,023) (0,016) (0,010) (0,008) (0,014) (0,009) (0,010) (0,018) (0,009)

0,425 0,489 0,489 0,482 0,425 0,436 0,433 0,436 0,431 0,434 0,433 0,433 30%

(0,022) (0,040) (0,040) (0,035) (0,022) (0,014) (0,013) (0,018) (0,013) (0,013) (0,020) (0,013)

0,421 0,475 0,475 0,477 0,422 0,435 0,432 0,432 0,431 0,432 0,428 0,431 40%

(0,024) (0,046) (0,046) (0,036) (0,025) (0,018) (0,015) (0,024) (0,015) (0,014) (0,026) (0,015) MNAR

0,431 0,445 0,445 0,442 0,432 0,432 0,432 0,433 0,432 0,432 0,434 0,432 5% (0,007) (0,012) (0,012) (0,012) (0,006) (0,005) (0,004) (0,007) (0,005) (0,005) (0,009) (0,005)

0,431 0,454 0,454 0,451 0,432 0,433 0,432 0,433 0,432 0,432 0,428 0,432 10%

(0,010) (0,020) (0,019) (0,017) (0,008) (0,006) (0,006) (0,009) (0,006) (0,007) (0,045) (0,006)

0,427 0,469 0,469 0,464 0,427 0,432 0,431 0,431 0,431 0,431 0,430 0,432 20%

(0,015) (0,033) (0,033) (0,023) (0,015) (0,011) (0,010) (0,016) (0,011) (0,012) (0,019) (0,012)

0,425 0,482 0,482 0,481 0,424 0,434 0,431 0,433 0,430 0,432 0,431 0,432 30%

(0,021) (0,045) (0,045) (0,035) (0,021) (0,015) (0,014) (0,020) (0,013) (0,014) (0,026) (0,014)

0,419 0,482 0,481 0,476 0,418 0,432 0,429 0,432 0,427 0,429 0,429 0,428 40%

(0,021) (0,051) (0,051) (0,043) (0,021) (0,016) (0,014) (0,021) (0,015) (0,016) (0,022) (0,016)

Page 162: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

159

9.10 Apêndice A10: Indicadores de performance para um único padrão de dados faltantes

com a configuração “esparsa”

Ind. MI MD VP MC EM EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

r 0,197 0,184 0,607 0,853 0,886 0,895 0,920 0,920 0,901 0,909 0,909

RMSD 0,528 0,531 0,467 0,204 0,250 0,240 0,211 0,211 0,233 0,224 0,224

MAD 0,415 0,415 0,342 0,115 0,177 0,171 0,156 0,156 0,173 0,164 0,164

BIAS -0,039 -0,048 -0,033 -0,001 -0,004 0,002 0,000 0,000 -0,002 0,002 0,002

PV 0,044 0,052 0,917 0,594 0,705 0,743 0,816 0,816 0,816 0,872 0,872

5%

d2 0,299 0,309 0,783 0,918 0,933 0,940 0,956 0,956 0,946 0,952 0,952

r 0,202 0,192 0,628 0,838 0,878 0,890 0,898 0,898 0,891 0,893 0,893

RMSD 0,493 0,495 0,435 0,170 0,241 0,230 0,222 0,222 0,231 0,229 0,229

MAD 0,391 0,391 0,325 0,077 0,176 0,166 0,164 0,164 0,168 0,170 0,170

BIAS -0,020 -0,027 -0,022 -0,006 -0,005 -0,004 -0,005 -0,005 -0,018 -0,009 -0,009

PV 0,047 0,056 1,010 0,727 0,755 0,807 0,865 0,865 0,904 0,942 0,942

10%

d2 0,300 0,311 0,792 0,911 0,931 0,940 0,945 0,945 0,942 0,944 0,944

r 0,244 0,234 0,666 0,746 0,879 0,892 0,898 0,898 0,900 0,901 0,901

RMSD 0,474 0,475 0,403 0,102 0,233 0,221 0,217 0,217 0,214 0,215 0,215

MAD 0,379 0,378 0,303 0,020 0,173 0,164 0,162 0,162 0,158 0,161 0,161

BIAS 0,003 -0,001 0,007 -0,009 0,000 -0,005 -0,003 -0,003 -0,008 -0,003 -0,003

PV 0,044 0,053 1,033 0,868 0,787 0,858 0,930 0,930 0,884 0,945 0,945

20%

d2 0,304 0,321 0,815 0,848 0,933 0,942 0,947 0,947 0,947 0,948 0,948

r 0,215 0,203 0,644 0,837 0,867 0,881 0,885 0,885 0,858 0,868 0,868

RMSD 0,480 0,482 0,415 0,024 0,245 0,233 0,232 0,232 0,256 0,250 0,250

MAD 0,385 0,385 0,310 0,001 0,185 0,174 0,174 0,174 0,189 0,183 0,183

BIAS -0,014 -0,023 0,002 -0,001 -0,011 -0,012 -0,007 -0,007 -0,011 -0,009 -0,009

PV 0,045 0,054 0,997 0,887 0,747 0,815 0,910 0,910 0,892 0,947 0,947

30%

d2 0,296 0,305 0,801 0,900 0,925 0,935 0,939 0,939 0,924 0,930 0,930

MAR

r 0,502 0,510 0,653 0,890 0,905 0,920 0,899 0,899 0,926 0,894 0,894

RMSD 0,426 0,420 0,337 0,127 0,148 0,138 0,156 0,156 0,133 0,159 0,159

MAD 0,353 0,349 0,244 0,081 0,116 0,109 0,119 0,119 0,102 0,117 0,117

BIAS 0,293 0,288 0,048 -0,010 -0,004 -0,013 0,002 0,002 -0,014 0,001 0,001

PV 0,096 0,116 1,535 0,753 0,782 0,947 0,976 0,976 0,897 0,962 0,962

5%

d2 0,526 0,536 0,791 0,939 0,947 0,958 0,947 0,947 0,960 0,944 0,944

r 0,406 0,414 0,591 0,876 0,870 0,878 0,875 0,875 0,889 0,870 0,870

RMSD 0,462 0,460 0,382 0,125 0,180 0,179 0,179 0,179 0,168 0,182 0,182

MAD 0,384 0,382 0,278 0,069 0,132 0,130 0,126 0,126 0,120 0,124 0,124

BIAS 0,318 0,318 0,066 -0,021 -0,022 -0,028 -0,010 -0,010 -0,016 -0,003 -0,003

PV 0,084 0,100 1,543 0,817 0,785 0,915 0,939 0,939 0,880 0,919 0,919

10%

d2 0,508 0,515 0,757 0,935 0,927 0,934 0,935 0,935 0,941 0,932 0,932

r 0,376 0,374 0,650 0,856 0,856 0,873 0,873 0,873 0,882 0,869 0,869

RMSD 0,483 0,485 0,375 0,102 0,189 0,180 0,182 0,182 0,174 0,185 0,185

MAD 0,399 0,400 0,281 0,039 0,142 0,133 0,136 0,136 0,130 0,132 0,132

BIAS 0,345 0,348 0,109 -0,004 0,008 0,002 0,017 0,017 0,006 0,020 0,020

PV 0,076 0,093 1,638 0,982 0,775 0,909 0,951 0,951 0,926 0,947 0,947

20%

d2 0,496 0,499 0,778 0,930 0,920 0,933 0,933 0,933 0,938 0,931 0,931

r 0,400 0,410 0,670 0,857 0,855 0,877 0,883 0,883 0,892 0,886 0,886

RMSD 0,480 0,483 0,372 0,076 0,192 0,179 0,177 0,177 0,168 0,175 0,175

30%

MAD 0,390 0,393 0,282 0,022 0,146 0,134 0,131 0,131 0,127 0,129 0,129

Page 163: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

160

BIAS 0,337 0,344 0,100 -0,007 0,005 0,000 0,012 0,012 0,004 0,016 0,016

PV 0,078 0,097 1,674 0,975 0,745 0,865 0,944 0,944 0,883 0,963 0,963

d2 0,501 0,506 0,791 0,936 0,918 0,934 0,939 0,939 0,943 0,940 0,940

MNAR

r 0,528 0,506 0,595 0,718 0,785 0,819 0,819 0,819 0,817 0,786 0,786

RMSD 0,426 0,422 0,360 0,193 0,213 0,195 0,182 0,182 0,184 0,198 0,198

MAD 0,353 0,347 0,268 0,097 0,139 0,131 0,133 0,133 0,126 0,143 0,143

BIAS 0,353 0,347 0,113 0,061 0,088 0,063 0,042 0,042 0,048 0,046 0,046

PV 0,155 0,188 2,353 1,295 1,246 1,360 1,215 1,215 1,209 1,223 1,223

5%

d2 0,519 0,523 0,714 0,820 0,864 0,890 0,897 0,897 0,895 0,878 0,878

r 0,404 0,391 0,513 0,681 0,777 0,802 0,789 0,789 0,820 0,786 0,786

RMSD 0,453 0,456 0,371 0,206 0,228 0,215 0,214 0,214 0,189 0,209 0,209

MAD 0,376 0,378 0,279 0,102 0,153 0,150 0,152 0,152 0,130 0,143 0,143

BIAS 0,376 0,378 0,101 0,059 0,085 0,067 0,053 0,053 0,053 0,052 0,052

PV 0,148 0,177 2,181 1,637 1,479 1,533 1,495 1,495 1,314 1,403 1,403

10%

d2 0,493 0,494 0,680 0,773 0,854 0,872 0,870 0,870 0,892 0,872 0,872

r 0,380 0,363 0,581 0,702 0,787 0,813 0,789 0,789 0,817 0,764 0,764

RMSD 0,481 0,495 0,379 0,182 0,233 0,214 0,214 0,214 0,202 0,224 0,224

MAD 0,400 0,415 0,291 0,078 0,171 0,155 0,161 0,161 0,149 0,160 0,160

BIAS 0,400 0,415 0,136 0,054 0,109 0,086 0,072 0,072 0,065 0,057 0,057

PV 0,124 0,153 2,225 1,792 1,298 1,342 1,242 1,242 1,290 1,299 1,299

20%

d2 0,478 0,475 0,705 0,786 0,854 0,878 0,870 0,870 0,888 0,860 0,860

r 0,407 0,399 0,596 0,539 0,768 0,799 0,787 0,787 0,812 0,782 0,782

RMSD 0,495 0,511 0,375 0,170 0,246 0,225 0,222 0,222 0,210 0,222 0,222

MAD 0,414 0,433 0,290 0,060 0,181 0,164 0,166 0,166 0,155 0,161 0,161

BIAS 0,414 0,433 0,137 0,044 0,121 0,097 0,075 0,075 0,080 0,069 0,069

PV 0,120 0,150 2,120 1,449 1,219 1,265 1,264 1,264 1,221 1,267 1,267

30%

d2 0,479 0,476 0,717 0,749 0,839 0,867 0,869 0,869 0,882 0,868 0,868

Page 164: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

161

9.11 Apêndice A11: Indicadores de performance para um único padrão de dados faltantes

com a configuração 3 “em linha”

Ind. MI MD VP MC EM EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

r 0,157 0,133 0,543 0,783 0,817 0,841 0,841 0,840 0,845 0,845

RMSD 0,462 0,469 0,447 0,287 0,265 0,249 0,249 0,249 0,247 0,247

MAD 0,374 0,376 0,337 0,213 0,188 0,182 0,182 0,181 0,176 0,176

BIAS -0,079 -0,091 0,017 -0,007 0,001 0,001 0,001 -0,001 0,000 0,000

PV 0,057 0,072 1,067 0,675 0,716 0,768 0,768 0,734 0,797 0,797

5%

d2 0,348 0,360 0,748 0,873 0,896 0,911 0,911 0,909 0,915 0,915

r 0,181 0,163 0,632 0,830 0,857 0,877 0,877 0,866 0,881 0,881

RMSD 0,475 0,479 0,424 0,268 0,248 0,233 0,233 0,241 0,228 0,228

MAD 0,384 0,386 0,317 0,199 0,178 0,175 0,175 0,173 0,168 0,168

BIAS -0,043 -0,055 -0,017 0,000 -0,003 -0,001 -0,001 -0,002 0,002 0,002

PV 0,054 0,069 1,109 0,739 0,798 0,891 0,891 0,832 0,837 0,837

10%

d2 0,325 0,346 0,797 0,905 0,922 0,935 0,935 0,928 0,936 0,936

r 0,219 0,198 0,638 0,841 0,862 0,861 0,861 0,873 0,855 0,855

RMSD 0,470 0,474 0,422 0,261 0,246 0,253 0,253 0,238 0,261 0,261

MAD 0,383 0,385 0,315 0,196 0,180 0,187 0,187 0,172 0,189 0,189

BIAS -0,033 -0,043 -0,010 0,008 0,009 0,007 0,007 0,009 0,011 0,011

PV 0,051 0,065 1,128 0,798 0,863 0,985 0,985 0,920 1,042 1,042

20%

d2 0,320 0,347 0,799 0,913 0,926 0,927 0,927 0,933 0,924 0,924

r 0,204 0,192 0,616 0,853 0,871 0,844 0,844 0,876 0,826 0,826

RMSD 0,477 0,479 0,435 0,254 0,241 0,281 0,281 0,238 0,276 0,276

MAD 0,386 0,388 0,330 0,192 0,178 0,208 0,208 0,173 0,208 0,208

BIAS -0,032 -0,042 -0,033 0,004 0,005 0,004 0,004 0,003 -0,005 -0,005

PV 0,053 0,061 1,078 0,809 0,876 1,127 1,127 0,925 0,804 0,804

30%

d2 0,318 0,335 0,784 0,920 0,931 0,917 0,917 0,935 0,904 0,904

r 0,208 0,198 0,587 0,846 0,868 0,765 0,765 0,860 0,720 0,720

RMSD 0,477 0,479 0,451 0,260 0,244 0,349 0,349 0,252 0,376 0,376

MAD 0,385 0,386 0,344 0,198 0,181 0,254 0,254 0,184 0,261 0,261

BIAS -0,034 -0,042 -0,005 0,005 0,008 0,003 0,003 -0,007 0,003 0,003

PV 0,056 0,070 1,081 0,795 0,870 1,175 1,175 0,909 1,130 1,130

40%

d2 0,323 0,347 0,765 0,916 0,930 0,870 0,870 0,926 0,843 0,843

MAR

r 0,467 0,466 0,642 0,809 0,843 0,865 0,865 0,834 0,845 0,845

RMSD 0,406 0,403 0,387 0,218 0,199 0,186 0,186 0,205 0,198 0,198

MAD 0,336 0,333 0,287 0,167 0,146 0,138 0,138 0,149 0,134 0,134

BIAS 0,233 0,231 0,102 -0,021 -0,014 0,019 0,019 -0,015 0,008 0,008

PV 0,078 0,101 1,711 0,664 0,785 0,793 0,793 0,802 0,806 0,806

5%

d2 0,506 0,513 0,769 0,887 0,913 0,926 0,926 0,909 0,915 0,915

r 0,523 0,536 0,616 0,830 0,867 0,872 0,872 0,851 0,853 0,853

RMSD 0,447 0,440 0,404 0,212 0,190 0,188 0,188 0,201 0,201 0,201

MAD 0,374 0,368 0,298 0,163 0,139 0,140 0,140 0,144 0,136 0,136

BIAS 0,294 0,289 0,158 -0,019 -0,019 0,004 0,004 -0,015 0,012 0,012

PV 0,074 0,095 1,437 0,652 0,800 0,901 0,901 0,821 0,878 0,878

10%

d2 0,517 0,527 0,749 0,898 0,927 0,932 0,932 0,919 0,922 0,922

r 0,500 0,502 0,633 0,830 0,861 0,865 0,865 0,867 0,857 0,857

RMSD 0,487 0,482 0,378 0,208 0,190 0,190 0,190 0,187 0,196 0,196

20%

MAD 0,409 0,406 0,274 0,156 0,138 0,140 0,140 0,135 0,137 0,137

Page 165: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

162

BIAS 0,353 0,351 0,108 0,001 -0,004 0,015 0,015 -0,001 0,011 0,011

PV 0,066 0,090 1,491 0,668 0,824 0,893 0,893 0,835 0,928 0,928

d2 0,510 0,519 0,772 0,900 0,925 0,928 0,928 0,928 0,924 0,924

r 0,436 0,456 0,630 0,850 0,877 0,870 0,870 0,880 0,865 0,865

RMSD 0,519 0,514 0,384 0,202 0,185 0,192 0,192 0,183 0,196 0,196

MAD 0,432 0,428 0,282 0,151 0,135 0,140 0,140 0,133 0,138 0,138

BIAS 0,380 0,379 0,117 -0,012 -0,014 0,001 0,001 -0,009 0,007 0,007

PV 0,059 0,085 1,399 0,704 0,843 0,905 0,905 0,859 0,907 0,907

30%

d2 0,498 0,508 0,772 0,913 0,934 0,931 0,931 0,936 0,928 0,928

r 0,414 0,440 0,640 0,855 0,889 0,869 0,869 0,887 0,858 0,858

RMSD 0,532 0,525 0,375 0,201 0,178 0,193 0,193 0,179 0,201 0,201

MAD 0,444 0,437 0,285 0,150 0,129 0,142 0,142 0,131 0,142 0,142

BIAS 0,393 0,389 0,127 0,004 -0,004 0,005 0,005 -0,002 0,004 0,004

PV 0,060 0,085 1,275 0,705 0,847 0,871 0,871 0,856 0,886 0,886

40%

d2 0,491 0,503 0,776 0,916 0,940 0,930 0,930 0,940 0,924 0,924

MNAR

r 0,281 0,258 0,701 0,809 0,837 0,876 0,876 0,850 0,869 0,869

RMSD 0,450 0,449 0,462 0,239 0,221 0,197 0,197 0,212 0,201 0,201

MAD 0,370 0,368 0,358 0,163 0,149 0,139 0,139 0,150 0,134 0,134

BIAS 0,240 0,233 0,220 0,028 0,021 0,042 0,042 0,023 0,034 0,034

PV 0,072 0,094 2,067 0,828 0,850 0,877 0,877 0,864 0,860 0,860

5%

d2 0,437 0,430 0,763 0,894 0,912 0,931 0,931 0,918 0,928 0,928

r 0,309 0,292 0,604 0,799 0,828 0,854 0,854 0,824 0,849 0,849

RMSD 0,434 0,432 0,429 0,223 0,208 0,196 0,196 0,211 0,199 0,199

MAD 0,354 0,351 0,328 0,158 0,141 0,142 0,142 0,145 0,139 0,139

BIAS 0,261 0,255 0,173 0,022 0,009 0,019 0,019 0,003 0,017 0,017

PV 0,082 0,107 1,768 0,799 0,859 0,961 0,961 0,871 0,953 0,953

10%

d2 0,463 0,460 0,727 0,888 0,908 0,922 0,922 0,905 0,919 0,919

r 0,239 0,212 0,631 0,782 0,814 0,831 0,831 0,808 0,822 0,822

RMSD 0,478 0,479 0,391 0,239 0,221 0,222 0,222 0,227 0,228 0,228

MAD 0,402 0,404 0,297 0,167 0,153 0,160 0,160 0,155 0,159 0,159

BIAS 0,316 0,313 0,112 0,041 0,027 0,036 0,036 0,023 0,035 0,035

PV 0,066 0,096 1,647 0,830 0,895 1,076 1,076 0,952 1,087 1,087

20%

d2 0,456 0,451 0,763 0,877 0,899 0,907 0,907 0,895 0,901 0,901

r 0,200 0,199 0,607 0,804 0,829 0,832 0,832 0,825 0,828 0,828

RMSD 0,511 0,509 0,400 0,233 0,220 0,226 0,226 0,223 0,227 0,227

MAD 0,424 0,424 0,308 0,166 0,154 0,164 0,164 0,154 0,161 0,161

BIAS 0,352 0,347 0,127 0,033 0,021 0,036 0,036 0,016 0,031 0,031

PV 0,056 0,087 1,490 0,906 0,970 1,066 1,066 0,987 1,057 1,057

30%

d2 0,456 0,456 0,751 0,892 0,908 0,908 0,908 0,906 0,906 0,906

r 0,158 0,153 0,574 0,805 0,834 0,831 0,831 0,828 0,820 0,820

RMSD 0,509 0,510 0,416 0,236 0,219 0,225 0,225 0,224 0,232 0,232

MAD 0,423 0,426 0,323 0,169 0,154 0,167 0,167 0,157 0,167 0,167

BIAS 0,344 0,342 0,133 0,049 0,032 0,040 0,040 0,026 0,034 0,034

PV 0,059 0,092 1,473 0,891 0,985 1,019 1,019 1,001 1,044 1,044

40%

d2 0,448 0,446 0,729 0,890 0,910 0,907 0,907 0,907 0,901 0,901

Page 166: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

163

9.12 Apêndice A12: Indicadores de performance para um único padrão de dados faltantes

com a configuração 5 “em linha”

Ind. MI MD VP MC EM EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

r 0,128 0,112 0,567 0,780 0,797 0,838 0,838 0,811 0,845 0,845

RMSD 0,479 0,484 0,422 0,297 0,286 0,258 0,258 0,277 0,254 0,254

MAD 0,378 0,381 0,305 0,219 0,198 0,183 0,183 0,195 0,181 0,181

BIAS -0,089 -0,099 -0,024 -0,018 -0,005 -0,004 -0,004 -0,013 -0,014 -0,014

PV 0,039 0,054 0,821 0,609 0,662 0,720 0,720 0,666 0,704 0,704

5%

d2 0,310 0,328 0,764 0,866 0,881 0,907 0,907 0,888 0,910 0,910

r 0,192 0,175 0,555 0,793 0,826 0,860 0,860 0,845 0,854 0,854

RMSD 0,475 0,479 0,442 0,293 0,272 0,246 0,246 0,257 0,251 0,251

MAD 0,385 0,386 0,331 0,222 0,195 0,179 0,179 0,184 0,182 0,182

BIAS -0,069 -0,076 0,017 -0,019 -0,012 -0,003 -0,003 -0,007 -0,002 -0,002

PV 0,038 0,052 0,909 0,666 0,777 0,824 0,824 0,761 0,842 0,842

10%

d2 0,311 0,326 0,753 0,878 0,903 0,924 0,924 0,913 0,921 0,921

r 0,194 0,175 0,678 0,814 0,850 0,606 0,606 0,856 0,850 0,850

RMSD 0,481 0,484 0,400 0,283 0,258 0,522 0,522 0,254 0,260 0,260

MAD 0,390 0,391 0,303 0,217 0,187 0,226 0,226 0,184 0,191 0,191

BIAS -0,060 -0,066 -0,037 -0,002 -0,003 -0,019 -0,019 -0,007 -0,015 -0,015

PV 0,035 0,050 1,082 0,706 0,828 1,755 1,755 0,863 0,870 0,870

20%

d2 0,297 0,315 0,822 0,894 0,919 0,751 0,751 0,923 0,919 0,919

r 0,177 0,164 0,606 0,831 0,855 0,343 0,343 0,868 0,292 0,292

RMSD 0,486 0,488 0,442 0,274 0,260 1,451 1,451 0,248 1,726 1,726

MAD 0,393 0,395 0,336 0,213 0,190 0,514 0,514 0,182 0,526 0,526

BIAS -0,034 -0,036 -0,045 -0,003 0,005 0,036 0,036 0,001 0,096 0,096

PV 0,033 0,047 1,026 0,723 0,898 9,836 9,836 0,916 13,396 13,396

30%

d2 0,255 0,292 0,779 0,904 0,923 0,371 0,371 0,930 0,286 0,286

r 0,169 0,159 0,580 0,814 0,828 -0,030 -0,030 0,817 0,713 0,713

RMSD 0,492 0,494 0,462 0,289 0,286 9,025 9,025 0,303 0,353 0,353

MAD 0,396 0,397 0,354 0,222 0,209 2,969 2,969 0,220 0,270 0,270

BIAS -0,047 -0,052 -0,041 -0,007 0,003 -0,810 -0,810 -0,004 -0,026 -0,026

PV 0,037 0,052 1,044 0,719 0,919 325,704 325,704 1,036 0,669 0,669

40%

d2 0,274 0,300 0,762 0,895 0,909 0,030 0,030 0,902 0,831 0,831

MAR

r 0,336 0,300 0,721 0,791 0,837 0,878 0,878 0,837 0,867 0,867

RMSD 0,418 0,416 0,285 0,209 0,188 0,167 0,167 0,188 0,173 0,173

MAD 0,343 0,341 0,210 0,170 0,144 0,126 0,126 0,140 0,127 0,127

BIAS 0,265 0,258 0,080 -0,008 -0,007 0,023 0,023 -0,007 0,017 0,017

PV 0,071 0,098 1,254 0,609 0,768 0,887 0,887 0,780 0,868 0,868

5%

d2 0,480 0,476 0,830 0,871 0,909 0,934 0,934 0,909 0,927 0,927

r 0,402 0,364 0,571 0,808 0,864 0,862 0,862 0,864 0,840 0,840

RMSD 0,441 0,439 0,422 0,224 0,191 0,192 0,192 0,189 0,207 0,207

MAD 0,360 0,357 0,314 0,179 0,145 0,140 0,140 0,139 0,148 0,148

BIAS 0,272 0,267 0,203 -0,032 -0,030 -0,003 -0,003 -0,014 0,005 0,005

PV 0,057 0,081 1,274 0,545 0,728 0,901 0,901 0,741 0,912 0,912

10%

d2 0,491 0,490 0,700 0,872 0,920 0,926 0,926 0,922 0,915 0,915

r 0,422 0,400 0,578 0,797 0,862 0,869 0,869 0,854 0,847 0,847

RMSD 0,453 0,452 0,402 0,216 0,181 0,178 0,178 0,185 0,191 0,191

20%

MAD 0,372 0,370 0,285 0,173 0,136 0,133 0,133 0,138 0,138 0,138

Page 167: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

164

BIAS 0,312 0,310 0,125 -0,010 -0,021 -0,003 -0,003 -0,011 0,015 0,015

PV 0,054 0,076 1,645 0,518 0,728 0,894 0,894 0,753 0,863 0,863

d2 0,499 0,502 0,728 0,864 0,920 0,930 0,930 0,918 0,917 0,917

r 0,379 0,336 0,594 0,791 0,857 0,857 0,857 0,853 0,836 0,836

RMSD 0,467 0,471 0,411 0,225 0,191 0,193 0,193 0,193 0,209 0,209

MAD 0,384 0,386 0,299 0,179 0,143 0,144 0,144 0,142 0,150 0,150

BIAS 0,317 0,321 0,121 -0,010 -0,028 -0,012 -0,012 -0,023 -0,003 -0,003

PV 0,046 0,072 1,710 0,539 0,765 0,953 0,953 0,811 1,001 1,001

30%

d2 0,489 0,490 0,739 0,865 0,919 0,924 0,924 0,919 0,913 0,913

r 0,336 0,311 0,629 0,813 0,870 0,851 0,851 0,875 0,847 0,847

RMSD 0,503 0,502 0,409 0,220 0,187 0,207 0,207 0,184 0,208 0,208

MAD 0,412 0,410 0,302 0,175 0,140 0,154 0,154 0,134 0,151 0,151

BIAS 0,353 0,352 0,130 -0,008 -0,020 -0,026 -0,026 -0,019 -0,004 -0,004

PV 0,041 0,070 1,704 0,583 0,792 0,985 0,985 0,845 0,990 0,990

40%

d2 0,481 0,485 0,758 0,883 0,928 0,920 0,920 0,933 0,919 0,919

MNAR

r 0,008 -0,034 0,772 0,713 0,764 0,850 0,850 0,766 0,850 0,850

RMSD 0,474 0,478 0,323 0,304 0,282 0,229 0,229 0,279 0,228 0,228

MAD 0,385 0,386 0,246 0,219 0,201 0,166 0,166 0,203 0,165 0,165

BIAS 0,186 0,177 0,101 0,027 0,027 0,034 0,034 0,020 0,029 0,029

PV 0,045 0,063 1,229 0,660 0,784 0,831 0,831 0,760 0,816 0,816

5%

d2 0,324 0,294 0,861 0,831 0,868 0,917 0,917 0,868 0,917 0,917

r 0,097 0,055 0,649 0,741 0,813 0,860 0,860 0,826 0,863 0,863

RMSD 0,472 0,474 0,428 0,279 0,242 0,213 0,213 0,232 0,210 0,210

MAD 0,385 0,386 0,333 0,206 0,174 0,153 0,153 0,164 0,150 0,150

BIAS 0,229 0,220 0,196 0,019 0,001 0,007 0,007 0,009 0,015 0,015

PV 0,048 0,071 1,377 0,676 0,789 0,895 0,895 0,727 0,852 0,852

10%

d2 0,390 0,372 0,756 0,848 0,897 0,926 0,926 0,902 0,926 0,926

r 0,173 0,122 0,623 0,736 0,817 0,829 0,829 0,813 0,838 0,838

RMSD 0,464 0,472 0,405 0,261 0,220 0,217 0,217 0,222 0,209 0,209

MAD 0,383 0,390 0,302 0,199 0,159 0,155 0,155 0,159 0,152 0,152

BIAS 0,274 0,277 0,099 0,035 0,003 0,011 0,011 0,000 0,014 0,014

PV 0,049 0,073 1,684 0,654 0,766 0,871 0,871 0,735 0,821 0,821

20%

d2 0,437 0,426 0,759 0,842 0,898 0,907 0,907 0,894 0,911 0,911

r 0,111 0,072 0,590 0,715 0,796 0,818 0,818 0,790 0,814 0,814

RMSD 0,473 0,483 0,421 0,268 0,230 0,222 0,222 0,233 0,224 0,224

MAD 0,393 0,401 0,315 0,204 0,167 0,162 0,162 0,169 0,162 0,162

BIAS 0,288 0,293 0,101 0,040 0,006 0,006 0,006 0,000 0,007 0,007

PV 0,048 0,083 1,743 0,674 0,792 0,905 0,905 0,790 0,894 0,894

30%

d2 0,432 0,421 0,738 0,831 0,887 0,902 0,902 0,883 0,899 0,899

r 0,102 0,067 0,616 0,754 0,818 0,778 0,778 0,821 0,798 0,798

RMSD 0,515 0,523 0,409 0,260 0,228 0,257 0,257 0,224 0,242 0,242

MAD 0,425 0,433 0,309 0,199 0,168 0,189 0,189 0,163 0,177 0,177

BIAS 0,338 0,342 0,101 0,041 0,003 0,015 0,015 0,009 0,036 0,036

PV 0,044 0,080 1,610 0,704 0,870 0,969 0,969 0,835 0,873 0,873

40%

d2 0,438 0,429 0,758 0,855 0,901 0,880 0,880 0,902 0,888 0,888

Page 168: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

165

9.13 Apêndice A13: Indicadores de performance para um único padrão de dados faltantes

com a configuração 7 “em linha”

Ind. MI MD VP MC EM EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

5% r 0,242 0,219 0,567 0,784 0,832 0,865 0,865 0,859 0,866 0,866 RMSD 0,474 0,477 0,435 0,303 0,270 0,243 0,243 0,249 0,243 0,243 MAD 0,380 0,383 0,318 0,225 0,195 0,180 0,180 0,180 0,178 0,178 BIAS -0,064 -0,071 -0,045 -0,021 -0,017 -0,013 -0,013 -0,018 -0,017 -0,017 PV 0,042 0,059 0,842 0,725 0,743 0,751 0,751 0,675 0,723 0,723 d2 0,325 0,346 0,762 0,876 0,905 0,924 0,924 0,916 0,923 0,923

10% r 0,246 0,235 0,570 0,775 0,817 0,612 0,612 0,835 0,850 0,850 RMSD 0,454 0,456 0,423 0,290 0,264 0,450 0,450 0,251 0,241 0,241 MAD 0,365 0,365 0,319 0,221 0,195 0,199 0,199 0,185 0,176 0,176 BIAS -0,104 -0,110 -0,015 -0,019 -0,005 -0,023 -0,023 -0,007 -0,003 -0,003 PV 0,048 0,066 1,006 0,689 0,769 1,446 1,446 0,727 0,799 0,799 d2 0,362 0,384 0,764 0,869 0,899 0,763 0,763 0,906 0,918 0,918

20% r 0,225 0,220 0,657 0,826 0,857 0,880 0,880 0,866 0,874 0,874 RMSD 0,476 0,477 0,402 0,273 0,250 0,231 0,231 0,241 0,236 0,236 MAD 0,382 0,382 0,302 0,207 0,183 0,171 0,171 0,176 0,173 0,173 BIAS -0,077 -0,080 -0,035 -0,019 -0,011 -0,003 -0,003 -0,008 -0,001 -0,001 PV 0,042 0,057 1,009 0,710 0,824 0,888 0,888 0,788 0,880 0,880 d2 0,332 0,356 0,810 0,900 0,922 0,937 0,937 0,927 0,933 0,933

30% r 0,237 0,230 0,673 0,838 0,865 0,638 0,638 0,876 0,599 0,599 RMSD 0,480 0,480 0,400 0,266 0,247 0,529 0,529 0,237 0,598 0,598 MAD 0,388 0,386 0,308 0,205 0,182 0,262 0,262 0,174 0,300 0,300 BIAS -0,068 -0,063 -0,035 -0,007 -0,003 -0,030 -0,030 -0,006 -0,043 -0,043 PV 0,037 0,053 1,039 0,723 0,847 1,947 1,947 0,822 2,306 2,306 d2 0,317 0,338 0,818 0,908 0,927 0,766 0,766 0,933 0,725 0,725

40% r 0,223 0,216 0,618 0,836 0,855 0,411 0,411 0,870 0,202 0,202 RMSD 0,470 0,469 0,427 0,263 0,253 1,097 1,097 0,238 1,702 1,702 MAD 0,379 0,378 0,327 0,204 0,186 0,616 0,616 0,177 0,869 0,869 BIAS -0,061 -0,053 -0,040 -0,016 -0,007 0,090 0,090 -0,006 -0,038 -0,038 PV 0,043 0,052 1,077 0,762 0,936 6,308 6,308 0,876 13,160 13,160 d2 0,326 0,326 0,785 0,908 0,924 0,495 0,495 0,931 0,299 0,299

MAR

5% r 0,292 0,270 0,716 0,655 0,811 0,903 0,903 0,850 0,910 0,910 RMSD 0,404 0,403 0,305 0,258 0,198 0,145 0,145 0,176 0,141 0,141 MAD 0,328 0,326 0,238 0,190 0,149 0,108 0,108 0,130 0,108 0,108 BIAS 0,247 0,240 0,091 -0,044 -0,028 0,001 0,001 0,004 0,020 0,020 PV 0,088 0,118 1,515 0,526 0,677 0,724 0,724 0,738 0,725 0,725 d2 0,470 0,467 0,818 0,782 0,890 0,943 0,943 0,916 0,946 0,946

10% r 0,270 0,252 0,642 0,680 0,790 0,837 0,837 0,798 0,823 0,823 RMSD 0,384 0,383 0,380 0,251 0,210 0,185 0,185 0,205 0,194 0,194 MAD 0,308 0,304 0,293 0,186 0,158 0,140 0,140 0,153 0,145 0,145 BIAS 0,202 0,195 0,139 -0,029 -0,028 -0,006 -0,006 -0,012 0,022 0,022 PV 0,089 0,115 1,820 0,536 0,655 0,705 0,705 0,687 0,637 0,637 d2 0,459 0,454 0,752 0,801 0,875 0,906 0,906 0,884 0,893 0,893

20% r 0,267 0,253 0,600 0,718 0,814 0,846 0,846 0,824 0,825 0,825 RMSD 0,408 0,409 0,396 0,245 0,206 0,186 0,186 0,198 0,197 0,197 MAD 0,327 0,326 0,297 0,187 0,157 0,141 0,141 0,149 0,143 0,143 BIAS 0,234 0,232 0,161 -0,041 -0,041 -0,007 -0,007 -0,025 0,016 0,016 PV 0,087 0,117 1,613 0,514 0,674 0,800 0,800 0,681 0,723 0,723

Page 169: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

166

d2 0,468 0,468 0,732 0,816 0,888 0,915 0,915 0,896 0,900 0,900 30% r 0,274 0,260 0,564 0,731 0,807 0,837 0,837 0,815 0,830 0,830

RMSD 0,432 0,439 0,417 0,236 0,206 0,191 0,191 0,200 0,193 0,193 MAD 0,351 0,357 0,299 0,180 0,153 0,143 0,143 0,148 0,139 0,139 BIAS 0,278 0,286 0,112 -0,026 -0,037 -0,013 -0,013 -0,027 0,003 0,003 PV 0,091 0,131 1,944 0,527 0,701 0,871 0,871 0,696 0,823 0,823 d2 0,477 0,478 0,716 0,828 0,887 0,911 0,911 0,892 0,907 0,907

40% r 0,262 0,245 0,594 0,744 0,819 0,837 0,837 0,825 0,839 0,839 RMSD 0,460 0,471 0,421 0,232 0,201 0,195 0,195 0,196 0,193 0,193 MAD 0,377 0,386 0,310 0,176 0,149 0,147 0,147 0,146 0,143 0,143 BIAS 0,318 0,330 0,139 -0,021 -0,034 -0,018 -0,018 -0,021 -0,004 -0,004 PV 0,092 0,132 2,019 0,527 0,722 0,941 0,941 0,727 0,931 0,931 d2 0,475 0,474 0,725 0,836 0,895 0,912 0,912 0,900 0,914 0,914

MNAR

5% r 0,258 0,236 0,684 0,763 0,832 0,896 0,896 0,831 0,877 0,877 RMSD 0,430 0,428 0,322 0,208 0,180 0,151 0,151 0,180 0,165 0,165 MAD 0,355 0,352 0,249 0,162 0,136 0,107 0,107 0,130 0,115 0,115 BIAS 0,298 0,289 0,121 0,013 0,025 0,049 0,049 0,027 0,060 0,060 PV 0,098 0,135 1,588 0,527 0,727 0,882 0,882 0,717 0,804 0,804 d2 0,472 0,470 0,786 0,846 0,902 0,938 0,938 0,902 0,923 0,923

10% r 0,242 0,221 0,616 0,740 0,808 0,810 0,810 0,798 0,787 0,787 RMSD 0,405 0,405 0,379 0,225 0,199 0,200 0,200 0,205 0,212 0,212 MAD 0,330 0,327 0,295 0,169 0,148 0,144 0,144 0,150 0,151 0,151 BIAS 0,243 0,237 0,166 0,008 0,011 0,024 0,024 0,015 0,044 0,044 PV 0,093 0,127 1,601 0,634 0,821 0,823 0,823 0,815 0,760 0,760 d2 0,466 0,461 0,733 0,847 0,895 0,894 0,894 0,889 0,877 0,877

20% r 0,259 0,240 0,555 0,738 0,823 0,821 0,821 0,830 0,757 0,757 RMSD 0,433 0,434 0,417 0,232 0,196 0,200 0,200 0,192 0,235 0,235 MAD 0,352 0,353 0,316 0,176 0,146 0,146 0,146 0,141 0,163 0,163 BIAS 0,278 0,275 0,176 -0,008 -0,010 0,022 0,022 -0,002 0,064 0,064 PV 0,088 0,122 1,628 0,581 0,764 0,844 0,844 0,748 0,723 0,723 d2 0,475 0,473 0,702 0,840 0,902 0,901 0,901 0,905 0,853 0,853

30% r 0,280 0,271 0,558 0,751 0,821 0,809 0,809 0,828 0,795 0,795 RMSD 0,451 0,458 0,423 0,219 0,191 0,202 0,202 0,187 0,210 0,210 MAD 0,372 0,378 0,308 0,167 0,140 0,146 0,146 0,137 0,147 0,147 BIAS 0,319 0,327 0,139 0,001 -0,008 0,028 0,028 -0,002 0,034 0,034 PV 0,096 0,136 2,047 0,588 0,807 0,902 0,902 0,785 0,900 0,900 d2 0,479 0,480 0,701 0,848 0,902 0,894 0,894 0,905 0,886 0,886

40% r 0,254 0,245 0,556 0,739 0,813 0,821 0,821 0,820 0,798 0,798 RMSD 0,472 0,479 0,431 0,226 0,197 0,199 0,199 0,193 0,210 0,210 MAD 0,392 0,397 0,318 0,173 0,146 0,147 0,147 0,142 0,150 0,150 BIAS 0,342 0,349 0,149 0,002 -0,009 0,006 0,006 -0,002 0,033 0,033 PV 0,099 0,139 2,037 0,552 0,779 0,954 0,954 0,767 0,867 0,867 d2 0,471 0,472 0,698 0,837 0,897 0,904 0,904 0,900 0,888 0,888

Page 170: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

167

9.14 Apêndice A14: Indicadores de performance para um único padrão de dados faltantes

com a configuração 3 “em coluna”

Ind. MI MD VP MC EM EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

5% r 0,164 0,126 0,591 0,912 0,870 0,879 0,853 0,853 0,879 0,853 0,853 RMSD 0,486 0,491 0,441 0,162 0,244 0,236 0,260 0,260 0,236 0,260 0,260 MAD 0,384 0,387 0,337 0,084 0,173 0,164 0,189 0,189 0,164 0,189 0,189 BIAS -0,008 -0,020 0,036 -0,019 0,004 0,017 0,028 0,028 0,017 0,028 0,028 PV 0,047 0,057 0,949 0,754 0,672 0,753 0,640 0,640 0,753 0,640 0,640 d2 0,287 0,294 0,772 0,946 0,922 0,931 0,909 0,909 0,931 0,909 0,909

10% r 0,118 0,093 0,571 0,914 0,881 0,882 0,841 0,841 0,893 0,831 0,831 RMSD 0,517 0,522 0,474 0,121 0,247 0,244 0,283 0,283 0,234 0,305 0,305 MAD 0,414 0,418 0,359 0,050 0,182 0,177 0,212 0,212 0,174 0,218 0,218 BIAS 0,008 -0,005 0,011 0,004 0,005 0,006 0,009 0,009 0,012 0,036 0,036 PV 0,045 0,056 0,950 0,815 0,692 0,779 0,832 0,832 0,802 1,023 1,023 d2 0,264 0,282 0,760 0,951 0,930 0,935 0,913 0,913 0,941 0,909 0,909

20% r 0,181 0,169 0,588 0,928 0,858 0,868 0,762 0,762 0,868 0,762 0,762 RMSD 0,485 0,488 0,456 0,061 0,254 0,245 0,356 0,356 0,245 0,356 0,356 MAD 0,387 0,388 0,341 0,013 0,189 0,179 0,234 0,234 0,179 0,234 0,234 BIAS -0,004 -0,013 -0,009 -0,001 0,009 0,005 0,011 0,011 0,005 0,011 0,011 PV 0,049 0,062 1,068 1,088 0,740 0,805 1,161 1,161 0,805 1,161 1,161 d2 0,286 0,306 0,766 0,961 0,920 0,928 0,868 0,868 0,928 0,868 0,868

30% r 0,202 0,199 0,572 0,914 0,860 0,873 0,516 0,516 0,873 0,516 0,516 RMSD 0,492 0,493 0,468 0,030 0,256 0,245 0,847 0,847 0,245 0,847 0,847 MAD 0,394 0,394 0,353 0,004 0,192 0,181 0,421 0,421 0,181 0,421 0,421 BIAS -0,024 -0,032 -0,012 0,000 -0,012 -0,005 0,030 0,030 -0,005 0,030 0,030 PV 0,042 0,054 1,030 0,798 0,770 0,839 3,884 3,884 0,839 3,884 3,884 d2 0,280 0,299 0,755 0,959 0,922 0,932 0,609 0,609 0,932 0,609 0,609

40% r 0,171 0,174 0,554 0,873 0,850 0,871 0,839 0,839 0,871 0,839 0,839 RMSD 0,494 0,494 0,476 0,017 0,264 0,247 0,272 0,272 0,247 0,272 0,272 MAD 0,398 0,397 0,358 0,001 0,202 0,184 0,210 0,210 0,184 0,210 0,210 BIAS 0,003 -0,006 -0,008 0,000 -0,011 -0,011 -0,010 -0,010 -0,011 -0,010 -0,010 PV 0,049 0,059 1,030 0,504 0,746 0,824 0,690 0,690 0,824 0,690 0,690 d2 0,289 0,309 0,744 0,924 0,915 0,930 0,906 0,906 0,930 0,906 0,906

MAR

5% r 0,348 0,325 0,556 0,909 0,907 0,915 0,884 0,884 0,915 0,884 0,884 RMSD 0,506 0,503 0,458 0,164 0,196 0,185 0,234 0,234 0,185 0,234 0,234 MAD 0,417 0,413 0,336 0,103 0,148 0,142 0,172 0,172 0,142 0,172 0,172 BIAS 0,261 0,253 0,091 0,018 0,023 0,012 0,096 0,096 0,012 0,096 0,096 PV 0,043 0,055 1,156 0,760 0,725 0,818 0,781 0,781 0,818 0,781 0,781 d2 0,461 0,460 0,742 0,945 0,945 0,953 0,924 0,924 0,953 0,924 0,924

10% r 0,358 0,355 0,520 0,938 0,926 0,919 0,886 0,886 0,919 0,886 0,886 RMSD 0,553 0,549 0,494 0,141 0,192 0,195 0,237 0,237 0,195 0,237 0,237 MAD 0,464 0,460 0,368 0,079 0,145 0,145 0,176 0,176 0,145 0,176 0,176 BIAS 0,298 0,292 0,082 0,021 0,031 0,012 0,063 0,063 0,012 0,063 0,063 PV 0,039 0,048 1,033 0,882 0,728 0,797 0,757 0,757 0,797 0,757 0,757 d2 0,463 0,465 0,719 0,961 0,954 0,955 0,931 0,931 0,955 0,931 0,931

20% r 0,301 0,299 0,575 0,920 0,905 0,906 0,875 0,875 0,906 0,875 0,875 RMSD 0,519 0,520 0,458 0,100 0,201 0,200 0,232 0,232 0,200 0,232 0,232 MAD 0,430 0,430 0,341 0,039 0,149 0,145 0,175 0,175 0,145 0,175 0,175 BIAS 0,254 0,257 0,045 -0,006 0,006 -0,009 0,031 0,031 -0,009 0,031 0,031 PV 0,042 0,054 1,175 0,974 0,769 0,840 0,856 0,856 0,840 0,856 0,856

Page 171: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

168

d2 0,438 0,442 0,753 0,966 0,947 0,950 0,932 0,932 0,950 0,932 0,932 30% r 0,394 0,395 0,589 0,930 0,903 0,910 0,883 0,883 0,910 0,883 0,883

RMSD 0,531 0,528 0,464 0,071 0,211 0,204 0,232 0,232 0,204 0,232 0,232 MAD 0,436 0,434 0,343 0,019 0,160 0,151 0,175 0,175 0,151 0,175 0,175 BIAS 0,263 0,263 0,058 -0,008 -0,014 -0,019 0,017 0,017 -0,019 0,017 0,017 PV 0,036 0,047 1,137 0,876 0,780 0,862 0,852 0,852 0,862 0,852 0,852 d2 0,454 0,461 0,760 0,967 0,946 0,952 0,937 0,937 0,952 0,937 0,937

40% r 0,388 0,391 0,569 0,920 0,904 0,913 0,866 0,866 0,913 0,866 0,866 RMSD 0,531 0,530 0,470 0,055 0,207 0,199 0,249 0,249 0,199 0,249 0,249 MAD 0,436 0,436 0,350 0,013 0,158 0,149 0,186 0,186 0,149 0,186 0,186 BIAS 0,270 0,273 0,058 -0,004 -0,005 -0,009 0,029 0,029 -0,009 0,029 0,029 PV 0,035 0,046 1,139 0,600 0,809 0,893 0,933 0,933 0,893 0,933 0,933 d2 0,457 0,464 0,748 0,968 0,947 0,954 0,928 0,928 0,954 0,928 0,928

MNAR

5% r 0,366 0,344 0,527 0,819 0,844 0,868 0,873 0,873 0,868 0,873 0,873 RMSD 0,526 0,525 0,481 0,215 0,241 0,222 0,235 0,235 0,222 0,235 0,235 MAD 0,442 0,439 0,356 0,114 0,164 0,153 0,177 0,177 0,153 0,177 0,177 BIAS 0,354 0,350 0,171 0,073 0,081 0,068 0,118 0,118 0,068 0,118 0,118 PV 0,060 0,077 1,438 0,928 0,907 0,964 0,852 0,852 0,964 0,852 0,852 d2 0,483 0,484 0,699 0,885 0,907 0,924 0,912 0,912 0,924 0,912 0,912

10% r 0,306 0,307 0,466 0,853 0,879 0,868 0,797 0,797 0,868 0,797 0,797 RMSD 0,562 0,559 0,516 0,195 0,241 0,245 0,307 0,307 0,245 0,307 0,307 MAD 0,472 0,469 0,391 0,092 0,168 0,173 0,222 0,222 0,173 0,222 0,222 BIAS 0,334 0,330 0,118 0,069 0,083 0,057 0,074 0,074 0,057 0,074 0,074 PV 0,045 0,056 1,107 0,948 0,845 0,909 0,957 0,957 0,909 0,957 0,957 d2 0,455 0,458 0,676 0,897 0,927 0,926 0,884 0,884 0,926 0,884 0,884

20% r 0,260 0,253 0,515 0,830 0,836 0,851 0,722 0,722 0,851 0,722 0,722 RMSD 0,518 0,522 0,459 0,138 0,257 0,243 0,362 0,362 0,243 0,362 0,362 MAD 0,429 0,432 0,343 0,046 0,180 0,172 0,245 0,245 0,172 0,245 0,245 BIAS 0,307 0,312 0,073 0,027 0,086 0,068 0,093 0,093 0,068 0,093 0,093 PV 0,055 0,071 1,257 1,076 0,906 0,955 1,303 1,303 0,955 1,303 1,303 d2 0,452 0,455 0,712 0,903 0,904 0,916 0,832 0,832 0,916 0,832 0,832

30% r 0,299 0,287 0,528 0,781 0,850 0,865 0,734 0,734 0,865 0,734 0,734 RMSD 0,539 0,546 0,457 0,123 0,253 0,240 0,365 0,365 0,240 0,365 0,365 MAD 0,446 0,453 0,343 0,036 0,183 0,174 0,250 0,250 0,174 0,250 0,250 BIAS 0,317 0,329 0,064 0,016 0,065 0,052 0,074 0,074 0,052 0,074 0,074 PV 0,044 0,059 1,094 0,794 0,907 0,958 1,278 1,278 0,958 1,278 1,278 d2 0,456 0,460 0,721 0,889 0,915 0,926 0,844 0,844 0,926 0,844 0,844

40% r 0,274 0,263 0,493 0,754 0,852 0,864 0,745 0,745 0,864 0,745 0,745 RMSD 0,528 0,538 0,466 0,110 0,251 0,238 0,357 0,357 0,238 0,357 0,357 MAD 0,437 0,447 0,352 0,030 0,185 0,176 0,243 0,243 0,176 0,243 0,243 BIAS 0,311 0,326 0,052 0,015 0,073 0,056 0,077 0,077 0,056 0,077 0,077 PV 0,046 0,064 1,148 0,655 0,969 1,009 1,351 1,351 1,009 1,351 1,351 d2 0,454 0,459 0,700 0,883 0,915 0,925 0,847 0,847 0,925 0,847 0,847

Page 172: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

169

9.15 Apêndice A15: Indicadores de performance para um único padrão de dados faltantes

com a configuração 5 “em coluna”

Ind. MI MD VP MC EM EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

5% r 0,190 0,185 0,501 0,887 0,859 0,860 0,857 0,857 0,861 0,840 0,840 RMSD 0,486 0,488 0,479 0,167 0,255 0,252 0,272 0,272 0,252 0,308 0,308 MAD 0,383 0,383 0,369 0,082 0,185 0,177 0,206 0,206 0,180 0,229 0,229 BIAS -0,021 -0,033 0,056 -0,022 -0,029 0,003 0,037 0,037 -0,014 0,036 0,036 PV 0,051 0,066 0,853 0,774 0,713 0,732 1,080 1,080 0,732 1,295 1,295 d2 0,306 0,334 0,712 0,932 0,917 0,920 0,923 0,923 0,920 0,908 0,908

10% r 0,219 0,210 0,484 0,877 0,879 0,885 0,695 0,695 0,892 0,400 0,400 RMSD 0,484 0,485 0,499 0,140 0,237 0,233 0,481 0,481 0,225 1,365 1,365 MAD 0,384 0,385 0,390 0,056 0,172 0,166 0,301 0,301 0,163 0,558 0,558 BIAS 0,028 0,009 0,020 -0,003 -0,005 0,004 -0,016 -0,016 -0,013 0,078 0,078 PV 0,046 0,060 0,963 0,899 0,809 0,894 1,816 1,816 0,862 8,957 8,957 d2 0,288 0,323 0,702 0,933 0,934 0,939 0,806 0,806 0,942 0,416 0,416

20% r 0,142 0,126 0,500 0,902 0,879 0,887 0,576 0,576 0,889 0,314 0,314 RMSD 0,492 0,497 0,486 0,078 0,238 0,229 0,731 0,731 0,228 1,516 1,516 MAD 0,388 0,393 0,371 0,015 0,179 0,169 0,456 0,456 0,172 0,502 0,502 BIAS -0,009 -0,028 -0,016 0,005 -0,029 -0,020 -0,068 -0,068 -0,024 0,049 0,049 PV 0,058 0,073 0,928 1,163 0,740 0,797 3,234 3,234 0,835 10,402 10,402 d2 0,291 0,307 0,714 0,940 0,930 0,937 0,674 0,674 0,939 0,339 0,339

30% r 0,173 0,169 0,540 0,870 0,863 0,879 0,569 0,569 0,873 0,176 0,176 RMSD 0,506 0,507 0,480 0,037 0,260 0,245 0,809 0,809 0,252 4,182 4,182 MAD 0,399 0,401 0,370 0,004 0,198 0,184 0,498 0,498 0,188 1,121 1,121 BIAS 0,007 -0,013 -0,004 0,000 -0,020 -0,020 -0,093 -0,093 -0,029 -0,130 -0,130 PV 0,044 0,059 0,900 0,674 0,727 0,795 3,616 3,616 0,820 68,313 68,313 d2 0,274 0,303 0,737 0,929 0,921 0,933 0,655 0,655 0,930 0,097 0,097

40% r 0,176 0,171 0,510 0,903 0,850 0,866 0,637 0,637 0,859 0,263 0,263 RMSD 0,501 0,503 0,494 0,010 0,269 0,256 0,547 0,547 0,263 1,791 1,791 MAD 0,398 0,400 0,380 0,001 0,205 0,193 0,377 0,377 0,197 0,778 0,778 BIAS 0,006 -0,013 -0,012 0,000 -0,022 -0,025 -0,025 -0,025 -0,024 0,037 0,037 PV 0,047 0,064 0,923 0,396 0,713 0,797 1,923 1,923 0,820 13,296 13,296 d2 0,280 0,310 0,719 0,962 0,913 0,925 0,766 0,766 0,922 0,275 0,275

MAR

5% r 0,229 0,228 0,467 0,923 0,931 0,926 0,910 0,910 0,913 0,888 0,888 RMSD 0,532 0,530 0,505 0,187 0,194 0,199 0,225 0,225 0,217 0,262 0,262 MAD 0,435 0,434 0,378 0,123 0,143 0,145 0,163 0,163 0,165 0,199 0,199 BIAS 0,145 0,138 0,049 -0,008 -0,010 -0,002 0,049 0,049 -0,001 0,073 0,073 PV 0,035 0,044 0,689 0,860 0,781 0,797 0,728 0,728 0,718 0,574 0,574 d2 0,325 0,333 0,686 0,957 0,960 0,958 0,945 0,945 0,948 0,916 0,916

10% r 0,315 0,307 0,517 0,958 0,947 0,947 0,926 0,926 0,941 0,903 0,903 RMSD 0,549 0,546 0,502 0,131 0,185 0,181 0,210 0,210 0,194 0,250 0,250 MAD 0,456 0,453 0,392 0,071 0,135 0,129 0,152 0,152 0,140 0,190 0,190 BIAS 0,158 0,146 -0,013 -0,015 -0,037 -0,032 0,007 0,007 -0,033 0,040 0,040 PV 0,035 0,043 0,704 0,994 0,759 0,819 0,766 0,766 0,733 0,598 0,598 d2 0,343 0,348 0,713 0,975 0,967 0,969 0,957 0,957 0,963 0,931 0,931

20% r 0,192 0,169 0,470 0,939 0,925 0,932 0,896 0,896 0,929 0,870 0,870 RMSD 0,528 0,529 0,497 0,107 0,199 0,190 0,229 0,229 0,191 0,255 0,255 MAD 0,436 0,438 0,373 0,041 0,148 0,139 0,174 0,174 0,144 0,191 0,191 BIAS 0,154 0,148 -0,052 -0,017 -0,029 -0,032 -0,008 -0,008 -0,017 0,022 0,022 PV 0,045 0,054 0,723 0,907 0,780 0,836 0,725 0,725 0,826 0,748 0,748

Page 173: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

170

d2 0,340 0,344 0,685 0,959 0,956 0,962 0,939 0,939 0,961 0,926 0,926 30% r 0,286 0,273 0,549 0,943 0,922 0,934 0,853 0,853 0,918 0,872 0,872

RMSD 0,540 0,538 0,478 0,065 0,210 0,194 0,293 0,293 0,214 0,265 0,265 MAD 0,437 0,436 0,366 0,016 0,159 0,146 0,217 0,217 0,161 0,202 0,202 BIAS 0,153 0,145 -0,048 -0,004 -0,006 -0,013 -0,004 -0,004 -0,019 0,027 0,027 PV 0,034 0,042 0,702 0,721 0,757 0,816 1,032 1,032 0,802 0,717 0,717 d2 0,354 0,362 0,735 0,966 0,955 0,963 0,922 0,922 0,954 0,925 0,925

40% r 0,303 0,271 0,552 0,944 0,915 0,929 0,758 0,758 0,912 0,748 0,748 RMSD 0,554 0,554 0,482 0,048 0,223 0,204 0,427 0,427 0,226 0,416 0,416 MAD 0,453 0,454 0,370 0,010 0,169 0,154 0,282 0,282 0,163 0,288 0,288 BIAS 0,173 0,169 -0,033 -0,005 -0,010 -0,021 0,002 0,002 -0,027 0,003 0,003 PV 0,028 0,038 0,692 0,656 0,733 0,797 1,407 1,407 0,801 1,255 1,255 d2 0,363 0,371 0,735 0,975 0,950 0,960 0,859 0,859 0,951 0,858 0,858

MNAR

5% r 0,214 0,218 0,393 0,849 0,871 0,889 0,869 0,869 0,909 0,830 0,830 RMSD 0,500 0,497 0,503 0,226 0,240 0,224 0,238 0,238 0,199 0,300 0,300 MAD 0,422 0,418 0,383 0,133 0,162 0,152 0,174 0,174 0,145 0,236 0,236 BIAS 0,195 0,189 0,036 0,031 0,030 0,028 0,031 0,031 0,027 0,141 0,141 PV 0,049 0,062 0,868 0,942 0,985 1,002 0,909 0,909 0,883 0,593 0,593 d2 0,400 0,397 0,647 0,925 0,932 0,942 0,930 0,930 0,951 0,868 0,868

10% r 0,309 0,315 0,421 0,876 0,908 0,915 0,893 0,893 0,935 0,861 0,861 RMSD 0,546 0,539 0,522 0,178 0,219 0,211 0,235 0,235 0,185 0,275 0,275 MAD 0,456 0,448 0,413 0,087 0,150 0,144 0,175 0,175 0,128 0,212 0,212 BIAS 0,226 0,213 0,004 0,035 0,026 0,006 0,016 0,016 0,000 0,068 0,068 PV 0,039 0,052 0,726 0,830 0,870 0,948 0,769 0,769 0,830 0,638 0,638 d2 0,415 0,414 0,654 0,933 0,951 0,956 0,939 0,939 0,964 0,909 0,909

20% r 0,233 0,234 0,424 0,850 0,911 0,916 0,862 0,862 0,926 0,785 0,785 RMSD 0,526 0,524 0,509 0,128 0,208 0,203 0,255 0,255 0,190 0,335 0,335 MAD 0,433 0,431 0,381 0,046 0,152 0,145 0,193 0,193 0,138 0,227 0,227 BIAS 0,195 0,191 -0,038 0,016 0,020 0,007 0,020 0,020 0,013 0,004 0,004 PV 0,044 0,056 0,758 0,728 0,823 0,885 0,705 0,705 0,855 1,060 1,060 d2 0,381 0,382 0,659 0,915 0,951 0,956 0,919 0,919 0,960 0,882 0,882

30% r 0,267 0,263 0,500 0,833 0,904 0,912 0,843 0,843 0,917 0,777 0,777 RMSD 0,546 0,545 0,490 0,100 0,228 0,216 0,289 0,289 0,209 0,351 0,351 MAD 0,444 0,443 0,371 0,029 0,168 0,157 0,213 0,213 0,157 0,251 0,251 BIAS 0,208 0,207 -0,020 0,013 0,043 0,023 -0,002 -0,002 0,020 -0,007 -0,007 PV 0,039 0,052 0,735 0,534 0,784 0,844 0,941 0,941 0,834 1,021 1,021 d2 0,392 0,395 0,707 0,907 0,945 0,952 0,916 0,916 0,955 0,878 0,878

40% r 0,238 0,212 0,508 0,749 0,897 0,909 0,823 0,823 0,909 0,822 0,822 RMSD 0,558 0,562 0,494 0,089 0,238 0,222 0,317 0,317 0,222 0,306 0,306 MAD 0,454 0,457 0,375 0,022 0,179 0,163 0,243 0,243 0,164 0,230 0,230 BIAS 0,211 0,215 -0,009 0,010 0,038 0,020 -0,009 -0,009 0,004 0,042 0,042 PV 0,034 0,050 0,735 0,381 0,773 0,821 1,022 1,022 0,834 0,708 0,708 d2 0,385 0,387 0,711 0,876 0,941 0,950 0,905 0,905 0,951 0,896 0,896

Page 174: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

171

9.16 Apêndice A16: Indicadores de performance para um único padrão de dados faltantes

com a configuração 7 “em coluna”

Ind. MI MD VP MC EM EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

MCAR

5% r 0,214 0,209 0,546 0,910 0,877 0,875 0,852 0,852 0,876 0,414 0,414 RMSD 0,505 0,508 0,511 0,162 0,251 0,251 0,320 0,320 0,251 2,458 2,458 MAD 0,396 0,398 0,386 0,087 0,181 0,177 0,224 0,224 0,177 0,860 0,860 BIAS -0,063 -0,075 -0,025 -0,031 -0,047 -0,036 0,040 0,040 -0,041 0,527 0,527 PV 0,048 0,059 1,170 0,820 0,748 0,741 1,397 1,397 0,780 25,048 25,048 d2 0,322 0,340 0,744 0,946 0,928 0,927 0,913 0,913 0,929 0,276 0,276

10% r 0,303 0,276 0,520 0,925 0,882 0,883 0,759 0,759 0,888 0,782 0,782 RMSD 0,490 0,492 0,507 0,125 0,242 0,239 0,463 0,463 0,236 0,323 0,323 MAD 0,391 0,393 0,389 0,053 0,181 0,175 0,300 0,300 0,173 0,236 0,236 BIAS -0,021 -0,036 -0,015 -0,018 -0,023 -0,010 0,053 0,053 -0,018 0,057 0,057 PV 0,037 0,048 1,060 0,924 0,749 0,802 1,914 1,914 0,824 0,587 0,587 d2 0,313 0,332 0,726 0,953 0,932 0,936 0,839 0,839 0,938 0,861 0,861

20% r 0,224 0,191 0,439 0,833 0,859 0,866 0,724 0,724 0,878 0,323 0,323 RMSD 0,483 0,488 0,530 0,097 0,254 0,249 0,409 0,409 0,238 1,702 1,702 MAD 0,381 0,386 0,404 0,021 0,188 0,181 0,283 0,283 0,175 0,656 0,656 BIAS -0,018 -0,030 0,006 0,000 -0,017 -0,022 0,008 0,008 -0,016 0,131 0,131 PV 0,043 0,057 1,039 1,016 0,749 0,783 1,385 1,385 0,843 13,064 13,064 d2 0,301 0,311 0,675 0,905 0,921 0,925 0,839 0,839 0,934 0,314 0,314

30% r 0,235 0,221 0,446 0,843 0,856 0,871 0,534 0,534 0,871 0,058 0,058 RMSD 0,490 0,492 0,527 0,042 0,260 0,248 0,638 0,638 0,249 3,959 3,959 MAD 0,387 0,388 0,407 0,005 0,195 0,183 0,411 0,411 0,182 1,218 1,218 BIAS -0,027 -0,036 -0,014 -0,001 -0,009 -0,016 -0,064 -0,064 -0,019 0,161 0,161 PV 0,037 0,047 0,984 0,581 0,756 0,792 2,171 2,171 0,854 61,834 61,834 d2 0,282 0,295 0,677 0,917 0,919 0,929 0,693 0,693 0,930 0,088 0,088

40% r 0,203 0,171 0,455 0,834 0,838 0,850 0,616 0,616 0,844 0,280 0,280 RMSD 0,489 0,493 0,522 0,020 0,273 0,264 0,523 0,523 0,270 1,267 1,267 MAD 0,389 0,392 0,401 0,002 0,206 0,192 0,370 0,370 0,200 0,611 0,611 BIAS -0,010 -0,010 -0,025 0,000 -0,007 -0,016 -0,030 -0,030 -0,013 0,100 0,100 PV 0,041 0,056 1,002 0,490 0,773 0,788 1,697 1,697 0,819 6,863 6,863 d2 0,271 0,301 0,684 0,906 0,911 0,917 0,766 0,766 0,915 0,381 0,381

MAR

5% r 0,169 0,166 0,433 0,900 0,895 0,897 0,888 0,888 0,902 0,856 0,856 RMSD 0,545 0,544 0,548 0,224 0,243 0,241 0,255 0,255 0,240 0,308 0,308 MAD 0,438 0,439 0,412 0,132 0,168 0,177 0,200 0,200 0,176 0,242 0,242 BIAS 0,099 0,090 -0,109 0,029 0,009 0,008 0,020 0,020 -0,017 0,104 0,104 PV 0,035 0,046 0,702 1,001 0,839 0,769 0,657 0,657 0,670 0,527 0,527 d2 0,267 0,292 0,665 0,946 0,943 0,942 0,930 0,930 0,938 0,888 0,888

10% r 0,208 0,192 0,519 0,911 0,903 0,918 0,901 0,901 0,911 0,851 0,851 RMSD 0,560 0,561 0,514 0,190 0,238 0,221 0,251 0,251 0,231 0,304 0,304 MAD 0,461 0,461 0,387 0,096 0,177 0,165 0,195 0,195 0,176 0,229 0,229 BIAS 0,145 0,140 -0,092 0,021 0,003 0,005 0,030 0,030 -0,008 0,078 0,078 PV 0,031 0,042 0,712 1,122 0,758 0,768 0,610 0,610 0,709 0,594 0,594 d2 0,304 0,315 0,716 0,950 0,945 0,953 0,932 0,932 0,947 0,898 0,898

20% r 0,304 0,275 0,393 0,919 0,907 0,920 0,880 0,880 0,925 0,623 0,623 RMSD 0,528 0,528 0,545 0,105 0,226 0,210 0,258 0,258 0,203 0,584 0,584 MAD 0,426 0,426 0,403 0,035 0,169 0,156 0,195 0,195 0,153 0,323 0,323 BIAS 0,123 0,115 -0,061 0,000 -0,003 -0,012 0,017 0,017 0,000 0,064 0,064 PV 0,032 0,042 0,669 0,912 0,794 0,843 0,638 0,638 0,841 1,898 1,898

Page 175: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

172

d2 0,327 0,339 0,632 0,956 0,948 0,956 0,924 0,924 0,959 0,748 0,748 30% r 0,230 0,206 0,425 0,884 0,911 0,926 0,868 0,868 0,932 0,406 0,406

RMSD 0,538 0,539 0,533 0,091 0,220 0,200 0,267 0,267 0,193 1,047 1,047 MAD 0,436 0,438 0,397 0,026 0,165 0,149 0,201 0,201 0,147 0,500 0,500 BIAS 0,152 0,145 -0,038 -0,007 0,005 -0,007 0,033 0,033 -0,003 0,161 0,161 PV 0,035 0,045 0,737 0,664 0,770 0,832 0,650 0,650 0,866 4,543 4,543 d2 0,336 0,342 0,653 0,942 0,949 0,960 0,918 0,918 0,964 0,517 0,517

40% r 0,298 0,295 0,461 0,921 0,907 0,923 0,860 0,860 0,928 0,567 0,567 RMSD 0,544 0,542 0,530 0,059 0,230 0,211 0,287 0,287 0,204 0,708 0,708 MAD 0,443 0,442 0,398 0,014 0,176 0,161 0,217 0,217 0,154 0,440 0,440 BIAS 0,137 0,134 -0,080 -0,008 0,003 -0,002 0,038 0,038 0,002 0,137 0,137 PV 0,028 0,037 0,673 0,510 0,797 0,828 0,576 0,576 0,845 2,357 2,357 d2 0,329 0,350 0,673 0,962 0,949 0,958 0,906 0,906 0,961 0,696 0,696

MNAR

5% r 0,135 0,140 0,457 0,906 0,914 0,918 0,911 0,911 0,938 0,871 0,871 RMSD 0,582 0,582 0,606 0,228 0,235 0,230 0,242 0,242 0,206 0,300 0,300 MAD 0,487 0,489 0,458 0,140 0,162 0,170 0,195 0,195 0,149 0,245 0,245 BIAS 0,097 0,094 -0,268 0,003 0,008 -0,014 -0,020 -0,020 -0,008 0,063 0,063 PV 0,031 0,039 0,582 0,919 0,904 0,868 0,738 0,738 0,735 0,554 0,554 d2 0,258 0,279 0,646 0,951 0,955 0,957 0,948 0,948 0,962 0,908 0,908

10% r 0,203 0,210 0,493 0,915 0,915 0,927 0,889 0,889 0,932 0,860 0,860 RMSD 0,565 0,564 0,534 0,192 0,222 0,205 0,253 0,253 0,201 0,304 0,304 MAD 0,470 0,469 0,404 0,115 0,164 0,154 0,206 0,206 0,158 0,239 0,239 BIAS 0,184 0,184 -0,119 0,013 0,032 0,019 0,021 0,021 0,025 0,109 0,109 PV 0,025 0,034 0,791 0,906 0,838 0,870 0,674 0,674 0,782 0,578 0,578 d2 0,351 0,356 0,699 0,957 0,953 0,961 0,932 0,932 0,961 0,896 0,896

20% r 0,314 0,323 0,402 0,954 0,925 0,928 0,868 0,868 0,930 0,738 0,738 RMSD 0,569 0,565 0,566 0,088 0,216 0,211 0,286 0,286 0,208 0,424 0,424 MAD 0,468 0,463 0,431 0,033 0,161 0,157 0,218 0,218 0,152 0,289 0,289 BIAS 0,164 0,159 -0,088 0,000 0,013 -0,009 0,018 0,018 0,004 0,034 0,034 PV 0,024 0,032 0,602 0,774 0,798 0,849 0,612 0,612 0,819 1,121 1,121 d2 0,354 0,358 0,634 0,973 0,958 0,961 0,915 0,915 0,962 0,851 0,851

30% r 0,224 0,226 0,393 0,914 0,915 0,924 0,856 0,856 0,926 0,822 0,822 RMSD 0,543 0,542 0,545 0,076 0,215 0,202 0,275 0,275 0,200 0,306 0,306 MAD 0,441 0,439 0,412 0,022 0,164 0,151 0,212 0,212 0,147 0,231 0,231 BIAS 0,173 0,170 -0,058 0,005 0,030 0,005 0,025 0,025 0,009 0,055 0,055 PV 0,032 0,043 0,721 0,716 0,784 0,845 0,659 0,659 0,843 0,730 0,730 d2 0,351 0,355 0,632 0,953 0,952 0,959 0,912 0,912 0,960 0,896 0,896

40% r 0,235 0,236 0,441 0,880 0,905 0,916 0,798 0,798 0,923 0,476 0,476 RMSD 0,548 0,547 0,533 0,051 0,232 0,216 0,339 0,339 0,208 0,844 0,844 MAD 0,447 0,447 0,403 0,010 0,178 0,164 0,256 0,256 0,155 0,421 0,421 BIAS 0,152 0,152 -0,086 0,003 0,028 0,007 0,000 0,000 0,004 0,029 0,029 PV 0,030 0,042 0,666 0,422 0,786 0,834 0,943 0,943 0,837 3,118 3,118 d2 0,333 0,348 0,660 0,931 0,946 0,955 0,890 0,890 0,958 0,602 0,602

Page 176: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

173

9.17 Apêndice A17: Coeficiente e erro-padrão dos modelos de associação com penalização

sob MCAR

% Penali- zação

Estatística EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

β 0,004311 0,004308 0,004333 0,004296 0,004297 0,004320 não

EP(β) 0,001059 0,001056 0,001058 0,001058 0,001053 0,001058 β 0,004320 0,004314 0,004342 0,004306 0,004303 0,004329

5% sim

EP(β) 0,001069 0,001068 0,001069 0,001069 0,001064 0,001069 β 0,004353 0,004268 0,004372 0,004360 0,004360 0,004388

não EP(β) 0,001054 0,001052 0,001052 0,001057 0,001057 0,001055 β 0,004311 0,004228 0,004329 0,004318 0,004316 0,004345

10% sim

EP(β) 0,001081 0,001079 0,001079 0,001084 0,001084 0,001081 β 0,004337 0,004178 0,004369 0,004330 0,004237 0,004400

não EP(β) 0,001055 0,001045 0,001048 0,001054 0,001048 0,001044 β 0,004279 0,004125 0,004310 0,004277 0,004182 0,004341

20% sim

EP(β) 0,001112 0,001102 0,001105 0,001111 0,001105 0,001100 β 0,004259 0,004161 0,004392 0,004421 0,004251 0,004593

não EP(β) 0,001047 0,001037 0,001045 0,001057 0,001048 0,001050 β 0,004164 0,004061 0,004287 0,004322 0,004138 0,004480

30% sim

EP(β) 0,001140 0,001130 0,001137 0,001150 0,001140 0,001142 β 0,004479 0,004558 0,004571 0,004673 0,004546 0,004697

não EP(β) 0,001061 0,001042 0,001055 0,001052 0,001011 0,001060 β 0,004474 0,004522 0,004553 0,004672 0,004512 0,004674

40% sim

EP(β) 0,001187 0,001168 0,001180 0,001177 0,001134 0,001186

Page 177: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

174

9.18 Apêndice A18: Coeficiente e erro-padrão dos modelos de associação com penalização

sob MNAR

% Penali- zação

Estatística EM Spline

EM ARIMA

EM MAG

EM-MR Spline

EM-MR ARIMA

EM-MR MAG

5% não β 0,004322 0,004265 0,004325 0,004291 0,004263 0,004303 EP(β) 0,001059 0,001057 0,001059 0,001059 0,001053 0,001059 sim β 0,004317 0,004263 0,004321 0,004288 0,004262 0,004299 EP(β) 0,001065 0,001062 0,001064 0,001064 0,001059 0,001064

10% não β 0,004314 0,004196 0,004303 0,004315 0,004222 0,004307 EP(β) 0,001055 0,001054 0,001055 0,001058 0,001059 0,001056 sim β 0,004356 0,004245 0,004346 0,004359 0,004270 0,004350 EP(β) 0,001072 0,001070 0,001071 0,001074 0,001076 0,001072

20% não β 0,004347 0,004167 0,004308 0,004385 0,004196 0,004343 EP(β) 0,001049 0,001047 0,001047 0,001049 0,001046 0,001043 sim β 0,004376 0,004214 0,004338 0,004415 0,004242 0,004373 EP(β) 0,001082 0,001081 0,001080 0,001083 0,001080 0,001076

30% não β 0,004289 0,004029 0,004315 0,004400 0,004201 0,004425 EP(β) 0,001052 0,001043 0,001052 0,001053 0,001049 0,001052 sim β 0,004314 0,004081 0,004331 0,004418 0,004239 0,004431 EP(β) 0,001104 0,001096 0,001103 0,001104 0,001101 0,001102

40% não β 0,004300 0,003877 0,004352 0,004449 0,003966 0,004498 EP(β) 0,001056 0,001027 0,001056 0,001059 0,001011 0,001059 sim β 0,004368 0,003989 0,004407 0,004511 0,004073 0,004543 EP(β) 0,001121 0,001097 0,001120 0,001125 0,001083 0,001123

Page 178: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

175

9.19 Apêndice A19: Script com exemplo de análise usando a biblioteca ares (artigo 3)

# analise para a tese usando ares library(ares) setwd("D:\\Usuarios\\Washingt\\Pesquisas\\Doutorado \\tese\\artigo_ares_r") data <- import.data("aihrio8a.csv") setup(data,"Date",date.format="%d/%m/%Y") desc.data() desc.vars(c("resp5","PM10","SO2","CO","NO2","O3"),d igits=2) par(mfrow=c(2,1)) plot.event(resp5,df=0,new=FALSE) plot.pollutant(PM10,df=0,new=FALSE) zumbi <- gen.holidays(doe,"zumbi","20/11") sebastiao <- gen.holidays(doe,"sebastiao","20/01") f <- resp5~ns(time,12)+weekdays+christmas+newyear+p assion+ easter+corpus+tiradentes+trabalho+independencia+ap arecida+ finados+republica+zumbi+sebastiao+long_weekends mod <- fit.core(f) diagnostics(mod) f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends mod <- fit.core(f) diagnostics(mod) explore.temp(mod,tmpmax,df=5) f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8) mod <- fit.core(f) diagnostics(mod) explore.humid(mod,wet,df=5) f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8)+ns(l(wet,2),4) mod <- fit.core(f) diagnostics(mod) f <- resp5~ns(time,12)+weekdays+christmas+trabalho+ independencia+aparecida+finados+republica+sebastia o+ long_weekends+ns(l(tmpmax,2),8)+ns(l(wet,2),4)+rai n mod <- fit.core(f) diagnostics(mod) # estimando os efeitos dos poluentes r1 <- estimate.risks(mod,c("PM10","SO2","CO","NO2", "O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="si mplelag", lag.struc=list(l=0:10,ma=1:5),unit=c(10,10,1,10,1 0)) r2 <- estimate.risks(mod,c("PM10","SO2","CO","NO2", "O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="pd lm", pdlm.struc=list(l=10,deg=2),unit=rep(10,5)) cor(cbind.data.frame(PM10,SO2,CO,NO2,O3),use="pairw ise.complete.obs") r3 <- estimate.risks(mod,c("PM10","SO2","CO","O3"), labels=c("PM10","SO2","CO","O3"),method="dual", lag.struc=list(l=0:2,ma=1:5)) # análise de iteração manual r4 <- estimate.risks(mod,c("PM10","SO2","CO","NO2", "O3"), labels=c("PM10","SO2","CO","NO2","O3"),method="si mplelag", lag.struc=list(l=0:2,ma=1:5),modifier=warm_season ,unit=c(10,10,1,10,10))

Page 179: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

176

9.20 Apêndice A20: CD-ROM com o código fonte e arquivos binários das bibliotecas mtsdi

(artigo 3) e ares (artigo 4)

Page 180: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

Livros Grátis( http://www.livrosgratis.com.br )

Milhares de Livros para Download: Baixar livros de AdministraçãoBaixar livros de AgronomiaBaixar livros de ArquiteturaBaixar livros de ArtesBaixar livros de AstronomiaBaixar livros de Biologia GeralBaixar livros de Ciência da ComputaçãoBaixar livros de Ciência da InformaçãoBaixar livros de Ciência PolíticaBaixar livros de Ciências da SaúdeBaixar livros de ComunicaçãoBaixar livros do Conselho Nacional de Educação - CNEBaixar livros de Defesa civilBaixar livros de DireitoBaixar livros de Direitos humanosBaixar livros de EconomiaBaixar livros de Economia DomésticaBaixar livros de EducaçãoBaixar livros de Educação - TrânsitoBaixar livros de Educação FísicaBaixar livros de Engenharia AeroespacialBaixar livros de FarmáciaBaixar livros de FilosofiaBaixar livros de FísicaBaixar livros de GeociênciasBaixar livros de GeografiaBaixar livros de HistóriaBaixar livros de Línguas

Page 181: UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO INSTITUTO DE …livros01.livrosgratis.com.br/cp111341.pdf · 2016-01-25 · ESTUDOS DE SÉRIES TEMPORAIS EPIDEMIOLÓGICAS Washington Leite

Baixar livros de LiteraturaBaixar livros de Literatura de CordelBaixar livros de Literatura InfantilBaixar livros de MatemáticaBaixar livros de MedicinaBaixar livros de Medicina VeterináriaBaixar livros de Meio AmbienteBaixar livros de MeteorologiaBaixar Monografias e TCCBaixar livros MultidisciplinarBaixar livros de MúsicaBaixar livros de PsicologiaBaixar livros de QuímicaBaixar livros de Saúde ColetivaBaixar livros de Serviço SocialBaixar livros de SociologiaBaixar livros de TeologiaBaixar livros de TrabalhoBaixar livros de Turismo