Post on 23-Dec-2016
Modelos dinamicos Bayesianos para dados
de painel usando distancias economicas
Larissa de Carvalho Alves
Universidade Federal do Rio de Janeiro
Instituto de Matematica
Departamento de Metodos Estatsticos
2010
Modelos dinamicos Bayesianos para dadosde painel usando distancias economicas
Larissa de Carvalho Alves
Dissertacao submetida ao Corpo Docente do Instituto de Matematica - Departamento
de Metodos Estatsticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte
dos requisitos necessarios a obtencao do grau de Mestre em Estatstica.
Aprovada por:
Prof. Helio S. Migon.
PhD - UFRJ - Orientador.
Esther Salazar.
D.Sc. - SAMSI - Co-orientadora.
Prof. Alexandra M. Schmidt
PhD - UFRJ.
Prof. Juliano J. Assuncao
D.Sc. - Puc-Rio.
Rio de Janeiro, RJ - Brasil
2010
ii
FICHA CATALOGRAFICA
Alves, Larissa de Carvalho.
Modelos dinamicos Bayesianos para dados de painel usando distancias economicas
Larissa de Carvalho Alves.
Rio de Janeiro: UFRJ, IM, DME, 2010.
Dissertacao - Universidade Federal do Rio de Janeiro, IM, DME.
1. Introducao. 2. Distancias Economicas.
3. Modelos Espaco Temporais com Distancias Economicas.
4. Aplicacoes.
5. Conclusoes e Trabalhos Futuros.
(Mestrado-UFRJ/IM/DME) I. Migon, Helio S.
II. Universidade Federal do Rio de Janeiro III. Ttulo.
iii
A Deus, autor e consumador da minha fe.
A minha famlia.
A minha avo Georgeta. (in memorian)
iv
Eu te agradeco, Deus
Por se lembrar de mim, e pelo teu favor
E o que me faz crescer;
Eu vivo pela fe, e nao vacilo;
Eu nao paro, eu nao desisto,
Eu sou de Deus, eu sou de Cristo.
Voce mudou a minha historia
E fez o que ninguem podia imaginar
Voce acreditou e isso e tudo
So vivo pra voce Nao sou do mundo, nao.
A honra, a gloria, a forca
O louvor a Deus
E o levantar das minhas maos
E pra dizer que te pertenco, Deus.
(. . .)
Eu te agradeco, Deus
Que no deserto nao me deixou morrer
E nem desanimar
E como aquela mae, que nao desiste
voce nao se esqueceu, voce insiste...
Voce mudou a minha historia
E fez o que ninguem podia imaginar
Voce acreditou e isso e tudo
So vivo pra voce Nao sou do mundo, nao.
A honra, a gloria, a forca
O louvor a Deus
E o levantar das minhas maos
E pra dizer que te pertenco, Deus.
Eu te Agradeco, Kleber Lucas.
v
Agradecimentos
Primeiramente, agradeco a Deus por sua imensa misericordia e graca, pelo socorro
bem presente nas tribulacoes.
A minha famlia, a base de tudo. Aos meus pais, pelo amor incondicional, dedicacao
e oracoes. Pelo financiamento dos meus estudos e por sempre acreditarem que eu era
capaz. A minha irma, pela amizade, pelos conselhos e por tantas duvidas tiradas.
Apesar de neste momento estar tao longe, foi uma irma e tanto quando se trata das
noites viradas para estudar e do compartilhamento do computador. As minhas tias, tios,
primas e primos pela forca passada mesmo por telefone e por sempre torcerem pelo meu
sucesso. A minha avo Georgeta (in memorian), que apesar de ter partido ano passado e
estar deixando enormes saudades, tal acontecimento tem me dado forcas para prosseguir.
Obrigada vo por ter cedido parte da sua vida para cuidar de mim, por ter deixado todos
os filhos em Salvador e vindo para o Rio por mim e pela minha irma, serei eternamente
grata a senhora.
Ao Cesar pelo amor, compreensao e amizade. Por me apoiar em cada decisao tomada
e por me fazer a cada dia mais feliz.
Aos meus amigos e companheiros do DME que compartilharam comigo experiencias,
momentos de dificuldade e de alegria e fizeram esta caminhada menos sofrida e mais
divertida. Em especial, agradeco a minha turma Joao, Kelly, Nassif, Targino e Thiago
voces sao a turma que qualquer um gostaria de fazer parte, muito obrigada, voces sao
muito especiais. Em mais que especial, a Panela (Camilinha, Joao e Kelly) que unida
jamais sera vencida, que crise mundial nao afeta, nem uma marolinha, rs. Nao tenho
nem palavras para dizer o quanto voces foram e serao especiais em todos os momentos.
vi
Aos meus velhos amigos capianos por quase sempre compreenderem minha ausencia
nos eventos, aniversarios, Cha das 5, despedidas e recepcoes. Voces sao inesquecveis.
Aos meus velhos amigos de graduacao por passarem comigo uma importante fase da
minha vida e marcarem cada uma delas de forma especial. Aos meus irmaos em Cristo,
Geisa, Romario, Ana Paula e Fernando, pelas oracoes e conselhos.
A todos os meus professores de graduacao que me passaram com grande sabedoria seus
conhecimentos matematicos. Em particular, obrigada Rubinho, Jair, Monica, Luziane e
Ivo. A todos os professores do programa de pos-graduacao do DME-UFRJ, pelo valioso
conhecimento transmitido, pelas maravilhosas aulas e toda a disponibilidade para ajudar.
Em especial, a Alexandra pelos conselhos e ajuda nos momentos de dificuldade.
Ao meu orientador, professor Helio Migon, pela experiencia passada e pela ajuda no
desenvolvimento deste trabalho.
A minha co-orientadora Esther Salazar, por toda a experiencia computacional que
hoje possuo, pela paciencia infinita ao longo deste ano, pelas muitas horas de dedicacao,
pela ajuda e organizacao na resposta aos e-mails depois da sua viagem.
Por fim, agradeco aos professores Alexandra Schmidt e Juliano Assuncao por
aceitarem participar da banca, ao Conley, por fonecer os dados de uma das aplicacoes
deste trabalho e a Capes por ter financiado este estudo.
vii
Resumo
Neste trabalho apresentamos um modelo econometrico espaco-temporal para dados
de painel, onde os elementos correspondem a agentes economicos. A dependencia espacial
entre agentes e caracterizada por funcoes de distancias economicas que sao incorporadas
tanto na estrutura de media como na estrutura de covariancia do modelo.
Partimos de modelos de regressao simples e motivamos a utilizacao de modelos
econometricos espaciais, distancias entre agentes e adicionalmente, para acomodar
possveis outliers, introduzimos um modelo de regressao t-Student. Temos como objetivo
incorporar relacoes entre setores da economia que sao dadas por suas similaridades e alem
disso fazer a estimacao dos modelos lancando mao de uma abordagem completamente
Bayesiana. Vamos utilizar o modelo proposto e suas variacoes, para modelar dois
conjuntos de dados. Na primeira aplicacao estudamos a producao mensal dos movimentos
comuns entre vinte setores industriais dos EUA. A segunda aplicacao refere-se a setores
da economia brasileira, na qual as observacoes sao dadas por ndices de crescimento do
Produto Interno Bruto.
Palavras-chave: Econometria espacial; Distancias economicas; Inferencia bayesiana;
Modelos dinamicos; Metodos MCMC
viii
Abstract
In this work we present an econometric spatio-temporal models for panel data, where
the elements correspond to economic agents. The spatial dependence between agents
is characterized by functions of economic distances that are incorporated into both the
mean structure as the covariance structure of the model.
We start with a simple regression model and motivate the use of spatial econometric
models, distances between agents and, additionally, we introduce a Student-t model
to accommodate possible outliers. Our goal is to incorporate relationships between
economic sectors that are given by their similarities and also to estimate the models using
a fully Bayesian approach. We use the proposed model and its variations, to analyze two
datasets. In the first application, we study the monthly production of twenty industries
in the U.S.. The second application refers to sectors of the Brazilian economy where the
observations are growth rates of Gross Domestic Product.
Keywords: Spacial econometrics; Economic distances; Bayesian inference; Dynamic
models; MCMC methods
ix
Sumario
1 Introducao 2
1.1 Modelos Dinamicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Modelos Espaciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Modelos Espaco-Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Selecao de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Organizacao da Dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Distancias Economicas 11
2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Construcao de Distancias Economicas . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Aplicacao a matrizes de insumo-produto norte-americanas . . . . 14
2.2.2 Aplicacao a matrizes brasileiras de insumo-produto . . . . . . . . 24
3 Modelos Espaco-Temporais com Distancias Economicas 31
3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Modelo Proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Especificacoes para G(Dt) e (Dt) . . . . . . . . . . . . . . . . . 35
3.2.2 Nao separabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2.3 Acomodacao de outliers . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.4 Funcao de verossimilhanca . . . . . . . . . . . . . . . . . . . . . . 41
3.3 Procedimento de Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Modelando Series Temporais Nao Estacionarias . . . . . . . . . . . . . . 43
3.5 Estudo Numerico Baseado em Dados Artificiais Normais . . . . . . . . . 47
x
3.5.1 Variancia explicada . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5.2 Algoritmo para o calculo da variancia de zt e t . . . . . . . . . . 51
3.5.3 Resultados da variancia explicada . . . . . . . . . . . . . . . . . . 52
3.5.4 Comparacao entre modelos . . . . . . . . . . . . . . . . . . . . . . 54
3.5.5 Resultados a posteriori . . . . . . . . . . . . . . . . . . . . . . . . 55
3.6 Estudo Numerico Baseado em Dados Artificiais t-Student . . . . . . . . . 60
3.6.1 Regressao t-Student . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.6.2 Contaminacao dos dados . . . . . . . . . . . . . . . . . . . . . . . 64
4 Aplicacoes 67
4.1 Atividades da Economia Norte-Americana . . . . . . . . . . . . . . . . . 68
4.1.1 Analise descritiva dos dados . . . . . . . . . . . . . . . . . . . . . 68
4.1.2 Modelos propostos . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1.3 Principais resultados . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Setores da Economia Brasileira . . . . . . . . . . . . . . . . . . . . . . . 85
4.2.1 Analise descritiva dos dados . . . . . . . . . . . . . . . . . . . . . 85
4.2.2 Modelos propostos . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.3 Principais resultados . . . . . . . . . . . . . . . . . . . . . . . . . 94
5 Conclusoes e Trabalhos Futuros 101
A Metodos de Simulacao Estocastica 104
A.1 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . . . . . 104
A.2 Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.3 Filtro de Kalman e FFBS . . . . . . . . . . . . . . . . . . . . . . . . . . 106
A.4 Distribuicoes condicionais completas . . . . . . . . . . . . . . . . . . . . 107
B Cadeias dos Parametros a Posteriori 110
B.1 Para Aplicacao dos Dados Norte-Americanos . . . . . . . . . . . . . . . . 110
B.2 Para Aplicacao dos Dados Brasileiros . . . . . . . . . . . . . . . . . . . . 113
xi
Lista de Tabelas
2.1 Setores norte-americanos manufaturados indexados por dois dgitos do
codigo SIC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Atividades da economia brasileira . . . . . . . . . . . . . . . . . . . . . . 26
3.1 Probabilidade de 6= 1 a posteriori para diferentes valores de . . . . . . 45
3.2 Probabilidade de i 6= 1 a posteriori para diferentes setores . . . . . . . . 46
3.3 Comparacao de modelos pelo EMQ e EMA . . . . . . . . . . . . . . . . . 55
3.4 Estatsticas dos valores das amostras de , 2, 2, e . . . . . . . . . . 60
3.5 Estatsticas das amostras dos parametros para diferentes prioris para . 62
3.6 Estatsticas das amostras dos parametros para diferentes prioris para . 62
3.7 Estatsticas das amostras dos parametros para diferentes prioris para . 62
4.1 Analise exploratoria dos dados transformados . . . . . . . . . . . . . . . 72
4.2 Criterios de comparacao de modelos . . . . . . . . . . . . . . . . . . . . . 76
4.3 Estatsticas dos valores das amostras dos parametros. . . . . . . . . . . . 80
4.4 Analise exploratoria dos dados tranformados . . . . . . . . . . . . . . . . 88
4.5 Criterios de comparacao dos modelos simples . . . . . . . . . . . . . . . . 90
4.6 Criterios de comparacao dos modelos intermediarios . . . . . . . . . . . . 93
4.7 Criterios de comparacao de modelos completos . . . . . . . . . . . . . . . 95
4.8 Estatsticas dos valores das amostras dos parametros para os modelos 1 e 2 96
xii
Lista de Figuras
1.1 Ciclo de inferencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 Grafico CMDS das distancias economicas do insumo entre setores norte-
americanos, para o ano de 1987. . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Grafico CMDS das distancias economicas do produto entre setores norte-
americanos, para o ano de 1987. . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Imagem e representacao CMDS dos setores norte-americanos relativo as
distancias economicas sob a otica do produto, ao longo dos anos. . . . . . 20
2.4 Imagem e representacao CMDS dos setores norte-americanos relativo as
distancias economicas sob a otica do insumo, ao longo dos anos. . . . . . 21
2.5 Imagem das distancias economicas de insumo entre setores norte-
americanos interpoladas por spline cubico. . . . . . . . . . . . . . . . . . 23
2.6 Imagem das distancias economicas de produto entre setores norte-
americanos interpoladas por spline cubico. . . . . . . . . . . . . . . . . . 24
2.7 Imagem das distancias economicas de produto entre setores brasileiros ao
longo dos anos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.8 Imagem das distancias economicas de insumo entre setores brasileiros ao
longo dos anos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.9 Imagem das distancias economicas de produto entre setores brasileiros
interpoladas por spline cubico. . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1 Relacao graus de liberdade e curtose . . . . . . . . . . . . . . . . . . . . . 40
3.2 Plot das posicoes dos 20 agentes . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Matriz de pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
xiii
3.4 Serie dos agentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Porcentagem da variancia explicada para os agentes 2, 10 e 15 ao longo
do tempo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.6 Porcentagem da variancia explicada para os tempos 50 e 100 ao longo dos
locais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.7 Tracos das cadeias a posteriori dos parametros. . . . . . . . . . . . . . . 58
3.8 Serie dos agentes 9 e 15 e seus intervalos de credibilidade. . . . . . . . . 59
3.9 Verificacao de Outliers. (Acima) Serie temporal do agente 3. (Abaixo)
Box-plots das amostras a posteriori de 13t (t = 1, . . . , 100). . . . . . . . . 63
3.10 Series dos agentes contaminados . . . . . . . . . . . . . . . . . . . . . . . 64
3.11 Verificacao de Outliers. (Acima) Serie temporal do agente 5. (Abaixo)
Box-plots das amostras a posteriori de 15t (t = 1, . . . , 100). . . . . . . . . 65
3.12 Verificacao de Outliers. (Acima) Serie temporal do agente 12. (Abaixo)
Box-plots das amostras a posteriori de 112t (t = 1, . . . , 100). . . . . . . . . 66
4.1 Series temporais dos ndices mensais de crescimento da producao
industrial de seis setores. . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Series temporais das taxas mensais de crescimento da producao industrial
de seis setores - series tranformadas e padronizadas. . . . . . . . . . . . . 70
4.3 Serie de zt para os SIC22 e SIC37 com seu intervalo de credibilidade de
95% modelado pela classe t-Student. . . . . . . . . . . . . . . . . . . . . . 78
4.4 Serie de zt para os SIC22 e SIC37 com seu intervalo de credibilidade de
95% modelado pela classe Normal. . . . . . . . . . . . . . . . . . . . . . . 79
4.5 Comparacao das series temporais yt e zt correspondentes aos agentes 3
-SIC22- (Acima) e 18 -SIC37- (Abaixo), considerando o modelo normal
(iii). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.6 (Acima) Comparacao das series temporais de yt e zt correspondente
ao agente 3 -SIC22- considerando o modelo t-Student (ii). (Abaixo)
Verificacao de outliers: box-plots das amostras a posteriori de 13t . . . . . 83
xiv
4.7 (Acima) Comparacao das series temporais de yt e zt correspondente
ao agente 18 -SIC37- considerando o modelo t-Student (ii). (Abaixo)
Verificacao de outliers: box-plots das amostras a posteriori de 118t. . . . . 84
4.8 Series temporais do crescimento dos ndices trimestrais do PIB de seis
setores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.9 Series temporais das taxas trimestrais de crescimento do PIB de seis
setores - series tranformadas e padronizadas. . . . . . . . . . . . . . . . . 87
4.10 Porcentagem da variancia explicada pelo latente e pelo erro considerando
o setor 04 para o modelo t-Student simples. . . . . . . . . . . . . . . . . . 91
4.11 Porcentagem da variancia explicada pelo latente e pelo erro considerando
o setor 09 para o modelo t-Student simples. . . . . . . . . . . . . . . . . . 91
4.12 (Acima) Comparacao das series temporais de yt e zt correspondente ao
setor 4 considerando o modelo 1. (Abaixo) Verificacao de outliers: box-
plots das amostras a posteriori de 14t . . . . . . . . . . . . . . . . . . . . 97
4.13 (Acima) Comparacao das series temporais de yt e zt correspondente ao
setor 4 considerando o modelo 2. (Abaixo) Verificacao de outliers: box-
plots das amostras a posteriori de 14t . . . . . . . . . . . . . . . . . . . . 98
4.14 (Acima) Comparacao das series temporais de yt e zt correspondente ao
setor 9 considerando o modelo 1. (Abaixo) Verificacao de outliers: box-
plots das amostras a posteriori de 19t . . . . . . . . . . . . . . . . . . . . 99
4.15 (Acima) Comparacao das series temporais de yt e zt correspondente ao
setor 9 considerando o modelo 2. (Abaixo) Verificacao de outliers: box-
plots das amostras a posteriori de 19t . . . . . . . . . . . . . . . . . . . . 100
xv
Captulo 1
Introducao
Econometria espacial e uma area de estudo, ramo da econometria, que lida com
interacoes de estruturas espaciais em modelos de regressao linear com dados transversais
e de painel. Por painel entende-se observacoes repetidas no tempo para um numero fixo
de agentes. Ultimamente, estudos sobre a econometria espacial tem crescido muito, uma
vez que sao consideradas relacoes entre agentes. Essas relacoes sao descritas por medidas
observaveis de distancias economicas, por exemplo quando consideramos firmas ou setores
da economia como unidades observacionais e a distancia entre agentes como o volume
de comercio exterior. Anselin (1988) afirma que antigamente modelos que incorporavam
o espaco eram especializados em poucas e especficas areas, porem a ideia de interacao
espacial vem crescendo rapidamente tanto do ponto de vista aplicado como teorico.
O preco da venda de casas em um determinado local, por exemplo, pode ser
influenciada por externalidades espaciais. Nesse caso as covariaveis do modelo
explicariam o preco de cada casa a partir das suas caractersticas e a dependencia espacial
ocorreria pois, precos de casas vizinhas, ou ate mesmo sua localizacao, influenciariam o
valor da casa a ser vendida. Variaveis nao observaveis ainda podem ser consideradas,
como a urbanizacao e o desenvolvimento de uma determinada cidade, que levariam ao
aumento dos precos das casas nessa regiao e em regioes proximas. Para mais exemplos
ver LeSage e Pace (1991), Conley e Dupor (2003) e Conley e Topa (2002).
O desenvolvimento de metodos na literatura econometrica para especificar, estimar
e testar modelos que incorporam interacoes espaciais motivam ainda mais estudos nessa
1
area. Neste sentido Chen e Conley (2001) propoem um modelo semiparametrico para
dados de painel incorporando distancias economicas na sua estrutura. Por outro lado,
Conley e Dupor (2003) definem distancias economicas para esse tipo de modelagem. Eles
constroem diferentes medidas a partir da relacao de insumo e produto entre diferentes
setores, utilizando tabelas de insumo produto, onde os elementos (i, j) sao os valores das
mercadorias do setor i utilizadas no setor j.
O presente trabalho propoe um modelo econometrico baseado em um modelo dinamico
espacial para lidar com esse tipo de problema, cujos elementos correspondem a agentes
economicos. Partimos de modelos de regressao simples e motivamos a utilizacao de
modelos econometricos espaciais e distancias economicas entre agentes, onde estas
ultimas tem influencia tanto na estrutura de medias como na estrutura de covariancia.
Adicionalmente, para acomodar a presenca de possveis outliers, um modelo de regressao
t-Student e apresentado. Os modelos propostos podem ser vistos com uma extensao do
modelo apresentado em Chen e Conley (2001).
Uma forma simples de obter matrizes de distancias economicas e associa-las a matrizes
de distancias Euclidianas onde, quanto maior a medida Euclidiana entre dois agentes
menor e o peso relacionado. Nos baseamos nas metricas propostas por Conley e Dupor
(2003), que sao funcoes de distancias Euclidianas, para a construcao das distancias
economicas. Diversas interpretacoes para as metricas economicas podem ser sugeridas
dependendo do agente considerado. Por exemplo, se os agentes correspondem a setores,
pode-se dizer que os agentes estao proximos se usam insumos nas mesmas proporcoes
e longe se utilizam insumos em proporcoes diferentes. Se os agentes correspondem a
empresas, as medidas de sobreposicao em seus mercados podem ser medidas de distancias
economicas.
Dois conjuntos de dados sao modelados utilizando os modelos propostos. Na primeira
aplicacao os agentes correspondem a vinte setores industriais norte-americanos, as
distancias economicas sao baseadas em tabelas de insumo-produto e as observacoes sao
dadas pelo ndice de crescimento da producao industrial mensal entre os agentes. A
segunda aplicacao refere-se a doze setores da economia brasileira, na qual as observacoes
sao dadas por ndices de crescimento do Produto Interno Bruto (PIB) e as distancias
2
economicas sao construdas segundo tabelas do Instituto Brasileiro de Geografia e
Estatstica (IBGE).
E de suma importancia introduzir a estrutura e a ideia geral de tres tipos de
modelagens: modelos dinamicos, modelos espaciais e modelos espaco-temporais. Em
Migon et al. (2008) tais modelos sao incorporados a estruturas hierarquicas. Nas secoes
que seguem apresentaremos de forma resumida uma ideia geral desses modelos. Alem
disso, sao expostos criterios para selecao de modelos, dado que variacoes do modelo
proposto sao apresentadas ao longo do trabalho.
1.1 Modelos Dinamicos
Os modelos lineares dinamicos sao caracterizados pela modelagem de processos
indexados ao longo do tempo e sao representados por um par de equacoes, denominadas
de equacao de observacoes e equacao de evolucao dos parametros, que podem ser vistas
abaixo:
yt = Ftt + t, N(0, Vt) (1.1a)
t = Gtt1 + t, t N(0,Wt) t = 1, . . . , T. (1.1b)
onde yt e uma sequencia de observacoes ao longo do tempo condicionalmente
independentes, Ft e uma matriz conhecida k- dimensional que acomoda variaveis
explicativas, nvel, tendencia, sazonalidade, etc, t e o vetor de parametros, Gt e uma
matriz conhecida que descreve a evolucao dos parametros e Vt e Wt representam as
matrizes de covariancia dos erros associados a observacao e ao vetor de parametros,
respectivamente. Pode-se tambem definir o modelo atraves da quadrupla {Ft, Gt, Vt,Wt}.
Encontramos casos particulares da modelagem de processos indexados ao longo do
tempo em West e Harrison (1997). Por exemplo, o modelo mais simples de series
temporais e o modelo polinomial de primeira ordem, no qual F t = 1 e Gt = 1, logo
este modelo fica caracterizado pela quadrupla {1, 1, Vt,Wt}.
Do ponto de vista Bayesiano o processo de inferencia funciona de forma sequencial,
intercalando passos de evolucao, que sao feitos atraves da equacao do sistema, e passos
3
de atualizacao, feitos atraves da incorporacao da informacao obtida em yt usando o
Teorema de Bayes. Tal ciclo pode ser visto na Figura 1.1. O processo ocorre de forma
que quando chegamos ao tempo t, nossa informacao esta resumida em Dt e e baseado
nesse conjunto que faremos inferencia. E de grande interesse, nessa classe de modelos,
predizer o comportamento futuro da serie, portanto, tem-se particular interesse nas
distribuicoes preditivas, que possibilitam fazer planos a longo, medio e curto prazos e
tomar decisoes apropriadas.
t1|Dt1EV OLUCAO t|Dt1
ATUALIZACAO t|Dt
posteriori priori posteriori
yt|Dt1previsao
Figura 1.1: Ciclo de inferencia.
1.2 Modelos Espaciais
A classe de modelos espaciais esta associada a observacoes tomadas em varios locais
identificados em algum domnio espacial. Estamos tratando, portanto, de observacoes
que variam no espaco.
De acordo com a natureza das observacoes associadas ao espaco em que sao observadas
a estatstica espacial e dividida em tres areas:
(i) Geoestatstica: lidam com observacoes pontuais de uma quantidade contnua
variando sobre uma regiao e podem ser encontradas em diferentes areas da ciencia
tais como meio ambiente, mercado imobiliario, geologia, processamento de imagens,
dentre outras.
(ii) Dados de area: sao baseados em observacoes avaliadas em regioes, obtidas a partir
de um numero finito de localizacoes que compreendem toda a regiao sob estudo.
4
Exemplos relacionados aos dados de area sao a presenca de especies de uma planta
num quadrado, o numero de casos de dengue nos bairros de uma cidade, dentre
outros.
(iii) Processos pontuais sao observacoes discretas de pontos especficos em um mapa.
Exemplos relacionados a processos pontuais sao localizacoes dos ninhos de aves
em um habitat adequado ou ainda a explicacao de localizacoes de crateras lunares
atraves de meteoros ou vulcanismo.
Essa divisao da estatstica espacial esta especificada em Cressie (1993), porem, nos
sera util aspectos da modelagem de dados provenientes da area de geoestatstica.
De modo geral, quando consideramos estrutura espacial esperamos que para
localizacoes proximas, o processo se comporte de forma semelhante. Diferentemente,
quando ocorre o aumento das distancias entre as localizacoes as observacoes se tornam
menos relacionadas. Neste contexto, os objetivos em modelos espaciais sao a estimacao
dos parametros do modelo e a previsao para localizacoes ou conjunto de localizacoes nao
observadas.
No contexo de geoestatstica tem-se que {y(e) : e G} e uma realizacao parcial do
processo aleatorio {Y (e) : e G}, na qual s varia continuamente ao longo da regiao
G
Famlia Exponencial Potencia:
(d;) = exp{(d/)}
onde > 0 e parametro de escala, d e a distancia euclidiana entre dois pontos quaisquer
em G e 0 < 2. Quando = 1 obtem-se o caso particular da funcao de correlacao
exponencial e = 2 obtem-se a funcao de correlacao exponencial potencia quadratica.
Famlia Matern:
(d;;) =1
21()(2d)(2
d),
onde > 0 e o parametro de escala e e o parametro de forma. A funcao () e a funcao
Gama usual e e a funcao modificada de Bessel do terceiro tipo de ordem .
Futuramente lancaremos mao de alguns conceitos geoestatsticos adaptando-os de
forma apropriada as ideias principais da econometria. Do ponto de vista econometrico
espacial ei representa um vetor l dimensional de quantidades economicas associadas ao
agente economico i. Como as medidas economicas podem variar no tempo, e natural
indexar o vetor de quantidades economicas no tempo, {ei,t}Ni=1.
1.3 Modelos Espaco-Temporais
Ainda podemos modelar processos que variam tanto no tempo como no espaco, para
isso e preciso considerar modelos que capturem a estrutura de covariancia existente nas
observacoes. Considerar a modelagem de um processo tambem ao longo de diferentes
instantes de tempo, alem da variacao no espaco, torna a estrutura de covariancia mais
complexa. As equacoes do sistema em (1.1) ja nos fornecem uma dinamica temporal.
Resta-nos entao incorporar a estrutura espacial que normalmente e inserida na matriz de
covariancia da equacao de evolucao dos parametros.
Uma importante questao em modelos espaco-temporais e a nocao de separabilidade
ou nao separabilidade da estrutura de covariancia. Especificar uma funcao de covariancia
separavel e uma das formas mais simples de se obter uma covariancia valida para
processos que variam no espaco e no tempo, porem, a hipotese de separabilidade induz
6
limitacoes na estrutura de correlacao, ja que muitas areas de aplicacao apresentam
correlacoes espaciais que variam temporalmente. Schmidt e Sanso (2006) discutem a
modelagem Bayesiana da estrutura de covariancia em processos espaco-temporais.
E muito comum denotar as localizacoes onde as medidas sao feitas por e e os tempos
de medicao por t. Utilizaremos futuramente uma modelagem espaco-temporal, porem,
as localizacoes serao tratadas como agentes economicos e as observacoes sao realizadas
nesses agentes a cada instante de tempo, que sera medido discretamente. Alem disso, mais
detalhes com relacao a estrutura de covariancia do modelo proposto estao especificados
na Subsecao 3.2.2.
1.4 Selecao de Modelos
No Captulo 3, modelos serao propostos para dois conjuntos de dados reais. Assim,
surge a necessidade de metodos que possibilitem selecionar qual dos modelos propostos
melhor se ajusta aos dados. Os principais criterios utilizados sao: Deviance Information
Criterion (DIC), de Spiegelhalter et al. (2002) e regras escore, de Gneiting et al. (2007).
Spiegelhalter et al. (2002) propoem um criterio Bayesiano para escolha entre modelos
hierarquicos que considera tanto o ajuste do modelo como a sua complexidade. Para um
modelo de probabilidade p(y|) com dados observados y = (y1, . . . , yn), temos:
DIC = E[D(|y)] + pD (1.2)
no qual D() e a forma geral da deviance Bayesiana que e dada por:
D() = 2log[p(y|)] + 2log[f(y)] (1.3)
onde f(y) e um fator de padronizacao. Segundo Spiegelhalter et al. (2002), para
comparacao de modelos, e suficiente assumir f(y) = 1. A bondade de ajuste e medida
pelo termo E[D(|y)] da equacao (1.2), ja a complexidade do modelo e medida pelo
numero de parametros, definido por:
pD = E[D(|y)]D(E[|y]) (1.4)
De acordo com esse criterio prefere-se o modelo com menor DIC.
7
Gneiting et al. (2007) propoem um criterio cujo objetivo e verificar a bondade de
ajuste. Regras escore, em um contexto Bayesiano, sao consideradas como medidas de
comparacao de modelos nesse caso. O escore medio e definido por:
S() =1
NT
Tt=1
Ni=1
S(P, yit) (1.5)
onde P = p(y|) e o modelo parametrico e S alguma regra escore propria.
Gneiting et al. (2007) discutem uma serie de regras escore, em particular vamos
considerar o escore logartmico(LS) e o escore probabilstico de posto contnuo (CRPS).
Ambos escores sao orientados positivamente, ou seja, o modelo com maior S() e
considerado melhor.
O LS e dado por:
LS(P, yit) = log p(yrep = yit|y) (1.6)
onde yrep e denotado por uma replica do vetor de observacoes. Em palavras, LS e o
logaritmo da densidade preditiva e Gschlol e Czado (2005) aproximam essa medida por
uma amostra a posteriori do algoritmo MCMC.
O CRPS pode ser expresso como:
CRPS(P, yit) =1
2E|yrep,it yrep,it| E|yrep,it yit| (1.7)
onde yrep,it e yrep,it sao replicas independentes da distribuicao preditiva a posteriori,
p(|y). Gschlol e Czado (2005) tambem estimam o CRPS de forma simples utilizando
as sadas do MCMC.
1.5 Organizacao da Dissertacao
A presente dissertacao esta organizada como descrito a seguir. O Captulo 2 introduz
distancias economicas por meio de exemplos e apresenta uma forma simples de obter essas
medidas. Basicamente, e feita a descricao de metricas economicas para a construcao de
matrizes de distancias economicas para dois conjuntos de dados. O Captulo 3 tem como
objetivo apresentar o modelo proposto que incorpora as matrizes exogenas de distancias
8
economicas, construdas no captulo anterior, em sua estrutura. Caractersticas relevantes
e interpretacoes do modelo sao exibidas, alem de variacoes que consideram um modelo
mais geral e modelos mais simples. O procedimento de inferencia, sob o paradigma
Bayesiano e apresentado. Dados artificiais sao gerados e estudos simulados sao feitos onde
metodos de Monte Carlo via cadeias de Markov (MCMC) sao usados para fazer inferencia.
No Captulo 4 duas aplicacoes sao apresentadas para modelar, primeiramente, ndices
de crescimento mensal da producao industrial norte-americana e em seguida ndices de
crescimento trimestral do PIB brasileiro. Finalmente, concluiremos a dissertacao com
uma breve descricao das possveis propostas de extensoes para o presente trabalho.
9
Captulo 2
Distancias Economicas
Este captulo trata principalmente da descricao de metodos para a construcao de
matrizes de distancias economicas. Foram construdas matrizes de distancias para dois
conjuntos de dados. Primeiro, para dados norte-americanos usados por Chen e Conley
(2001) e depois para dados brasileiros obtidos no Sistema de Contas Nacionais do Instituto
Brasileiro de Geografia e Estatstica - IBGE. E usado um metodo de interpolacao cubica
para que tais matrizes se tornem temporalmente compatveis com as series de dados
que futuramente serao descritos. Alem disso, sao citados exemplos que abrangem areas
distintas para motivar e introduzir a utilizacao dessas matrizes.
2.1 Introducao
Econometria espacial e o ramo da econometria que lida com interacoes de
estruturas espaciais em modelos de regressao linear com dados transversais e de painel.
Ultimamente, estudos sobre a econometria espacial tem crescido muito, uma vez que sao
consideradas relacoes entre agentes. Essas relacoes sao descritas por medidas observaveis
de distancias economicas que podem ser associadas a pesos econometricos.
Uma forma simples de obter matrizes de distancias economicas e associa-las a matrizes
de distancias Euclidianas, onde quanto maior a medida Euclidiana entre dois agentes,
mais afastados estao um do outro, menor e o peso relacionado e, consequentemente,
menor a correlacao existente entre eles.
10
LeSage e Pace (1991) fornecem exemplos com respeito a diversas matrizes de
distancias economicas, entre eles o que descreveremos a seguir, em que os elementos
da matriz de distancias economicas sao funcoes de distancias Euclidianas. Considere
um conjunto de sete regioes, tres delas a direita do centro comercial e tres delas a
esquerda, alem disso, existe uma unica rodovia que une todas as sete regioes. Pode-
se analisar o tempo de viagem para o centro comercial considerando como variaveis
explicativas a distancia das regioes ao centro e a densidade da populacao de cada local, ou
seja, ha dependencia espacial entre as sete regioes baseada, principalmente, na distancia
euclidiana entre elas.
Outro exemplo onde observa-se inclusao de externalidades espaciais, agora baseada
em distancias economicas, e o caso de vendas de casas em um determinado local. Nesse
caso, as covariaveis explicam o preco de cada casa a partir das suas caractersticas, e
ha dependencia espacial, pois precos de casas vizinhas ou, ate mesmo sua localizacao,
influenciam no valor da casa a ser vendida.
Ainda pode-se falar de firmas ou setores da economia como unidades observacionais
(agentes) e a distancia entre agentes como o volume de comercio exterior. Se os agentes
correspondem a empresas, as medidas de sobreposicao em seus mercados de varejo podem
ser medidas de distancias economicas. Se os agentes sao pases, as medidas dos volumes
do comercio ou o custo de transporte entre os pases pode ser uma metrica de distancia
economica apropriada.
O desenvolvimento de metodos na literatura econometrica para especificar, estimar
e testar modelos que incorporam interacoes espaciais motivam ainda mais estudos nessa
area. Neste sentido Chen e Conley (2001) propoem um modelo semiparametrico para
dados de painel incorporando distancias economicas na sua estrutura. Por outro lado,
Conley e Dupor (2003) definem distancias economicas para esse tipo de modelagem.
Alem disso, Kakamu e Polasek (2007) abordam problemas da analise de ciclos de negocios
regionais na Uniao Europeia a partir de uma nova perspectiva econometrica, utilizando
uma classe de modelos espaco-temporais com conceito de vizinhos mais proximos. Para
tanto, sao construdas e analisadas diferentes tipos de matrizes de pesos.
11
Com o interesse de comparar matrizes de distancias economicas, ressaltando
semelhancas e diferencas entre elas, lancamos mao, neste captulo, de analises graficas.
Uma delas e utilizada por Conley e Topa (2002) e por Conley e Dupor (2003), e consiste
em representar visualmente as metricas economicas por meio de uma configuracao de
pontos no plano. Para isso e usado um metodo chamado escala multidimensional
classica (do ingles CMDS). Esses graficos facilitam a identificacao de clusters de agentes e
permite a visualizacao de objetos multidimensionais no plano. Um outro artifcio grafico
apresentado utiliza intensidade de cores para quantificar a distancia entre os agentes,
permitindo, entao, a analise dos pesos econometricos entre os agentes.
2.2 Construcao de Distancias Economicas
Nesta secao descrevemos metricas para a construcao de matrizes de pesos economicos,
uma delas sugerida por Conley e Dupor (2003). Para o primeiro conjunto de dados,
as matrizes de distancias sao baseadas no grau de similaridade de relacoes de insumo-
produto dos setores da economia dos EUA, caracterizando assim as interacoes existentes
entre eles. Para os dados brasileiros a mesma metrica e utilizada, a partir da matriz
brasileira de insumo-produto obtidas no IBGE. Conceitualmente, insumo-produto e a
combinacao de fatores de producao, diretos (materias-primas) e indiretos (mao-de-obra,
energia, tributos), que entram e saem na elaboracao de certa quantidade de bens ou
servicos. Portanto, as relacoes de insumo-produto e as matrizes utilizadas nas aplicacoes
apresentam os bens e servicos utilizados por cada setor.
Desde o trabalho de Anselin (1988), interacoes espaciais tornaram-se uma das
preocupacoes na economia. Uma forma de representar essas interacoes e por meio da
construcao de matrizes de distancias economicas, e para isso metricas de construcao
devem ser sugeridas.
Independente da area de aplicacao, os componentes utilizados para o estudo de
interacoes espaciais e, consequentemente, para a construcao de distancias economicas
serao denominados agentes. Torna-se cada vez mais raro analises que reflitam a estrutura
12
de agentes unicos, pois modelos de agentes unicos podem fornecer uma estrutura pobre
para analisar os dados em questao.
Conley e Topa (2002) analisam padroes espaciais de desemprego em Chicago e as
diferentes metricas de distancias social e economica refletem a estrutura das redes de
agentes sociais, que levam em conta agentes de natureza geografica, ocupacional, etnica,
sociologica, etc. Nesse caso cada matriz e construda baseada em um agente, e em seguida
combinacoes entre as matrizes de distancias economicas sao propostas. Um outro exemplo
pode ser visto em Conley e Dupor (2003), em que um metodo econometrico espacial
para caracterizar movimentos comuns da produtividade da economia norte-americana
e apresentado. Eles usam relacoes de input-output para obterem medidas de distancia
economica, que sao usadas para caracterizar interacoes entre setores.
Para a construcao de distancias economicas os agentes, que agregam informacoes
relevantes, sao associados a vetores. Entao N agentes nos reporta a uma estrutura N -
dimensional.
Como ja foi dito, uma metrica simples para a construcao das matrizes de distancias
economicas e a distancia Euclidiana ou funcoes dela. Dessa forma, seja DEij a distancia
Eucludiana entre o vetor ei referente ao agente i de dimensao l e o vetor ej de dimensao
l referente ao agente j, onde i, j = 1, . . . , N :
DEij =
lp=1
(eip ejp)2
Entao, quanto menor o valor de DEij mais proximo o agente i estara do agente j.
Nota-se que Dij = Dji e Dij = 0 se i = j.
2.2.1 Aplicacao a matrizes de insumo-produto norte-
americanas
Conley e Dupor (2003) constroem diferentes medidas de distancia economica
utilizando dados de tabelas de insumo-produto, onde os elementos (i, j) sao os valores
das mercadorias do setor i utilizadas no setor j. Nos EUA, essas tabelas, retratando
13
a economia americana, sao preparadas e divulgadas pelo Departamento de Analise
Economica a cada cinco anos. A partir da relacao entre diferentes setores e definida
a distancia economica pelo grau de similaridade na estrutura insumo-produto. Seja t
a tabela de insumo-produto observada no ano t. Sao nessas tabelas e nas matrizes
de distancia economica, contrudas a partir delas, que sera baseada a caracterizacao da
produtividade de setores com movimentos comuns na aplicacao desenvolvida no Captulo
4.
A primeira medida definida nesse artigo diz que dois setores sao proximos se seus
produtos sao utilizados pelos mesmos setores e uma outra medida e baseada na tecnologia
de cada setor, ou seja, setores com tecnologias similares utilizam insumos semelhantes e
nas mesmas proporcoes. Em suma, as duas medidas de distancias economicas sustentam
que duas atividades economicas sao proximas se compram ou vendem bens em proporcoes
similares.
Alem disso, setores sao indexados segundo seus vetores de insumo e produto, e assim,
suas posicoes correspondem a esses vetores. Portanto, setores com estruturas vetoriais
similares sao proximos e aqueles com estruturas distintas estao distantes. Conley e Dupor
(2003) ainda consideram a covariancia entre diferentes setores modelada como funcao
desses ndices e devido ao grande numero de setores eles modelam a covariancia como
funcao da distancia Euclidiana. Dessa forma, tratamos uma tabela que possui N setores
como N -dimensional.
Neste artigo sao definidas duas metricas, distancias pela otica do insumo e do produto
entre os setores i e j no tempo t com elementos DIt (i, j) e DPt (i, j), respectivamente. Para
a distancia segundo os insumos, e feita a padronizacao Bt(i, j) = t(i, j)/[N
p=1 t(p, j)]
que e invariante, alterando somente a escala dos valores na matriz de distancias
economicas final. Assim e definido:
DIt (i, j) =
{Np=1
[Bt(p, i)Bt(p, j)]2}1/2
(2.1)
14
De forma analoga para a distancia pela otica do produto, considere a padronizacao
t(i, j) = t(i, j)/[N
p=1 t(i, p)], tambem invariante. Entao, os elementos da matriz
de distancia sao definidos por:
DPt (i, j) =
{Np=1
[t(i, p)t(j, p)]2}1/2
(2.2)
Ambas as matrizes contrudas sao simetricas e nao-negativas.
Os N = 20 setores presentes nas tabelas de insumo-produto dos anos de 1972, 1977,
1982, 1987 e 1992 sao os setores de manufaturados indexados por dois dgitos do codigo
SIC1 e podem ser vistos na Tabela 2.1.
A metrica descrita acima e adotada e aplicada as tabelas de insumo-produto da
economia norte-americana composta pelos 20 setores da Tabela 2.1. Dessa forma,
obtemos matrizes de distancia economica do ponto de vista do insumo e do produto.
Adicionalmente, uma outra matriz de distancia (Dmt ) pode ser considerada como uma
mistura das distancias insumo e produto a partir da inclusao de um parametro de mistura
, que varia entre 0 e 1. Logo,
Dmt (i, j) = DIt (i, j) + (1 )DPt (i, j) (2.3)
O parametro poderia ser estimado e neste ponto teramos como objetivo encontrar o
valor de que nos retornasse a combinacao otima das matrizes de insumo e produto.
Porem, as matrizes de distancia economica calculadas serao utilizadas como exogenas no
modelo que sera proposto. Portanto, iremos assumir = 0 quando o interesse estiver
voltado para a matriz baseada no produto e = 1 quando desejarmos Dmt (i, j) = DIt (i, j).
As Figuras 2.1 e 2.2 apresentam a configuracao do grafico CMDS para as distancias
economicas, sob a otica do insumo e do produto no ano de 1972, respectivamente. A
localizacao de cada setor pode ser vista a partir do seu codigo SIC. E notavel nas Figuras
1Standard Industrial Classification Codes (SIC Code) e a tentativa de classificar as industrias de
acordo com semelhancas de produtos, servicos e sistemas de producao e entrega. SIC Codes organiza
industrias em um crescente nvel de detalhes que vao desde setores economicos gerais ate segmentos
especficos da industria. Os dois dgitos do codigo SIC sao subunidades dos principais setores industriais
e sao identificados por dois dgitos numericos.
15
Tabela 2.1: Setores norte-americanos manufaturados indexados por dois dgitos do codigo
SIC.
SIC Code Setores
SIC 20 Alimento
SIC 21 Tabaco
SIC 22 Textil
SIC 23 Vestuario
SIC 24 Madeira
SIC 25 Moveis
SIC 26 Papel
SIC 27 Imprensa
SIC 28 Produtos Qumicos
SIC 29 Petroleo
SIC 30 Plastico e borracha
SIC 31 Couro
SIC 32 Pedra, vidro e argila
SIC 33 Metais Primarios
SIC 34 Metalurgico
SIC 35 Maquinas nao eletricas
SIC 36 Maquinas eletricas
SIC 37 Transporte
SIC 38 Instrumentos
SIC 39 Diversos
2.1 e 2.2 a presenca de alguns clusters. Por exemplo, os setores de bens duraveis estao
proximos segundo a distancia construda sob a otica do insumo. Ainda nessa metrica,
metais primarios (SIC 33) e metalurgico (SIC 34) estao relativamente afastados dos
demais setores e proximos um do outro. Na distancia baseada no produto o setor
de couro (SIC 31) esta proximo dos setores de textil (SIC 22) e diversos (SIC 39).
Algumas distancias relativas ao mesmo setor variam sobre as duas metricas. Considere
a localizacao relativa de dois bens duraveis, como tansporte (SIC 37) e instrumentos
(SIC 38). Esses setores estao proximos sob a otica do insumo, porem suas sadas se
16
encaminham para diferentes clientes. Entao, eles estao relativamente afastados sob o
ponto de vista do produto. Transporte, na verdade, esta afastado da maioria dos setores,
quando falamos de distancia baseada no produto, pois grande parte da producao deste
setor e destinado a ele mesmo.
0.2 0.0 0.2 0.4 0.6
0.
20.
00.
20.
40.
6
CMDS
coordenada 1
coor
dena
da 2
S20
S21
S22
S23
S24
S25
S26S27
S28
S29
S30
S31S32
S33S34S35S36
S37S38S39
Figura 2.1: Grafico CMDS das distancias economicas do insumo entre setores norte-
americanos, para o ano de 1987.
0.2 0.0 0.2 0.4 0.6
0.
6
0.4
0.
20.
00.
20.
40.
6
CMDS
coordenada 1
coor
dena
da 2
S20
S21
S22
S23
S24 S25
S26S27
S28S29 S30
S31
S32
S33S34
S35S36S37
S38
S39
Figura 2.2: Grafico CMDS das distancias economicas do produto entre setores norte-
americanos, para o ano de 1987.
17
Alem da configuracao CMDS, imagens das distancias economicas entre os setores
considerando o ponto de vista do produto e do insumo para os anos de 1972, 1977, 1982,
1987, 1992 podem ser vistas nas Figuras 2.3 e 2.4, respectivamente. Quanto mais fortes
as cores, menores sao as distancias economicas entre os setores e maior e o peso associado.
Nota-se que ha uma grande disparidade entre a matriz do ano de 1982 e as matrizes dos
demais anos tanto para o produto como para o insumo. Isso se da pois ao longo da decada
de 1980, os EUA sofreram um perodo de instabilidade economica, principalmente, por
sua ineficacia em responder a novos concorrentes que surgiam no mercado internacional.
A economia norte-americana passou a perder espaco para concorrentes como pases da
Europa Ocidental e Asia, como Alemanha e Japao, nos mercados interno e externo.
Essa recessao norte-americana de 79/82, e considerada a mais grave desde a Grande
Depressao de 1930. Apesar da crise influenciar um aumento na correlacao entre os setores
pode-se ver que o setor de tabaco (SIC 21), nao segue os demais. Alem disso, pode-
se notar, nas imagens baseadas no produto, que os setores de comida (SIC20), tabaco
(SIC21), textil (SIC22) e vestuario (SIC23) estao mais afastados (pouco correlacionados)
dos demais setores. O mesmo pode ser visto para as matrizes baseadas no insumo, com
mais intensidade.
A divulgacao das tabelas de insumo-produto a cada cinco anos nos leva a obter
matrizes de distancias economicas que variam no tempo. Isso e, a diferenca estrutural
entre as matrizes obtidas, notada pela analise da matriz de 1982, nos motiva a incluir
na modelagem futura diferentes matrizes para cada instante de tempo. Porem, a serie
temporal dos setores utilizados tem variacao mensal, e dado que as matrizes construdas
nao sao compatveis na escala temporal com os dados, um metodo de interpolacao foi
utilizado.
18
0 5 10 15 20
510
1520
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
0.4 0.2 0.0 0.2 0.4 0.6
0.
6
0.4
0.
20.
00.
20.
40.
60.
8
CMDS
coordenada 1
coor
dena
da 2
S20
S21
S22S23
S24S25
S26S27S28S29 S30
S31
S32
S33S34S35S36
S37S38S39
imagem 1977 CMDS 1977
0 5 10 15 20
510
1520
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.0 0.8 0.6 0.4 0.2 0.0
0.
4
0.3
0.
2
0.1
0.0
0.1
0.2
CMDS
coordenada 1
coor
dena
da 2
S20
S21
S22S23
S24
S25
S26
S27S28
S29S30
S31
S32
S33
S34S35
S36S37
S38S39
imagem 1982 CMDS 1982
0 5 10 15 20
510
1520
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
0.4 0.2 0.0 0.2 0.4 0.6
0.
6
0.4
0.
20.
00.
20.
40.
6
CMDS
coordenada 1
coor
dena
da 2
S20
S21
S22S23
S24
S25S26
S27S28S29
S30S31S32
S33S34
S35S36S37
S38 S39
imagem 1987 CMDS 1987
Figura 2.3: Imagem e representacao CMDS dos setores norte-americanos relativo as
distancias economicas sob a otica do produto, ao longo dos anos.
19
0 5 10 15 20
510
1520
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
0.2 0.0 0.2 0.4 0.6
0.
20.
00.
20.
4
CMDS
coordenada 1
coor
dena
da 2
S20
S21
S22
S23
S24
S25
S26S27
S28
S29
S30
S31S32
S33
S34
S35S36S37
S38S39
imagem 1977 CMDS 1977
0 5 10 15 20
510
1520
X Coord
Y C
oord
0.1
0.2
0.3
0.4
0.5
0.6
0.1 0.0 0.1 0.2 0.3 0.4
0.
2
0.1
0.0
0.1
0.2
CMDS
coordenada 1
coor
dena
da 2
S20
S21
S22
S23
S24
S25
S26
S27
S28
S29
S30
S31
S32
S33
S34S35
S36
S37
S38
S39
imagem 1982 CMDS 1982
0 5 10 15 20
510
1520
X Coord
Y C
oord
0.2
0.4
0.6
0.8
0.2 0.0 0.2 0.4
0.
4
0.2
0.0
0.2
0.4
CMDS
coordenada 1
coor
dena
da 2
S20
S21
S22
S23 S24
S25S26
S27
S28S29
S30S31
S32
S33S34
S35
S36S37
S38S39
imagem 1987 CMDS 1987
Figura 2.4: Imagem e representacao CMDS dos setores norte-americanos relativo as
distancias economicas sob a otica do insumo, ao longo dos anos.
Para obtermos matrizes de distancias economicas mensalmente vamos utilizar
metodos de interpolacao por spline. O metodo de interpolacao por spline cubico foi
20
escolhido porque fornece valores interpolados mais suaves ao longo do tempo com relacao
ao spline linear e quadratico. Entao, para p = 3 considere a funcao f(x) tabelada nos
pontos x0, x1, . . . , xl. Uma funcao Sp(x) e denominada spline de grau p com nos nos
pontos xi, i = 0, 1, . . . , l se satisfaz as seguintes condicoes:
(i) em cada subintervalo [xi, xi+1], i = 0, 1, . . . , (l 1), Sp(x) e um polinomio de grau
p,
(ii) Sp(x) e contnua e tem derivada contnua ate ordem (p 1) em [a, b].
Se alem disso, Sp(x) tambem satisfaz a condicao:
(iii) Sp(xi) = f(xi), i = 0, 1, . . . , l entao sera denominada spline interpolante.
Portanto, S3(x), e uma funcao polinomial por partes, contnua, onde cada parte,
sk(x) = ak(x xk)3 + bk(x xk)2 + dk, e um polinomio de grau 3 no intervalo [xk1, xk],
k = 1, 2, . . . , l.
Segundo a teoria de interpolacao por spline, vamos assumir os anos 1972, 1977, 1982,
1987 e 1992 como nos. Entao, consideramos as matrizes de distancias economicas, obtidas
por meio das tabelas, como as matrizes dos meses de janeiro de cada ano, ou seja, a matriz
construda pela tabela do ano de 1972 e identificada como uma matriz de distancias
economicas do mes de janeiro do ano de 1972. Dessa forma as demais matrizes, dos
meses faltantes, entre os nos serao estimadas por interpolacao via spline cubico. As
Figuras 2.5 e 2.6 mostram as imagens de algumas das matrizes de distancias economicas
estimadas por spline cubico tanto para a metrica de insumo como de produto. Mais uma
vez cores mais fortes indicam menores distancias e, consequentemente, maiores pesos.
Embora as imagens se parecam, os valores variam suavemente e algumas similaridades
se conservam ao longo do tempo.
21
0 5 10 15 20
510
1520
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
0 5 10 15 20
05
1015
20
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
0 5 10 15 20
05
1015
20
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
janeiro1972 janeiro1973 janeiro1974
0 5 10 15 20
05
1015
20
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
0 5 10 15 20
05
1015
20
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
0 5 10 15 20
510
1520
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
janeiro1975 janeiro1976 janeiro1977
Figura 2.5: Imagem das distancias economicas de insumo entre setores norte-americanos
interpoladas por spline cubico.
22
0 5 10 15 20
510
1520
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
0 5 10 15 20
05
1015
20
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
1.4
0 5 10 15 20
05
1015
20
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
1.4
janeiro1972 abril1972 julho1972
0 5 10 15 20
05
1015
20
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
1.4
0 5 10 15 20
05
1015
20
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
0 5 10 15 20
05
1015
20
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
janeiro1973 julho1973 janeiro1974
Figura 2.6: Imagem das distancias economicas de produto entre setores norte-americanos
interpoladas por spline cubico.
2.2.2 Aplicacao a matrizes brasileiras de insumo-produto
Matrizes insumo-produto sao instrumentos da contabilidade social que permitem
conhecer fluxos de bens e servicos produzidos em cada setor da economia, destinados
a servir de insumos a outros setores e para atender a demanda final. Essas matrizes,
produzidas pelo IBGE desde a decada de 1970, sao elaboradas a partir dos dados das
Contas Nacionais do Brasil. Seus objetivos iniciais eram a criacao de um marco estrutural
para o Sistema de Contas Nacionais e de uma ferramenta que ajudasse o desenvolvimento
das estatsticas economicas necessarias a construcao de tabelas macroeconomicas.
23
O uso de matrizes de insumo-produto difundiu-se muito nos ultimos anos, e hoje
e considerada um instrumento de grande utilidade para analisar os efeitos estruturais
de choques na economia, bem como para fazer projecoes sobre o comportamento de
atividades.
Uma matriz de insumo-produto e entendida normalmente como uma matriz de
coeficientes tecnicos diretos que apresenta o quanto determinado setor economico
necessita consumir dos demais setores para que possa produzir uma unidade monetaria
adicional. O calculo da matriz de coeficientes tecnicos diretos e baseado nas tabelas
de producao e consumo intermediario das Tabelas de Recursos e Usos - TRU. Estas
tabelas devem sofrer alteracoes para se adequarem as caractersticas de um modelo de
insumo-produto.
A partir do calculo dos coeficientes tecnicos diretos e das matrizes de insumo-produto,
modelos sao propostos e diversas matrizes podem ser extradas, uma delas e a matriz dos
coeficientes tecnicos intersetoriais. Pelo fato desta matriz nos fornecer a dependencia
direta, atividade por atividade, a selecionamos para, a partir dela, obtermos uma matriz
de distancias economicas. Detalhes de modelos e calculos para obtencao de matrizes
podem ser vistos no endereco http://www.ipeadata.gov.br.
As atividades economicas utilizadas nas matrizes calculadas pelo IBGE, inclusive
nas matrizes dos coeficientes tecnicos que utilizaremos, podem ser descritas segundo
diferentes nveis. As desigualdades nas descricoes das atividades, baseada nos nveis,
leva-nos a atividades mais agregadas ou menos agregadas, dependendo do nvel. Na
Secao 4.2 do Captulo 4 definimos os dados com os quais utilizaremos as matrizes dos
coeficientes tecnicos intersetoriais e vale ressaltar que deve haver compatibilidade entre
os setores que compoem as matrizes e os setores analisados nos dados. Para atingir essa
compatibilidade a CNAE (Classificacao Nacional de Atividades Economicas) apresenta a
padronizacao nacional dos codigos de atividades economicas. A partir disso, agregamos
os setores desagregados das matrizes de coeficientes tecnicos intersetoriais, somando
atividades pertencentes a mesma descricao, para atingir a igualdade desejada. A Tabela
2.2 nos fornece o codigo e a descricao das atividades nvel 12 que utilizaremos.
24
Tabela 2.2: Atividades da economia brasileira
Codigo da Atividade nvel 12 Descricao da Atividade nvel 12
01 Agropecuaria
02 Industria extrativa mineral
03 Industria de transformacao
04 Producao e distribuicao de eletricidade, gas e agua
05 Construcao
06 Comercio
07 Transporte armazenagem e correio
08 Servicos de informacao
09 Intermediacao financeira, seguros e previdencia complementar
10 Atividades imobiliarias e aluguel
11 Outros servicos
12 Administracao, saude e educacao publicas
As matrizes de coeficientes tecnicos intersetoriais referentes aos anos 1992, 1993, 1994,
1995, 1996, 2000, 2005 e contendo os 12 setores apresentados, foram obtidas. A partir
delas as matrizes de distancias economicas foram construdas baseadas nas metricas de
insumo e produto propostas por Conley e Dupor (2003) pelas equacoes em (2.1) e (2.2).
As matrizes de distancias economicas nos fornecem as relacoes existentes entre os 12
setores da economia brasileira considerados, ou seja, se o elemento Dt(i, j) for pequeno
temos que a distancia economica entre o setor i e o setor j e pequena, e portanto a
relacao entre eles e forte. Podemos observar essas relacoes de forma grafica por meio
das Figuras 2.7 e 2.8. A primeira delas nos mostra as imagens e os graficos CMDS das
matrizes de distancias economicas sob a otica do produto nos anos de 1993, 1996, 2005. A
segunda figura, com a mesma variacao temporal que a primeira, apresenta as distancias
25
economicas baseadas na metrica do insumo. Em ambas as figuras temos que as cores
mais fortes representam menores distancias e, portanto, maiores pesos econometricos.
Observe que independente da otica sob a qual as matrizes de distancias economicas
estao baseadas, o setor de producao e distribuicao de eletricidade e agua (setor 04) se
matem afastado dos demais ao longo dos anos. No grafico das imagens e possvel notar
tal afastamento devido a faixa mais clara presente ao longo do setor 04, e no grafico
CMDS notamos pela grande distancia fsica de S4dos demais setores. Alem disso,
pode-se notar que o setor de atividades imobiliarias e aluguel (setor 10) esta distante dos
outros setores, sob a otica do insumo. Ja sob a otica do produto esse setor esta inserido
em um cluster formado pelos setores de intermediacao financeira, seguros e previdencia
complementar (setor 09) e outros servicos (setor 11).
As matrizes aqui calculadas serao utilizadas como matrizes de distancia exogenas
na aplicacao desenvolvida no Captulo 4. Vale ressaltar que e necessario haver
compatibilidade temporal entre as matrizes calculadas e a serie temporal dos dados,
que sao trimestrais. Portanto, o metodo de interpolacao por spline sera utilizado
para encontrarmos matrizes intermediarias e dessa forma transforma-las em matrizes
trimestrais.
O metodo de interpolacao por spline cubico, que ja foi descrito anteriormente, tem
como ponto de partida os nos da interpolacao. Dessa forma, vamos assumir as matrizes
dos anos de 1992, 1993, 1994, 1995, 1996, 2000, 2005 como nos referentes ao primeiro
trimestre de cada um deses anos. As matrizes referentes aos trimestres entre os nos serao
estimadas por interpolacao via spline cubico. A Figura 2.9 mostra as imagens de algumas
matrizes de distancias economicas estimadas segundo a metrica de produto.
26
0 2 4 6 8 10 12 14
02
46
810
12
X Coord
Y C
oord
0.2
0.4
0.6
0.8
0.2 0.0 0.2 0.4
0.
4
0.3
0.
2
0.1
0.0
CMDS
coordenada 1
coor
dena
da 2
S1
S2S3
S4
S5
S6S7 S8
S9 S10S11
S12
1993 CMDS 1993
0 2 4 6 8 10 12 14
02
46
810
12
X Coord
Y C
oord
0.2
0.4
0.6
0.3 0.2 0.1 0.0 0.1 0.2 0.3
0.
10.
00.
10.
2
CMDS
coordenada 1
coor
dena
da 2 S1
S2S3
S4
S5
S6S7
S8
S9 S10S11
S12
1996 CMDS 1996
0 2 4 6 8 10 12 14
02
46
810
12
X Coord
Y C
oord
0.2
0.4
0.6
0.8
0.2 0.0 0.2 0.4
0.
2
0.1
0.0
0.1
0.2
0.3
0.4
CMDS
coordenada 1
coor
dena
da 2
S1
S2
S3
S4
S5S6
S7
S8 S9S10
S11
S12
2005 CMDS 2005
Figura 2.7: Imagem das distancias economicas de produto entre setores brasileiros ao
longo dos anos.
27
0 2 4 6 8 10 12 14
02
46
810
12
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
0.2 0.0 0.2 0.4 0.6
0.
20.
00.
20.
40.
6
CMDS
coordenada 1
coor
dena
da 2
S1
S2
S3
S4
S5
S6
S7
S8
S9
S10
S11
S12
1992 CMDS 1993
0 2 4 6 8 10 12 14
02
46
810
12
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1
0.2 0.0 0.2 0.4 0.6 0.8
0.
20.
00.
20.
4
CMDS
coordenada 1
coor
dena
da 2
S1
S2
S3
S4
S5
S6
S7
S8
S9
S10S11
S12
1995 CMDS 1996
0 2 4 6 8 10 12 14
02
46
810
12
X Coord
Y C
oord
0.2
0.4
0.6
0.2 0.1 0.0 0.1 0.2 0.3 0.4
0.
2
0.1
0.0
0.1
0.2
0.3
0.4
0.5
CMDS
coordenada 1
coor
dena
da 2
S1
S2
S3
S4
S5
S6
S7
S8S9
S10
S11
S12
2005 CMDS 2005
Figura 2.8: Imagem das distancias economicas de insumo entre setores brasileiros ao
longo dos anos.
28
0 5 10 15
02
46
810
1214
X Coord
Y C
oord
0.2
0.4
0.6
0.8
0 5 10 15
02
46
810
1214
X Coord
Y C
oord
0.2
0.4
0.6
0.8
0 5 10 15
02
46
810
1214
X Coord
Y C
oord
0.2
0.4
0.6
0.8
1otrimestre1992 3otrimestre1992 1otrimestre1993
0 5 10 15
02
46
810
1214
X Coord
Y C
oord
0.2
0.4
0.6
0.8
0 5 10 15
02
46
810
1214
X Coord
Y C
oord
0.2
0.4
0.6
0.8
0 5 10 15
02
46
810
1214
X Coord
Y C
oord
0.2
0.4
0.6
0.8
2otrimestre1993 4otrimestre1993 1otrimestre1994
Figura 2.9: Imagem das distancias economicas de produto entre setores brasileiros
interpoladas por spline cubico.
29
Captulo 3
Modelos Espaco-Temporais com
Distancias Economicas
Neste captulo um modelo econometrico espacial dinamico e proposto. Esse
modelo trata da dependencia econometrica espacial atraves da interacao entre unidades
observacionais e da dependencia temporal atribuindo a cada unidade uma serie temporal.
Alem disso, foi incoporado ao modelo a ideia, ja tratada no Captulo 2, de distancias
economicas, que irao influenciar tanto na estrutura de medias como na estrutura de
covariancia.
3.1 Introducao
Neste captulo serao desenvolvidos modelos econometricos espaco-temporais para
dados de painel, cujos elementos correspondem a agentes economicos. Por painel entende-
se observacoes repetidas no tempo para um numero fixo de agentes. Exemplos com este
tipo de dados incluem observacoes trimestrais sobre variaveis de setores especficos ou
ainda dados de precos semanais para empresas em uma regiao. Dados de painel para
modelos espaciais e econometricos espaciais tem sido amplamente utilizados na literatura.
Baltagi et al. (2003), Case (1991) e Kapoor et al. (2004) utilizam modelos, para dados
de painel, com correlacao espacial no erro. Baltagi et al. (2003) abordam modelos de
regressao com essas caractersticas e fazem testes de multiplicadores de Lagrange para
30
permitir correlacao espacial do erro bem como efeitos aleatorios. Ja Case (1991) discute
processos economicos que dao origem a padroes espaciais nos dados. Kelejian e Prucha
(1999) e Bell e Bockstael (2000) sugerem respectivamente, um estimador de momentos
generalizados, computacionalmente simples e independente do tamanho da amostra,
para o parametro autorregressivo de um modelo espacial, e a primeira aplicacao em
econometria espacial para as tecnicas desenvolvidas por Kelejian e Prucha (1999) para
dados de painel de grandes dimensoes.
Muitos modelos tradicionais em econometria nao consideram interacoes entre agentes
economicos. Nesses casos, frequentemente, e assumido que o resultado de um agente nao e
afetado pelo resultado dos demais. No entanto, as decisoes economicas sao caracterizadas
por um significativo grau de interdependencia. Portanto, sob a forma de dependencia
espacial, modelos econometricos incorporam similaridades entre agentes ou especialidades
geograficas, como medidas que sao incorporadas na estrutura de covariancia ou ainda na
media do processo. Exemplos seguindo essa abordagem podem ser vistos principalmente
em Anselin (1988), que trata de modelos e metodos da econometria espacial. Anselin
(1988) motivou uma serie de estudos mais aprofundados na area como: Anselin et al.
(2004), que apresentam importantes avancos na area econometrica espacial, LeSage e
Pace (2004), que tratam tambem de econometria espaco-temporal e Gamerman e Moreira
(2004), que descrevem procedimentos para realizar inferencia Bayesiana em modelos
multivariados econometricos com componente espacial, entre outros. Baltagi et al. (2007)
reune uma serie de estudos que se relacionam tanto para o desenvolvimento teorico de
modelos espaciais na economia para a analise de dados espacialmente dependentes, como
para aplicacoes as diferentes questoes economicas.
Agentes que se encontram em um espaco Euclidiano foram modelados. As distancias
entre eles, inicialmente, sao determinadas simplesmente pela distancia Euclidiana e mais
tarde por uma metrica economica. A metrica atribuda pode, por exemplo, mostrar
que os agentes estao proximos, se eles usam insumos nas mesmas proporcoes, e longe,
se utilizam insumos em proporcoes diferentes, caso os agentes correspondam a setores
economicos.
31
Nosso modelo de geracao de dados e dinamico com um parametro de estados
autorregressivo onde media e matriz de variancia sao funcoes de distancias economicas
entre agentes. Portanto, levaremos em consideracao a dependencia espacial entre os
agentes por meio de distancias economicas que serao incorporadas tanto na media como
na estrutura de variancia do modelo. Alem disso, ambos os termos sao influenciados
por funcoes de distancias economicas entre agentes que variam ao longo do tempo. A
estrutura incorporada na media e padronizada e, devido a isso, carrega uma interpretacao
de interdependencia temporal e entre agentes com pesos atribudos. Ja a distancia
incorporada na variancia e dotada de princpios espaciais para a estrutura de covariancia,
ou seja, usamos representacoes de estruturas estatsticas da literatura para particularizar
as funcoes de distancias economicas presentes no modelo. As distancias economicas foram
calculadas segundo a metrica economica descrita no Captulo 2 e serao exogenamente
incorporadas ao modelo.
A principal contribuicao deste trabalho consiste na abordagem de Chen e Conley
(2001) com algumas alteracoes na modelagem. Adicionalmente, a fim de acomodar a
ocasional presenca de outliers um modelo de regressao t-Student tambem e apresentado.
A estimacao dos modelos sera feita lancando mao de uma abordagem completamente
Bayesiana. E avaliada a sensibilidade para a especificacao de distribuicoes a priori para
os hiperparametros e, finalmente, exemplos utilizando dados artificiais sao apresentados.
Neste caso a metrica economica utilizada se resume a distancia Euclidiana.
O restante do captulo esta organizado da seguinte forma. A Secao 3.2 descreve
o modelo proposto, algumas das suas caractersticas, apresenta especificacoes para as
funcoes de distancias economicas e interpretacoes para elas. A Secao 3.3 apresenta nossa
estrategia de estimacao, ou seja, apresenta o procedimento de inferencia, todo sob o
enfoque Bayesiano. A Secao 3.4 discute a possibilidade de modelagem de series nao
estacionarias e apresenta um exemplo simulado para verificacao da proposta. As Secoes
3.5 e 3.6 apresentam estudos simulados com dados artificiais tanto para o modelo proposto
como para sua extensao, que trata da acomodacao de possveis outliers.
32
3.2 Modelo Proposto
Considere um conjunto de N agentes economicos tal que yit < e xit
(1) particularmente, para dados artificiais, consideramos Dt invariante no tempo, ou
seja, Dt = D t e portanto G(D) = W ;
(2) incorporar pesos espaciais variando no tempo na estrutura das medias significa
Gt(D) = tW ;
(3) para o caso geral, que utilizaremos na modelagem dos dados reais, definimos
G(Dt) = Wt.
Inicialmente a matriz de distancias economicas W sera associada a matriz de distancias
euclidianas entre dois setores economicos.
Alem disso, consideramos (D) = 2R(D) tal que a funcao de covariancia C()
e representada por C(D(i, j)) = 2exp{eiej
}. Neste caso estamos considerando
funcao de correlacao exponencial.
Para evitar singularidade ou processos explosivos, o parametro espacial tem que ser
restrito. Assim, para garantir a estacionariedade padronizamos por linhas a matriz Dt,
de tal forma que
j=1,...,N D(i, j) = 1, e fizemos que 1 < < 1. Apesar disso, quando
assume os valores 1 ou 1 temos um processo autorregressivo com razes unitarias
e, consequentemente, nao estacionario. O tratamento de series nao estacionarias esta
detalhado na Secao 3.4.
Alem da garantia da estacionariedade, a padronizacao por linhas da matriz Dt nos
fornece uma importante interpretacao para a equacao de sistema do modelo. Podemos
explorar tal interpretacao algebricamente. Para tanto, considere o caso particular de 4
setores e a matriz de distancias economicas, Dt = D t, fixada no tempo para facilitar a
interpretacao. Observe que a matriz D exposta abaixo ja esta padronizada.
D =
0 0.22 0.11 0.67
0.84 0 0.11 0.05
0.29 0.42 0 0.29
0.21 0.74 0.05 0
35
Da equacao de sistema temos:
z1t = (0.22z2,t1 + 0.11z3,t1 + 0.67z4,t1)
z2t = (0.84z1,t1 + 0.11z3,t1 + 0.05z4,t1)
z3t = (0.29z1,t1 + 0.42z2,t1 + 0.29z4,t1)
z4t = (0.21z1,t1 + 0.74z2,t1 + 0.05z3,t1)
Uma analise algebrica nos permite notar que zt pode ser expressa como uma
combinacao linear dos elementos zt1. A matriz padronizada D, fornece a porcentagem
de influencia da variavel latente de cada setor no tempo anterior, na variavel latente
dos setores no tempo atual, ou seja, quais setores no tempo anterior tem mais influencia
em determinados setores no tempo atual. Observando as equacoes acima vemos, por
exemplo, que o primeiro setor no tempo atual e bastante influenciado pelo quarto setor
no tempo anterior. Ja o segundo setor no tempo atual tem uma influencia de 84% do
primeiro setor no tempo anterior.
3.2.2 Nao separabilidade
Analisaremos agora as propriedades de separabilidade do modelo espaco-temporal
proposto. Funcoes de covariancia espaco-temporais sao separaveis se podem ser escritas
como produto ou soma de uma funcao de covariancia puramente espacial e uma funcao
de covariancia puramente temporal. Ou seja, considere Z(s, t) um processo aleatorio
indexado no espaco e no tempo. Entao, o processo e separavel se
Cov(Z(s1, t1), Z(s2, t2)) =
Covs(u|)Covt(k|) ouCovs(u|) + Covt(k|)em que
yt = zt + t, t N(0, 2IN)
zt = Dzt1 + t, t N(0, 2R(D))
com || < 1. Entao a covariancia entre os setores i e j nos tempos t e t + k e dada da
seguinte forma:
Cov(yit, yj,t+k) = {kV ar(zt)Dk}ij (3.2)
Demonstracao. A demonstracao sera feita por inducao finita. Para k = 1 verificamos
facilmente que a equacao (3.2) e valida.
Cov(yt, yt+1) = E(ztzt+1) = E[zt(Dzt + t+1)
]
= E(ztzt)D
+ E(ztt+1) = V ar(zt)D
Assumiremos que (3.2) e verdade para k = h e iremos mostrar que vale para k = h+1.
Fazendo k = h+ 1, temos:
Cov(yt, yt+h+1) = E(ztzt+h+1) (3.3)
Por outro lado, da equacao de evolucao do modelo obtemos:
zt+h = Dzt+h1 + t+h
= D(Dzt+h2 + t+h1) + t+h
= 2D2zt+h2 + Dt+h1 + t+h...
= hDhzt +hl=1
l1Dl1t+hl+1 (3.4)
Substituindo (3.4) em (3.3) obtemos:
Cov(yt, yt+h+1) = E(zt(h+1Dh+1zt +
h+1l=1
l1Dl1t+hl+2))
= h+1V ar(zt)Dh+1
Logo, por inducao, (3.2) vale para todo k 1.
37
Observando a proposicao acima podemos concluir que o modelo proposto e nao
separavel. Mesmo nao sendo possvel explicitar V ar(zt) a nao separabilidade e notada
pelo fato de nao conseguirmos separar em duas funcoes distintas aquilo que depende
so do tempo e so do espaco no termo Dh+1, onde a matriz D e funcao das distancias
economicas e h+ 1 e funcao do tempo.
3.2.3 Acomodacao de outliers
Geralmente, presume-se que modelos espaco-temporais seguem uma distribuicao
normal. Entretanto, a existencia de possveis outliers mostra que a distribuicao normal
nao e uma escolha adequada, principalmente quando tratamos de dados economicos. A
distribuicao t-Student e uma escolha alternativa para acomodar outliers, pois fornece
caudas mais flexveis, ou seja, possui caudas mais pesadas do que a distribuicao normal.
Uma alternativa para se analisar a forma da curva de uma funcao de distribuicao e
compara-la com a distribuicao normal, ou seja, analisa-la quanto a curtose. Sabe-se que a
distribuicao t-Student tambem e chamada de distribuicao de cauda pesada e dependendo
do valor de seus graus de liberdade ela se aproxima da distribuicao normal, portanto,
podemos associar os graus de liberdade de uma distribuicao t-Student a sua curtose. Seja
K() = m4()m22()
3 = 6(4) , para > 4 e mn() o n-esimo momento central, a curtose
da distribuicao t-Student com graus de liberdade. A figura 3.1 nos mostra a relacao
existente entre a curtose e os graus de liberdade da distribuicao t-Student. Observe que
quanto maior os graus de liberdade menor e a curtose associada a eles, mostrando que
valores pequenos para a curtose indicam que a distribuicao t-Student se aproxima de
uma normal.
Do ponto de vista da modelagem, a distribuicao t-Student pode ser construda como
uma mistura de normais. Ver, por exemplo, Andrews e Mallows (1974) e West (1984)
para mais detalhes. Esta representacao e muito util porque a componente de mistura
facilita a acomodacao de outliers e a estrutura hierarquica facilita o procedimento de
inferencia.
38
10 20 30 40 50
01
23
45
6
graus de liberdade
curt
ose
4
Figura 3.1: Relacao graus de liberdade e curtose
Portanto, segundo Chen et al. (2010) que utilizam na modelagem uma mistura de
escala de representacao Gaussiana hierarquica, seja t t(0, 2IN) com graus de
liberdade, ou equivalentemente,
t|t, 2, N(
0, 2( 2
diag(1it )
))(3.5)
it| Ga(
2,
2
), (3.6)
assumindo > 4 para garantir que os quatro primeiros momentos de t existam.
Choy e Chan (2008) sugerem diversas distribuicoes para identificar outliers e as
modela utilizando mistura de distribuicoes. A distribuicao t-Student e modelada
hierarquicamente de tal forma que a variancia depende apenas de um parametro de
mistura. No nosso caso, o parametro de mistrura latente e dado por 1it = (11t , . . . ,
1Nt)
e os graus de liberdade estao diretamente relacionados com a variancia, como pode ser
visto na equacao (3.5).
39
Entao, o modelo 3.1 pode ser reescrito da seguinte forma:
yt = xtt + zt + t, t N(
0, 2( 2
diag(1it )
))(3.7a)
it| Ga(
2,
2
)(3.7b)
zt = G(Dt)zt1 + t, t N(0,(Dt)) (3.7c)
t = Gt1 + t, t N(0, 2Ik) (3.7d)
onde 1it = (11t , . . . ,
1Nt) e o parametro de mistura.
Nota-se que o modelo em (3.7) e o caso geral do modelo em (3.1), ou seja, basta
tomarmos em (3.7) que obtemos o modelo normal.
3.2.4 Funcao de verossimilhanca
Como o modelo em (3.1) e um caso particular do modelo em (3.7), vamos definir
a funcao de verossimilhanca para o caso mais geral. Sejam y = (y1, . . . , yT ) o
vetor de observacoes, z = (z1, . . . , zT ) a componente latente, = (1, . . . , T ) os
coeficientes de regressao, 1it = (11t , . . . ,
1Nt) o parametro de mistura e =
(2, 2, 2, , z0, 0, , , 1it ) o vetor parametrico. A funcao de verossimilhanca e dada
por
l(, z, ; y) =Tt=1
p(yt|, zt, t) =
=Tt=1
2( 2 diag(1it ))1/2 exp
{1
2(yt xtt zt)
(2( 2
diag(1it )
))1(yt xtt zt)
}
40
3.3 Procedimento de Inferencia
O procedimento de inferencia foi feito sob o enfoque Bayesiano, assim assumimos uma
distribuicao a priori ao vetor parametrico a fim de obtermos a distribuicao a posteriori.
E razoavel assumir que os parametros sao independentes a priori, entao a distribuicao
conjunta e dada pelo produto das marginais. Para os parametros de variancia assumimos
distribuicoes a priori gama invertida: 2 GI(a/2, b/2); 2 GI(c/2, d/2); 2
GI(e/2, f/2). Segue as distribuicoes a priori para os demais parametros: GI(2, h);
exp(l)I(4,); z0 N(mz0 , Cz0); 0 N(m0 , C0), onde a, b, c, d, e, f , g, l sao
hiperparametros conhecidos e h = max(dist)/ 2log(0.05) (ver Schmidt e Gelfand
(2003) para mais detalhes). Alem da distribuicao a priori exponencial truncada para
, na Subsecao 3.6.1, sugerimos outras duas distribuicoes a priori para esse parametro e
comparamos seus resultados a posteriori por meio de estatsticas pontuais. A distribuicao
a priori para o parametro sera analisada com mais detalhes na Secao 3.4, na qual
discutiremos a possibilidade de modelarmos series nao estacionarias.
Dessa forma, utilizando o teorema de Bayes consegue-se encontrar a distribuicao a
posteriori que e proporcional ao produto da verossimilhanca pela distribuicao a priori
dos parametros, que supomos independentes. Entao a distribuicao a posteriori conjunta
e proporcional a
p(, z, |y) l(, z, ; y) p(, z, ) (3.8)
Tt=1
p(yt|, zt, t)
p(z0|mz0 , Cz0)p(0|m0 , C0)Tt=1
p(zt|zt1)Tt=1
p(t|t1)
Tt=1
p(it|/2, /2)p()p(2)p( 2)p(2)p()p().
Devido ao fato de nao conseguirmos amostrar dessa distribuicao, lancamos mao do
metodo de simulacao estocastica, metodo MCMC, para obter amostras a posteriori dos
parametros de interesse combinando tecnicas como o amostrador de Gibbs e o algoritmo
de Metropolis-Hastings. Para os parametros 2, 2, 2, it, z0, 0 obtivemos distribuicoes
41
condicionais completas com forma fechada, entao utilizamos o Amostrador de Gibbs para
amostrar de tais parametros. Como os parametros e nao possuem distribuicao
condicional completa fechada utilizamos passos de Metrolis-Hastings com densidades
propostas seguindo uma distribuicao log-normal e log-normal truncada, respectivamente.
Alem disso, para os parametros de estados latentes utilizamos primeiramente o Filtro
de Kalman e em seguida o algoritmo FFBS de Fruhwirth-Schnatter (1992) e Carter
e Kohn (1994). Os algoritmos e as distribuicoes condicionais completas podem ser
vistos no Apendice A. Todas as rotinas computacionais foram escritas na linguagem
de programacao R versao 2.7.1.
3.4 Modelando Series Temporais Nao Estacionarias
Quando lidamos com dados reais as series temporais podem ser nao estacionarias.
Diversas areas que tratam de modelos autorregressivos de series temporais incorporam
a nao estacionariedade utilizando metodos usuais, como uma componente que descreve
tendencias nao estacionarias. Huerta e West (1999) exploram modelos AR e tratam da
nao estacionariedade de series temporais quando falam das