Post on 22-Jul-2019
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIENCIAS EXATAS E DA TERRA
PROGRAMA DE POS-GRADUACAO EM MATEMATICA APLICADA
E ESTATISTICA
HELENICE LOPES BARBOSA
METODOS ESTATISTICOS EMCADEIAS DE MARKOV
NATAL - RN
2009
HELENICE LOPES BARBOSA
METODOS ESTATISTICOS EM CADEIAS DE MARKOV
Dissertacao apresentada ao Programa de Pos-Graduacao
em Matematica Aplicada e Estatıstica - PPGMAE, da
Universidade Federal do Rio Grande do Norte, como
requisito parcial para obtencao do tıtulo de Mestre em
Matematica Aplicada e Estatıstica.
Orientadora: Prof. Dra. Viviane Simioli Medeiros Cam-
pos.
NATAL - RN
2009
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIENCIAS EXATAS E DA TERRA
PROGRAMA DE POS-GRADUACAO EM MATEMATICA APLICADA
E ESTATISTICA
HELENICE LOPES BARBOSA
METODOS ESTATISTICOS EM CADEIAS DE MARKOV
Comissao Examinadora:
Profa. Dra. Viviane Simioli Medeiros Campos (DM - UFRN - Orientadora)
Prof. Dr. Jaques Silveira Lopes(Universidade Federal de Vicosa -UFV)
Prof. Dr. Andre Gustavo Campos Pereira (PPGMAE/UFRN)
NATAL - RN
2009
Agradecimentos
Agradeco ao meu maravilhoso Deus, que cuidou de mim em todo o tempo. O
Deus que faz como quer, mas que tem para nos muito mais do que pedimos ou pensamos
e que sem Ele nada disso poderia ser possıvel;
Aos meus pais, que me incentivaram a estudar e investiram em mim;
A minha irma Maria Jose, que tem sido muito mais mae do que irma;
A minha maemiga, Socorro Santos de Macedo que tanto me ajudou com suas
oracoes e com suas palavras tambem;
A amiga Juciara, que me incentivou e sempre me deu palavras de otimismo;
Ao colega Marconio, que se tornou um amigo especial. Sua ajuda foi fundamental
ao digitar comigo a dissertacao, que Deus possa abencoa-lo grandemente;
Ao amigo de trabalho, Nonato, que de forma sempre prestativa me ajudou quando
meu computador deu problemas;
A amiga Jackelya que tanto me ajudou. Posso dizer que ela foi um anjo que Deus
colocou em minha vida;
Aos colegas do curso de Probabilidade. Foram dias de estudos arduos mas ex-
tremamente alegres;
Ao funcionario Cesar, da biblioteca setorial , que de forma sempre atenciosa e
prestativa me ajudava nas pesquisas por livros e bibliografias;
A amiga Letıcia, que mesmo de longe sempre esteve torcendo por mim;
Ao amigo Alberico que me ajudou muito. Nessa reta final ele foi uma providencia
de Deus ao me ajudar na escola;
A minha amiga Sayonara, que partilhou comigo todos as alegrias e todas as
dificuldades tambem. Obrigada pelas suas oracoes;
Ao amigo Helio Meira de Morais, funcionario do departamento de matematica,
pela sua forma prestativa, sempre disposto a me ajudar;
A professora Mirtes de Carvalho Varela, diretora da escola em que trabalho, sua
ajuda foi de fundamental importancia para realizacao desse trabalho;
As coordenadoras do vespertino, Lucia, Marcia, Ariadna e Graca Leite que sempre
me apoiaram muito;
A amiga e coordenadora do noturno, Socorro Silva, que carinhosamente e chamada
de minha santinha. Sem a sua ajuda na escola tudo teria sido bem mais dificil;
Aos meus amigos e colegas professores da Escola Estadual Berilo Wanderley que
me deram forca em todo o tempo;
A professora Dione que tao pacientemente me ensinou muito em suas brilhantes
aulas de inferencia com tanta simplicidade ao ministra-las. E tambem por todas as
suas sugestoes na minha qualificacao;
Ao professor Benedito V. Tadeu que me deixou grandes ensinamentos;
Ao professor Rubens Leao, que me ensinou alem de matematica, que e possıvel
ser um excelente matematico e mesmo assim ser simples;
Ao professor Damiao que me ajudou muito com suas dicas de livros;
Ao professor Paulo Roberto, que tao gentilmente me atendeu e esclareceu algumas
duvidas de estatıtica;
Ao professor Jaques, pelas suas palavras sempre positivas e confiantes;
Ao professor e amigo, Marcelo Gomes, um grande matematico e um ser humano
formidavel;
Ao professor Elias pelas suas sugestoes na disciplina de Seminarios;
Aos professores do PPGMAE, em particular ao professor Andre Gustavo por toda
a ajuda;
A professora Viviane Simioli Medeiros Campos, minha orientadora, que de uma
forma amiga e compreensiva enfrentou todas as dificuldades particulares da missao de
me orientar. Que Deus a abencoe grandemente.
Dedicatoria
Dedico esta dissertacao a meus
pais: Cıcero Lopes Barbosa (in
memoriam) e Helena de Sena
Barbosa, que foram em todo o
tempo os meus orientadores de
vida.
Resumo
Este trabalho tem como objetivo o estudo do comportamento assintotico da es-
tatıstica de Pearson(1900), que e o aparato teorico do conhecido teste qui-quadrado
ou teste χ2 como tambem e usualmente denotado. Inicialmente estudamos o compor-
tamento da distribuicao da estatıstica qui-quadrado de Pearson(1900) numa amostra
X1, X2, ..., Xn quando n→∞ e pi = pi0 ,∀n. Em seguida detalhamos os argumentos
usados em Billingley(1960), os quais demonstram a convergencia em distribuicao de
uma estatıstica, semelhante a de Pearson, baseada em uma amostra de uma cadeia de
Markov, estacionaria, ergodica e com espaco de estados finitos S.
Palavras chaves: Cadeia de Markov; Metodos Estatısticos; Distribuicao Multi-
nomial.
Abstract
This work has as objetive the study of the statistics behavior asymptotic of Pear-
son(1900), that is the acquaintance’s theoretical apparatus it chi-square tests or test
χ2 as well as it is usually denoted. Initially, we studied the behavior of the distribution
of the statistics of Pearson(1900) in a sample X1, X2, ..., Xn when followed n → ∞
and pi = pi0 ,∀n. Soon after we detailed the arguments used in Billingley(1960), which
demonstrate the convergence in distribution of a statistics, similar the one of Pearson,
based on a sample of a chain of Markov, stationary, ergodica and with space of finite
states S.
Keywords: Markov chain; Estatistical Methods; Multinomial Distribution.
Sumario
Introducao 1
1 Modelos Importantes 4
1.1 Distribuicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Estatıstica de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 Experimentos multinomiais . . . . . . . . . . . . . . . . . . . . 9
1.3 O Teste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Cadeias de Markov 23
2.1 Processos Estocasticos e Cadeias de Markov . . . . . . . . . . . . . . . 23
2.2 Resultados em Cadeia de Markov Ergodica e Estacionaria . . . . . . . . 28
Referencias 39
Introducao
A estatıstica de Pearson(1900), como o nome sugere, foi originalmente proposta
por Karl Pearson em 1900 para testar o ajuste de um modelo, comparando o conjunto
de frequencias observadas com as frequencias esperadas.
O teste χ2 de Pearson(1900), como tambem pode ser denotado, e um teste de
hipotese, que pode ser usado para dados discretos e para testar a homogeneidade de
duas populacoes para alternativas gerais, e nao somente de localizacao. Por exemplo,
duas distribuicoes podem diferir em escalas, como ilustra a Figura 1, embora tenham
a mesma media.
Figura 1: Distribuicoes P1 e P2.
E comum encontrar na literatura a estatıstica χ2 =c∑j=1
(oj − ej)2
ej, para a utiliza-
cao do teste, onde oi e ei sao as frequencias observadas e esperadas respectivamente,
numa amostra de tamanho n, dividida em c categorias disjuntas. Observamos dessa
forma, que nao ha um cuidado em denotar na estatıstica a variavel aleatoria envolvida.
Nesse trabalho tomamos o cuidado de usar uma notacao onde isso nao aconteca.
O teste χ2, e um teste nao parametrico, utilizado entre outras finalidades para
2
verificar se os dados de uma amostra se comportam de acordo com uma certa dis-
tribuicao teorica. A estatıstica usada no teste e a estatıstica de Pearson(1900) definida
por:
χ2 =c∑j=1
(ηj − npj)2
npj, (1)
onde η = (η1, ..., ηc) e o vetor aleatorio de frequencias observadas, comc∑i=1
ηi = n ,
E(η) = np e o vetor das frequencias esperadas e p = (p1, ..., pc) e o vetor de probabi-
lidade, comc∑i=1
pi = 1.
Para grandes amostras, η−np representa o desvio entre as frequencias observadas
e as frequencias esperadas do modelo proposto.
Neste trabalho, que tem como base o artigo Statistical Methods in Markov chain
de Patrick Billingsley(1960), o foco principal e fazer um apanhado dos aspectos matemati-
cos de Inferencia Estatıstica aplicados em Cadeias de Markov com espaco de estados
finito. O problema consiste em fazer inferencia sobre as probabilidades de transicao
a partir de uma observacao x1, ..., xn da cadeia. A estrategia utilizada por Billings-
ley(1960) foi transportar para Cadeia de Markov as ideias utilizadas no capıtulo 30
de Crammer(1946), para demonstrar o metodo χ2 aplicado ao modelo multinomial, no
caso em que a cadeia e estacionaria, ergodica e tem espaco de estados finito. Antes
de tratarmos do caso de Inferencia Estatıstica em Cadeias de Markov, faremos uma
abordagem para o caso de amostras X1, ..., Xn independentes e identicamente dis-
tribuıdas.
Para um entendimento geral do trabalho, estabelecemos a seguinte ordem de
apresentacao:
No capıtulo 1, a secao 1.1 foi destinada a relembrar algumas distribuicoes impor-
tantes, como o modelo gama e o modelo qui-quadrado, com objetivo de justificarmos,
atraves do teorema (1.2) que sob certas condicoes a soma de variaveis aleatorias com
distribuicao qui-quadrado segue tambem um modelo qui-quadrado, onde o grau liber-
dade dessa variavel e a soma dos graus de liberdade de cada variavel qui-quadrado. A
secao 1.2 e dedicada a estatıstica de Pearson(1900). Mostraremos que a distribuicao
assintotica de χ2 definida em (1) segue um modelo qui-quadrado com (c− 1) graus de
liberdade, onde c e o numero de categorias disjuntas em que a amostra esta dividida.
3
Embora existam alguns modelos probabilısticos para analise estatıstica de dados
categoricos conjuntos ou para analise da distribuicao da amostra, vamos concentrar os
estudos num modelo multinomial que desempenha um papel fundamental no desen-
volvimento de ferramentas de analise estatıstica.
No capıtulo 2, a secao 2.1 e dedicada ao estudo de cadeias de Markov, onde relem-
braremos definicoes e ajustaremos notacoes para o entendimento geral deste capıtulo.
Em seguida demonstramos no teorema (2.1) que uma cadeia de Markov homogenea,
irredutıvel, aperiodica com espaco de estados finito e ergodica. Alem do mais o seu
raio de convergencia e geometrico no sentido que existem γ > 0 e 0 < ρ < 1 tais que
|pnij−pj| ≤ γρn. Na secao 2.2 com base no artigo de Billingsley(1960) e feito um estudo
sistematico para atacar o problema de analise estatıstica em cadeias de Markov, mais
especificamente o teorema (2.2) que sera uma poderosa ferramenta para nos ajudar
a concluir sobre a convergencia para uma χ2(d−s) da distribuicao de uma estatıstica
semelhante a de Pearson, construıda a partir de uma amostra X1, X2, ..., Xn de uma
cadeia de Markov.
Um resumo completo do desenvolvimento do teste qui-quadrado de Pearson pode
ser encontrado nos estudos de Cochran(1952) e Lancaster(1969).
Capıtulo 1
Modelos Importantes
Neste capıtulo relembramos alguns modelos teoricos para variaveis aleatorias, em
especial o modelo qui-quadrado. Descreveremos a estatıstica de Pearson(1900) e um
importante resultado que garante, em uma amostra de tamanho n que a estatıstica de
Pearson(1900) converge em distribuicao para uma qui-quadrado com (c − 1) graus de
liberdade, sendo c o numero de categorias disjuntas da amostra.
1.1 Distribuicoes
Um modelo contınuo bastante importante e, tambem, com muitas aplicacoes e o
modelo Gama. Na literatura, alguns autores se referem a ele como a famılia Gama tendo
em vista que, dependendo da escolha dos seus parametros, outros modelos importantes
podem ser obtidos.
Definicao 1.1 Dizemos que uma variavel aleatoria X segue um modelo Gama(α,β)
se, e somente se, sua funcao densidade for dada por:
fX(x) =βα
Γ(α)xα−1e−βxI(0,∞)(x). (1.1)
Sendo α e β dois parametros positivos e Γ(α) a funcao Gama, definida por
Γ(α) =
∫ ∞0
xα−1e−xdx, α > 0.
Usamos a notacao X ∼ Gama(α,β).
Algumas propriedades da funcao gama podem ser verificadas, como:
5
i) Γ(α + 1) = αΓ(α), α > 0;
ii) Γ(n) = (n− 1)!, n inteiro positivo;
iii) Γ(12) =√π.
Um caso particular, muito importante, da distribuicao Gama (1.1) sera obtido a
seguir, se fizermos α =n
2e β =
1
2, onde n e um inteiro positivo.
Definicao 1.2 Dizemos que uma variavel aleatoria X tem distribuicao qui-quadrado
χ2(n) com n graus de liberdade se, e somente se, sua funcao densidade for dada por:
fX(x) =1
2n2 Γ(n
2)xn2−1e−
x2 , (1.2)
para x > 0 e n ∈ N, e a funcao Gama definida por:
Γ(n
2) =
∫ ∞0
xn2−1e−xdx,
para n > 0.
A distribuicao qui-quadrado possui numerosas aplicacoes importantes em inferen-
cia estatıstica, nesse trabalho sua importancia se da em ser a distribuicao assintotica
da estatıstica de Pearson(1900), como veremos na secao 1.2.
A funcao geradora de momentos de uma variavel aleatoria e muito importante
quando precisamos identificar qual o modelo da variavel que estamos trabalhando. Em
resultados adiante, estudaremos variaveis aleatorias que seguem um modelo χ2(n), desse
modo e importante saber como se caracteriza a funcao geradora de uma χ2(n). Como
uma χ2(n)e um caso particular de uma X ∼ Gama(n
2,12) entao basta calcularmos a funcao
geradora de momento de uma variavel aleatoria X ∼ Gama(α,β). Assim calculemos a
funcao geradora de X ∼ Gama(α,β).
Por definicao a funcao de densidade da variavel aleatoria X ∼ Gama(α,β) e:
fX(x) =βα
Γ(α)xα−1e−βxI(0,∞)(x).
Assim, a funcao geradora MX(t) e dada por
6
MX(t) = E(etX)
=
∫ ∞0
etxfX(x)dx
=
∫ ∞0
etxβα
Γ(α)xα−1e−βxdx
=
∫ ∞0
βα
Γ(α)xα−1e−(β−t)xdx
=
∫ ∞0
βα
Γ(α)
(β − t)α
(β − t)αxα−1e−(β−t)xdx
=βα
(β − t)α
∫ ∞0
(β − t)α
Γ(α)xα−1e−(β−t)x︸ ︷︷ ︸
E a funcao densidade de
uma Gama (α, β − t)
dx
=βα
(β − t)α,
para todo t < β.
Em particular a funcao geradora de momento de uma variavel aleatoria X com
distribuicao χ2(n) e:
MX(t) =
(12
)n/2(12− t)n/2 =
(1
1− 2t
)n/2.
Definicao 1.3 Uma variavel aleatoria X segue o modelo Normal com parametros
µ = 0 e σ2 = 1, isto e , X ∼ N(0, 1) se sua funcao densidade e dada por:
fX(x) =1√2πe−x2
2 . (1.3)
Teorema 1.1 Seja X uma variavel aleatoria contınua com funcao de densidade de
probabilidade f . Entao, a variavel aleatoria Y = X2 tem funcao de densidade de
probabilidade dada por:
fY (y) =1
2√y
[f(√y) + f(−√y)].
Demonstracao. A funcao de distribuicao de Y = X2 e dada por:
G(y) = P (Y ≤ y)
= P (X2 ≤ y)
= P (−√y ≤ x ≤ √y)
= F (√y)− F (−√y),
7
onde F e a funcao de distribuicao de X.
Logo,
fY (y) = G′(y)
= f(√y)
1
2y−
12 − f(−√y)
(−1
2
)y−
12
=1
2√yf(√y) +
1
2√yf(−√y)
=1
2√y
[f(√y) + f(−√y)].
Usando o teorema anterior, vamos mostrar que o quadrado de uma variavel
aleatoria que tem distribuicao N(0, 1) e uma qui-quadrado com um grau de liberdade,
isto e:
Se X ∼ N(0, 1), entao X2 ∼ χ2(1)
De fato, seja X ∼ N(0, 1). A funcao de densidade de X e
fX(x) =1√2πe−
x2
2 .
Agora, pelo Teorema 1.1, temos que a v.a. Y = X2 tem funcao de densidade
fY (y) =1
2√y
[f(√y) + f(−√y)].
Logo,
fY (y) =1
2√y
[1√2πe−√y2
2 +1√2πe−
(−√y)22
]=
1
2√y
2√2πe−
y2
=1√y
e−y2
√2π
=y−
12 e−
y2
√2π
=
(12
) 12
√πy−
12 e−
y2
=
(12
) 12
Γ(
12
)y 12−1e−
12y.
Portanto, X2 ∼ χ2(1).
8
Teorema 1.2 A soma de v.a.’s independentes, com distribuicao qui-quadrado, segue
uma distribuicao qui-quadrado, cujo numero de graus de liberdade e igual a soma do
numero de graus de liberdade das parcelas, i.e.,
Xi ∼ χ2(ki)
independentes , i = 1, ..., n⇒n∑i=1
Xi ∼ χ2
(∑ni=1 ki)
.
Demonstracao. Usando a funcao geradora de momentos, temos
Xi ∼ χ2(ki)⇒MXi(t) =
(1
1− 2t
) ki2
.
Assim,
M(∑ni=1Xi)
(t) = E(et∑ni=1Xi
)= E
(etX1+···+tXn
)= E
(etX1 · · · etXn
)= E
(etX1
)· · ·E
(etXn
)=
(1
1− 2t
) k12
· · ·(
1
1− 2t
) kn2
=
(1
1− 2t
)∑ni=1 ki
2
.
Portanto,n∑i=1
Xi ∼ χ2
(∑ni=1 ki)
.
Como vimos anteriormente, se uma variavel aleatoria tem distribuicao N(0, 1),
entao o quadrado dela tem distribuicao χ2(1). Agora, vejamos que se ξ1, ξ2, ..., ξn sao
v.a.’s independentes e ξi ∼ N(0, 1), ∀i ∈ 1, ..., n, entao
X =n∑i=1
ξ2i ∼ χ2
(n).
De fato, usando a Funcao Geradora de Momentos da ξ2i , temos
Mξ2i(t) =
(1
1− 2t
)1/2
.
9
Calculando MX(t), temos
MX(t) = E(etX)
= E(et(ξ
21+ξ22+···+ξ2n)
)= E
(etξ
21
)E(etξ
22
)· · ·E
(etξ
2n
)=
(1
1− 2t
)1/2(1
1− 2t
)1/2
· · ·(
1
1− 2t
)1/2
=
(1
1− 2t
)n/2.
Portanto, X ∼ χ2(n).
1.2 Estatıstica de Pearson
Nesta secao, vamos mostrar que a estatıstica de Pearson(1900) converge em dis-
tribuicao para uma variavel aleatoria com distribuicao qui-quadrado; este e o resultado
em que se baseia o teste qui-quadrado.
1.2.1 Experimentos multinomiais
Considere um experimento com c possıveis resultados, cada um com probabilidade
pj > 0, j = 1, ..., c ec∑j=1
pj = 1. Esse experimento e repetido n vezes de forma
independente e observamos as variaveis Xj, j = 1, ..., c, que correspondem ao numero
de ocorrencias de cada um dos possıveis resultados dessas repeticoes. Dizemos que vetor
aleatorio X = (X1, ..., Xc) tem distribuicao multinomial, com funcao de probabilidade
pX(k1, ..., kc) =n!
k1! · · · kc!pk11 · · · pkcc ,
comc∑j=1
pj = 1 ec∑j=1
kj = n, kj ∈ N, 0 ≤ kj ≤ n.
Um resultado bastante comum relacionado a uma variavel aleatoria X, unidi-
mensional com distribuicao N(µ, σ2) e o fato da varavel Y = aX ter distribuicao
N(aµ, a2σ2) onde a e uma constante. No caso onde X e um vetor aleatorio, temos
um resultado analogo, que agora iremos verificar, tendo em vista que esse resultado e
10
usado no lema 1.1 e tambem no teorema 1.3
Suponha que X e um vetor aleatorio c-dimensional tal que XT = (X1, ..., Xc),
com E(X) = µ onde µT = (µ1, ..., µc) e E(Xi) = µi e a media da i-esima compo-
nente de X. A variancia de X e dada por Var(X) = σ2 tal que (σ2)T
= (σ21, ..., σ
2c ),
σ2i = Var(Xi), isto e, σ2
i e a variancia da i-esima componente de X. Portanto por
definicao de variancia, temos:
Var(Xi) = E[(Xi − µi)2] = E(X2i )− µ2
i . (1.4)
No caso multivariado vamos denotar σii ao inves de σ2i , a fim de se ajustar a
notacao de covariancia que veremos agora.
A covariancia de duas variaveis Xi e Xj e definida por
Cov(Xi, Xj) = E[(Xi − µi)(Xj − µj)]. (1.5)
Em particular, se i = j, verificamos que covariancia de uma variavel com ela
propria e simplesmente a variancia da variavel. Assim, nao ha realmente nenhuma
necessidade de definir variancia multivariada, separadamente, pois e um caso especial
de covariancia. A covariancia de Xi e Xj e usualmente denotada por σij como nos
referimos acima.
Desenvolvendo a equacao (1.5), teremos
Cov(Xi, Xj) = E[(Xi − µi)(Xj − µj)]
= E(XiXj − µjXi − µiXj + µiµj)
= E(XiXj)− µjE(Xi)− µiE(Xj) + µiµj
= E(XiXj)− µiµj
A matriz de covariancia para c variaveis e formada por c variancias e c(c− 1)/2
covariancias, muitas vezes e conveniente apresentar essas quantidades em uma matriz
(c× c), denotada por Σ = (σij)c×c. Entao,
Σ =
σ11 · · · σ1c
.... . .
...
σc1 · · · σcc
11
e chamada de Matriz de Covariancia. Observe que os termos da diagonal principal sao
os valores das variancias e os termos fora da diagonal principal sao as covariancias tais
que σij = σji. Desse modo a matriz Σ e simetrica, e podemos ainda escrever:
Σ = E[(X− µ)(X− µ)T ]
Definicao 1.4 (Distribuicao Normal Multivariada) Se para todo z ∈ Rc, zTz 6= 0,
a variavel aleatoria zTη tem uma distribuicao normal, entao o vetor η e dito ter uma
distribuicao normal em Rc.
Seja X ∼ N(µ,Σ) e Y = (Y1, ..., Yc)T = BX, onde
B =
b11 · · · b1c...
. . ....
bc1 · · · bcc
e uma matriz de ordem c×c, e considere o vetor z = (z1, ..., zc)
T , satisfazendo zTz 6= 0.
Temos que,
zTY = zTBX = (zTB)X = (BTz)TX.
ou seja Y tem distribuicao normal. E mais,
E(Y) = E(BX)
= E
b11X1 + · · ·+ b1cXc
...
bc1X1 + · · ·+ bccXc
=
b11µ1 + · · ·+ b1cµc
...
bc1µ1 + · · ·+ bccµc
=
b11 · · · b1c...
. . ....
bc1 · · · bcc
µ1
...
µc
= Bµ.
12
e
Var(Y) = E[(Y − E(Y))(Y − E(Y))T ]
= E[B(X− µ)(B(X− µ))T ]
= E[B(X− µ)(X− µ)TBT ]
= BE[(X− µ)(X− µ)T ]BT
= BΣBT .
Portanto,
Y ∼ N(Bµ, BΣBT ). (1.6)
Lema 1.1 Seja X ∼ N(0,Σ). Entao XTX ∼ χ2r se, e somente se, Σ e uma projecao
de posto r, isto e, Σ2 = Σ.
Demonstracao. Uma vez que Σ e simetrica, existe uma matriz ortogonal Q (isto e,
QTQ = I) tal que D = QΣQT e uma matriz diagonal. Entao se Σ2 = Σ e Σ tem
posto r, temos que
D2 =(QΣQT
)2=
(QΣQT
) (QΣQT
)= QΣ
(QTQ
)ΣQT
= QΣIΣQT
= QΣ2QT
= QΣQT
= D
Logo, D2 = D, e D tem posto r se, e somente se, r elementos da diagonal de D
sao iguais a 1 e o restante deles e igual a zero.
Seja Y = QX. Note que
YTY = (QX)T (QX) = XTQTQX = XTX.
Como X ∼ N(0,Σ), temos, pela expressao (1.6), QX ∼ N(0, QΣQT ), isto e, Y ∼ N(0, D).
13
Se dj denota o j-esimo elemento da diagonal de D, a funcao caracterıstica de
YTY =∑j
Y2j e∏j
(1− 2idjt)−1/2, que e a funcao caracterıstica de χ2
(r) se, e somente
se, r dos dj sao iguais a 1 e o restante deles e igual a zero.
Um problema comum na teoria das grandes amostras e: dada uma sequencia de
vetores aleatorios, Xnn≥1, com XnD→ X, encontrar a distribuicao limite de f(Xn)
para uma determinada funcao f(X). O teorema de Slutsky fornece uma poderosa
tecnica para atacar este tipo de problema. Nesse trabalho apenas enunciaremos o
teorema de Slutsky, pois sera usado na demonstracao do teorema 1.5, sendo possıvel
encontrar sua demonstracao em Ferguson(1996), pagina 41.
Teorema 1.3 (Teorema de Slutsky)
a) Se Xn ∈ Rc, XnD→ X e se f : Rc −→ R
m e tal que P (X ∈ C(f)) = 1, onde C(f)
e o conjunto de continuidade de f , entao f(Xn)D→ f(X);
b) Se XnD→ X e (Xn −Yn)
P→ 0, entao YnD→ X;
c) Se Xn ∈ Rc, Yn ∈ Rm, XnD→ X e Yn
D→ k, entao(Xn
Yn
)D→(
X
k
).
O teorema 1.5 mostra em detalhes que a distribuicao assintotica da estatıstica de
Pearson(1900) converge em distribuicao para uma χ2(c−1), onde c e o numero de catego-
rias em que a amostra esta dividida. Alem do teorema de Slutsky, um outro teorema
que sera fortemente usado e o Teorema do Limite Central para variaveis aleatorias
multivarida. Por se tratar de um resultado de grande importancia nao so no teo-
rema 1.5 mas em outros resultados ao longo do trabalho, enunciaremos e faremos sua
demonstracao.
Teorema 1.4 (Teorema do Limite Central para Variaveis Multivariada) Sejam
X1,X2, ... vetores aleatorios i.i.d. com media µ e matriz de covariancia finita, Σ. En-
tao, para Xn =X1 + X2 + ...+ Xn
n, temos
√n(Xn − µ)
D→ N(0,Σ)
Demonstracao.
14
Vejamos inicialmente que,
√n(Xn − µ) =
1√n
n∑j=1
(Xj − µ).
De fato,
√n(Xn − µ) =
√n
(∑nj=1 Xj
n− nµ
n
)=
√n
n
(n∑j=1
Xj − nµ
)=
1√n
n∑j=1
(Xj − µ)
Assim, temos
ϕ√n(Xn−µ)(t) = ϕ 1√n
∑nj=1(Xj−µ)(t)
= ϕ∑nj=1(Xj−µ)
(t√n
)=
n∏j=1
ϕXj−µ
(t√n
)=
[ϕ
(t√n
)]n,
onde ϕ(t) e a funcao caracterıstica de Xj − µ. Calculando ϕ(0) e ϕ′(0), obtemos
ϕ(0) = 1 e ϕ′(0) = 0, e ϕ′′(ε) = −Σ. como ε→ 0, aplicando o teorema de Taylor,
ϕ√n(Xn−µ)(t) =
(1 +
1
ntT∫ 1
0
∫ 1
0
vϕ′′(uvt/√n)dudvt
)n→ exp
limn→∞
tT∫ 1
0
∫ 1
0
vϕ′′(uvt/√n)dudvt
= exp
−(1/2)tTΣt
.
Nesta convergencia estamos usando o fato que qualquer sequencia de numeros an
tais que limn→∞
nan existe, entao
(1 + an)nn→∞−→ exp
(limn→∞
nan
).
No nosso caso,
an =1
ntT∫ 1
0
∫ 1
0
vϕ′′(uvt/√n)dudvt.
Agora que fizemos todos esses resultados auxiliares, veremos no teorema a seguir
que a estatıstica de Pearson (1900) converge em distribuicao para uma qui-quadrada
com (c− 1) graus de liberdade, onde c e o numero de categorias em que a amostra esta
dividida.
15
Teorema 1.5 Seja η = (η1, ..., ηc) um vetor aleatorio com distribuicao multinomial.
A estatıstica de Pearson, definida por
χ2 =c∑j=1
(ηj − npj)2
npj,
em que pj = P (Xn = j), tem distribuicao assintotica χ2(c−1).
Demonstracao. Para encontrar a distribuicao assintotica de χ2 quando n → ∞,
defina
Xm(j) =
1, se o resultado do m-esimo experimento e j;
0, caso contrario.
Entao, os vetores aleatorios X1 = (X1(1), ..., X1(c)),..., Xn = (Xn(1), ..., Xn(c))
sao i.i.d. e ηj = X1(j) + · · ·+Xn(j), j = 1, ..., c.
Note que E[Xm(j)] = pj e Var[Xm(j)] = pj(1− pj). De fato,
E[Xm(j)] = 1.P (Xm(j) = 1) + 0.P (Xm(j) = 0) = pj,
e
Var[Xm(j)] = E[(Xm(j))2
]− (E[Xm(j)])2 = pj − p2
j = pj(1− pj),
pois (Xm(j))2 = Xm(j).
Verifiquemos, ainda, que para o vetor X1 = (X1(1), ..., X1(c)), temos
Cov(X1(i), X1(j)) = E [(X1(i)− E[X1(i)])(X1(j)− E[X1(j)])]
= E [(X1(i)− pi)(X1(j)− pj)]
= E [X1(i)X1(j)− pjX1(i)− piX1(j) + pipj]
= E[X1(i)X1(j)]− pjE[X1(i)]− piE[X1(j)] + pipj
= E[X1(i)X1(j)]− pjpi − pipj + pipj
= E[X1(i)X1(j)]− pjpi
=
pi − p2i , se i = j
−pipj, se i 6= j
=
pi(1− pi), se i = j
−pipj, se i 6= j
16
Como os vetores X1, ...,Xn sao i.i.d, temos EX1 = p, com
p =
p1
...
pc
,e matriz de covariancia do vetor X1 e Σ = Cov(X1), com
Σ =
Cov(X1(1), X1(1)) Cov(X1(1), X1(2)) · · · Cov(X1(1), X1(c))
Cov(X1(2), X1(1)) Cov(X1(2), X1(2)) · · · Cov(X1(2), X1(c))...
......
Cov(X1(c), X1(1)) Cov(X1(c), X1(2)) · · · Cov(X1(c), X1(c))
=
p1(1− p1) −p1p2 · · · −p1pc
−p1p2 p2(1− p2) · · · −p2pc...
......
−p1pc −p2pc · · · pc(1− pc)
.
Podemos escrever a estatıstica χ2 da seguinte forma:
χ2 =c∑j=1
(ηj − npj)2
npj= n
c∑j=1
(ηjn− pj
)2
pj.
Agora, observemos que
χ2 = n(Xn − p)TP−1(Xn − p),
onde
P =
p1 0 · · · 0
0 p2 · · · 0...
.... . .
...
0 0 · · · pc
.
De fato,
(Xn − p) =
n1/n− p1
n2/n− p2
...
nc/n− pc
, (Xn − p)T =( n1
n− p1
n2
n− p2 · · ·
ncn− pc
)
17
e
P−1 =
1/p1 0 · · · 0
0 1/p2 · · · 0...
.... . .
...
0 0 · · · 1/pc
.
Disso, temos
n(Xn − p)TP−1(Xn − p) =
= n( n1
n− p1
n2
n− p2 · · ·
ncn− pc
)
1/p1 0 · · · 0
0 1/p2 · · · 0...
.... . .
...
0 0 · · · 1/pc
n1/n− p1
n2/n− p2
...
nc/n− pc
= n
( (n1
n− p1
) 1
p1
(n2
n− p2
) 1
p2
· · ·(ncn− pc
) 1
pc
)
n1/n− p1
n2/n− p2
...
nc/n− pc
= n
((n1
n− p1
)2 1
p1
+(n2
n− p2
)2 1
p2
+ · · ·+(ncn− pc
)2 1
pc
)= n
c∑j=1
(nj/n− pj)2
pj.
Portanto,
χ2 = n(Xn − p)TP−1(Xn − p).
Pelo Teorema do Limite Central para o caso multivariado, temos
√n(Xn − p)
D−→ Y,
onde Y ∼ N(0,Σ) e X1,X2, ...,Xn sao vetores aleatorios i.i.d. com media p e matriz
de covariancia Σ.
Assim, usando o teorema de Slutsky,
χ2 = n(Xn − p)TP−1(Xn − p) =√n(Xn − p)TP−1
√n(Xn − p)
D−→ YTP−1Y.
Devemos, agora, mostrar que YTP−1Y ∼ χ2(c−1).
18
De fato, denotando
P−1/2 =
1/√p1 0 · · · 0
0 1/√p2 · · · 0
......
. . ....
0 0 · · · 1/√pc
e fazendo Z = P−1/2Y, temos
ZTZ =(P−1/2Y
)TP−1/2Y = YTP−1/2P−1/2Y = YTP−1Y.
Como Y ∼ N(0,Σ), temos, Z = P−1/2Y ∼ N(0,P−1/2ΣP−1/2). Vamos mostrar
que a matriz de covariancia de Z e uma projecao, isto e, (P−1/2ΣP−1/2)2 = P−1/2ΣP−1/2.
Note que Σ = P − ppT . Disso,
(P−1/2ΣP−1/2)2 =
= [P−1/2(P − ppT )P−1/2]2
= [P−1/2PP−1/2 − P−1/2ppTP−1/2]2
= [I − P−1/2ppTP−1/2]2
= I − P−1/2ppTP−1/2 − P−1/2ppTP−1/2 + P−1/2p(pTP−1/2P−1/2p)pTP−1/2
= I − P−1/2ppTP−1/2 − P−1/2ppTP−1/2 + P−1/2p(pTP−1p)pTP−1/2.
Observe que pTP−1p = 1, pois
pTP−1p =(p1 p2 · · · pc
)
1/p1 0 · · · 0
0 1/p2 · · · 0...
.... . .
...
0 0 · · · 1/pc
p1
p2
· · ·
pc
=(
1 1 · · · 1)
p1
p2
· · ·
pc
= p1 + p2 + · · ·+ pc
= 1
19
Portanto,
(P−1/2ΣP−1/2)2 = I − P−1/2ppTP−1/2 − P−1/2ppTP−1/2 + P−1/2ppTP−1/2
= I − P−1/2ppTP−1/2
= P−1/2ΣP−1/2.
Logo, como ZTZ = YTP−1Y, temos
χ2 =√n(Xn − p)TP−1
√n(Xn − p)
D−→ YTP−1Y ∼ χ2(c−1).
Portanto, χ2 ∼ χ2(c−1).
1.3 O Teste χ2
A ideia do famoso teste de hipotese qui-quadrado foi usada por K. Pearson em
1900, baseada na estatıstica de Pearson(1900)
χ2 =c∑j=1
(ηj − npj)2
npj.
Na maioria dos casos de Inferencia Estatıstica, o problema consiste em testar
hipoteses sobre os parametros media e proporcao. Em geral, as formas das distribuicoes
de probabilidade sao conhecidas e o interesse e decidir quanto a aceitar ou rejeitar uma
hipotese, sobre o verdadeiro valor do parametro. Mas existem tambem situacoes prati-
cas em que temos observacoes de uma variavel aleatoria cuja distribuicao da populacao
e desconhecida e o interesse agora e identificar o comportamento da variavel com um
modelo teorico. Isto e, terıamos um candidato a modelo e nosso problema seria esta-
belecer um procedimento para aceita-lo ou nao. O modelo proposto pode ser testado
atraves do teste qui-quadrado, considerando uma amostra grande, pelo teorema 1.3 , a
distribuicao de χ2 e aproximada pela qui-quadrada cujo grau de liberdade c− 1 onde c
e o numero de categorias estabelecidas. A decisao se baseia no comportamento de χ2.
Da seguinte forma:
1o Enunciar a hipotese Ho;
2o Determinar o nıvel de significancia do teste, ou seja,
α = P (χ2 ≥ qc|H0Verdadeiro);
20
3o Calcular as frequencias esperadas com base na hipotese;
4o Calcular o valor da estatıstica do teste;
5o Com o auxılio da tabela do qui-quadrado encontar a regiao crıtica;
Conclusao:
• Se χ2 ≥ qc, entao a hipotese H0 e rejeitada, ao passo que
• Se χ2 < qc entao aceito a hipotese H0.
A figura a seguir ilustra geometricamente o resultado deste teste, em que RA e
a regiao de aceitacao, RC e a regiao crıtica e qc e o valor crıtico encontrado na tabela
da distribuicao qui-quadrado.
Figura 2
Vejamos um exemplo real, onde possamos utilizar o metodo.
Exemplo: Deseja-se estudar a tolerancia de um equipamento eletronico com re-
lacao ao numero de impactos termo-eletricos. Pelas caracterısticas de fabricacao do
equipamento, e possıvel admitir que a probabilidade de falha seja constante, isto e,
apos cada impacto, existe uma probabilidade p de que ele falhe. Representando por X
a variavel aleatoria numero de impactos anteriores a falha, pretende-se verificar se o
modelo Geometrico com p = 0, 4 e adequado para caracterizar essa variavel.
21
A decisao que precisamos tomar e aceitar ou rejeitar o modelo sugerido. Nao
estamos testando o valor de um parametro, mas sim a adequacao ou nao de funcao de
probabilidade. Suponha que nossa amostra e composta de 80 equipamentos para serem
submetidos a sucessivos impactos termo-eletricos ate a ocorrencia da primeira falha.
Dessa forma, 80 realizacoes da variavel aleatoria X serao denotadas por X1, ..., X80.
Dessa forma, Xi representa o numero de impactos ate a ocorrencia de falha no i-esimo
equipamento testado, i = 1, 2, ..., 80. Pretendemos verificar se o modelo Geometrico
com p = 0, 4, e adequado, entao o teste sera:
H0 : X ∼ G (0, 4) ;
Ha : X tem outra distribuicao.
Considere as seguintes frequencias observadas:
Impactos 0 1 2 3 4 mais de 4
Freq. Obs. 30 26 10 5 5 4
Se H0 for verdadeiro, X segue o modelo Geometrico, cuja funcao de probabilidade
e dada por:
p (x) = p (1− p)x
Logo a frequencia esperada de resistencia a x impactos = npx, temos: fe = 80×
0, 4× 0, 6x. Fazendo os calculos, temos:
fe (0) = 80× 0, 4× 0, 60 = 32
fe (1) = 80× 0, 4× 0, 61 = 19, 2
fe (2) = 80× 0, 4× 0, 62 = 11, 5
fe (3) = 80× 0, 4× 0, 63 = 6, 9
fe (4) = 80× 0, 4× 0, 64 = 4, 1
fe (x > 4) = fe (5) + fe (6) + · · · = 6, 3
Impactos (x) 0 1 2 3 4 mais de 4
Freq. Obs. (fo) 30 26 10 5 5 4
Freq. Esp. (fe) 32,0 19,2 11,5 6,9 4,1 6,3
22
Como a categoria correspondente ao valor 4 teve frequencia esperada igual a 4, 1,
que e menor que 5, agregamos as duas ultimas categorias formando a categoria dos
maiores de 3, a qual tera a frequencia observada de 9 e esperada de 10, 4.
Entao,
χ2 =(30− 32)2
32+
(26− 19, 2)2
19, 2+ ...+
(9− 10, 4)2
10, 4= 3, 44.
Escolhendo α = 0, 05 e observando que ficamos com um total de 5 categorias,
portanto 4 graus de liberdade, consultando a tabela da distribuicao da qui-quadrado,
temos qc = 9, 49. Como χ2 = 3, 44 < 9, 49, entao concluımos que o modelo proposto e
aceito.
Capıtulo 2
Cadeias de Markov
Neste capıtulo, vamos detalhar alguns resultados que estao no artigo Statistical
Methods In Markov Chains de Billingsley(1960). O artigo faz um apanhado dos as-
pectos matematicos de Inferencia Estatıstica e suas aplicacoes em cadeias de Markov
finita. O problema se resume a fazer inferencia sobre as probabilidades de transicao a
partir de uma observacao x1, ..., xn da cadeia. Nesse trabalho nos restringiremos a
analisar que a distribuicao assintotica de uma estatıstica semelhante a Pearson agora
numa observacao de uma cadeia de Markov, tambem tem modelo qui-quadrado com
(d− s) gruas de liberdade. Um resultado que nos ajudara a encontrar essa estatıstica e
visto no teorema 2.2, para isso sera preciso resultados como o teorema 2.1 que garante
em uma cadeia de Markov, estacionaria, irredutıvel, aperiodica e com espaco de estados
finito o raio de convegencia e geometrico. O resultado do lema 2.1 e importante para
o entendimento do teorema 2.2, verificaremos entre outros resultados a Lei Fraca dos
Grandes Numeros para cadeias de Markov que e um resultado de grande importancia
para a demonstracao do teorema 2.2.
2.1 Processos Estocasticos e Cadeias de Markov
Um processo estocastico e uma sequencia de variaveis aleatorias Xt, t ∈ T,
definidas sobre um mesmo espaco de probabilidade (Ω,F , P ). Assim, para cada w ∈ Ω
fixo, a funcao Xt(w) na variavel t, denotada por Xt(w), t ∈ T, e chamada uma
realizacao do processo Xtt ∈ T . A sequencia Xtt ∈ T e um processo a tempo discreto
24
se o conjunto de ındices T for enumeravel, e um processo a tempo contınuo, se T for nao
enumeravel. Um processo de Markov e um processo estocastico cujo comportamento
dinamico e tal que as distribuicoes de probabilidade para o seu desenvolvimento futuro
depende somente do estado presente, nao levando em consideracao como o processo
chegou a tal estado.
Definicao 2.1 O conjunto S de todos os valores assumidos por um processo e chamado
espaco de estados do processo. Se S e enumeravel, dizemos que o processo e uma
Cadeia. Se S e nao enumeravel dizemos que o processo tem espaco de estados geral.
Definicao 2.2 Um processo estocastico Xt, t = 0, 1, 2, . . . com espaco de estado
S = 1, 2, ..., s e uma Cadeia de Markov se satisfaz a propriedade de Markov dada por
P (Xn = in | Xn−1 = in−1, . . . , X0 = i0) = P (Xn = in|Xn−1 = in−1) , (2.1)
para todo n ∈ N e para todo i ∈ S = 1, 2, ..., s.
Definicao 2.3 Uma cadeia de Markov e dita homogenea ou estacionaria no tempo se
a probabilidade de ir de um estado a outro independe do tempo em que o passo e dado.
Isto e, para quaisquer estados i, j ∈ S, temos:
P (Xn = j|Xn−1 = i) = P (Xn+k = j | Xn+k−1 = i) , (2.2)
para k = −(n− 1),−(n− 2), . . . ,−1, 0, 1, 2, . . ..
Denotamos por pij a probabilidade de transicao do estado i para o estado j em
um passo, ou seja, P (Xn = j | Xn−1 = i) , n = 1, 2, . . .. Assim, a probabilidade de
no tempo n estarmos no estado j sabendo que no tempo n − 1 estamos no estado i
e dada por P (Xn = j | Xn−1 = i) = P(n−1,n)ij . Caso a cadeia seja estacionaria, entao
P(n−1,n)ij = P
(n+k−1,n+k)ij , para todo k = −(n − 1),−(n − 2), . . . ,−1, 0, 1, . . . . A essas
probabilidades condicionais denominamos de probabilidades de transicao da cadeia.
Considerando, agora, Xnn≥1 uma Cadeia de Markov com espaco de estados
S = 1, 2, . . . , s. Para essa cadeia existem s2 probabilidades de transicao pij,
i = 1, . . . , s e j = 1, 2, . . . , s. A melhor maneira de apresentar esses valores e em forma
de uma matriz P = pij, i, j = 1, 2, . . . , s, os quais representam a probabilidades de
25
irmos de um estado i ao estado j em um passo.
P =
p11 p12 · · · p1s
p21 p22 · · · p2s
......
. . ....
ps1 ps2 · · · pss
Observe que na matriz de transicao todas as entradas sao nao-negativas, visto que sao
probabilidades; e a soma de cada uma das linhas e sempre igual a um.
Definicao 2.4 Uma cadeia de Markov com matriz de transicao P = (pij)i,j∈S e dita
ser ergodica se, para todo j ∈ S, existe
limn→∞
p(n)ij = pj
independente do i ∈ S, e ∑j∈S
pj = 1.
Definicao 2.5 Uma distribuicao pj, j ≥ 0 e estacionaria para a cadeia de Markov
com matriz de transicao P = (pij)i,j∈S e S = 1, 2, ..., s, se:
s∑i=1
pipij = pj,∀j.
Definicao 2.6 Uma cadeia de Markov com matriz de transicao P = (pij)i,j∈S e dita
ser irredutıvel se todos os estados se comunicam, isto e, quaisquer que sejam i, j ∈ Sexiste n ∈ N tal que p
(n)ij > 0 e existe k ∈ N tal que p
(k)ji > 0.
Definicao 2.7 O perıodo de um estado qualquer i ∈ S e dado pelo numero
d(i) = mdcn ≥ 1|p(n)ii > 0.
E quando d(i) = 1 dizemos que i e aperiodico.
Definicao 2.8 Uma cadeia de Markov com matriz de transicao P = (pij)i,j∈S onde
todos os estados sao aperiodicos e dita ser aperiodica.
No restante do trabalho nos referiremos sempre a Cadeia de Markov com espaco
de estados finito, aperiodica e irredutıvel. Um resultado importante sobre cadeia de
Markov, que sera usado no lema 2.1 da secao 2.2, sera demonstrado na segunda parte do
teorema a seguir. Diz respeito ao fato do raio de convergencia de uma cadeia ergodica
ser geometrico.
26
Teorema 2.1 Uma cadeia de Markov homogenea Xnn≥0 irredutıvel e aperiodica com
espaco de estados finito e ergodica. Alem do mais, o raio de convergencia e geometrico,
no sentido de que existem γ > 0 e 0 < ρ < 1 tais que
|p(n)ij − pj| ≤ γρn.
Demonstracao. A ergodicidade de Xnn≥0 segue como consequencia dos teoremas
2.7, 2.8 de Kijima (1997).
Agora, suponha que pij ≥ δ > 0, quaisquer que sejam i, j ∈ S. Sejam Mnj =
supip
(n)ij e mn
j = infip
(n)ij . Observe que mn
j ≤ p(n)ij ≤Mn
j . Usando a equacao de Chapman-
Kolmogorov, temos
p(n+1)ij =
∑l∈S
pilp(n)lj ≤
∑l∈S
pilMnj = Mn
j
∑l∈S
p(n)il = Mn
j ⇒Mn+1j = sup
ip
(n+1)ij ≤Mn
j ,
ou seja,
Mn+1j ≤Mn
j .
De modo analogo, temos
mn+1j = inf
ip
(n+1)ij = inf
i
∑l∈S
pilp(n)lj ≥ inf
i
∑l∈S
pilmnj = mn
j ,
ou seja,
mn+1j ≥ mn
j .
Como (mnj ) e monotona e limitada inferiormente, temos mn
j ↑ pj = limn→∞
p(n)ij , para
todo i.
Vamos mostrar que existe ρ > 0 tal que |Mnj −mn
j | ≤ ρn.
De fato,
Mn+1j −mn+1
j = supi,k
(p
(n+1)ij − p(n+1)
kj
)= sup
i,k
(∑l∈S
pilp(n)lj −
∑l∈S
pklp(n)lj
)
= supi,k
(∑l∈S
(pil − pkl) p(n)lj
).
27
Defina
(pil − pkl)+ =
pil − pkl, se pil > pkl
0, se pil ≤ pkl.
e
(pil − pkl)− =
pil − pkl, se pil < pkl
0, se pil ≥ pkl.
Como
0 =∑l∈S
(pil − pkl) =∑l∈S
(pil − pkl)+ −∑l∈S
(pil − pkl)−,
temos ∑l∈S
(pil − pkl)+ =∑l∈S
(pil − pkl)−.
Disso,
Mn+1j −mn+1
j = supi,k
(∑l∈S
(pil − pkl)+ −∑l∈S
(pil − pkl)−)p
(n)lj
≤ supi,k
(∑l∈S
Mnj (pil − pkl)+ −
∑l∈S
mnj (pil − pkl)−
)
= supi,k
(∑l∈S
(pil − pkl)+(Mnj −mn
j )
).
Por hipotese, temos pkl ≥ δ > 0. Logo,
−pkl ≤ −δ ⇒ pil − pkl ≤ pil − δ.
Da mesma forma
pil ≥ δ > 0⇒ pil − δ ≥ 0.
Assim,
(pil − pkl)+ = pil − pkl ⇒ (pil − pkl)+ ≤ pil − δ
e
(pil − pkl)+ = 0⇒ (pil − pkl)+ ≤ pil − δ.
Logo,
Mn+1j −mn+1
j ≤ supi,k
(∑l∈S
(pil − δ)(Mnj −mn
j )
)≤ sup
i,k(1− sδ)(Mn
j −mnj )
= (1− sδ)(Mnj −mn
j )
= ρ(Mnj −mn
j ),
28
em que ρ = 1− sδ. Assim, continuando com esse procedimento, temos
|Mnj −mn
j | ≤ ρn.
Note que p(n)ij ≤Mn
j e mnj ≤ πj implicam p
(n)ij − πj ≤Mn
j −mnj . Logo,
|p(n)ij − pj| ≤ |Mn
j −mnj | ≤ ρn.
Sendo a cadeia e irredutıvel e aperiodica, existe n0 ≥ 1 tal que p(n0)ij ≥ δ > 0.
Podemos fazer
P n = P k0P [n/n0]n0 = P k0+mn0 ,
onde P e a matriz de transicao da cadeia e m =
[n
n0
]. Logo,
|p(n)ij − pj| =
∣∣∣p(k0+mn0)ij − pj
∣∣∣=
∣∣∣∣∣∑l∈S
p(k0)il (p
(mn0)lj − pj)
∣∣∣∣∣=
∣∣pmlj − pj∣∣≤ ρm
= ρ(n−k0)/n0
= ρ−k0/n0ρn/n0
= ρ−k0/n0(ρ1/n0
)n.
Portanto, existem γ > 0 e 0 < ρ < 1 tais que
|p(n)ij − pj| ≤ γρn.
2.2 Resultados em Cadeia de Markov Ergodica e
Estacionaria
Alguns resultados sobre convergencia, validos em cadeias de Markov, serao apre-
sentados nesta secao. Denotaremos por fi e fij, respectivamente, o numero de vezes
em que a cadeia saiu de i, e o numero de vezes que saiu de i e foi para j, nos n + 1
primeiros passos.
29
Lema 2.1 Seja Xnn≥1 uma cadeia de Markov estacionaria e ergodica e seja ξ =
(ξ1, ..., ξs) o vetor aleatorio com componentes
ξi =fi − npi√
n.
Entao E(ξi) = 0
E(ξiξj) = αij +O(
1n
),
onde αij = δijpi − pipj + pi
∞∑k=1
(p(k)ij − pj) + pj
∞∑k=1
(p(k)ji − pi) e lim
n→∞
O(
1n
)1/n
= c, com c
constante. Alem disso, vale a lei fraca dos grandes numeros para cadeias de Markov:
fin
P−→ pi.
Demonstracao. O numero de vezes que a cadeia saiu de i e
fi =n∑
m=1
I[Xm=i].
Entao
E(fi) = E(I[X1=i]) + · · ·+ E(I[Xn=i])
= P (X1 = i) + · · ·+ P (Xn = i)
= npi,
pois a cadeia e estacionaria, isto e, P (Xm = i) = pi, ∀m = 1, ..., n.
Assim, para todo i ∈ S, temos
E(ξi) = E
(fi − npi√
n
)=
1√nE(fi − npi)
=E(fi)− E(npi)√
n
=npi − npi√
n
= 0.
30
Agora, vamos calcular E(ξiξj).
E(ξiξj) = E
[(fi − npi√
n
)(fj − npj√
n
)]=
1
nE
[(n∑l=1
I(Xl=i) − npi
)(n∑
m=1
I(Xm=j) − npj
)]
=1
nE
[n∑l=1
(I(Xl=i) − pi)n∑
m=1
(I(Xm=j) − pj)
]
=1
nE
[n∑
m=1
n∑l=1
(I(Xl=i) − pi)(I(Xm=j) − pj)
]
=1
n
n∑m=1
n∑l=1
E[(I(Xl=i) − pi)(I(Xm=j) − pj)
].
Calculemos E[(I(Xl=i) − pi)(I(Xm=j) − pj)
]para os casos em que l < m, m < l e
m = l.
Caso I (l < m):
E[(I(Xl=i) − pi)(I(Xm=j) − pj)
]= E(I(Xl=i)I(Xm=j) − pjI(Xl=i) − piI(Xm=j) + pipj)
= E(I(Xl=i)I(Xm=j))− pjE(I(Xl=i))− piE(I(Xm=j)) + pipj
= E(I(Xl=i,Xm=j))− pjE(I(Xl=i))− piE(I(Xm=j)) + pipj
= P (Xl = i,Xm = j)− pipj − pipj + pipj
= P (Xl = i,Xm = j)− pipj
= P (Xm = j|Xl = i)P (Xl = i)− pipj∗= P (Xm−l+1 = j|X1 = i)P (Xl = i)− pipj
= p(m−l)ij pi − pipj.
* pois a cadeia tem probabilidade de transicao estacionaria.
Caso II (m = l):
E[(I(Xl=i) − pi)(I(Xm=j) − pj)
]= P (Xm = i,Xm = j)− pipj
=
P (Xm = i), se i = j
P (∅), se i 6= j
− pipj= δijpi − pipj,
31
em que
δij =
1, se i = j
0, se i 6= j.
Caso III (l > m):
E[(I(Xl=i) − pi)(I(Xm=j) − pj)
]= P (Xl = i|Xm = j)P (Xm = j)− pipj
= p(l−m)ji pj − pipj.
Entao, podemos escrever
E[(I(Xl=i) − pi)(I(Xm=j) − pj)
]= P (Xl = i|Xm = j)− pipj
=
p
(m−l)ij pi − pipj, se m > l;
δijpi − pipj, se m = l;
p(l−m)ji pj − pipj, se m < l.
.
Assim,
n∑m=1
n∑l=1
E[(I(Xl=i) − pi)(I(Xm=j) − pj)
]=
= n(δijpi − pipj)︸ ︷︷ ︸m=l
+ (n− 1)(pjp(1)ji − pipj) + (n− 2)(pjp
(2)ji − pipj) + · · ·+ 1(pjp
(n−1)ji − pipj)︸ ︷︷ ︸
m<l
+ (n− 1)(pip(1)ij − pipj) + (n− 2)(pip
(2)ij − pipj) + · · ·+ 1(pip
(n−1)ij − pipj)︸ ︷︷ ︸
m>l
.
Entao,
E(ξiξj) =1
n
n(δijpi − pipj) +n−1∑k=1
(n− k)(pip(k)ij − pipj)︸ ︷︷ ︸
m>l
+n−1∑k=1
(n− k)(pjp(k)ji − pipj)︸ ︷︷ ︸
m<l
= (δijpi − pipj) + n−1
n−1∑k=1
(n− k)(pip(k)ij − pipj)︸ ︷︷ ︸
(I)
+n−1
n−1∑k=1
(n− k)(pjp(k)ji − pipj)︸ ︷︷ ︸
(II)
.
Vejamos que (I) difere da parcela pi
∞∑k=1
(p(k)ij − pj) de αij pela quantidade
pi
∞∑k=n
(p(k)ij − pj) + n−1pi
n−1∑k=1
k(p(k)ij − pj).
32
De fato,
pi
∞∑k=1
(p(k)ij − pj)− n−1
n−1∑k=1
(n− k)(pip(k)ij − pipj) =
= pi
∞∑k=1
(p(k)ij − pj)− pi
n−1∑k=1
(p(k)ij − pj) + n−1pi
n−1∑k=1
k(p(k)ij − pj)
= pi
∞∑k=n
(p(k)ij − pj) + n−1pi
n−1∑k=1
k(p(k)ij − pj).
Pelo teorema 2.1,
|p(k)ij − pj| < γρk, 0 < ρ < 1⇒
∞∑k=1
|p(k)ij − pj| ≤
∞∑k=1
γρk︸ ︷︷ ︸serie geom.
0<ρ<1
.
Logo,∞∑k=1
|p(k)ij − pj| converge , isto e,
∞∑k=1
(p(k)ij − pj) e uma serie absolutamente
convergente.
Da mesma maneira,
∞∑k=1
|k(p(k)ij − pj)| ≤
∞∑k=1
kγρk,
que e convergente. De fato, pelo teste da razao,
(k + 1)ρk+1
kρk=
(1 +
1
k
)ρ→ ρ < 1, quando k →∞.
Logo,∞∑k=1
k(p(k)ij − pj) tambem e absolutamente convergente.
Consequentemente,
pi
∞∑k=n
(p(k)ij − pj)︸ ︷︷ ︸
tende a 0quando n→∞
+n−1pi
n−1∑k=1
k(p(k)ij − pj)︸ ︷︷ ︸
convergequando n→∞
= O
(1
n
).
Analogamente, (II) difere da parcela pj
∞∑k=1
(p(k)ji − pi) de αij por uma quantidade
O(
1n
). Portanto, E(ξiξj) = αij +O
(1n
).
33
Agora, vamos mostrar que vale a lei fraca dos grandes numeros.
Se X e uma variavel aleatoria qualquer. Entao, para quaisquer t, k > 0, temos
P (|X| ≥ t) ≤ E(|X|k)tk
,
conhecida como desigualdade de Markov.
Assim,usando a desigualdade acima
P
(∣∣∣∣fin − pi∣∣∣∣ ≥ ε
)≤
E(∣∣fi
n− pi
∣∣2)ε2
=E[(
fin− pi
)2]ε2
=E[(fi − npi)2]n2ε2
=1nE[(fi − npi)2]1nn2ε2
=
E
[(fi−npi√
n
)2]
nε2=E[(ξi)
2]nε2
=αii +O(1/n)
nε2=
αiinε2
+O(1/n)
nε2
=αiinε2︸︷︷︸↓0
+O(1/n)1/n
(1/n)nε2︸ ︷︷ ︸↓0
Portanto,fin
P−→ pi.
Teorema 2.2 Seja Xnn≥1 uma cadeia de Markov estacionaria e ergodica, a dis-
tribuicao do vetor estacionario s2-dimensional com componentes
ξij =fij − fipijf
1/2i
,
converge quando n → ∞ para uma distribuicao normal com matriz de covariancia
λij,kl = δik(δjlpij − pijpil).
Demonstracao. O processo Xnn≥1 pode ser gerado da seguinte forma: considere
uma colecao independente de v.a.’s X1 e Win, (i = 1, ..., s e n = 1, 2, ...), tais que
P (X1 = i) = pi e pij = P (Win = j). Considere o conjunto das variaveis Win como
34
descrito abaixo.
W11, W12, · · · , W1n, · · ·
W21, W22, · · · , W2n, · · ·
· · · · · · · · · · · · · · ·
Ws1, Ws2, · · · , Wsn, · · ·
.
A construcao do processo e feita da seguinte maneira: Se X1 = i, entao a primeira
variavel da linha i e, por definicao, o valor de X2. Se X2 = j, entao a primeira variavel
da j-esima linha sera o valor de X3, a menos que i = j, neste caso, X3 sera a segunda
variavel da j-esima linha, e assim sucessivamente. De maneira formal, podemos es-
crever X2 = WX11, e se X1, X2, ..., Xn ja estao definidos, entao Xn+1 = WXnm, onde
(m− 1) e o numero de ındices l, 1 ≤ l < n, tais que Xl = Xn.
Por definicao,
Xk = ak, 1 ≤ k ≤ n+ 1 =X1 = a1,Wak−1mk = ak, 2 ≤ k ≤ n+ 1
,
onde (mk − 1) e o numero de elementos em a1, ..., ak−1 que sao iguais a ak. Como as
variaveis envolvidas sao todas independentes, entao
P (X1 = a1, X2 = a2, ..., Xn+1 = an+1) =
= P (X1 = a1,Wa1m2 = a2,Wa2m3 = a3, ...,Wanmn+1 = an+1)
= P (X1 = a1)P (Wa1m2 = a2) · · ·P (Wanmn+1 = an+1)
= pa1 .pa1a2 .pa2a3 · · · panan+1 .
Note que
fij =
fi∑m=1
I[Wim=j].
Assim, (fi1, fi2, ..., fis) e a contagem da frequencia de Wi1,Wi2, ...,Wifi, ou seja,
fij e o numero de vezes que na amostra Wi1,Wi2, ...,Wifi a cadeia saiu de i para j,
1 ≤ j ≤ s.
Pelo lema 2.1, vimos quefin
P−→ pi, isto e, fi esta perto de npi com probabilidade
alta. E natural comparar (fi1, fi2, ..., fis) com a contagem de frequencia (gi1, gi2, ..., gis)
da sequencia Wi1,Wi2, ...,Wi[npi], em que gij e o numero de vezes que j apareceu
35
nesta amostra. Da independencia do vetor (Win) e do teorema central do limite para
processos multinomiais, segue que as s2 v.a.’s
gij − [npi]pij(npi)1/2
sao assintoticamente normal distribuıdas, com matriz de covariancia
λij,kl = δik(δjlpij − pijpil).
Entao, o vetor de variavel aleatoria η = (ηij), com compontentes
ηij =fij − fipij(npi)1/2
tera essa mesma distribuicao limite se mostrarmos que para cada i e para cada j a
diferencagij − [npi]pij
(npi)1/2− fij − fipij
(npi)1/2
P−→ 0.
Defina
em =
1− pij, se Wim = j;
−pij, se Wim 6= j
e
Sm = e1 + · · ·+ em.
Assim,
Sfi = e1 + · · ·+ efi
= (1− pij)
(fi∑
m=1
I[Wim=j]
)− pij
(fi∑
m=1
I[Wim 6=j]
)
= (1− pij)
(fi∑
m=1
I[Wim=j]
)− pij
(fi −
fi∑m=1
I[Wim=j]
)= (1− pij)fij − pij(fi − fij)
= fij − pijfij − pijfi + pijfij
= fij − pijfi
36
e
S[npi] = e1 + · · ·+ e[npi]
= (1− pij)
[npi]∑m=1
I[wim=j]
− pij[npi]−
[npi]∑m=1
I[wim=j]
= (1− pij)gij − pij([npi]− gij)
= gij − pijgij − pijfi + pijgij
= gij − pij[npi].
Entao,
gij − [npi]pijn1/2
− fij − fipijn1/2
=S[npi]
n1/2− Sfin1/2
=S[npi] − Sfi
n1/2.
Pelo lema 2.1, temosfin
P−→ pi, isto e, para todo ε > 0, existe n0 ∈ N tal que
n ≥ n0 ⇒ P(|fi − [npi]| > nε3
)< ε.
Podemos escrever|S[npi] − Sfi |
n1/2> ε
=
=
|S[npi] − Sfi |
n1/2> ε
∩[|fi − [npi]| > nε3 ∪ |fi − [npi]| ≤ nε3
]
=
[|S[npi] − Sfi |
n1/2>ε
∩|fi − [npi]| > nε3
]∪[|S[npi] − Sfi |
n1/2>ε
∩|fi − [npi]|≤nε3
].
Se Xn : n ≥ 1 e uma sequencia de variaveis aleatorias independentes com media
zero e variancia finita. Entao, para todo λ > 0 e com Sk = X1 + · · ·+Xk temos,
P
(max1≤k≤n
|Sk| ≥ λ
)≤ V ar(Sn)
λ2.
Essa desigualdade e conhecida como Desigualdade de Kolmogorov.
Assim,
37
P
(|S[npi] − Sfi |
n1/2> ε
)=
= P
(|S[npi] − Sfi |
n1/2> ε, |fi − [npi]| > nε3
)+P
(|S[npi] − Sfi |
n1/2> ε, |fi − [npi]| ≤ nε3
)
≤ P (|fi − [npi]| > nε3) + P
(|S[npi] − Sfi |
n1/2> ε, |fi − [npi]| ≤ nε3
)
≤ P (|fi − [npi]| > nε3) + P
(max
|m−[npi]|≤nε3
|S[npi] − Sm| > εn1/2
)
≤ ε+ 2P
(max
1≤m≤nε3
|Sm| >
εn1/2
2
)
≤ ε+ 2Var(Snε3)
nε2/4(pela desigualdade de Kolmogorov)
= ε+ 24
nε2Var(Snε3).
Mas
Var(Snε3) = nε3Var(em) = nε3pij(1− pij),
pois
E(em) = (1− pij)P (Wim = j)− pijP (Wim 6= j) = (1− pij)pij − pij(1− pij) = 0
e
E(e2m) = (1− pij)2pij + p2ij(1− pij) = pij − p2
ij
implicam
Var(em) = pij(1− pij).
Logo
P
(|S[npi] − Sfi |
n1/2> ε
)≤ ε+ 2
4
nε2nε3pij(1− pij) = ε(1 + 8pij(1− pij)).
Como ε > 0 foi qualquer, temos
S[npi] − Sfin1/2
P−→ 0.
38
Logo, pelo teorema de Slutsky, temos
gij − [npi]pij(npi)1/2
−(gij − [npi]pij
(npi)1/2− fij − fipij
(npi)1/2
)D−→ Y,
onde Y tem distribuicao normal. Portanto, ηij =fij − fipij(npi)1/2
, converge em distribuicao
para uma normal.
Agora, observe que:
ηijξij
=
fij − fipij(npi)1/2
fij − fipijf
1/2i
=f
1/2i
(npi)1/2=
(fin
)1/21
p1/2i
P−→ p1/2i
1
p1/2i
= 1,
quando n→∞. Portanto,ηijξij
P−→ 1.
Usando novamente o teorema de Slutsky, temos
ξij =ηij
ηij/ξij
D−→ Y,
onde Y tem distribuicao normal.
Com isso, e da teoria basica de qui-quadrado, cada estatıstica∑j
(fij − fipij)2
fipij, i = 1, ..., s, (2.3)
tem distribuicao assintotica qui-quadrado. A soma em (2.3) deve ser restrita aos ındices
j tais que pij > 0; se tivermos di desses pij’s, entao o numero de graus de liberdade
da distribuicao limite e di − 1. Alem disso, as s estatısticas sao assintoticamente
independentes, de modo que a soma∑ij
(fij − fipij)2
fipij,
tem distribuicao assintotica qui-quadrado com d−s graus de liberdade, onde d =∑i
di
e o numero de elementos positivos da matriz (pij). A estatıstica (2.3), considerada
primeiro por Bartlett (1951), fornece a medida de melhor ajuste da amostra com as
probabilidades de transicao pij assumidas.
Referencias Bibliograficas
BARTLETT, M. S. The frequency goodness of fit test for probability chains. Proc.
Comb. Phil. Soc, Vol. 47 (1951), pp. 86− 95 (MR. 12.512).
BOLFARINE, Heleno.; SANDOVAL, M.C.Introducao A Inferencia Estatıstica, SBM.
BREIMAN, Leo.Statistics: With a View Toward ApplicationsHougthton Mifflin
Company.
COCHRAN, W. G. The χ2 test of goodness of fit. The Annals of Mathematical Statis-
tics, Vol. 23, No. 3 (Sep., 1952), pp. 315− 345.
CHUNG, Kai Lai. A Course in Probability Theory. 2.ed. [S.L], Academic Press, 1974.
CRAMER,Harald.Mathematical Methods Of Statistics.1.ed.Princenton University Press,
1946
FERGUSON,Thomas S.A Course In Large Sample Theory.1.ed.Chapman & Hall,
London,1996
GONCALVES, Cristina Faria F.,Estatısticaed. UEL, 2002
GRENNWOOD,Priscilla E.; NIKULIN,Mikhail S.A Guides To Chi-Squared Testing.
John Wiley & Sons, Inc.
JAMES, Barry R. Probabilidade: Um curso intermediario. 3. ed. Rio de Janeiro:
IMPA, 2004.
KIJIMA, M. Markov Processes for Stochastic Modeling. 1.ed. Chapman & Hall,
London, 1997.
40
KOEHLER, K. J.; LARNTZ, K. An Empirical Investigation of Goodness-of-Fit
Statistics for Sparse Multinomials. Journal of the American Statistical Associa-
tion, Vol. 75, No. 370 (Jun., 1980), pp. 336− 344.
MAGALHAES, M. Nascimento. Probabilidade e Variaveis aleatorias. Sao Paulo:
IME-USP, 2004.
MAGALHAES, Marcos N.; LIMA, Antonio C. Pedroso de.; Nocoes De Probabilidade
E Estatıstica 6. ed. Edusp, 2007.
MOOD, Alexander M.; GRAYBIIL, Franklin A.;BOES,Duane C. Introduction To The
Theory Of Statistics. 3.ed. International Student edition, 1913.
PAUL, L., Probabilidade Aplicacoes A Estatıstica2. ed.LTC,1983
PEARSON,K.(1900), On the Criterion That a Given System of Variables Is Such
That It Can Be Reasonably Supposed to Have Arisen From Random Sam-
pling. Philosophical Magazine , 1901. 50, 157-175.
ROSSI, S. M. Stochastic Processes. New York: John Wiley and Sons, 1983.
SERFLING, Robert J. Approximation Theorems of Mathematical Statistics. Wiley
Interscience, 2002.
SINGER, J.M.; SEN, P.K.Large Sample Methodos In Statistics An Introduction With
Apllications.1993 Chapman & Hall