METODOS ESTAT ISTICOS EM CADEIAS DE MARKOV · estudos num modelo multinomial que desempenha um...

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE CIENCIAS EXATAS E DA TERRA

PROGRAMA DE POS-GRADUACAO EM MATEMATICA APLICADA

E ESTATISTICA

HELENICE LOPES BARBOSA

METODOS ESTATISTICOS EMCADEIAS DE MARKOV

NATAL - RN

METODOS ESTATISTICOS EM CADEIAS DE MARKOV

Dissertacao apresentada ao Programa de Pos-Graduacao

em Matematica Aplicada e Estatıstica - PPGMAE, da

Universidade Federal do Rio Grande do Norte, como

requisito parcial para obtencao do tıtulo de Mestre em

Matematica Aplicada e Estatıstica.

Orientadora: Prof. Dra. Viviane Simioli Medeiros Cam-

NATAL - RN

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE

CENTRO DE CIENCIAS EXATAS E DA TERRA

PROGRAMA DE POS-GRADUACAO EM MATEMATICA APLICADA

E ESTATISTICA

METODOS ESTATISTICOS EM CADEIAS DE MARKOV

Comissao Examinadora:

Profa. Dra. Viviane Simioli Medeiros Campos (DM - UFRN - Orientadora)

Prof. Dr. Jaques Silveira Lopes(Universidade Federal de Vicosa -UFV)

Prof. Dr. Andre Gustavo Campos Pereira (PPGMAE/UFRN)

NATAL - RN

Agradecimentos

Agradeco ao meu maravilhoso Deus, que cuidou de mim em todo o tempo. O

Deus que faz como quer, mas que tem para nos muito mais do que pedimos ou pensamos

e que sem Ele nada disso poderia ser possıvel;

Aos meus pais, que me incentivaram a estudar e investiram em mim;

A minha irma Maria Jose, que tem sido muito mais mae do que irma;

A minha maemiga, Socorro Santos de Macedo que tanto me ajudou com suas

oracoes e com suas palavras tambem;

A amiga Juciara, que me incentivou e sempre me deu palavras de otimismo;

Ao colega Marconio, que se tornou um amigo especial. Sua ajuda foi fundamental

ao digitar comigo a dissertacao, que Deus possa abencoa-lo grandemente;

Ao amigo de trabalho, Nonato, que de forma sempre prestativa me ajudou quando

meu computador deu problemas;

A amiga Jackelya que tanto me ajudou. Posso dizer que ela foi um anjo que Deus

colocou em minha vida;

Aos colegas do curso de Probabilidade. Foram dias de estudos arduos mas ex-

tremamente alegres;

Ao funcionario Cesar, da biblioteca setorial , que de forma sempre atenciosa e

prestativa me ajudava nas pesquisas por livros e bibliografias;

A amiga Letıcia, que mesmo de longe sempre esteve torcendo por mim;

Ao amigo Alberico que me ajudou muito. Nessa reta final ele foi uma providencia

de Deus ao me ajudar na escola;

A minha amiga Sayonara, que partilhou comigo todos as alegrias e todas as

dificuldades tambem. Obrigada pelas suas oracoes;

Ao amigo Helio Meira de Morais, funcionario do departamento de matematica,

pela sua forma prestativa, sempre disposto a me ajudar;

A professora Mirtes de Carvalho Varela, diretora da escola em que trabalho, sua

ajuda foi de fundamental importancia para realizacao desse trabalho;

As coordenadoras do vespertino, Lucia, Marcia, Ariadna e Graca Leite que sempre

me apoiaram muito;

A amiga e coordenadora do noturno, Socorro Silva, que carinhosamente e chamada

de minha santinha. Sem a sua ajuda na escola tudo teria sido bem mais dificil;

Aos meus amigos e colegas professores da Escola Estadual Berilo Wanderley que

me deram forca em todo o tempo;

A professora Dione que tao pacientemente me ensinou muito em suas brilhantes

aulas de inferencia com tanta simplicidade ao ministra-las. E tambem por todas as

suas sugestoes na minha qualificacao;

Ao professor Benedito V. Tadeu que me deixou grandes ensinamentos;

Ao professor Rubens Leao, que me ensinou alem de matematica, que e possıvel

ser um excelente matematico e mesmo assim ser simples;

Ao professor Damiao que me ajudou muito com suas dicas de livros;

Ao professor Paulo Roberto, que tao gentilmente me atendeu e esclareceu algumas

duvidas de estatıtica;

Ao professor Jaques, pelas suas palavras sempre positivas e confiantes;

Ao professor e amigo, Marcelo Gomes, um grande matematico e um ser humano

formidavel;

Ao professor Elias pelas suas sugestoes na disciplina de Seminarios;

Aos professores do PPGMAE, em particular ao professor Andre Gustavo por toda

a ajuda;

A professora Viviane Simioli Medeiros Campos, minha orientadora, que de uma

forma amiga e compreensiva enfrentou todas as dificuldades particulares da missao de

me orientar. Que Deus a abencoe grandemente.

Dedicatoria

Dedico esta dissertacao a meus

pais: Cıcero Lopes Barbosa (in

memoriam) e Helena de Sena

Barbosa, que foram em todo o

tempo os meus orientadores de

Resumo

Este trabalho tem como objetivo o estudo do comportamento assintotico da es-

tatıstica de Pearson(1900), que e o aparato teorico do conhecido teste qui-quadrado

ou teste χ2 como tambem e usualmente denotado. Inicialmente estudamos o compor-

tamento da distribuicao da estatıstica qui-quadrado de Pearson(1900) numa amostra

X1, X2, ..., Xn quando n→∞ e pi = pi0 ,∀n. Em seguida detalhamos os argumentos

usados em Billingley(1960), os quais demonstram a convergencia em distribuicao de

uma estatıstica, semelhante a de Pearson, baseada em uma amostra de uma cadeia de

Markov, estacionaria, ergodica e com espaco de estados finitos S.

Palavras chaves: Cadeia de Markov; Metodos Estatısticos; Distribuicao Multi-

nomial.

Abstract

This work has as objetive the study of the statistics behavior asymptotic of Pear-

son(1900), that is the acquaintance’s theoretical apparatus it chi-square tests or test

χ2 as well as it is usually denoted. Initially, we studied the behavior of the distribution

of the statistics of Pearson(1900) in a sample X1, X2, ..., Xn when followed n → ∞

and pi = pi0 ,∀n. Soon after we detailed the arguments used in Billingley(1960), which

demonstrate the convergence in distribution of a statistics, similar the one of Pearson,

based on a sample of a chain of Markov, stationary, ergodica and with space of finite

states S.

Keywords: Markov chain; Estatistical Methods; Multinomial Distribution.

Sumario

Introducao 1

1 Modelos Importantes 4

1.1 Distribuicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Estatıstica de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2.1 Experimentos multinomiais . . . . . . . . . . . . . . . . . . . . 9

1.3 O Teste χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Cadeias de Markov 23

2.1 Processos Estocasticos e Cadeias de Markov . . . . . . . . . . . . . . . 23

2.2 Resultados em Cadeia de Markov Ergodica e Estacionaria . . . . . . . . 28

Referencias 39

Introducao

A estatıstica de Pearson(1900), como o nome sugere, foi originalmente proposta

por Karl Pearson em 1900 para testar o ajuste de um modelo, comparando o conjunto

de frequencias observadas com as frequencias esperadas.

O teste χ2 de Pearson(1900), como tambem pode ser denotado, e um teste de

hipotese, que pode ser usado para dados discretos e para testar a homogeneidade de

duas populacoes para alternativas gerais, e nao somente de localizacao. Por exemplo,

duas distribuicoes podem diferir em escalas, como ilustra a Figura 1, embora tenham

a mesma media.

Figura 1: Distribuicoes P1 e P2.

E comum encontrar na literatura a estatıstica χ2 =c∑j=1

(oj − ej)2

ej, para a utiliza-

cao do teste, onde oi e ei sao as frequencias observadas e esperadas respectivamente,

numa amostra de tamanho n, dividida em c categorias disjuntas. Observamos dessa

forma, que nao ha um cuidado em denotar na estatıstica a variavel aleatoria envolvida.

Nesse trabalho tomamos o cuidado de usar uma notacao onde isso nao aconteca.

O teste χ2, e um teste nao parametrico, utilizado entre outras finalidades para

verificar se os dados de uma amostra se comportam de acordo com uma certa dis-

tribuicao teorica. A estatıstica usada no teste e a estatıstica de Pearson(1900) definida

χ2 =c∑j=1

(ηj − npj)2

npj, (1)

onde η = (η1, ..., ηc) e o vetor aleatorio de frequencias observadas, comc∑i=1

ηi = n ,

E(η) = np e o vetor das frequencias esperadas e p = (p1, ..., pc) e o vetor de probabi-

lidade, comc∑i=1

pi = 1.

Para grandes amostras, η−np representa o desvio entre as frequencias observadas

e as frequencias esperadas do modelo proposto.

Neste trabalho, que tem como base o artigo Statistical Methods in Markov chain

de Patrick Billingsley(1960), o foco principal e fazer um apanhado dos aspectos matemati-

cos de Inferencia Estatıstica aplicados em Cadeias de Markov com espaco de estados

finito. O problema consiste em fazer inferencia sobre as probabilidades de transicao

a partir de uma observacao x1, ..., xn da cadeia. A estrategia utilizada por Billings-

ley(1960) foi transportar para Cadeia de Markov as ideias utilizadas no capıtulo 30

de Crammer(1946), para demonstrar o metodo χ2 aplicado ao modelo multinomial, no

caso em que a cadeia e estacionaria, ergodica e tem espaco de estados finito. Antes

de tratarmos do caso de Inferencia Estatıstica em Cadeias de Markov, faremos uma

abordagem para o caso de amostras X1, ..., Xn independentes e identicamente dis-

tribuıdas.

Para um entendimento geral do trabalho, estabelecemos a seguinte ordem de

apresentacao:

No capıtulo 1, a secao 1.1 foi destinada a relembrar algumas distribuicoes impor-

tantes, como o modelo gama e o modelo qui-quadrado, com objetivo de justificarmos,

atraves do teorema (1.2) que sob certas condicoes a soma de variaveis aleatorias com

distribuicao qui-quadrado segue tambem um modelo qui-quadrado, onde o grau liber-

dade dessa variavel e a soma dos graus de liberdade de cada variavel qui-quadrado. A

secao 1.2 e dedicada a estatıstica de Pearson(1900). Mostraremos que a distribuicao

assintotica de χ2 definida em (1) segue um modelo qui-quadrado com (c− 1) graus de

liberdade, onde c e o numero de categorias disjuntas em que a amostra esta dividida.

Embora existam alguns modelos probabilısticos para analise estatıstica de dados

categoricos conjuntos ou para analise da distribuicao da amostra, vamos concentrar os

estudos num modelo multinomial que desempenha um papel fundamental no desen-

volvimento de ferramentas de analise estatıstica.

No capıtulo 2, a secao 2.1 e dedicada ao estudo de cadeias de Markov, onde relem-

braremos definicoes e ajustaremos notacoes para o entendimento geral deste capıtulo.

Em seguida demonstramos no teorema (2.1) que uma cadeia de Markov homogenea,

irredutıvel, aperiodica com espaco de estados finito e ergodica. Alem do mais o seu

raio de convergencia e geometrico no sentido que existem γ > 0 e 0 < ρ < 1 tais que

|pnij−pj| ≤ γρn. Na secao 2.2 com base no artigo de Billingsley(1960) e feito um estudo

sistematico para atacar o problema de analise estatıstica em cadeias de Markov, mais

especificamente o teorema (2.2) que sera uma poderosa ferramenta para nos ajudar

a concluir sobre a convergencia para uma χ2(d−s) da distribuicao de uma estatıstica

semelhante a de Pearson, construıda a partir de uma amostra X1, X2, ..., Xn de uma

cadeia de Markov.

Um resumo completo do desenvolvimento do teste qui-quadrado de Pearson pode

ser encontrado nos estudos de Cochran(1952) e Lancaster(1969).

Capıtulo 1

Modelos Importantes

Neste capıtulo relembramos alguns modelos teoricos para variaveis aleatorias, em

especial o modelo qui-quadrado. Descreveremos a estatıstica de Pearson(1900) e um

importante resultado que garante, em uma amostra de tamanho n que a estatıstica de

Pearson(1900) converge em distribuicao para uma qui-quadrado com (c − 1) graus de

liberdade, sendo c o numero de categorias disjuntas da amostra.

1.1 Distribuicoes

Um modelo contınuo bastante importante e, tambem, com muitas aplicacoes e o

modelo Gama. Na literatura, alguns autores se referem a ele como a famılia Gama tendo

em vista que, dependendo da escolha dos seus parametros, outros modelos importantes

podem ser obtidos.

Definicao 1.1 Dizemos que uma variavel aleatoria X segue um modelo Gama(α,β)

se, e somente se, sua funcao densidade for dada por:

fX(x) =βα

Γ(α)xα−1e−βxI(0,∞)(x). (1.1)

Sendo α e β dois parametros positivos e Γ(α) a funcao Gama, definida por

Γ(α) =

∫ ∞0

xα−1e−xdx, α > 0.

Usamos a notacao X ∼ Gama(α,β).

Algumas propriedades da funcao gama podem ser verificadas, como:

i) Γ(α + 1) = αΓ(α), α > 0;

ii) Γ(n) = (n− 1)!, n inteiro positivo;

iii) Γ(12) =√π.

Um caso particular, muito importante, da distribuicao Gama (1.1) sera obtido a

seguir, se fizermos α =n

2e β =

2, onde n e um inteiro positivo.

Definicao 1.2 Dizemos que uma variavel aleatoria X tem distribuicao qui-quadrado

χ2(n) com n graus de liberdade se, e somente se, sua funcao densidade for dada por:

fX(x) =1

2n2 Γ(n

2)xn2−1e−

x2 , (1.2)

para x > 0 e n ∈ N, e a funcao Gama definida por:

∫ ∞0

xn2−1e−xdx,

para n > 0.

A distribuicao qui-quadrado possui numerosas aplicacoes importantes em inferen-

cia estatıstica, nesse trabalho sua importancia se da em ser a distribuicao assintotica

da estatıstica de Pearson(1900), como veremos na secao 1.2.

A funcao geradora de momentos de uma variavel aleatoria e muito importante

quando precisamos identificar qual o modelo da variavel que estamos trabalhando. Em

resultados adiante, estudaremos variaveis aleatorias que seguem um modelo χ2(n), desse

modo e importante saber como se caracteriza a funcao geradora de uma χ2(n). Como

uma χ2(n)e um caso particular de uma X ∼ Gama(n

2,12) entao basta calcularmos a funcao

geradora de momento de uma variavel aleatoria X ∼ Gama(α,β). Assim calculemos a

funcao geradora de X ∼ Gama(α,β).

Por definicao a funcao de densidade da variavel aleatoria X ∼ Gama(α,β) e:

fX(x) =βα

Γ(α)xα−1e−βxI(0,∞)(x).

Assim, a funcao geradora MX(t) e dada por

MX(t) = E(etX)

∫ ∞0

etxfX(x)dx

∫ ∞0

etxβα

Γ(α)xα−1e−βxdx

∫ ∞0

Γ(α)xα−1e−(β−t)xdx

∫ ∞0

Γ(α)

(β − t)α

(β − t)αxα−1e−(β−t)xdx

(β − t)α

∫ ∞0

(β − t)α

Γ(α)xα−1e−(β−t)x︸︷︷︸

E a funcao densidade de

uma Gama (α, β − t)

(β − t)α,

para todo t < β.

Em particular a funcao geradora de momento de uma variavel aleatoria X com

distribuicao χ2(n) e:

MX(t) =

)n/2(12− t)n/2 =

1− 2t

Definicao 1.3 Uma variavel aleatoria X segue o modelo Normal com parametros

µ = 0 e σ2 = 1, isto e , X ∼ N(0, 1) se sua funcao densidade e dada por:

fX(x) =1√2πe−x2

2 . (1.3)

Teorema 1.1 Seja X uma variavel aleatoria contınua com funcao de densidade de

probabilidade f . Entao, a variavel aleatoria Y = X2 tem funcao de densidade de

probabilidade dada por:

fY (y) =1

[f(√y) + f(−√y)].

Demonstracao. A funcao de distribuicao de Y = X2 e dada por:

G(y) = P (Y ≤ y)

= P (X2 ≤ y)

= P (−√y ≤ x ≤ √y)

= F (√y)− F (−√y),

onde F e a funcao de distribuicao de X.

fY (y) = G′(y)

= f(√y)

12 − f(−√y)

2√yf(√y) +

2√yf(−√y)

[f(√y) + f(−√y)].

Usando o teorema anterior, vamos mostrar que o quadrado de uma variavel

aleatoria que tem distribuicao N(0, 1) e uma qui-quadrado com um grau de liberdade,

isto e:

Se X ∼ N(0, 1), entao X2 ∼ χ2(1)

De fato, seja X ∼ N(0, 1). A funcao de densidade de X e

fX(x) =1√2πe−

Agora, pelo Teorema 1.1, temos que a v.a. Y = X2 tem funcao de densidade

fY (y) =1

[f(√y) + f(−√y)].

fY (y) =1

[1√2πe−√y2

2 +1√2πe−

(−√y)22

2√2πe−

=1√y

e−y2

√2π

12 e−

√2π

√πy−

12 e−

)y 12−1e−

Portanto, X2 ∼ χ2(1).

Teorema 1.2 A soma de v.a.’s independentes, com distribuicao qui-quadrado, segue

uma distribuicao qui-quadrado, cujo numero de graus de liberdade e igual a soma do

numero de graus de liberdade das parcelas, i.e.,

Xi ∼ χ2(ki)

independentes , i = 1, ..., n⇒n∑i=1

Xi ∼ χ2

(∑ni=1 ki)

Demonstracao. Usando a funcao geradora de momentos, temos

Xi ∼ χ2(ki)⇒MXi(t) =

1− 2t

Assim,

M(∑ni=1Xi)

(t) = E(et∑ni=1Xi

(etX1+···+tXn

(etX1 · · · etXn

)· · ·E

1− 2t

· · ·(

1− 2t

)∑ni=1 ki

Portanto,n∑i=1

Xi ∼ χ2

(∑ni=1 ki)

Como vimos anteriormente, se uma variavel aleatoria tem distribuicao N(0, 1),

entao o quadrado dela tem distribuicao χ2(1). Agora, vejamos que se ξ1, ξ2, ..., ξn sao

v.a.’s independentes e ξi ∼ N(0, 1), ∀i ∈ 1, ..., n, entao

X =n∑i=1

ξ2i ∼ χ2

De fato, usando a Funcao Geradora de Momentos da ξ2i , temos

Mξ2i(t) =

1− 2t

Calculando MX(t), temos

MX(t) = E(etX)

= E(et(ξ

21+ξ22+···+ξ2n)

)E(etξ

)· · ·E

1− 2t

)1/2(1

1− 2t

· · ·(

1− 2t

Portanto, X ∼ χ2(n).

1.2 Estatıstica de Pearson

Nesta secao, vamos mostrar que a estatıstica de Pearson(1900) converge em dis-

tribuicao para uma variavel aleatoria com distribuicao qui-quadrado; este e o resultado

em que se baseia o teste qui-quadrado.

1.2.1 Experimentos multinomiais

Considere um experimento com c possıveis resultados, cada um com probabilidade

pj > 0, j = 1, ..., c ec∑j=1

pj = 1. Esse experimento e repetido n vezes de forma

independente e observamos as variaveis Xj, j = 1, ..., c, que correspondem ao numero

de ocorrencias de cada um dos possıveis resultados dessas repeticoes. Dizemos que vetor

aleatorio X = (X1, ..., Xc) tem distribuicao multinomial, com funcao de probabilidade

pX(k1, ..., kc) =n!

k1! · · · kc!pk11 · · · pkcc ,

comc∑j=1

pj = 1 ec∑j=1

kj = n, kj ∈ N, 0 ≤ kj ≤ n.

Um resultado bastante comum relacionado a uma variavel aleatoria X, unidi-

mensional com distribuicao N(µ, σ2) e o fato da varavel Y = aX ter distribuicao

N(aµ, a2σ2) onde a e uma constante. No caso onde X e um vetor aleatorio, temos

um resultado analogo, que agora iremos verificar, tendo em vista que esse resultado e

usado no lema 1.1 e tambem no teorema 1.3

Suponha que X e um vetor aleatorio c-dimensional tal que XT = (X1, ..., Xc),

com E(X) = µ onde µT = (µ1, ..., µc) e E(Xi) = µi e a media da i-esima compo-

nente de X. A variancia de X e dada por Var(X) = σ2 tal que (σ2)T

= (σ21, ..., σ

σ2i = Var(Xi), isto e, σ2

i e a variancia da i-esima componente de X. Portanto por

definicao de variancia, temos:

Var(Xi) = E[(Xi − µi)2] = E(X2i )− µ2

i . (1.4)

No caso multivariado vamos denotar σii ao inves de σ2i , a fim de se ajustar a

notacao de covariancia que veremos agora.

A covariancia de duas variaveis Xi e Xj e definida por

Cov(Xi, Xj) = E[(Xi − µi)(Xj − µj)]. (1.5)

Em particular, se i = j, verificamos que covariancia de uma variavel com ela

propria e simplesmente a variancia da variavel. Assim, nao ha realmente nenhuma

necessidade de definir variancia multivariada, separadamente, pois e um caso especial

de covariancia. A covariancia de Xi e Xj e usualmente denotada por σij como nos

referimos acima.

Desenvolvendo a equacao (1.5), teremos

Cov(Xi, Xj) = E[(Xi − µi)(Xj − µj)]

= E(XiXj − µjXi − µiXj + µiµj)

= E(XiXj)− µjE(Xi)− µiE(Xj) + µiµj

= E(XiXj)− µiµj

A matriz de covariancia para c variaveis e formada por c variancias e c(c− 1)/2

covariancias, muitas vezes e conveniente apresentar essas quantidades em uma matriz

(c× c), denotada por Σ = (σij)c×c. Entao,

σ11 · · · σ1c

.... . .

σc1 · · · σcc

e chamada de Matriz de Covariancia. Observe que os termos da diagonal principal sao

os valores das variancias e os termos fora da diagonal principal sao as covariancias tais

que σij = σji. Desse modo a matriz Σ e simetrica, e podemos ainda escrever:

Σ = E[(X− µ)(X− µ)T ]

Definicao 1.4 (Distribuicao Normal Multivariada) Se para todo z ∈ Rc, zTz 6= 0,

a variavel aleatoria zTη tem uma distribuicao normal, entao o vetor η e dito ter uma

distribuicao normal em Rc.

Seja X ∼ N(µ,Σ) e Y = (Y1, ..., Yc)T = BX, onde

b11 · · · b1c...

. . ....

bc1 · · · bcc

e uma matriz de ordem c×c, e considere o vetor z = (z1, ..., zc)

T , satisfazendo zTz 6= 0.

Temos que,

zTY = zTBX = (zTB)X = (BTz)TX.

ou seja Y tem distribuicao normal. E mais,

E(Y) = E(BX)

b11X1 + · · ·+ b1cXc

bc1X1 + · · ·+ bccXc

b11µ1 + · · ·+ b1cµc

bc1µ1 + · · ·+ bccµc

b11 · · · b1c...

. . ....

bc1 · · · bcc

= Bµ.

Var(Y) = E[(Y − E(Y))(Y − E(Y))T ]

= E[B(X− µ)(B(X− µ))T ]

= E[B(X− µ)(X− µ)TBT ]

= BE[(X− µ)(X− µ)T ]BT

= BΣBT .

Portanto,

Y ∼ N(Bµ, BΣBT ). (1.6)

Lema 1.1 Seja X ∼ N(0,Σ). Entao XTX ∼ χ2r se, e somente se, Σ e uma projecao

de posto r, isto e, Σ2 = Σ.

Demonstracao. Uma vez que Σ e simetrica, existe uma matriz ortogonal Q (isto e,

QTQ = I) tal que D = QΣQT e uma matriz diagonal. Entao se Σ2 = Σ e Σ tem

posto r, temos que

D2 =(QΣQT

(QΣQT

) (QΣQT

)= QΣ

= QΣIΣQT

= QΣ2QT

= QΣQT

Logo, D2 = D, e D tem posto r se, e somente se, r elementos da diagonal de D

sao iguais a 1 e o restante deles e igual a zero.

Seja Y = QX. Note que

YTY = (QX)T (QX) = XTQTQX = XTX.

Como X ∼ N(0,Σ), temos, pela expressao (1.6), QX ∼ N(0, QΣQT ), isto e, Y ∼ N(0, D).

Se dj denota o j-esimo elemento da diagonal de D, a funcao caracterıstica de

YTY =∑j

Y2j e∏j

(1− 2idjt)−1/2, que e a funcao caracterıstica de χ2

(r) se, e somente

se, r dos dj sao iguais a 1 e o restante deles e igual a zero.

Um problema comum na teoria das grandes amostras e: dada uma sequencia de

vetores aleatorios, Xnn≥1, com XnD→ X, encontrar a distribuicao limite de f(Xn)

para uma determinada funcao f(X). O teorema de Slutsky fornece uma poderosa

tecnica para atacar este tipo de problema. Nesse trabalho apenas enunciaremos o

teorema de Slutsky, pois sera usado na demonstracao do teorema 1.5, sendo possıvel

encontrar sua demonstracao em Ferguson(1996), pagina 41.

Teorema 1.3 (Teorema de Slutsky)

a) Se Xn ∈ Rc, XnD→ X e se f : Rc −→ R

m e tal que P (X ∈ C(f)) = 1, onde C(f)

e o conjunto de continuidade de f , entao f(Xn)D→ f(X);

b) Se XnD→ X e (Xn −Yn)

P→ 0, entao YnD→ X;

c) Se Xn ∈ Rc, Yn ∈ Rm, XnD→ X e Yn

D→ k, entao(Xn

)D→(

O teorema 1.5 mostra em detalhes que a distribuicao assintotica da estatıstica de

Pearson(1900) converge em distribuicao para uma χ2(c−1), onde c e o numero de catego-

rias em que a amostra esta dividida. Alem do teorema de Slutsky, um outro teorema

que sera fortemente usado e o Teorema do Limite Central para variaveis aleatorias

multivarida. Por se tratar de um resultado de grande importancia nao so no teo-

rema 1.5 mas em outros resultados ao longo do trabalho, enunciaremos e faremos sua

demonstracao.

Teorema 1.4 (Teorema do Limite Central para Variaveis Multivariada) Sejam

X1,X2, ... vetores aleatorios i.i.d. com media µ e matriz de covariancia finita, Σ. En-

tao, para Xn =X1 + X2 + ...+ Xn

n, temos

√n(Xn − µ)

D→ N(0,Σ)

Demonstracao.

Vejamos inicialmente que,

√n(Xn − µ) =

n∑j=1

(Xj − µ).

De fato,

√n(Xn − µ) =

(∑nj=1 Xj

n− nµ

(n∑j=1

Xj − nµ

n∑j=1

(Xj − µ)

Assim, temos

ϕ√n(Xn−µ)(t) = ϕ 1√n

∑nj=1(Xj−µ)(t)

= ϕ∑nj=1(Xj−µ)

(t√n

n∏j=1

ϕXj−µ

(t√n

onde ϕ(t) e a funcao caracterıstica de Xj − µ. Calculando ϕ(0) e ϕ′(0), obtemos

ϕ(0) = 1 e ϕ′(0) = 0, e ϕ′′(ε) = −Σ. como ε→ 0, aplicando o teorema de Taylor,

ϕ√n(Xn−µ)(t) =

ntT∫ 1

vϕ′′(uvt/√n)dudvt

)n→ exp

limn→∞

tT∫ 1

vϕ′′(uvt/√n)dudvt

−(1/2)tTΣt

Nesta convergencia estamos usando o fato que qualquer sequencia de numeros an

tais que limn→∞

nan existe, entao

(1 + an)nn→∞−→ exp

(limn→∞

No nosso caso,

ntT∫ 1

vϕ′′(uvt/√n)dudvt.

Agora que fizemos todos esses resultados auxiliares, veremos no teorema a seguir

que a estatıstica de Pearson (1900) converge em distribuicao para uma qui-quadrada

com (c− 1) graus de liberdade, onde c e o numero de categorias em que a amostra esta

dividida.

Teorema 1.5 Seja η = (η1, ..., ηc) um vetor aleatorio com distribuicao multinomial.

A estatıstica de Pearson, definida por

χ2 =c∑j=1

(ηj − npj)2

em que pj = P (Xn = j), tem distribuicao assintotica χ2(c−1).

Demonstracao. Para encontrar a distribuicao assintotica de χ2 quando n → ∞,

defina

Xm(j) =

1, se o resultado do m-esimo experimento e j;

0, caso contrario.

Entao, os vetores aleatorios X1 = (X1(1), ..., X1(c)),..., Xn = (Xn(1), ..., Xn(c))

sao i.i.d. e ηj = X1(j) + · · ·+Xn(j), j = 1, ..., c.

Note que E[Xm(j)] = pj e Var[Xm(j)] = pj(1− pj). De fato,

E[Xm(j)] = 1.P (Xm(j) = 1) + 0.P (Xm(j) = 0) = pj,

Var[Xm(j)] = E[(Xm(j))2

]− (E[Xm(j)])2 = pj − p2

j = pj(1− pj),

pois (Xm(j))2 = Xm(j).

Verifiquemos, ainda, que para o vetor X1 = (X1(1), ..., X1(c)), temos

Cov(X1(i), X1(j)) = E [(X1(i)− E[X1(i)])(X1(j)− E[X1(j)])]

= E [(X1(i)− pi)(X1(j)− pj)]

= E [X1(i)X1(j)− pjX1(i)− piX1(j) + pipj]

= E[X1(i)X1(j)]− pjE[X1(i)]− piE[X1(j)] + pipj

= E[X1(i)X1(j)]− pjpi − pipj + pipj

= E[X1(i)X1(j)]− pjpi

pi − p2i , se i = j

−pipj, se i 6= j

pi(1− pi), se i = j

−pipj, se i 6= j

Como os vetores X1, ...,Xn sao i.i.d, temos EX1 = p, com

,e matriz de covariancia do vetor X1 e Σ = Cov(X1), com

Cov(X1(1), X1(1)) Cov(X1(1), X1(2)) · · · Cov(X1(1), X1(c))

Cov(X1(2), X1(1)) Cov(X1(2), X1(2)) · · · Cov(X1(2), X1(c))...

......

Cov(X1(c), X1(1)) Cov(X1(c), X1(2)) · · · Cov(X1(c), X1(c))

p1(1− p1) −p1p2 · · · −p1pc

−p1p2 p2(1− p2) · · · −p2pc...

......

−p1pc −p2pc · · · pc(1− pc)

Podemos escrever a estatıstica χ2 da seguinte forma:

χ2 =c∑j=1

(ηj − npj)2

npj= n

c∑j=1

(ηjn− pj

Agora, observemos que

χ2 = n(Xn − p)TP−1(Xn − p),

p1 0 · · · 0

0 p2 · · · 0...

.... . .

0 0 · · · pc

De fato,

(Xn − p) =

n1/n− p1

n2/n− p2

nc/n− pc

, (Xn − p)T =( n1

n− p1

n− p2 · · ·

ncn− pc

P−1 =

1/p1 0 · · · 0

0 1/p2 · · · 0...

.... . .

0 0 · · · 1/pc

Disso, temos

n(Xn − p)TP−1(Xn − p) =

= n( n1

n− p1

n− p2 · · ·

ncn− pc

1/p1 0 · · · 0

0 1/p2 · · · 0...

.... . .

0 0 · · · 1/pc

n1/n− p1

n2/n− p2

nc/n− pc

n− p1

n− p2

· · ·(ncn− pc

n1/n− p1

n2/n− p2

nc/n− pc

n− p1

n− p2

+ · · ·+(ncn− pc

c∑j=1

(nj/n− pj)2

Portanto,

χ2 = n(Xn − p)TP−1(Xn − p).

Pelo Teorema do Limite Central para o caso multivariado, temos

√n(Xn − p)

D−→ Y,

onde Y ∼ N(0,Σ) e X1,X2, ...,Xn sao vetores aleatorios i.i.d. com media p e matriz

de covariancia Σ.

Assim, usando o teorema de Slutsky,

χ2 = n(Xn − p)TP−1(Xn − p) =√n(Xn − p)TP−1

√n(Xn − p)

D−→ YTP−1Y.

Devemos, agora, mostrar que YTP−1Y ∼ χ2(c−1).

De fato, denotando

P−1/2 =

1/√p1 0 · · · 0

0 1/√p2 · · · 0

......

. . ....

0 0 · · · 1/√pc

e fazendo Z = P−1/2Y, temos

ZTZ =(P−1/2Y

)TP−1/2Y = YTP−1/2P−1/2Y = YTP−1Y.

Como Y ∼ N(0,Σ), temos, Z = P−1/2Y ∼ N(0,P−1/2ΣP−1/2). Vamos mostrar

que a matriz de covariancia de Z e uma projecao, isto e, (P−1/2ΣP−1/2)2 = P−1/2ΣP−1/2.

Note que Σ = P − ppT . Disso,

(P−1/2ΣP−1/2)2 =

= [P−1/2(P − ppT )P−1/2]2

= [P−1/2PP−1/2 − P−1/2ppTP−1/2]2

= [I − P−1/2ppTP−1/2]2

= I − P−1/2ppTP−1/2 − P−1/2ppTP−1/2 + P−1/2p(pTP−1/2P−1/2p)pTP−1/2

= I − P−1/2ppTP−1/2 − P−1/2ppTP−1/2 + P−1/2p(pTP−1p)pTP−1/2.

Observe que pTP−1p = 1, pois

pTP−1p =(p1 p2 · · · pc

1/p1 0 · · · 0

0 1/p2 · · · 0...

.... . .

0 0 · · · 1/pc

· · ·

1 1 · · · 1)

· · ·

= p1 + p2 + · · ·+ pc

Portanto,

(P−1/2ΣP−1/2)2 = I − P−1/2ppTP−1/2 − P−1/2ppTP−1/2 + P−1/2ppTP−1/2

= I − P−1/2ppTP−1/2

= P−1/2ΣP−1/2.

Logo, como ZTZ = YTP−1Y, temos

χ2 =√n(Xn − p)TP−1

√n(Xn − p)

D−→ YTP−1Y ∼ χ2(c−1).

Portanto, χ2 ∼ χ2(c−1).

1.3 O Teste χ2

A ideia do famoso teste de hipotese qui-quadrado foi usada por K. Pearson em

1900, baseada na estatıstica de Pearson(1900)

χ2 =c∑j=1

(ηj − npj)2

Na maioria dos casos de Inferencia Estatıstica, o problema consiste em testar

hipoteses sobre os parametros media e proporcao. Em geral, as formas das distribuicoes

de probabilidade sao conhecidas e o interesse e decidir quanto a aceitar ou rejeitar uma

hipotese, sobre o verdadeiro valor do parametro. Mas existem tambem situacoes prati-

cas em que temos observacoes de uma variavel aleatoria cuja distribuicao da populacao

e desconhecida e o interesse agora e identificar o comportamento da variavel com um

modelo teorico. Isto e, terıamos um candidato a modelo e nosso problema seria esta-

belecer um procedimento para aceita-lo ou nao. O modelo proposto pode ser testado

atraves do teste qui-quadrado, considerando uma amostra grande, pelo teorema 1.3 , a

distribuicao de χ2 e aproximada pela qui-quadrada cujo grau de liberdade c− 1 onde c

e o numero de categorias estabelecidas. A decisao se baseia no comportamento de χ2.

Da seguinte forma:

1o Enunciar a hipotese Ho;

2o Determinar o nıvel de significancia do teste, ou seja,

α = P (χ2 ≥ qc|H0Verdadeiro);

3o Calcular as frequencias esperadas com base na hipotese;

4o Calcular o valor da estatıstica do teste;

5o Com o auxılio da tabela do qui-quadrado encontar a regiao crıtica;

Conclusao:

• Se χ2 ≥ qc, entao a hipotese H0 e rejeitada, ao passo que

• Se χ2 < qc entao aceito a hipotese H0.

A figura a seguir ilustra geometricamente o resultado deste teste, em que RA e

a regiao de aceitacao, RC e a regiao crıtica e qc e o valor crıtico encontrado na tabela

da distribuicao qui-quadrado.

Figura 2

Vejamos um exemplo real, onde possamos utilizar o metodo.

Exemplo: Deseja-se estudar a tolerancia de um equipamento eletronico com re-

lacao ao numero de impactos termo-eletricos. Pelas caracterısticas de fabricacao do

equipamento, e possıvel admitir que a probabilidade de falha seja constante, isto e,

apos cada impacto, existe uma probabilidade p de que ele falhe. Representando por X

a variavel aleatoria numero de impactos anteriores a falha, pretende-se verificar se o

modelo Geometrico com p = 0, 4 e adequado para caracterizar essa variavel.

A decisao que precisamos tomar e aceitar ou rejeitar o modelo sugerido. Nao

estamos testando o valor de um parametro, mas sim a adequacao ou nao de funcao de

probabilidade. Suponha que nossa amostra e composta de 80 equipamentos para serem

submetidos a sucessivos impactos termo-eletricos ate a ocorrencia da primeira falha.

Dessa forma, 80 realizacoes da variavel aleatoria X serao denotadas por X1, ..., X80.

Dessa forma, Xi representa o numero de impactos ate a ocorrencia de falha no i-esimo

equipamento testado, i = 1, 2, ..., 80. Pretendemos verificar se o modelo Geometrico

com p = 0, 4, e adequado, entao o teste sera:

H0 : X ∼ G (0, 4) ;

Ha : X tem outra distribuicao.

Considere as seguintes frequencias observadas:

Impactos 0 1 2 3 4 mais de 4

Freq. Obs. 30 26 10 5 5 4

Se H0 for verdadeiro, X segue o modelo Geometrico, cuja funcao de probabilidade

e dada por:

p (x) = p (1− p)x

Logo a frequencia esperada de resistencia a x impactos = npx, temos: fe = 80×

0, 4× 0, 6x. Fazendo os calculos, temos:

fe (0) = 80× 0, 4× 0, 60 = 32

fe (1) = 80× 0, 4× 0, 61 = 19, 2

fe (2) = 80× 0, 4× 0, 62 = 11, 5

fe (3) = 80× 0, 4× 0, 63 = 6, 9

fe (4) = 80× 0, 4× 0, 64 = 4, 1

fe (x > 4) = fe (5) + fe (6) + · · · = 6, 3

Impactos (x) 0 1 2 3 4 mais de 4

Freq. Obs. (fo) 30 26 10 5 5 4

Freq. Esp. (fe) 32,0 19,2 11,5 6,9 4,1 6,3

Como a categoria correspondente ao valor 4 teve frequencia esperada igual a 4, 1,

que e menor que 5, agregamos as duas ultimas categorias formando a categoria dos

maiores de 3, a qual tera a frequencia observada de 9 e esperada de 10, 4.

Entao,

χ2 =(30− 32)2

(26− 19, 2)2

19, 2+ ...+

(9− 10, 4)2

10, 4= 3, 44.

Escolhendo α = 0, 05 e observando que ficamos com um total de 5 categorias,

portanto 4 graus de liberdade, consultando a tabela da distribuicao da qui-quadrado,

temos qc = 9, 49. Como χ2 = 3, 44 < 9, 49, entao concluımos que o modelo proposto e

aceito.

Capıtulo 2

Cadeias de Markov

Neste capıtulo, vamos detalhar alguns resultados que estao no artigo Statistical

Methods In Markov Chains de Billingsley(1960). O artigo faz um apanhado dos as-

pectos matematicos de Inferencia Estatıstica e suas aplicacoes em cadeias de Markov

finita. O problema se resume a fazer inferencia sobre as probabilidades de transicao a

partir de uma observacao x1, ..., xn da cadeia. Nesse trabalho nos restringiremos a

analisar que a distribuicao assintotica de uma estatıstica semelhante a Pearson agora

numa observacao de uma cadeia de Markov, tambem tem modelo qui-quadrado com

(d− s) gruas de liberdade. Um resultado que nos ajudara a encontrar essa estatıstica e

visto no teorema 2.2, para isso sera preciso resultados como o teorema 2.1 que garante

em uma cadeia de Markov, estacionaria, irredutıvel, aperiodica e com espaco de estados

finito o raio de convegencia e geometrico. O resultado do lema 2.1 e importante para

o entendimento do teorema 2.2, verificaremos entre outros resultados a Lei Fraca dos

Grandes Numeros para cadeias de Markov que e um resultado de grande importancia

para a demonstracao do teorema 2.2.

2.1 Processos Estocasticos e Cadeias de Markov

Um processo estocastico e uma sequencia de variaveis aleatorias Xt, t ∈ T,

definidas sobre um mesmo espaco de probabilidade (Ω,F , P ). Assim, para cada w ∈ Ω

fixo, a funcao Xt(w) na variavel t, denotada por Xt(w), t ∈ T, e chamada uma

realizacao do processo Xtt ∈ T . A sequencia Xtt ∈ T e um processo a tempo discreto

se o conjunto de ındices T for enumeravel, e um processo a tempo contınuo, se T for nao

enumeravel. Um processo de Markov e um processo estocastico cujo comportamento

dinamico e tal que as distribuicoes de probabilidade para o seu desenvolvimento futuro

depende somente do estado presente, nao levando em consideracao como o processo

chegou a tal estado.

Definicao 2.1 O conjunto S de todos os valores assumidos por um processo e chamado

espaco de estados do processo. Se S e enumeravel, dizemos que o processo e uma

Cadeia. Se S e nao enumeravel dizemos que o processo tem espaco de estados geral.

Definicao 2.2 Um processo estocastico Xt, t = 0, 1, 2, . . . com espaco de estado

S = 1, 2, ..., s e uma Cadeia de Markov se satisfaz a propriedade de Markov dada por

P (Xn = in | Xn−1 = in−1, . . . , X0 = i0) = P (Xn = in|Xn−1 = in−1) , (2.1)

para todo n ∈ N e para todo i ∈ S = 1, 2, ..., s.

Definicao 2.3 Uma cadeia de Markov e dita homogenea ou estacionaria no tempo se

a probabilidade de ir de um estado a outro independe do tempo em que o passo e dado.

Isto e, para quaisquer estados i, j ∈ S, temos:

P (Xn = j|Xn−1 = i) = P (Xn+k = j | Xn+k−1 = i) , (2.2)

para k = −(n− 1),−(n− 2), . . . ,−1, 0, 1, 2, . . ..

Denotamos por pij a probabilidade de transicao do estado i para o estado j em

um passo, ou seja, P (Xn = j | Xn−1 = i) , n = 1, 2, . . .. Assim, a probabilidade de

no tempo n estarmos no estado j sabendo que no tempo n − 1 estamos no estado i

e dada por P (Xn = j | Xn−1 = i) = P(n−1,n)ij . Caso a cadeia seja estacionaria, entao

P(n−1,n)ij = P

(n+k−1,n+k)ij , para todo k = −(n − 1),−(n − 2), . . . ,−1, 0, 1, . . . . A essas

probabilidades condicionais denominamos de probabilidades de transicao da cadeia.

Considerando, agora, Xnn≥1 uma Cadeia de Markov com espaco de estados

S = 1, 2, . . . , s. Para essa cadeia existem s2 probabilidades de transicao pij,

i = 1, . . . , s e j = 1, 2, . . . , s. A melhor maneira de apresentar esses valores e em forma

de uma matriz P = pij, i, j = 1, 2, . . . , s, os quais representam a probabilidades de

irmos de um estado i ao estado j em um passo.

p11 p12 · · · p1s

p21 p22 · · · p2s

......

. . ....

ps1 ps2 · · · pss

Observe que na matriz de transicao todas as entradas sao nao-negativas, visto que sao

probabilidades; e a soma de cada uma das linhas e sempre igual a um.

Definicao 2.4 Uma cadeia de Markov com matriz de transicao P = (pij)i,j∈S e dita

ser ergodica se, para todo j ∈ S, existe

limn→∞

p(n)ij = pj

independente do i ∈ S, e ∑j∈S

pj = 1.

Definicao 2.5 Uma distribuicao pj, j ≥ 0 e estacionaria para a cadeia de Markov

com matriz de transicao P = (pij)i,j∈S e S = 1, 2, ..., s, se:

s∑i=1

pipij = pj,∀j.

Definicao 2.6 Uma cadeia de Markov com matriz de transicao P = (pij)i,j∈S e dita

ser irredutıvel se todos os estados se comunicam, isto e, quaisquer que sejam i, j ∈ Sexiste n ∈ N tal que p

(n)ij > 0 e existe k ∈ N tal que p

(k)ji > 0.

Definicao 2.7 O perıodo de um estado qualquer i ∈ S e dado pelo numero

d(i) = mdcn ≥ 1|p(n)ii > 0.

E quando d(i) = 1 dizemos que i e aperiodico.

Definicao 2.8 Uma cadeia de Markov com matriz de transicao P = (pij)i,j∈S onde

todos os estados sao aperiodicos e dita ser aperiodica.

No restante do trabalho nos referiremos sempre a Cadeia de Markov com espaco

de estados finito, aperiodica e irredutıvel. Um resultado importante sobre cadeia de

Markov, que sera usado no lema 2.1 da secao 2.2, sera demonstrado na segunda parte do

teorema a seguir. Diz respeito ao fato do raio de convergencia de uma cadeia ergodica

ser geometrico.

Teorema 2.1 Uma cadeia de Markov homogenea Xnn≥0 irredutıvel e aperiodica com

espaco de estados finito e ergodica. Alem do mais, o raio de convergencia e geometrico,

no sentido de que existem γ > 0 e 0 < ρ < 1 tais que

|p(n)ij − pj| ≤ γρn.

Demonstracao. A ergodicidade de Xnn≥0 segue como consequencia dos teoremas

2.7, 2.8 de Kijima (1997).

Agora, suponha que pij ≥ δ > 0, quaisquer que sejam i, j ∈ S. Sejam Mnj =

(n)ij e mn

j = infip

(n)ij . Observe que mn

j ≤ p(n)ij ≤Mn

j . Usando a equacao de Chapman-

Kolmogorov, temos

p(n+1)ij =

∑l∈S

pilp(n)lj ≤

∑l∈S

pilMnj = Mn

∑l∈S

p(n)il = Mn

j ⇒Mn+1j = sup

(n+1)ij ≤Mn

ou seja,

Mn+1j ≤Mn

De modo analogo, temos

mn+1j = inf

(n+1)ij = inf

∑l∈S

pilp(n)lj ≥ inf

∑l∈S

pilmnj = mn

ou seja,

mn+1j ≥ mn

Como (mnj ) e monotona e limitada inferiormente, temos mn

j ↑ pj = limn→∞

p(n)ij , para

todo i.

Vamos mostrar que existe ρ > 0 tal que |Mnj −mn

j | ≤ ρn.

De fato,

Mn+1j −mn+1

j = supi,k

(n+1)ij − p(n+1)

)= sup

(∑l∈S

pilp(n)lj −

∑l∈S

pklp(n)lj

= supi,k

(∑l∈S

(pil − pkl) p(n)lj

Defina

(pil − pkl)+ =

pil − pkl, se pil > pkl

0, se pil ≤ pkl.

(pil − pkl)− =

pil − pkl, se pil < pkl

0, se pil ≥ pkl.

0 =∑l∈S

(pil − pkl) =∑l∈S

(pil − pkl)+ −∑l∈S

(pil − pkl)−,

temos ∑l∈S

(pil − pkl)+ =∑l∈S

(pil − pkl)−.

Disso,

Mn+1j −mn+1

j = supi,k

(∑l∈S

(pil − pkl)+ −∑l∈S

(pil − pkl)−)p

≤ supi,k

(∑l∈S

Mnj (pil − pkl)+ −

∑l∈S

mnj (pil − pkl)−

= supi,k

(∑l∈S

(pil − pkl)+(Mnj −mn

Por hipotese, temos pkl ≥ δ > 0. Logo,

−pkl ≤ −δ ⇒ pil − pkl ≤ pil − δ.

Da mesma forma

pil ≥ δ > 0⇒ pil − δ ≥ 0.

Assim,

(pil − pkl)+ = pil − pkl ⇒ (pil − pkl)+ ≤ pil − δ

(pil − pkl)+ = 0⇒ (pil − pkl)+ ≤ pil − δ.

Mn+1j −mn+1

j ≤ supi,k

(∑l∈S

(pil − δ)(Mnj −mn

)≤ sup

i,k(1− sδ)(Mn

j −mnj )

= (1− sδ)(Mnj −mn

= ρ(Mnj −mn

em que ρ = 1− sδ. Assim, continuando com esse procedimento, temos

|Mnj −mn

j | ≤ ρn.

Note que p(n)ij ≤Mn

j e mnj ≤ πj implicam p

(n)ij − πj ≤Mn

j −mnj . Logo,

|p(n)ij − pj| ≤ |Mn

j −mnj | ≤ ρn.

Sendo a cadeia e irredutıvel e aperiodica, existe n0 ≥ 1 tal que p(n0)ij ≥ δ > 0.

Podemos fazer

P n = P k0P [n/n0]n0 = P k0+mn0 ,

onde P e a matriz de transicao da cadeia e m =

]. Logo,

|p(n)ij − pj| =

∣∣∣p(k0+mn0)ij − pj

∣∣∣=

∣∣∣∣∣∑l∈S

p(k0)il (p

(mn0)lj − pj)

∣∣∣∣∣=

∣∣pmlj − pj∣∣≤ ρm

= ρ(n−k0)/n0

= ρ−k0/n0ρn/n0

= ρ−k0/n0(ρ1/n0

Portanto, existem γ > 0 e 0 < ρ < 1 tais que

|p(n)ij − pj| ≤ γρn.

2.2 Resultados em Cadeia de Markov Ergodica e

Estacionaria

Alguns resultados sobre convergencia, validos em cadeias de Markov, serao apre-

sentados nesta secao. Denotaremos por fi e fij, respectivamente, o numero de vezes

em que a cadeia saiu de i, e o numero de vezes que saiu de i e foi para j, nos n + 1

primeiros passos.

Lema 2.1 Seja Xnn≥1 uma cadeia de Markov estacionaria e ergodica e seja ξ =

(ξ1, ..., ξs) o vetor aleatorio com componentes

ξi =fi − npi√

Entao E(ξi) = 0

E(ξiξj) = αij +O(

onde αij = δijpi − pipj + pi

∞∑k=1

(p(k)ij − pj) + pj

∞∑k=1

(p(k)ji − pi) e lim

n→∞

= c, com c

constante. Alem disso, vale a lei fraca dos grandes numeros para cadeias de Markov:

P−→ pi.

Demonstracao. O numero de vezes que a cadeia saiu de i e

fi =n∑

I[Xm=i].

E(fi) = E(I[X1=i]) + · · ·+ E(I[Xn=i])

= P (X1 = i) + · · ·+ P (Xn = i)

= npi,

pois a cadeia e estacionaria, isto e, P (Xm = i) = pi, ∀m = 1, ..., n.

Assim, para todo i ∈ S, temos

E(ξi) = E

(fi − npi√

1√nE(fi − npi)

=E(fi)− E(npi)√

=npi − npi√

Agora, vamos calcular E(ξiξj).

E(ξiξj) = E

[(fi − npi√

)(fj − npj√

[(n∑l=1

I(Xl=i) − npi

)(n∑

I(Xm=j) − npj

[n∑l=1

(I(Xl=i) − pi)n∑

(I(Xm=j) − pj)

n∑l=1

(I(Xl=i) − pi)(I(Xm=j) − pj)

n∑m=1

n∑l=1

E[(I(Xl=i) − pi)(I(Xm=j) − pj)

Calculemos E[(I(Xl=i) − pi)(I(Xm=j) − pj)

]para os casos em que l < m, m < l e

m = l.

Caso I (l < m):

]= E(I(Xl=i)I(Xm=j) − pjI(Xl=i) − piI(Xm=j) + pipj)

= E(I(Xl=i)I(Xm=j))− pjE(I(Xl=i))− piE(I(Xm=j)) + pipj

= E(I(Xl=i,Xm=j))− pjE(I(Xl=i))− piE(I(Xm=j)) + pipj

= P (Xl = i,Xm = j)− pipj − pipj + pipj

= P (Xl = i,Xm = j)− pipj

= P (Xm = j|Xl = i)P (Xl = i)− pipj∗= P (Xm−l+1 = j|X1 = i)P (Xl = i)− pipj

= p(m−l)ij pi − pipj.

* pois a cadeia tem probabilidade de transicao estacionaria.

Caso II (m = l):

]= P (Xm = i,Xm = j)− pipj

P (Xm = i), se i = j

P (∅), se i 6= j

− pipj= δijpi − pipj,

em que

δij =

1, se i = j

0, se i 6= j.

Caso III (l > m):

]= P (Xl = i|Xm = j)P (Xm = j)− pipj

= p(l−m)ji pj − pipj.

Entao, podemos escrever

]= P (Xl = i|Xm = j)− pipj

(m−l)ij pi − pipj, se m > l;

δijpi − pipj, se m = l;

p(l−m)ji pj − pipj, se m < l.

Assim,

n∑m=1

n∑l=1

= n(δijpi − pipj)︸︷︷︸m=l

+ (n− 1)(pjp(1)ji − pipj) + (n− 2)(pjp

(2)ji − pipj) + · · ·+ 1(pjp

(n−1)ji − pipj)︸︷︷︸

+ (n− 1)(pip(1)ij − pipj) + (n− 2)(pip

(2)ij − pipj) + · · ·+ 1(pip

(n−1)ij − pipj)︸︷︷︸

Entao,

E(ξiξj) =1

n(δijpi − pipj) +n−1∑k=1

(n− k)(pip(k)ij − pipj)︸︷︷︸

+n−1∑k=1

(n− k)(pjp(k)ji − pipj)︸︷︷︸

= (δijpi − pipj) + n−1

n−1∑k=1

(n− k)(pip(k)ij − pipj)︸︷︷︸

+n−1

n−1∑k=1

(n− k)(pjp(k)ji − pipj)︸︷︷︸

Vejamos que (I) difere da parcela pi

∞∑k=1

(p(k)ij − pj) de αij pela quantidade

∞∑k=n

(p(k)ij − pj) + n−1pi

n−1∑k=1

k(p(k)ij − pj).

De fato,

∞∑k=1

(p(k)ij − pj)− n−1

n−1∑k=1

(n− k)(pip(k)ij − pipj) =

∞∑k=1

(p(k)ij − pj)− pi

n−1∑k=1

k(p(k)ij − pj)

∞∑k=n

n−1∑k=1

k(p(k)ij − pj).

Pelo teorema 2.1,

|p(k)ij − pj| < γρk, 0 < ρ < 1⇒

∞∑k=1

|p(k)ij − pj| ≤

∞∑k=1

γρk︸︷︷︸serie geom.

0<ρ<1

Logo,∞∑k=1

|p(k)ij − pj| converge , isto e,

∞∑k=1

(p(k)ij − pj) e uma serie absolutamente

convergente.

Da mesma maneira,

∞∑k=1

|k(p(k)ij − pj)| ≤

∞∑k=1

kγρk,

que e convergente. De fato, pelo teste da razao,

(k + 1)ρk+1

)ρ→ ρ < 1, quando k →∞.

Logo,∞∑k=1

k(p(k)ij − pj) tambem e absolutamente convergente.

Consequentemente,

∞∑k=n

(p(k)ij − pj)︸︷︷︸

tende a 0quando n→∞

+n−1pi

n−1∑k=1

k(p(k)ij − pj)︸︷︷︸

convergequando n→∞

Analogamente, (II) difere da parcela pj

∞∑k=1

(p(k)ji − pi) de αij por uma quantidade

). Portanto, E(ξiξj) = αij +O

Agora, vamos mostrar que vale a lei fraca dos grandes numeros.

Se X e uma variavel aleatoria qualquer. Entao, para quaisquer t, k > 0, temos

P (|X| ≥ t) ≤ E(|X|k)tk

conhecida como desigualdade de Markov.

Assim,usando a desigualdade acima

(∣∣∣∣fin − pi∣∣∣∣ ≥ ε

E(∣∣fi

n− pi

∣∣2)ε2

fin− pi

)2]ε2

=E[(fi − npi)2]n2ε2

=1nE[(fi − npi)2]1nn2ε2

[(fi−npi√

nε2=E[(ξi)

2]nε2

=αii +O(1/n)

αiinε2

+O(1/n)

=αiinε2︸︷︷︸↓0

+O(1/n)1/n

(1/n)nε2︸︷︷︸↓0

Portanto,fin

P−→ pi.

Teorema 2.2 Seja Xnn≥1 uma cadeia de Markov estacionaria e ergodica, a dis-

tribuicao do vetor estacionario s2-dimensional com componentes

ξij =fij − fipijf

converge quando n → ∞ para uma distribuicao normal com matriz de covariancia

λij,kl = δik(δjlpij − pijpil).

Demonstracao. O processo Xnn≥1 pode ser gerado da seguinte forma: considere

uma colecao independente de v.a.’s X1 e Win, (i = 1, ..., s e n = 1, 2, ...), tais que

P (X1 = i) = pi e pij = P (Win = j). Considere o conjunto das variaveis Win como

descrito abaixo.

W11, W12, · · · , W1n, · · ·

W21, W22, · · · , W2n, · · ·

· · · · · · · · · · · · · · ·

Ws1, Ws2, · · · , Wsn, · · ·

A construcao do processo e feita da seguinte maneira: Se X1 = i, entao a primeira

variavel da linha i e, por definicao, o valor de X2. Se X2 = j, entao a primeira variavel

da j-esima linha sera o valor de X3, a menos que i = j, neste caso, X3 sera a segunda

variavel da j-esima linha, e assim sucessivamente. De maneira formal, podemos es-

crever X2 = WX11, e se X1, X2, ..., Xn ja estao definidos, entao Xn+1 = WXnm, onde

(m− 1) e o numero de ındices l, 1 ≤ l < n, tais que Xl = Xn.

Por definicao,

Xk = ak, 1 ≤ k ≤ n+ 1 =X1 = a1,Wak−1mk = ak, 2 ≤ k ≤ n+ 1

onde (mk − 1) e o numero de elementos em a1, ..., ak−1 que sao iguais a ak. Como as

variaveis envolvidas sao todas independentes, entao

P (X1 = a1, X2 = a2, ..., Xn+1 = an+1) =

= P (X1 = a1,Wa1m2 = a2,Wa2m3 = a3, ...,Wanmn+1 = an+1)

= P (X1 = a1)P (Wa1m2 = a2) · · ·P (Wanmn+1 = an+1)

= pa1 .pa1a2 .pa2a3 · · · panan+1 .

Note que

fi∑m=1

I[Wim=j].

Assim, (fi1, fi2, ..., fis) e a contagem da frequencia de Wi1,Wi2, ...,Wifi, ou seja,

fij e o numero de vezes que na amostra Wi1,Wi2, ...,Wifi a cadeia saiu de i para j,

1 ≤ j ≤ s.

Pelo lema 2.1, vimos quefin

P−→ pi, isto e, fi esta perto de npi com probabilidade

alta. E natural comparar (fi1, fi2, ..., fis) com a contagem de frequencia (gi1, gi2, ..., gis)

da sequencia Wi1,Wi2, ...,Wi[npi], em que gij e o numero de vezes que j apareceu

nesta amostra. Da independencia do vetor (Win) e do teorema central do limite para

processos multinomiais, segue que as s2 v.a.’s

gij − [npi]pij(npi)1/2

sao assintoticamente normal distribuıdas, com matriz de covariancia

λij,kl = δik(δjlpij − pijpil).

Entao, o vetor de variavel aleatoria η = (ηij), com compontentes

ηij =fij − fipij(npi)1/2

tera essa mesma distribuicao limite se mostrarmos que para cada i e para cada j a

diferencagij − [npi]pij

(npi)1/2− fij − fipij

(npi)1/2

P−→ 0.

Defina

1− pij, se Wim = j;

−pij, se Wim 6= j

Sm = e1 + · · ·+ em.

Assim,

Sfi = e1 + · · ·+ efi

= (1− pij)

(fi∑

I[Wim=j]

)− pij

(fi∑

I[Wim 6=j]

= (1− pij)

(fi∑

I[Wim=j]

)− pij

(fi −

fi∑m=1

I[Wim=j]

)= (1− pij)fij − pij(fi − fij)

= fij − pijfij − pijfi + pijfij

= fij − pijfi

S[npi] = e1 + · · ·+ e[npi]

= (1− pij)

[npi]∑m=1

I[wim=j]

− pij[npi]−

[npi]∑m=1

I[wim=j]

= (1− pij)gij − pij([npi]− gij)

= gij − pijgij − pijfi + pijgij

= gij − pij[npi].

Entao,

gij − [npi]pijn1/2

− fij − fipijn1/2

=S[npi]

n1/2− Sfin1/2

=S[npi] − Sfi

Pelo lema 2.1, temosfin

P−→ pi, isto e, para todo ε > 0, existe n0 ∈ N tal que

n ≥ n0 ⇒ P(|fi − [npi]| > nε3

)< ε.

Podemos escrever|S[npi] − Sfi |

n1/2> ε

|S[npi] − Sfi |

n1/2> ε

∩[|fi − [npi]| > nε3 ∪ |fi − [npi]| ≤ nε3

[|S[npi] − Sfi |

n1/2>ε

∩|fi − [npi]| > nε3

]∪[|S[npi] − Sfi |

n1/2>ε

∩|fi − [npi]|≤nε3

Se Xn : n ≥ 1 e uma sequencia de variaveis aleatorias independentes com media

zero e variancia finita. Entao, para todo λ > 0 e com Sk = X1 + · · ·+Xk temos,

(max1≤k≤n

|Sk| ≥ λ

)≤ V ar(Sn)

Essa desigualdade e conhecida como Desigualdade de Kolmogorov.

Assim,

(|S[npi] − Sfi |

n1/2> ε

(|S[npi] − Sfi |

n1/2> ε, |fi − [npi]| > nε3

(|S[npi] − Sfi |

n1/2> ε, |fi − [npi]| ≤ nε3

≤ P (|fi − [npi]| > nε3) + P

(|S[npi] − Sfi |

n1/2> ε, |fi − [npi]| ≤ nε3

≤ P (|fi − [npi]| > nε3) + P

|m−[npi]|≤nε3

|S[npi] − Sm| > εn1/2

≤ ε+ 2P

1≤m≤nε3

|Sm| >

εn1/2

≤ ε+ 2Var(Snε3)

nε2/4(pela desigualdade de Kolmogorov)

= ε+ 24

nε2Var(Snε3).

Var(Snε3) = nε3Var(em) = nε3pij(1− pij),

E(em) = (1− pij)P (Wim = j)− pijP (Wim 6= j) = (1− pij)pij − pij(1− pij) = 0

E(e2m) = (1− pij)2pij + p2ij(1− pij) = pij − p2

implicam

Var(em) = pij(1− pij).

(|S[npi] − Sfi |

n1/2> ε

)≤ ε+ 2

nε2nε3pij(1− pij) = ε(1 + 8pij(1− pij)).

Como ε > 0 foi qualquer, temos

S[npi] − Sfin1/2

P−→ 0.

Logo, pelo teorema de Slutsky, temos

gij − [npi]pij(npi)1/2

−(gij − [npi]pij

(npi)1/2− fij − fipij

(npi)1/2

)D−→ Y,

onde Y tem distribuicao normal. Portanto, ηij =fij − fipij(npi)1/2

, converge em distribuicao

para uma normal.

Agora, observe que:

ηijξij

fij − fipij(npi)1/2

fij − fipijf

(npi)1/2=

P−→ p1/2i

quando n→∞. Portanto,ηijξij

P−→ 1.

Usando novamente o teorema de Slutsky, temos

ξij =ηij

ηij/ξij

D−→ Y,

onde Y tem distribuicao normal.

Com isso, e da teoria basica de qui-quadrado, cada estatıstica∑j

(fij − fipij)2

fipij, i = 1, ..., s, (2.3)

tem distribuicao assintotica qui-quadrado. A soma em (2.3) deve ser restrita aos ındices

j tais que pij > 0; se tivermos di desses pij’s, entao o numero de graus de liberdade

da distribuicao limite e di − 1. Alem disso, as s estatısticas sao assintoticamente

independentes, de modo que a soma∑ij

(fij − fipij)2

fipij,

tem distribuicao assintotica qui-quadrado com d−s graus de liberdade, onde d =∑i

e o numero de elementos positivos da matriz (pij). A estatıstica (2.3), considerada

primeiro por Bartlett (1951), fornece a medida de melhor ajuste da amostra com as

probabilidades de transicao pij assumidas.

Referencias Bibliograficas

BARTLETT, M. S. The frequency goodness of fit test for probability chains. Proc.

Comb. Phil. Soc, Vol. 47 (1951), pp. 86− 95 (MR. 12.512).

BOLFARINE, Heleno.; SANDOVAL, M.C.Introducao A Inferencia Estatıstica, SBM.

BREIMAN, Leo.Statistics: With a View Toward ApplicationsHougthton Mifflin

Company.

COCHRAN, W. G. The χ2 test of goodness of fit. The Annals of Mathematical Statis-

tics, Vol. 23, No. 3 (Sep., 1952), pp. 315− 345.

CHUNG, Kai Lai. A Course in Probability Theory. 2.ed. [S.L], Academic Press, 1974.

CRAMER,Harald.Mathematical Methods Of Statistics.1.ed.Princenton University Press,

FERGUSON,Thomas S.A Course In Large Sample Theory.1.ed.Chapman & Hall,

London,1996

GONCALVES, Cristina Faria F.,Estatısticaed. UEL, 2002

GRENNWOOD,Priscilla E.; NIKULIN,Mikhail S.A Guides To Chi-Squared Testing.

John Wiley & Sons, Inc.

JAMES, Barry R. Probabilidade: Um curso intermediario. 3. ed. Rio de Janeiro:

IMPA, 2004.

KIJIMA, M. Markov Processes for Stochastic Modeling. 1.ed. Chapman & Hall,

London, 1997.

KOEHLER, K. J.; LARNTZ, K. An Empirical Investigation of Goodness-of-Fit

Statistics for Sparse Multinomials. Journal of the American Statistical Associa-

tion, Vol. 75, No. 370 (Jun., 1980), pp. 336− 344.

MAGALHAES, M. Nascimento. Probabilidade e Variaveis aleatorias. Sao Paulo:

IME-USP, 2004.

MAGALHAES, Marcos N.; LIMA, Antonio C. Pedroso de.; Nocoes De Probabilidade

E Estatıstica 6. ed. Edusp, 2007.

MOOD, Alexander M.; GRAYBIIL, Franklin A.;BOES,Duane C. Introduction To The

Theory Of Statistics. 3.ed. International Student edition, 1913.

PAUL, L., Probabilidade Aplicacoes A Estatıstica2. ed.LTC,1983

PEARSON,K.(1900), On the Criterion That a Given System of Variables Is Such

That It Can Be Reasonably Supposed to Have Arisen From Random Sam-

pling. Philosophical Magazine , 1901. 50, 157-175.

ROSSI, S. M. Stochastic Processes. New York: John Wiley and Sons, 1983.

SERFLING, Robert J. Approximation Theorems of Mathematical Statistics. Wiley

Interscience, 2002.

SINGER, J.M.; SEN, P.K.Large Sample Methodos In Statistics An Introduction With

Apllications.1993 Chapman & Hall

METODOS ESTAT ISTICOS EM CADEIAS DE MARKOV · estudos num modelo multinomial que desempenha um...

Documents

Transcript of METODOS ESTAT ISTICOS EM CADEIAS DE MARKOV · estudos num modelo multinomial que desempenha um...

Cadenas de Markov controladas: Robustez distribucional y ...

Probabilidade e Estat´ıstica - UTFPR

Cadeias Ocultas de Markov

Estat´ıstica Matematica´

Cadeias de Markov

Estat´ıstica - Universidade de Coimbra

INTRODUÇAO˜ à ESTATÍSTICA e à PROBABILIDADE Ano ...€¦ · ESTATÍSTICA e à PROBABILIDADE Ano Lectivo - 2014/2015 Manuela Neves - 2014 - Introdução a Estat´ıstica

Modelos Ocultos de Markov - leg.ufpr.brleg.ufpr.br/~lucambio/CE064/20201S/Modelos_Ocultos_de_Markov_3.pdfModelos Ocultos de Markov III.1 Forward e backward OenunciadodoTeoremaIII.1signi˙caquecadacomponente

Mind Reading with Regularized Multinomial Logistic Regression

USO DAS CADEIAS DE MARKOV ASSOCIADO AO …

Cadeias e Processos de Markov

Modelos de Markov e aplicações

Livro.2_Termodn & Mec Estat

ESTAT´ISTICA INFERENCIALsweet.ua.pt/andreia.hall/Bioestatística/ICs.pdf · 2007. 3. 5. · Bioestat´ıstica, 2007 1. Estat´ıstica inferencial O objectivo da Estat´ıstica ´e

Modelos Markov Discreto Resueltos

Estat Stica Geral 2005 2

Cadeias de Markov - UFJF · Modelagem e Simulação - Cadeias de Markov Notas de Aula - Fernando Nogueira 1 Cadeias de Markov 1. Introdução Nestas notas de aula serão tratados

Aula5.Modelos de Markov

Reconhecimento de fala usando cadeias de markov

Estat%A1stica Para Bombeiros 20110701151318