Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct...

108
50 000 100 000 150 000 200 000 5. ·10 -6 0.00001 0.000015 0.00002 Distribuiç ã o Estimada: DagumDistribution@1249.3, 2.4, 2111.D Colecc ¸ ˜ ao M ´ etodos Estoc ´ asticos Inferˆ encia e Modela¸ ao Estat´ ıstica Notas de Lic ¸ ˜ oes Manuel L. Esqu´ ıvel Professor Associado de Probabilidade e Processos Estoc´ asticos 19 de Setembro de 2016

Transcript of Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct...

Page 1: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

50 000 100 000 150 000 200 000

5. ´ 10-6

0.00001

0.000015

0.00002

Distribuiç ã o Estimada:

[email protected], 2.4, 2111.D

Coleccao Metodos Estocasticos

Inferencia e Modelacao Estatıstica

Notas de Licoes

Manuel L. Esquıvel

Professor Associadode

Probabilidade e Processos Estocasticos

19 de Setembro de 2016

Page 2: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2

Page 3: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

Prefacio

...real statistics is not primarily about the Mathematics which underlies it: common sense andscientific judgement are more important. (But, as stated earlier, this is no excuse for not usingthe right Mathematics when it is available.)

In David Williams, Weighing the Odds. A Course in Probability and Statistics, CambridgeUniversity Press 2001, page 239.

Neste texto apresentam-se umas notas de licoes da unidade curricular Inferencia eModelacao Estatıstica, do segundo ano do mestrado em Matematica e Aplicacoes daFCT/UNL.

No primeiro capıtulo passam-se em revista alguns dos principais resultados da mo-derna teoria das Probabilidades – segundo Andrei Kolmogorov – que serao necessariosmais adiante.

No segundo capıtulo, usando o formalismo introduzido previamente, exploram-se osprincipais conceitos da Inferencia Estatıstica. Tenta-se uma exposicao rigorosa com aexplicitacao das definicoes e principais resultados associados em cada tematica. Sempreque possıvel desenvolvem-se as demosntracoes para permitir uma melhor apreensao dasrelacoes entre os conceitos.

No terceiro capıtulo sao estudados os modelos lineares generalizados numa pers-pectiva practica mas apoiada no formalismo da Estatıstica estudado. O objectivo eproporcionar a formacao de espırito crıtico – na tomada de decisoes quanto aos modelosa adoptar – baseado em bom senso e no domınio das tecnicas estatısticas.

Alguns dos complementos figuram como exercıcios no final dos capıtulos. Quandoum complemento e muito relevante, fornece-se a resolucao.

Esta edicao em 2015, destina-se sobretudo a apoiar a leccionacao da unidade curri-cular referida acima. O desenvolvimento lectivo 1 nao segue a sequencia da exposicaodestas notas para atender a diferentes necessidades: motivacao dos alunos, encadeamentodas avaliacoes e eficacia da exposicao.

A apresentacao dos resultados restringe-os, quase sempre, ao caso unidimensional.Numa futura edicao serao expostas as correspondentes versoes multidimensionais.

1http://ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1516/InfModEstWEB2015.html

i

Page 4: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

ii

Page 5: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

Conteudo

Prefacio ii

1 Formalismo das Probabilidades 1

1.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 O modelo das probabilidades segundo Kolmogorov . . . . . . . . . . . . . 2

1.3 Leis dos grandes numeros . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 Um teorema do limite central . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.5 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.6 Resolucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Funcoes Geradoras de Momentos e Teoremas Limite 21

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2 Sobre o calculo de valores esperados . . . . . . . . . . . . . . . . . . . . . 21

2.3 Os momentos das variaveis aleatorias . . . . . . . . . . . . . . . . . . . . . 22

2.4 A funcao geradora de momentos . . . . . . . . . . . . . . . . . . . . . . . 24

2.5 Propriedades da funcao geradora de momentos . . . . . . . . . . . . . . . 29

2.6 Teoremas limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.7 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.8 Resolucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3 Formalismo da Estatıstica 47

3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2 Estatısticas e estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.3 Os Estimadores da Maxima Verosimilhanca . . . . . . . . . . . . . . . . . 50

3.4 Informacao de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.5 Consistencia e Normalidade Assimptotica dos EMV . . . . . . . . . . . . 58

3.6 Estatısticas Suficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.7 Testes de Hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.9 Resolucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

iii

Page 6: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

0 Seccao: 0.0

4 Modelos Lineares Generalizados 794.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794.2 Distribuicoes de tipo exponencial . . . . . . . . . . . . . . . . . . . . . . . 814.3 A funcao de ligacao canonica . . . . . . . . . . . . . . . . . . . . . . . . . 844.4 A estimacao nos modelos lineares generalizados . . . . . . . . . . . . . . . 864.5 Metodos para aferir a qualidade do ajustamento . . . . . . . . . . . . . . 874.6 O modelo Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.7 O modelo Probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 964.9 Resolucoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 984.10 Comentarios sobre as referencias . . . . . . . . . . . . . . . . . . . . . . . 100

IME iv 19 de Setembro de 2016

Page 7: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

Capıtulo 1

Formalismo das Probabilidades

In modern probability theory it is customary to relate all objects of study to a basic probabilityspace (Ω,A, P ). ...It should be noted, however, that the reference space Ω is introduced only fortechnical convenience, to provide a consistent mathematical framework. Indeed, the actualchoice of Ω plays no role, and the interest focuses instead on the various induced distributions

L(ξ) = P ξ−1.

In Olav Kallenberg, Foundations of Modern Probability, Second Edition, Springer 2002, page 45.

1.1 Introducao

A teoria das probabilidades evoluiu recentemente – se considerarmos a escala de tempodefinida pela evolucao da geometria – tomando-se como ponto de partida as contribuicoesiniciais de Girolamo Cardamo (1501–1576), Pierre de Fermat (1601–1665) e Blaise Pas-cal (1623 – 1662). Foi Andrei Kolmogorov (1903–1987) quem em 1933 publicou no livroFoundations of Probability Theory – ver [Kol56] – uma interpretacao da teoria das proba-bilidades que, pela sua simplicidade – apesar de requerer a teoria do integral de Lebesgue– e eficacia, permitiu o extraordinario desenvolvimento desta teoria e das suas aplicacoes,em particular, a estatıstica. A obra de Kolmogorov e ainda hoje uma referencia classicaque importa conhecer. Uma apresentacao com desenvolvimentos mais recentes da teoriadas probabilidades encontra-se na obra Probability de Albert Shiryaev – ver [Shi96] –matematico Russo que sucedeu a Kolmogorov como professor no Instituto Steklov. Naobra de William Feller (1906 – 1970), em dois volumes, An introduction to probabilitytheory and its applications – ver [Fel68] e [Fel71] – o leitor interessado encontrara umaexposicao das probabilidades, rigorosa, tecnicamente exigente mas muito proxima dasintuicoes originais.

A introducao a moderna teoria das probabilidades pode ser feita no inıcio dos es-tudos universitarios – logo apos o estudo do calculo diferencial; na unidade curricularProbabilidades e Estatıstica I 1 sao apresentados os resultados principais necessarios auma primeira abordagem da estatıstica. Em particular, as leis dos grandes numeros eo teorema do limite central – sem recorrer as funcoes caracterısticas – podem ser com-

1Ver http://ferrari.dmat.fct.unl.pt/personal/mle/DocPrSt1/2011-2012/PE1-20112012.html

1

Page 8: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

pletamente estudados desde que se restrinja o estudo as variaveis aleatorias cujas leisadmitem funcao geradora de momentos.

Uma apresentacao mais completa do modelo de Kolmogorov para a teoria das pro-babilidades requer a teoria do integral de Lebesgue. Na unidade curricular MedidaIntegracao e Probabilidades 2 sao estudados os principais resultados destas teorias comespecial relevo para os teoremas de convergencia, resultados estes de utilizacao constante.

Na sequencia imediata do estudo inicial da teoria das probabilidades pode fazer-se oestudo dos processos estocasticos. O livro de David Williams Probability with Martingales– ver [Wil91] – contem, a par de uma apresentacao completa mas muito expedita dasprobabilidades, uma introducao a um dos principais exemplos de processos estocasticos,as martingalas. Na unidade curricular Processos Estocasticos 3 sao tambem estudadosoutros exemplos de processos estocasticos tais como as cadeias de Markov e os processosde Wiener e Poisson.

Sao muitos e por vezes muito profundos os desenvolvimentos mais actuais da teoriadas probabilidades. No livro Foundations of Modern Probability – ver [Kal02] – de OlavKallemberg pode ter-se uma ideia da variedade dos temas e resultados actuais da teoriadas probabilidades e das suas muitas extensoes, em particular aos processos estocasticos.

1.2 O modelo das probabilidades segundo Kolmogorov

Nesta seccao sumariamos os principais conceitos e resultados relativos ao modelo dasprobabilidades de Kolmogorov. Para complementos de informacao sobre esta seccaovejam-se as referencias indicadas na seccao introdutoria.

Definicao 1 (Espaco de Probabilidade). Um espaco de probabilidade e um trio(Ω,A,P) em que:

1. Ω e um conjunto;

2. A ⊆ P e uma algebra-σ;

3. P e uma probabilidade definida sobre A.

Observacao 1 (Interpretacao de Kolmogorov). O conjunto Ω e o conjunto das rea-lizacoes do fenomeno aleatorio em estudo ou o conjunto dos estados do mundo. Umelemento A ∈ A ⊆ P e um acontecimento, ou seja e um subconjunto do conjunto deestados do mundo ou de realizacoes do fenomeno. A probabilidade P e uma medida defi-nida em A tomando valores em [0, 1] e e tal que para cada A ∈ A se tem que P[A] ∈ [0, 1]nos da o grau de confianca na realizacao do acontecimento A.

2Ver na pagina http://ferrari.dmat.fct.unl.pt/personal/mle/DocMIP/1415/MIP-20142015.html3Ver http://ferrari.dmat.fct.unl.pt/personal/mle/DocPE/PE1314/PE 2013-2014.html

IME 2 19 de Setembro de 2016

Page 9: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.2

Exemplo 1 (Espaco de Steinhauss). (Ver [MKAL12, p. 224]) Todo o espaco deprobabilidade – completo e sem atomos – e isomorfo ao espaco de probabilidade([0, 1],L([0, 1]), λ) em que a algebra-σ de Lebesgue L([0, 1]) e a algebra-σ completadade B([0, 1]) – que, por sua vez, e a algebra-σ de Borel sobre [0, 1] – e λ e a medidade Lebesgue sobre L([0, 1]).

Definicao 2 (Variavel aleatoria). Uma funcao X definida em Ω e tomando valoresem R e uma variavel aleatoria se se verificar que:

∀B ∈ B([0, 1]) X−1(B) := ω ∈ Ω : X(ω) ∈ B ∈ A .

As funcoes elementares que tomam apenas um numero finito de valores – denomi-nadas funcoes simples – sao as funcoes que se podem representar como combinacoeslineares de indicatrizes. As funcoes indicatrizes sao funcoes simples que tomam apenasos valores 0 e 1. Estas funcoes mostram que existem muitos exemplos e contra-exemplosde variaveis aleatorias.

Exemplo 2 (Funcoes indicatrizes). Dado A ⊆ P(Ω) a funcao indicatriz de Adefinida por:

1IA(ω) =

1 se ω ∈ A0 se ω ∈ Ω \A ,

(1.1)

e uma variavel aleatoria se e so se A ∈ A.

Um resultado notavel, com consequencias para a definicao do integral de Lebesgue,e que todas as variaveis aleatorias podem representar-se como limite pontual – isto e, naconvergencia simples ou pontual – de uma sucessao de funcoes simples.

Teorema 1 (Teorema de Lebesgue: aproximacao por funcoes simples). Seja X ≥ 0uma variavel aleatoria. Entao a sucessao (sXn )n≥1 definida por:

sXn (ω) =n2n−1∑k=0

k

2n1I k

2n≤X< k+1

2n

(ω) + n1IX≥n(ω) (1.2)

e uma sucessao crescente de funcoes simples mensuraveis nao negativas que convergepontualmente – ou simplesmente – para X.

Observacao 2. Se a variavel aleatoriaX ≥ 0 for limitada entao a convergencia e uniforme.Para uma variavel aleatoria nao necessariamente nao negativa considera-se a decom-posicao de X nas suas partes positiva X+ e e parte negativa X− tais que X = X+−X−,definidas por

X+ = max (X, 0) =|X|+X

2e X− = max (−X, 0) =

|X| −X2

, (1.3)

IME 3 19 de Setembro de 2016

Page 10: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

e aplicando o teorema a cada uma dessas partes obtem-se uma sucessao de funcoessimples mensuraveis que converge pontualmente para X.

Observacao 3. Uma variavel aleatoria X tomando valores em Rd pode considerar-se

como um d-uplo de variaveis aleatorias tomando valores em R bastando para tal con-siderar as coordenadas de X, por exemplo, na base canonica de Rd. Assim, X =(X1, X2, . . . Xd) : Ω 7→ Rd e uma variavel aleatoria se e so se

∀j = 1, 2, . . . , d ∀B ∈ B([0, 1]) X−1j (B) ∈ A.

Tal como para o caso univariado, esta aqui implıcito que a algebra-σ sobre Rd e B(Rd)a algebra-σ de Borel sobre Rd, isto e, a algebra-σ gerada pela topologia usual sobre Rd.Ou seja, B(Rd) e a algebra-σ produto de d copias de B(R).

Para o conhecimento de uma variavel aleatoria nao importa tanto a representacaoanalıtica desta ou ate a descricao da corrrespondencia que a um ponto do conjunto departida associa a imagem deste ponto no conjunto de chegada; antes, e crucial conhecera distribuicao dos valores da variavel aleatoria.

Definicao 3 (Lei de uma variavel aleatoria). Seja X uma variavel aleatoria comvalores em R. A lei ou distribuicao de X e a medida de probabilidade LX definidaem B(R), a algebra-σ de Borel sobre R, por:

∀B ∈ B(R) , LX(B) = P[X−1(B)

].

Observacao 4. Na especificacao dos modelos estatısticos por meio de variaveis aleatoriase usualmente especificada a lei ou distribuicao da variavel aleatoria sendo irrelevante oespaco de probabilidade em que a variavel aleatoria esta definida. Dada uma medida deprobabilidade sobre (R,B(R)) existe sempre um espaco de probabilidade e uma variavelaleatoria cuja lei coincide com essa medida de probabilidade dada (veja-se, por exemplo,[Wil91, p. 34]).

A integracao de uma funcao mensuravel – de sinal constante – relativamente a umamedida de probabilidade e sempre possıvel no quadro do integral de Lebesgue. Talcomo no caso do integral de Riemann, o integral de Lebesgue e um funcional linearcontınuo so que os domınios de definicao naturais deste funcional sao espacos de Banach– espacos vectoriais normados completos – de funcoes mensuraveis. A definicao seguintevai introduzindo as diferentes propriedades pretendidas para o integral de Lebesgue,alargando progressivamente o domınio de definicao deste integral.

IME 4 19 de Setembro de 2016

Page 11: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.2

Definicao 4 (Integral de Lebesgue – I). Seja (Ω,A,P) um espaco de probabilidade.

1. Seja 1IA com A ∈ A uma funcao indicatriz mensuravel (veja-se o exemplo 2).Entao: ∫

Ω1IAdP := P[A] ∈ [0, 1] ;

2. Seja s =∑m

k=1 αk1IAk com Ak ∈ A e αk ≥ 0 uma funcao simples mensuravelpositiva. Entao:∫

ΩsdP =

∫Ω

(m∑k=1

αk1IAk

)dP :=

m∑k=1

αkP [Ak] ∈ [0,+∞[ ;

3. Seja X : Ω 7→ [0,∞] uma variavel aleatoria. Entao:∫ΩXdP = sup

∫ΩsdP : s simples mensuravel, 0 ≤ s ≤ X

∈ [0,+∞].

Com a definicao 4, o integral de Lebesgue ja tem propriedades de continuidadenotaveis atestadas pela proposicao 1 a seguir. Versoes plenas de resultados de continui-dade do integral de Lebesgue sao dadas pelos teoremas de convergencia: lema de Fatou,teorema da convergencia monotona de Lebesgue e teorema da convergencia monotonade Lebesgue.

Proposicao 1 (Integral de Lebesgue – II). Seja X ≥ 0 uma variavel aleatoria eseja (sm)m≥1 a sucessao crescente de funcoes simples mensuraveis positivas dadaspelo teorema 1. Entao: ∫

ΩXdP = lim

m→+∞

∫ΩsmdP .

Contrastando com o que ocorre para as funcoes mensuraveis nao negativas, o integralde Lebesgue de funcoes mensuraveis com sinal qualquer so existe – e nesse caso e umnumero real – quando estas funcoes sao integraveis.

Definicao 5 (Integral de Lebesgue – III). Seja X uma variavel aleatoria. Sejam X+

e X− as partes positiva e negativa, respectivamente, definidas acima nas formulas 1.3da observacao 2. X e integravel se e so se∫

ΩX+dP < +∞ e

∫ΩX−dP < +∞ ,

e neste caso o integral de Lebesgue de X e dado por:∫ΩXdP :=

∫ΩX+dP−

∫ΩX−dP .

IME 5 19 de Setembro de 2016

Page 12: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

Observacao 5. Na pratica, os integrais de Lebesgue que se calculam sao aqueles quecoincidem com o integral de Riemann no caso das funcoes ou variaveis aleatorias quesao Riemann integraveis. O resultado de integracao relativamente a lei de probabilidade– que e implicitamente referido na definicao 7 adiante – justifica esta pratica. Tambemse calculam os integrais de combinacoes lineares de medidas de Dirac que mais nao saoque somas finitas.

Observacao 6 (Leis definidas por densidades). As leis contınuas mais usadas na praticasao definidas por densidades – relativamente a medida de Lebesgue – ou seja porfuncoes f : R 7→ R+ = [0,+∞[ tais que:

1. f e mensuravel, isto e:

∀B ∈ B(R) f−1(B) ∈ B(R) ;

2. o integral de Lebesgue de f sobre R vale um, ou seja,∫R

fdλ = 1 .

Entao Lf definida por:

∀B ∈ B(R) Lf (B) =

∫Bfdλ ,

e uma medida de probabilidade que, em consequencia, define uma lei de probabilidade.

Exemplo 3 (Lei normal). Seja X uma variavel aleatoria cuja lei e definida pela

densidade fµ,σ2

X , dada por:

fµ,σ2

X (x) =1√

2πσ2exp

(−(x− µ)2

2σ2

),

isto e tal que,

∀B ∈ B(R) LX(B) =

∫Bfµ,σ

2

X dλ .

Entao X tem distribuicao normal de parametros µ – a media – e σ2 – a variancia– o que representamos por X _ N(µ, σ2).

A distribuicao dos valores tomados por uma variavel aleatoria pode ser completa-mente descrita pela sua funcao de distribuicao.

Definicao 6 (Funcao de Distribuicao). Seja X uma variavel aleatoria com lei deprobabilidade LX . Entao FX : R 7→ [0, 1] a funcao de distribucao de X e definidapor

FX(x) = LX (]−∞, x]) = P[X−1 (]−∞, x] )

]= P [X ≤ x]] .

IME 6 19 de Setembro de 2016

Page 13: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.3

Observacao 7 (Funcoes de distribuicao de leis definidas por densidades). Atendendo aobservacao 6 e a definicao 6, a funcao de distribuicao de uma variavel aleatoria X cujalei admita uma densidade fX , que seja Riemann integravel e dada por:

FX(x) = P [X ≤ x] =

∫]−∞,x]

fXdλ =

∫ x

−∞fX(t)dt ,

formula que e conhecida de estudos anteriores.

Proposicao 2 (Caracterizacao das funcoes de distribuicao). Uma funcao de distri-buicao FX de uma variavel aleatoria X verifica as seguintes propriedades.

1. FX e crescente (x ≤ y ⇒ FX(x) ≤ FX(y)).

2. FX e contınua a direita (limh→0,h>0 FX(x+ h) = FX(x)).

3. Tem-se os seguintes limites

limx→−∞

FX(x) = 0 e limx→+∞

FX(x) = 1 .

Reciprocamente, para cada funcao F : R 7→ [0, 1] verificando as tres propriedadesacima, existe um espaco de probabilidade e uma variavel aleatoria X definida nesseespaco, com funcao de distribuicao FX tal que F ≡ FX (isto e, tal que para qualquerx ∈ R se tenha que F (x) = FX(x)).

O integral de Lebesgue de funcoes mensuraveis positivas – ou de funcoes integraveis– permite a definicao de operadores lineares importantes definidos sobre os espacos devariaveis aleatorias. Um desses operadores e o valor esperado.

Definicao 7 (Valor Esperado). Seja X uma variavel aleatoria. E[X], o valoresperado de X e, quando os integrais a seguir existam como valores em R,

E[X] =

∫ΩXdP =

∫R

xdLX(x) =

∫R

xfX(x)dλ(x) =

∫ +∞

−∞xfX(x)dx ,

e, no caso em que a lei de X admite a densidade fX – relativamente a medida deLebesgue – que seja Riemann integravel.

Observacao 8. Pode acontecer que para variaveis aleatorias relevantes para a modelacaoestatıstica o valor esperado nao exista porque os integrais acima ou nao estao definidosou nao sao finitos; e o caso das variaveis aleatorias com lei de Cauchy.

1.3 Leis dos grandes numeros

As leis dos grandes numeros sao resultados essenciais na teoria das probabilidades e daestatıstica. A lei fraca recorre a convergencia em probabilidade e a lei forte a convergencia

IME 7 19 de Setembro de 2016

Page 14: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

quase certa. O contexto em que vamos prosseguir e dado por um espaco de probabilidade(Ω,A,P).

A definicao formal da convergencia em probabilidade e a seguinte.

Definicao 8 (Convergencia em probabilidade). Seja (Xn)n≥1 uma sucessao devariaveis aleatorias definidas sobre (Ω,A). A sucessao converge em probabilidadepara uma variavel aleatoria X∞ – e escrevemos limn→+∞Xn =Prob. X∞ – se e so se:

∀ε > 0 limn→+∞

P [|Xn −X∞| ≥ ε] = 0 . (1.4)

A desigualdade seguinte descreve o comportamento de cauda – tail behaviour – deuma variavel aleatoria integravel.

Proposicao 3 (Desigualdade de Tchebyshev). Seja X ≥ 0 uma variavel aleatoriatal que E[X] < +∞. Tem-se entao que:

∀ε > 0 P [X ≥ ε] ≤ E[X]

ε. (1.5)

Demonstracao. Com efeito tem-se, em resultado das propriedades de monotonia do in-tegral de Lebesgue, que:

+∞ > E[X] =

∫ΩXdP ≥

∫X≥ε

XdP ≥ ε∫X≥ε

dP = ε ·P [X ≥ ε] ,

o que demonstra o resultado anunciado.

Teorema 2 (Lei fraca dos grandes numeros). Seja X uma variavel aleatoria tal queE[X2] < +∞. Seja X = (X1, X2, . . . Xm, . . . ) uma amostra de X. Tem-se entaoque:

limm→+∞

1

m

m∑j=1

Xj

=Prob. E[X] .

Demonstracao. Resulta da desigualdade de Tchebychev na proposicao 3. Note-se quepodemos supor, sem perda de generalidade que E[X] = 0. Com efeito, se for para cadam ≥ 1 por definicao X ′m = Xm −E[X] tem-se que (X ′1, X

′2, . . . X

′m, . . . ) e uma amostra

de X ′ = X −E[X] e E[X ′] = 0. Tem-se que para qualquer ε > 0 que,

P

1

m

m∑j=1

Xj ≥ ε

= P

m∑j=1

Xj

2

≥ m2ε2

≤ 1

m2ε2E

m∑j=1

Xj

2 .

IME 8 19 de Setembro de 2016

Page 15: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.3

Agora como

E

m∑j=1

Xj

2 = E

m∑j=1

X2j +

m∑i,j=1,i 6=j

XiXj

=

m∑j=1

E[X2] +

m∑i,j distintos i,j=1

E[XiXj ] ,

e, pela independencia, E[XiXj ] = E[Xi]E[Xj ] = 0, tem-se que:

P

1

m

m∑j=1

Xj ≥ ε

≤ 1

m2ε2mE[X2] =≤ E[X2]

mε2,

o que pela formula (1.4) da definicao 8, conduz a conclusao pretendida.

Observacao 9. A lei fraca e valida com a hipotese menos restritiva E[|X|] < +∞; e umresultado que se deve a Aleksandr Khintchin (1894–1959) . A demonstracao baseia-senum processo de truncatura das variaveis aleatorias (veja-se [Res99, p. 205]).

Definicao 9 (Convergencia quase certa). Seja (Xn)n≥1 uma sucessao de variaveisaleatorias definidas sobre (Ω,A). A sucessao converge quase certamente parauma variavel aleatoria X∞ – e escrevemos limn→+∞Xn =q.c. X∞ – se e so se:

∃Ω1 ∈ A P[Ω \ Ω1] = 0 ∀ω ∈ Ω1 limn→+∞

X(ω) = X∞(ω) . (1.6)

Teorema 3 (Lei forte dos Grandes Numeros de Kolmogorov). Seja X e umavariavel aleatoria tal que E[|X|] < +∞. Seja X = (Xm)m≥1 uma sucessao deveriaveis aleatorias independentes e com a mesma distribuicao que X. Entao, tem-se que, quase certamente,

limm→+∞

1

m

m∑j=1

Xj

= E[X] . (1.7)

Demonstracao. A demonstracao deste e de outros casos mais gerais pode ser vistaem [Kal02, p. 73]. Vamos considerar o caso em que as variaveis aleatorias da su-cessao (Xn)n≥1 sao independentes – nao tendo que ser equidistribuıdas – e tais queE[X4

n] ≤ K < +∞ para K constante e independente de n ≥ 1 (veja-se [Wil91, p. 72]).Tal como no caso da lei fraca podemos supor que E[X] = 0 (veja-se o exercıcio 12).

IME 9 19 de Setembro de 2016

Page 16: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

Note-se que: m∑j=1

Xj

4

=m∑

i,j,k,l=1

XiXjXkXl =m∑j=1

X4i +

m∑i,j,k distintos i,j,k=1

X2iXjXk+

+m∑

i,j distintos i,j=1,

X2iX

2j +

m∑i,j distintos i,j=1,

X3iXj +

m∑i,j,k,l distintos i,j,k,l=1

XiXjXkXl ,

mas que se tem que, pela independencia – e porque as variaveis sao centradas – que,para i, j, k, l distintos:

E [XiXjXkXl] = E[X2iXjXk

]= E

[X3iXj

]= 0 .

Logo, com os mesmos argumentos que usamos na demonstracao da lei fraca, tem-setambem que

E

m∑j=1

Xj

4 =

m∑j=1

E[X4]+

m∑i,j=1

E[X2i ]E[X2

j ] ≤ mK+3m(m−1)K ≤ 3Km2 , (1.8)

uma vez que pela desiguladade de Cauchy-Schwarz E[X2j ] ≤

√P[Ω]

√E[X4

j ] ≤√K e

que, para obter a soma mais a direita temos que escolher de entre 4 possıveis, 2 a 2 ecada um desses temos escolher entre m possıveis, logo,(

4

2

)(m

2

)=

4!

2!2!

m!

2!(m− 2)!= 3m(m− 1) .

Em consequencia da formula 1.8 temos que:

E

p∑m=1

(∑mj=1Xj

m

)4 =

p∑m=1

1

m4E

m∑j=1

Xj

4 ≤ p∑m=1

3K

m2≤ 3K

π2

6< +∞

Pelo que, pelo teorema da convergencia monotona e pelas propriedades do integral deLebesgue, se tem que a serie de termo geral ((1/m4)(

∑mj=1Xj)

4)m≥1 converge quasecertamente e, por isso, o seu termo geral tende para zero quase certamente, ou seja,

limm→+∞

1

m

m∑j=1

Xj =q.c. 0 ,

tal como no enunciado se afirma.

Observacao 10. A conclusao do teorema pode interpretar-se deste modo. Existe Ω1 ⊂ Ωtal que P[Ω \ Ω1] = 0 e tal que:

∀ω ∈ Ω1 limm→+∞

1

m

m∑j=1

Xj(ω) = E[X] ,

IME 10 19 de Setembro de 2016

Page 17: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.4

ou seja se a = (a1, a2, . . . , an, . . . ) for a realizacao generica de X tal que para j ≥ 1 severifica Xj(ω) = aj , entao com probabilidade um, na escolha de a,

limm→+∞

1

m

m∑j=1

aj = E[X] .

Esta interpretacao e da maior importancia em Estatıstica.

1.4 Um teorema do limite central

O teorema do limite central recorre ainda a um outro tipo de convergencia de variaveisaleatorias: a convergencia em distribuicao. Numa primeira aproximacao, uma sucessaode variaveis aleatorias converge em distribuicao se as correspondentes funcoes de distri-buicao convergem; dado que num ponto de discontinuidade, da funcao de distribuicaolimite, pode nao haver convergencia (veja-se o exemplo em [Wil91, p. 180]), tem-se adefinicao seguinte.

Definicao 10 (Convergencia em distribuicao). Seja (Xm)m≥1 uma sucessao devariaveis aleatorias e (FXm)m≥1 a sucessao das correspondentes funcoes de distri-buicao. A sucessao (Xm)m≥1 converge em distribuicao para a variavel aleatoriaX∞ – e escrevemos limm→+∞Xm =Distrib. X∞ – se e so se para todo o ponto decontinuidade x de FX∞ ,

limm→+∞

FXm(x) = FX∞(x) .

A convergencia em distribuicao e tambem a convergencia fraca das leis de probabi-lidade das variaveis aleatorias (veja-se [Wil91, p. 182] ou [vdV00, p. 6]).

Proposicao 4 (Criterios de convergencia em distribuicao). Uma sucessao (Xm)m≥1

de variaveis aleatorias converge em distribuicao para a variavel aleatoria X∞ se eso se uma das seguintes propriedades equivalentes se verifica:

1. Qualquer que seja h funcao contınua e limitada h:

limm→+∞

E [h(Xm)] = E [h(X∞)] .

2. Qualquer que seja h funcao de Lipschitz h, isto e tal que para x, y ∈ R seja|h(x)− h(y)| ≤ K |x− y| para K > 0 constante, se tenha:

limn→+∞

E [h(Xm)] = E [h(X∞)] .

A proposicao seguinte mostra como se podem deduzir outros resultados de con-vergencia de sucessoes de variaveis aleatorias (veja-se [vdV00, p. 11]).

IME 11 19 de Setembro de 2016

Page 18: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

Proposicao 5 (Propriedades das convergencias). Sejam (Xm)m≥1 e (Ym)m≥1 su-cessoes de variaveis aleatorias. Se se verificar que,

limm→+∞

Xm =Distrib. X∞ e limm→+∞

Ym =Prob. c ∈ R ,

entao,

limm→+∞

(Xm + Ym) =Distrib. X∞ + c limm→+∞

XmYm =Distrib. X∞c .

O resultado seguinte e importante em Estatıstica, nomeadamente para estabelecer ometodo delta (ver para outras demonstracoes, por exemplo, [Res99, p. 268] ou [vdV00,p. 10]).

Teorema 4 (Teorema de Slutsky). Sejam (Xm)m≥1 e (Ym)m≥1 sucessoes devariaveis aleatorias tais que:

limm→+∞

Xm =Distrib. X∞ e limm→+∞

Xm − Ym =Prob. 0 .

Entao,lim

m→+∞Ym =Distrib. X∞ .

Demonstracao. Vamos usar o segundo criterio de convergencia em probabilidade na pro-posicao 4. Seja entao, h uma funcao de Lipschitz com a constante K > 0 e limitada pelaconstante M > 0. Como se tem que:∫

Ω|h(Ym)− h(X∞)| dP ≤

∫Ω|h(Ym)− h(Xm)| dP+

∫Ω|h(Xm)− h(X∞)| dP , (1.9)

e, por hipotese,

limm→+∞

∫Ω|h(Xm)− h(X∞)| dP = lim

m→+∞E [h(Xm)− h(X∞)] = 0 ,

basta-nos estudar o primeiro integral do membro a direita na formula (1.9). Tem-se,entao, que, para qualquer ε > 0,∫

Ω|h(Ym)− h(Xm)| dP =

∫|Xm−Ym|<εE

|h(Ym)− h(Xm)| dP+

+

∫|Xm−Ym|≥ε

|h(Ym)− h(Xm)| dP ≤

≤ 2Kε P [|Xm − Ym| < ε] + 2M P [|Xm − Ym| ≥ ε] ,

o que implica a conclusao, dado que ε e arbitrario e P [|Xm − Ym| < ε] ≤ 1.

IME 12 19 de Setembro de 2016

Page 19: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.5

Apresentamos seguidamente uma versao simples to teorema do limite central queservira para fundamentar alguns resultados importantes a seguir (para a demosntracaoque requer as funcoes caracterısticas, veja-se [Wil91, p. 189] ou [Shi96, p. 308] ou ainda[Res99, p. 293]).

Teorema 5 (Teorema do Limite Central para variaveis aleatorias IID). Seja(Xm)m≥1 uma sucessao de variaveis aleatorias independentes e identicamente dis-tribuıdas, tais que

E[X] = 0 e V[X] = σ2 < +∞ .

Entao sendo Z _ N(0, 1) tem-se que,

limm→+∞

1

σ√m

(X1 +X2 + · · ·+Xm) =Distrib. Z . (1.10)

Observacao 11. Pode exprimir-se a formula (1.10) do teorema 5 recorrendo as funcoesde distribuicao das variaveis aleatorias intervenientes. Com efeito, tem-se que,

limm→+∞

P

[X1 +X2 + · · ·+Xm

σ√m

≤ x]

=1√2π

∫ x

0e−

t2

2 dt

e a conclusao do teorema do limite central.

1.5 Exercıcios

1.5.1 Revisoes sobre o modelo de Kolmogorov

Os exercıcios desta seccao tem por objectivo relembrar os principais conceitos relativosao integral de Lebesgue e ao modelo de Kolmogorov das probabilidades. As notas amargem assinalam a dificuldade dos exercıcios, graduada de [1] - aplicacoes imediatasdos conceitos introduzidos - ate [3] - exercıcios que podem requerer domınio de conceitosestudados noutras unidades curriculares.

Exercıcio 1 (As Funcoes Indicatrizes). Demonstre a assercao sobre a mensurabilidade das funcoes [1]indicatrizes do exemplo 2.

Exercıcio 2 (As Funcoes Simples). Mostre que toda a funcao simples – isto e, toda a funcao tomando [1]apenas um numero finito de valores – mensuravel pode representar-se como combinacao linear, com oscoeficientes todos distintos, de conjuntos, disjuntos dois a dois e mensuraveis. Uma tal representacao –que e unica a menos da ordenacao dos coeficientes – denomina-se representacao canonica.

Exercıcio 3 (Lei de uma variavel aleatoria). Mostre que a lei de uma variavel aleatoria definida na [1]definicao 3 e uma medida de probabilidade.

Exercıcio 4 (Existencia de variaveis com leis dadas). Mostre que dada uma medida de probabilidade L [1]sobre (R,B(R)) existe sempre um espaco de probabilidade e uma variavel aleatoria X sobre esse espacode probabilidade cuja lei LX coincide com essa medida de probabilidade dada.

IME 13 19 de Setembro de 2016

Page 20: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

Exercıcio 5 (Aproximacao por funcoes simples). Seja X uma variavel aleatoria tomando valores reais. [2]

1. Mostre que existe uma sucessao de funcoes simples mensuraavie que converge pontualmente paraX.

2. Mostre que se X for limitada, entao a sucessao de funcoes simples construıda na alınea anteriorconverge uniformemente para X.

Exercıcio 6 (Integrais de Lebesgue e de Riemann). Seja f : [a, b] ⊂ R 7→ R uma funcao limitada e [3]contınua 4.

1. Mostre que f e uniformemente contınua sobre [a, b].

2. Mostre que se para cada n ≥ 1 for a = xn0 < xn1 < · · · < xnpn = b uma particao de [a, b] entaotem-se que se definirmos

fn(x) =

pn−1∑k=0

f(ξk)1I[xnk ,xnk+1[(x)

em que ξk ∈ [xnk , xnk+1[ arbitrario mas fixo, entao (fn)n≥1 e uma sucessao de funcoes simples

mensuraveis – em escada, isto e, constantes por intervalos – que converge uniformemente para fsobre [a, b].

3. Mostre que f e Lebesgue integravel sobre [a, b] e que o integral de Lebesgue de f sobre [a, b] coincidecom o integral de Riemann de f sobre [a, b].

Exercıcio 7 (Continuidade do Integral de Lebegue). Demonstre a proposicao 1. [2]

Exercıcio 8 (Integral do modulo de uma variavel aleatoria). Mostre que a variavel aleatoria X, e [1]integravel se e so se a variavel aleatoria |X| for integravel.

Exercıcio 9 (Integracao relativamente a lei de probabilidade). Seja X uma variavel aleatoria integravel [2]e LX a lei de probabilidade de X. Mostre, aplicando os passos das definicoes 4 e 5, que:∫

Ω

XdP =

∫R

xdLX(x) .

Exercıcio 10 (Propriedades das Funcoes de Distribuicao). Demonstre a proposicao 2. [2]

Exercıcio 11 (Limite quase certo de variaveis aleatorias). Seja (Xn)n≥1 uma sucessao de variaveis [2]aleatorias definidas sobre (Ω,A) e tomando valores reais.

1. Mostre que se a sucessao (Xn)n≥1 converge pontualmente – ou simplesmente – para uma funcaoX∞ : Ω 7→ R entao X∞ e uma variavel aleatoria.

2. Mostre que se a sucessao (Xn)n≥1 converge quase certamente sobre (Ω,A), isto e, se quase cer-tamente:

lim supm→+∞

Xn = lim infm→+∞

Xn ,

entao existe X∞ : Ω 7→ R variavel aleatoria tal que (Xn)n≥1 converge quase certamente para X∞.

Exercıcio 12 (Independencia e transladacao de variaveis integraveis). Seja (Xn)n≥1 uma sucessao de [2]variaveis aleatorias independentes e tais que para n ≥ 1 e p ≥ 1, se tenha E[|Xn|p] < +∞. Mostre quese definirmos (X ′n)n≥1 em que X ′n := Xn − E[Xn] se tem que (X ′n)n≥1 e uma sucessao de variaveisaleatorias independentes e tais que para n ≥ 1 e p ≥ 1, se tenha tambem E[|X ′n|

p] < +∞.

IME 14 19 de Setembro de 2016

Page 21: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.5

Exercıcio 13 (Desigualdade de Cauchy-Schwarz). Sejam X,Y variaveis aleatorias de quadrado in- [1]tegravel, isto e, tais que E[X2] < +∞ e E[Y 2] < +∞.

1. Considerando a variavel aleatoria λ |X| − |Y |, mostre que para qualquer λ ∈ R se tem que:

0 ≤ λ2E[X2]− 2λE[|X · Y |] +E[Y 2] .

2. Conclua que se verifica a desigualdade de Cauchy-Schwarz:

|E[X · Y ]| ≤ E[|X · Y |] ≤√E[X2] ·

√E[Y 2] .

3. Mostre aplicando a desiguladade de Cauchy-Schwarz ao produto 1IΩ ·X2 que se se tiver E[X4] <+∞ entao,

E[X2]2 ≤ E[X4] .

Exercıcio 14 (A convergencia quase certa implica a convergencia em probabilidade). Seja (Xn)n∈Nconvergindo quase certamente para X. Entao, (Xn)n∈N converge em probabilidade para X, isto e: [3]

Xnq.c.−−−−−→

n→+∞X ⇒ Xn

pr.−−−−−→n→+∞

X .

Exercıcio 15 (A convergencia em probabilidade NAO implica a convergencia quase certa). Seja uma [2]sucessao de variaveis aleatorias independentes (Xn)n∈N verificando:

∀n ∈ N P[Xn = 1] =1

n, P[Xn = 0] = 1− 1

n.

1. Mostre que a sucessao converge para X ≡ 0 em probabilidade.

2. Mostre que a sucessao nao converge quase certamente.

Exercıcio 16 (Conjuntos de probabibilidade arbitrariamente pequena). Mostre que se X for finita P [1]quase certamente verifica-se que:

∀δ > 0 ∃Aδ > 0 P[|X| > Aδ] ≤ δ . (1.11)

Exercıcio 17 (Propriedades da convergencia em probabilidade). Sejam (Xn)n∈N e (Yn)n∈N conver- [2]gindo em probabilidade para duas variaveis aleatorias X e Y , respectivamente, variaveis finitas P quasecertamente. Seja ϕ : R −→ R uma funcao contınua. Entao:

1. A sucessao (Xn + Yn)n∈N converge em probabilidade para X + Y .

2. A sucessao (ϕ(Xn))n∈N converge em probabilidade para ϕ(X).

3. A sucessao (Xn · Yn)n∈N converge em probabilidade para X · Y .

Exercıcio 18 (Propriedade notavel da convergencia em probabilidade). Sejam (Xn)n∈N e (Yn)n∈Nsucessoes de variaveis aleatorias tais que: [1]

Ynpr.−−−−−→

n→+∞Y e E(Xn − Yn)

pr.−−−−−→n→+∞

0 .

Entao, (Xn)n∈N converge em probabilidade para Y , isto e:

Xnpr.−−−−−→

n→+∞Y .

IME 15 19 de Setembro de 2016

Page 22: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

Exercıcio 19 (Propriedade notavel das convergencias em probabilidade e em distribuicao). Sejam(Xn)n∈N e (Yn)n∈N sucessoes de variaveis aleatorias tais que: [1]

XnDistr.−−−−−→n→+∞

X e EYnpr.−−−−−→

n→+∞0 .

Entao, (XnYn)n∈N converge em probabilidade para 0, isto e:

XnYnpr.−−−−−→

n→+∞0 .

1.6 Resolucoes

Resolucao:[Exercıcio 14] A hipotese pode ser expressa escrevendo que ha convergenciapontual da sucessao de funcoes mensuraveis (Xn)n∈N para a funcao mensuravel X salvo,talvez, num conjunto de probabilidade nula. Ou seja, tem-se para um dado Ω

′:

Ω′

:=

ω ∈ Ω : lim inf

n→+∞Xn(ω) = X(ω) = lim sup

n→+∞Xn(ω)

∈ A, P[Ω

′] = 1 .

Seja ε > 0 fixo. Pela definicao;

∀ω ∈ Ω′ ∃n ∈ N ∀m ≥ n |Xn(ω)−Xn(ω)| ≤ ε

o que implica.

Ω′ ⊂

⋃n∈N

⋂m≥n|Xm −Xn| ≤ ε = lim inf

n→+∞|Xm −Xn| ≤ ε ,

ou passando aos complementares pelas leis de Morgan,

lim supn→+∞

|Xm −Xn| > ε ⊂ (Ω′)c .

Em consequencia do lema de Fatou inverso (veja-se [Wil91, p. 53]) pode afirmar-se que:

0 ≤ lim infn→+∞

P [|Xm −Xn| > ε] ≤ lim supn→+∞

P [|Xm −Xn| > ε] ≤

≤ P[lim supn→+∞

|Xm −Xn| > ε]≤ P[(Ω

′)c] = 0 ,

o que implica limn→+∞ P[|Xm −Xn| > ε] = 0, como pretendıamos demonstrar. ♦

Resolucao:[Exercıcio 15] Com efeito, para ε > 0 se tem que P[| Xn |> ε] = P[Xn =1] = 1/n. Para verificarmos que a sucessao indicada nao converge quase certamenteapliquemos o lema de Borel-Cantelli. Observe-se que se, para n ∈ N considerarmos oacontecimento An := Xn = 1 tem-se que (An)n∈N e uma sucessao de acontecimentos

4O resultado permanece valido se se verificar apenas que o conjunto de pontos de discontinuidade def tem medida de Lebesgue nula.

IME 16 19 de Setembro de 2016

Page 23: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.6

independentes tal que∑+∞

n=1 P[An] =∑+∞

n=1(1/n) = +∞. Por Borel-Cantelli deduz-seque P[lim supn→+∞An] = 1 ou seja:

P

+∞⋂n=1

⋃m≥n

Am

= P

+∞⋂n=1

⋃m≥nXm = 1

= 1 .

Quer isto dizer que se pode considerar Ω′ ∈ A tal que P[Ω\Ω′ ] = 0 e tal que para ω ∈ Ω

′,

se tem ω ∈ ∩+∞n=1 ∪m≥n Xm = 1, ou ainda:

∀ω ∈ Ω′ ∀n ∈ N ∃mn(ω) ≥ n Xmn(ω) = 1 ,

existindo assim uma subsucessao (Xmn(ω))n∈N de (Xn(ω))n∈N que admite 1 como li-mite. Do mesmo modo, considerando os acontecimentos definidos para cada n ∈ N porBn := Xn = 0 se pode inferir a existencia de uma outra subsucessao (Xln(ω))n∈N de(Xn(ω))n∈N que admite 0 como limite para ω ∈ Ω

′′ ∈ A e tal que P[Ω\Ω′′ ] = 0. Suponha-mos que a sucessao de variaveis aleatorias (Xmn)n∈N era convergente P quase certamente.Entao, para cada ω pertencente a um conjunto de probabilidade plena (no caso Ω

′ ∩Ω′′,

por exemplo) verificar-se-ia que a sucessao (Xmn(ω))n∈N seria uma sucessao numericaconvergente. Mas isso e impossıvel porque uma sucessao numerica convergente nao podeadmitir duas subsucessoes numericas distintas (no caso, (Xmn(ω))n∈N e (Xln(ω))n∈N)para dois numeros distintos (no caso, 1 e 0, respectivamente). ♦

Resolucao:[Exercıcio 16] E suficiente considerar os conjuntos Bn := |X| ≥ n paran ∈ N. Verifica-se imediatamente que a sucessao (Bn)n∈N e uma sucessao decrescentede conjuntos mensuraveis pelo que:

limn→+∞

Bn =+∞⋂n=1

Bn = |X| = +∞ .

Em consequencia, pela popriedade de continuidade inferior da medida:

0 = P[|X| = +∞] = P[

limn→+∞

Bn

]= lim

n→+∞P [Bn] = lim

n→+∞P [|X| ≥ n] .

A igualdade entre o primeiro e o ultimo termo desta cadeia de igualdades garante oresultado enunciado no lema. ♦

Resolucao:[Exercıcio 17] A primeira propriedade resulta de uma observacao simples.Considere-se Ω

′ ∈ A tal que, sobre Ω′X e Y sao finitas e P[Ω

′] = 1. Como, para cada

ω ∈ Ω′,

|(Xn(ω) + Yn(ω))− (X(ω) + Y (ω)| ≤ |Xn(ω)−X(ω)|+ |Yn(ω)− Y (ω)| ,

tem-se que para qualquer ε > 0 queω ∈ Ω

′: |Xn(ω)−X(ω)| ≤ ε

2

∩ω ∈ Ω

′: |Yn(ω)− Y (ω)| ≤ ε

2

⊂ω ∈ Ω

′: |(Xn(ω) + Yn(ω))− (X(ω) + Y (ω))| ≤ ε

,

IME 17 19 de Setembro de 2016

Page 24: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

pelo que, pelas leis de Morgan, pela subaditividade da medida e pela condicao sobre Ω′,

se tem que:

P [|(Xn + Yn)− (X + Y )| > ε] ≤ P [|Xn −X| > ε] + P [|Yn − Y | > ε] ,

desigualdade que implica o resultado anunciado. A segunda propriedade e muito im-portante. Para maior simplicidade da demonstracao que vai seguir-se supomos que Xtoma valores em R, sendo assim finita P quase certamente. A tıtulo de exercıcio, o leitordevera redigir a demostracao no caso geral do enunciado. De acordo com o exercıcio 16,no caso em que X e finita quase certamente, o conjunto em que X nao e limitadatem uma probabilidade arbitrariamente pequena. Assim, fixe-se δ > 0. Vamos mos-trar limn→+∞ P [|ϕ(Xn)− ϕ(X)| > δ] = 0. Seja agora ε > 0 qualquer e Aε/2 > 0 dadopela formula (1.11) do exercıcio 16 acima. Considere-se o intervalo fechado limitado[−2Aε/2, 2Aε/2]. A restricao de ϕ, funcao contınua, a este compacto e uniformementecontınua pelo que:

∃η > 0, η ≤ Aε/2 ∀x, y ∈ [−2Aε/2, 2Aε/2] |x− y| ≤ η ⇒ |ϕ(x)− ϕ(y)| ≤ δ .

Em consequencia de se ter,

∀ω ∈ Ω ||Xn(ω)| − |X(ω)|| ≤ |Xn(ω)−X(ω)| ,

vem que para |X(ω)| ≤ Aε/2 que |Xn(ω)| ≤ |X(ω)|+ η ≤ 2Aε/2 e por isso verifica-se que

|X| ≤ Aε/2 ∩ |Xn −X| ≤ η ⊂ |ϕ(Xn)− ϕ(X)| ≤ δ ,

ou seja, pelas leis de Morgan que

|ϕ(Xn)− ϕ(X)| > δ ⊂ |X| > Aε/2 ∪ |Xn −X| > η .

Considere-se agora n0 ∈ N tal que para n ≥ n0 se verifica que P[|Xn −X| > η] ≤ ε/2.Vem entao que para n ≥ n0

P [|ϕ(Xn)− ϕ(X)| > δ] ≤ P[|X| > Aε/2

]+ P [|Xn −X| > η] ≤ ε

2+ε

2= ε ,

tal como se pretendia demonstrar. A terceira propriedade resulta de se ter que:

Xn · Yn =1

2

((Xn + Yn)2 −X2

n − Y 2n

).

e das duas primeiras propriedades demonstradas. ♦

Resolucao:[Exercıcio 18] Dado que se tem para n ≥ 1,

Xn − Y = Xn − Yn + Yn − Y ,

resulta que|Xn − Y | ≤ |Xn − Yn|+ |Yn − Y | .

IME 18 19 de Setembro de 2016

Page 25: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 1. FORMALISMO DAS PROBABILIDADES Seccao: 1.6

Em consequencia, para qualquer ε > 0 tem-se que,

|Xn − Yn| < ε ∩ |Yn − Y | < ε ⊆ |Xn − Y | < 2ε ,

ou seja, pelas leis de Morgan,

|Xn − Y | ≥ 2ε ⊆ |Xn − Yn| ≥ ε ∪ |Yn − Y | ≥ ε ,

donde resulta, pela sub-aditividade da medida de probabilidade P, que:

P [|Xn − Y | ≥ 2ε] ≤ P [|Xn − Yn| ≥ ε] +P [|Yn − Y | ≥ ε]

donde, devido as hipoteses, resulta a conclusao. ♦

Resolucao:[Exercıcio 19] Seja ε > 0 qualquer e κ > 0 um qualquer ponto de conti-nuidade de FX . Tem-se sempre que:

P [|XnYn| > ε] = P[|XnYn| > ε, |Yn| ≤

ε

κ

]+P

[|XnYn| > ε, |Yn| >

ε

κ

]Mas, dado que no conjunto mais a esquerda tem que ser |Yn| > 0, verifica-se sempre que:

|XnYn| > ε, |Yn| ≤

ε

κ

=

|Xn| >

ε

|Yn|, κ ≤ ε

|Yn|

⊆ |Xn| > κ

Por outro lado e obvio que:|XnYn| > ε, |Yn| >

ε

κ

⊆|Yn| >

ε

κ

,

pelo que se tem que:

P [|XnYn| > ε] ≤ P [|Xn| > κ] +P[|Yn| >

ε

κ

].

As hipoteses – para κ e ε fixos mas quaisquer – implicam agora que:

limn→+∞

P

[|Yn| >

ε

κ

]= 0 ,

e

limn→+∞

P [|Xn| > κ] = limn→+∞

(1− FXn(κ)) = 1− FX(κ) ,

e como κ – ponto de continuidade de FX – e arbitrario e pode ser escolhido de tal formaque FX(κ) esteja tao proximo quanto se queira de 1, o resultado anunciado segue. ♦

IME 19 19 de Setembro de 2016

Page 26: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

1 Capıtulo 1

Bibliografia

[Fel68] William Feller. An introduction to probability theory and its applications.Vol. I. Third edition. John Wiley & Sons Inc., New York, 1968.

[Fel71] William Feller. An introduction to probability theory and its applications.Vol. II. Second edition. John Wiley & Sons Inc., New York, 1971.

[Kal02] Olav Kallenberg. Foundations of modern probability. Probability and itsApplications (New York). Springer-Verlag, New York, second edition, 2002.

[Kol56] A. N. Kolmogorov. Foundations of the theory of probability. Chelsea Pu-blishing Co., New York, 1956. Translation edited by Nathan Morrison, withan added bibliography by A. T. Bharucha-Reid.

[MKAL12] P. Malliavin, L. Kay, H. Airault, and G. Letac. Integration and Probability.Graduate Texts in Mathematics. Springer New York, 2012.

[Res99] Sidney I. Resnick. A probability path. Birkhauser Boston Inc., Boston, MA,1999.

[Shi96] A. N. Shiryaev. Probability, volume 95 of Graduate Texts in Mathematics.Springer-Verlag, New York, second edition, 1996. Translated from the first(1980) Russian edition by R. P. Boas.

[vdV00] A.W. van der Vaart. Asymptotic Statistics. Cambridge Series in Statisticaland Probabilistic Mathematics. Cambridge University Press, 2000.

[Wil91] David Williams. Probability with martingales. Cambridge MathematicalTextbooks. Cambridge University Press, Cambridge, 1991.

IME 20 19 de Setembro de 2016

Page 27: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

Capıtulo 2

Funcoes Geradoras de Momentos eTeoremas Limite

In modern probability theory it is customary to relate all objects of study to a basic probabilityspace (Ω,A, P ). ...It should be noted, however, that the reference space Ω is introduced only fortechnical convenience, to provide a consistent mathematical framework. Indeed, the actualchoice of Ω plays no role, and the interest focuses instead on the various induced distributions

L(ξ) = P ξ−1.

In Olav Kallenberg, Foundations of Modern Probability, Second Edition, Springer 2002, page 45.

2.1 Introducao

Neste capıtulo introduzimos a funcao geradora de momentos que e uma das ferramentastecnicas mais importantes para o calculo de quantidades associadas as leis das variaveisaleatorias. A funcao geradora de momentos pode nao existir, num intervalo aberto, parauma dada lei de probabilidade. No entanto, dado que para algumas das leis mais usadasnas aplicacoes (e.g. binomial, Poisson, normal, exponencial, gama) pode ser definidanuma vizinhanca de zero e, ainda assim, de uma utilidade que justifica o estudo. Nestecapıtulo estudaremos, por meio da funcao geradora de momentos o calculo de momentosde leis de probabilidade e alguns teoremas limite importantes. Nomeadamente, umaversao do teorema do limite central e teoremas de aproximacao da normal e da Poissona binomial. Apresentamos ainda um teorema sobre somas de parcelas aleatorias comum numero aleatorio de parcelas que e importante para as aplicacoes. Com algumconhecimento das funcoes de variavel complexa e possıvel estudar a funcao caracterısticada lei de uma variavel aleatoria que e uma nocao semelhante a funcao geradora demomentos mas que nao tem as principais limitacoes desta existindo para todas as leisde probabilidade

2.2 Sobre o calculo de valores esperados

Nesta seccao apresentamos um resultado de grande utilidade que e enunciado sob formade princıpio dado que a sua demonstracao requer um formalismo fora do ambito do

21

Page 28: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

programa desta disciplina. Seja X uma variavel aleatoria com valores reais definidanum espaco de probabilidade (Ω,A,P). Sabemos que, por definicao, se verifica que:

∀B ∈ B(R) X−1(B) ∈ A .

Seja h : R 7→ R for uma variavel aleatoria de (R,B(R)) em (R,B(R)). Entao a funcaodefinida em Ω pela composicao h X : Ω 7→ R 7→ R e uma variavel aleatoria. Comefeito, dado que, para qualquer B ∈ B(R) se verifica que:

(h X)−1 (B) = ω ∈ Ω : h(X(ω)) ∈ B = ω ∈ Ω : X(ω) ∈ h−1(B) = h−1(X−1(B))

a aplicacao repetida da definicao de variavel aleatoria mostra que (h X)−1 (B) ∈ A.

O princıpio seguinte que e, de facto, um teorema que se pode demonstrar numcontexto teorico mais avancado, mostra como calcular os valores esperados das variaveisaleatorias hX desde que se conheca a lei de X e, claro esta, caso estes valores esperadosexistam.

[Calculo de valores esperados] Seja h : R 7→ R uma variavel aleatoria de(R,B(R)) em (R,B(R)). Entao, sempre que existam as quantidades a direitanas igualdades seguintes tem-se:

E [h(X)] =∑i∈I

h(xi)P [X = xi] X discreta tomando os valores xi : i ∈ I(2.1)

E [h(X)] =

∫ +∞

−∞h(x)fX(x)dx X contınua com densidade fX (2.2)

Observacao 12 (Sobre a existencia dos valores esperados). No caso em que na formula (2.1)se verificar que I ⊆ N e um conjunto infinito, a existencia do valor esperado de h(X)esta condicionada a convergencia de uma serie. Se I ⊆ N for finito o valor esperadoem questao existe sempre. No que toca a formula (2.2), a existencia do valor esperadode h(X) esta condicionada a convergencia do integral improprio que a define e essaconvergencia tem que ser analisada caso a caso.

2.3 Os momentos das variaveis aleatorias

No capıtulo sobre as variaveis aleatorias definimos o valor esperado de uma variavelaleatoria como sendo uma quantidade que corresponde ao valor que a variavel tomaem media. A definicoes seguintes estendem a nocao de valor esperado fazendo uso doprincıpio 2.2.

IME 22 19 de Setembro de 2016

Page 29: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.4

Definicao 11 (Momentos de uma variavel aleatoria). Seja X uma variavel aleatoria.Para cada inteiro n ≥ 1 o momento de ordem n de X e, quando existe, dado porE[Xn], ou seja,

E [Xn] =∑i∈I

xni P [X = xi] X discreta tomando os valores xi : i ∈ I (2.3)

E [Xn] =

∫ +∞

−∞xnfX(x)dx X contınua com densidade fX (2.4)

Definicao 12 (Momentos centrais). Seja X uma variavel aleatoria. Para cadainteiro n ≥ 2 o momento central de ordem n de X, designado por µn e, quandoexiste, dado por µn := E [(X −E [X])n], em que E [X] e o valor esperado de X, ouseja, definindo µ1 := E [X],

µn =∑i∈I

(xi − µ1)nP [X = xi] X discreta tomando os valores xi : i ∈ I (2.5)

µn =

∫ +∞

−∞(x− µ1)n fX(x)dx X contınua com densidade fX (2.6)

Observacao 13 (Sobre a existencia dos momentos e dos momentos centrais das variaveisaleatorias). Dado o que referimos na observacao 12, a existencia dos momentos de umavariavel aleatoria esta dependente da convergencia de uma serie no caso de uma variavelaleatoria discreta tomando uma infinidade de valores e da convergencia de um integralimproprio no caso de uma lei de probabilidade contınua.

Assume particular importancia o segundo momento central.

Proposicao 6 (Variancia). Seja X uma variavel aleatoria. Sempre que existam oprimeiro e o segundo momentos de X, V(X) a variancia de X que e o segundo

momento central de X, ou seja V(X) := µ2 = E[(X −E [X])2

], e dada por:

V(X) = E[X2]−E [X]2 . (2.7)

Demonstracao. E uma consequencia da linearidade do valor esperado. Com efeito,

E

[(X −E [X])2

]= E

[X2 − 2XE [X] +E [X]2

]= E

[X2]− 2E [X]2 +E

[X2]2,

ficando assim demonstrada a formula (2.7).

Nas tabelas seguintes apresentamos exemplos de momentos para algumas leis impor-tantes nas aplicacoes.

IME 23 19 de Setembro de 2016

Page 30: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

LX E[X] E[X2] V[X]

N(0, 1) 0 1 1

N(µ, σ) µ σ2 + µ2 σ2

E(δ) δ 2 δ2 δ

Γ(α, δ) αβ 2 α(1 + α)β2 αβ2

Tabela 2.1: Dois primeiros momentos e variancias de algumas leis contınuas

2.4 A funcao geradora de momentos

Para a definicao da funcao geradora de momentos de uma dada variavel aleatoria Xutilisaremos o princıpio 2.2.

Definicao 13. A funcao geradora de momentos de X, e por definicao, a funcaodefinida por MX(t) = E

[etX], para os t ∈ R tais que E

[etX]

exista. Assim:

MX(t) =∑i∈I

etxiP [X = xi] X discreta tomando os valores xi : i ∈ I (2.8)

MX(t) =

∫ +∞

−∞etxfX(x)dx X contınua com densidade fX (2.9)

Observacao 14 (Motivacao da designacao). Consideremos o caso em que X e discreta etoma um numero finito N de valores. Nesse caso, considerando I = 1, . . . , N temosque

∑Ni=1 h(xi)P [X = xi] existe para qualquer funcao h : R 7→ R. Consideremos para

cada inteiro n ≥ 1 a funcao hn(x) = xn que 1, admitimos define uma variavel aleatoria.Pelo princıpio 2.2 podemos calcular

E [Xn] = E [hn(X)] =N∑i=1

hn(xi)P [X = xi] =N∑i=1

xni P [X = xi] .

Se agora considerarmos o valor da derivada de ordem n de MX(t) tomada no ponto t = 0temos

d(n)

dxnMX(t)

∣∣∣∣∣t=0

=

N∑i=1

xni etxiP [X = xi]

∣∣∣∣∣t=0

=N∑i=1

xni P [X = xi] = E [Xn] ,

o que mostra que os momentos da variavel X podem ser recuperados a partir da funcaogeradora de momentos de X, calculando a derivada desta no ponto zero.

Na tabelas seguintes indicamos, a tıtulo de exemplos, para um conjunto de leisnotaveis as respectivas funcoes geradoras de momentos bem como a expressao geraldos correspondentes momentos.

1Sendo uma funcao real de variavel real contınua e uma variavel aleatoria.

IME 24 19 de Setembro de 2016

Page 31: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.4

LX fX(t) MX(t) E[Xk]

N(0, 1) 1√2πe−

t2

2 et2

2 (k(k − 2)(k − 4) . . . 2) 1Ik par (k)

N(µ, σ) 1√2πσ

e−(t−µ)2

2σ2 eµt+σ2t2

2

E(δ) 1δ e− tδ 1I[0,+∞[(t)

11−tδ1I[0, 1

δ[(t) δkk!

Γ(α, δ) β−αtα−1e− tβ

Γ(α) 1I]0,+∞[(t)1

(1−tβ)α 1I[0, 1β

[(t) βk∏k−1i=0 (α+ i)

U([a, b]) 1b−a1I[a,b](t)

etb−etat(b−a)

bk+1−ak+1

(k+1)(b−a)

L(µ, β) 12β e− |t−µ|

2β etµ

1−t2β2 1I]− 1β, 1β

[(t) Mk (L(µ, β))

Tabela 2.2: Algumas leis contınuas notaveis

Observacao 15. Note-se que:

Mk (L(µ, β)) =1

2

(e−µβ (−β)k

∫ +∞

−µβ

uk+1e−udu+ eµβ βk

∫ +∞

µβ

uk+1e−udu

)

LX P[X = x] MX(t)

B(0, 1) P[X = 1] = p 1− p+ pet

B(µ, σ) P[X = k] =(Nk

)pk(1− p)N−k (1− p+ pet)N

P(δ) P[X = k] = e−λ λk

k! eλ(et−1)

G(p) P[X = k] = p(1− p)k+1 pet

1−(1−p)et

Tabela 2.3: Algumas leis discretas notaveis

Considerando a variavel aleatoria Y ≡ 1, isto e a variavel aleatoria que toma o valor1 com probabilidade 1, verifica-se imediatamente que a funcao geradora de momentosesta sempre definida em t = 0. Com efeito,

MX(t)|t=0 = E[etX∣∣t=0

]= E [Y ] = 1×P [Y = 1] = 1 .

No entanto, qualquer eventual propriedade de regularidade em t = 0 de MX (e.g. conti-nuidade, derivabilidade, etc) requer que esta funcao esteja definida num intervalo abertocontendo t = 0. O teorema seguinte da uma condicao necessaria e suficiente para paraque tal aconteca. Veja-se [Esq07, p. 52] para uma demonstracao deste resultado que nasua generalidade esta fora do ambito do programa desta unidade curricular.

Teorema 6 (Existencia da funcao geradora de momentos). Seja X uma variavelaleatoria tomado valores reais. Uma condicao necessaria e suficiente para que afuncao geradora de momentos de X esteja definida num intervalo aberto, contendozero, e que:

∃K,C > 0 P [|X| > x] ≤ Ce−Kx .

IME 25 19 de Setembro de 2016

Page 32: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

Para as variaveis aleatorias discretas e possıvel demonstrar, no ambito do programada disciplina, uma versao mais fraca do teorema 6.

Proposicao 7 (Sobre a existencia da funcao geradora de momentos). Seja X umavariavel aleatoria discreta tomando uma infinidade de valores reais designados porX(Ω) = xn;n ≥ 1. Considerem-se as duas condicoes seguintes.

1. A variavel X tem caudas com decaımento exponencial, isto e:

∃t0 > 0 ∃C > 0 ∃xC > 0 ∀x ≥ xC P [|X| ≥ x] ≤ Ce−t0x . (2.10)

2. Definindo I+X := n ≥ 1 : xn > 0 e I−X := n ≥ 1 : xn < 0, supoe-se que

tanto (xn)n∈I+Xcomo (xn)n∈I−X

sao conjuntos infinitos e nao limitados e que:

lim infn∈I+X , n→+∞

xnn> 0 e lim sup

n∈I−X , n→+∞

xnn< 0 . (2.11)

Entao, estas condicoes sao suficientes para que MX exista no intervalo ]− t0, t0[.

Demonstracao. Observe-se que com as notacoes introduzidas

MX(t) =+∞∑n=1

etxnP [X = xn] = P [X = 0] +∑n∈I+X

etxnP [X = xn] +∑n∈I−X

etxnP [X = xn]

Consideremos, primeiramente o caso dos valores positivos de X. Sem perda de gene-ralidade, apos re-indexacao, podemos supor que I+

X = xm;m ≥ 1 esta ordenado porordem crescente, isto e, que para m ≥ 1 se tem xm ≤ xm+1. Seja 0 < t < t0. Consi-deremos, entao, o resto de ordem M da serie que define a parte da funcao geradora demomentos correspondente aos valores positivos de X, isto e, o termo mais a direita naigualdade seguinte:

∑m∈I+X

etxmP [X = xm] =M−1∑m=1

etxmP [X = xm] ++∞∑m=M

etxmP [X = xm] .

Escolha-se M(C) ≥ 1 tal que xM(C) ≥ xC e observe-se que com esta escolha se verificaque para m ≥M(C) se tem que xn ≥ xM(C) ≥ xC e que, em consequencia

P [X = xm] ≤ P [X ≥ xm] ≤ Ce−t0xm ,

donde resulta que o resto de ordem M da serie que define a parte de MX(t) correspon-dente aos valores positivos de X verifica, para M ≥M(C)

+∞∑m=M

etxmP [X = xm] ≤ C+∞∑m=M

1

e(t0−t)xm. (2.12)

IME 26 19 de Setembro de 2016

Page 33: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.4

Dado que, pela segunda hipotese, se tem que:

lim supm→+∞

1/m

√1

e(t0−t)xm= lim sup

m→+∞exp

(−(t0 − t)

xmm

)= exp

(−(t0 − t) lim inf

m→+∞

(xmm

))< 1

pode concluir-se pelo criterio da raız que a serie a direita na formula (2.12) convergeassegurando, assim, que a parte da funcao geradora de momentos correspondente aosvalores positivos de X esta bem definida. Para estudar a parte da funcao geradorade momentos correspondente aos valores negativos de X observe-se que considerandou = −t, ym = −xm e Y = −X se tem:

∑m∈I−X

etxmP [X = xm] =∑m∈I−X

e(−t)(−xm)P [−X = −xm] =

∑m∈I−X

euymP [Y = ym]

em que ym > 0 para m ∈ I−X . Observando que Y verifica obviamente a hipotese daformula (2.10) e que

lim supm∈I−X , m→+∞

xmm

< 0 ⇔ lim infm∈I−X , m→+∞

ymm

> 0

podemos concluir procedendo de igual modo que para u < t0, isto e para t > −t0 que aparte da funcao geradora de momentos correspondente aos valores negativos de X estabem definida, ficando assim demonstrado que a funcao geradora de momentos existepara t ∈]− t0, t0[

Observacao 16. Note-se que se, por exemplo, (xn)n∈I+Xfor uma sucessao limitada entao

(etxn)n∈I+Xtambem e uma sucessao limitada para t ∈ R e, em consequencia, para uma

certa constante M tal que para n ∈ I+X se verifique etxn ≤M , tem-se que:

∑n∈I+X

etxnP [X = xn] ≤M∑n∈I+X

P [X = xn] ≤M∑n≥1

P [X = xn] = M .

Em consequencia desta observacao e com a proposicao 7, fica estudada a existencia dasfunooes geradoras de momentos para todas as variaveis aleatorias discretas (tomandoum numero finito de valores ou um numero infinito de valores).

Na sequencia da observacao 14 pode mostrar-se que sempre que a funcao geradora demomentos tenha como domınio de definicao um intervalo aberto podem determinar-seos momentos da variavel aleatoria por derivacao da funcao geradora de momentos.

IME 27 19 de Setembro de 2016

Page 34: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

Teorema 7 (Existencia e calculo dos momentos). Seja X uma variavel aleatoriatomado valores reais cuja funcao geradora de momentos MX(t) esteja definida numintervalo aberto I, por exemplo, I =]− t0, t0[. Entao,

∀t ∈]− t0, t0[ MX(t) =+∞∑n=0

E [Xn]tn

n!, (2.13)

donde se conclui a, derivando sucessivamente, que:

∀n ≥ 1d(n)

dxnMX(t)

∣∣∣∣∣t=0

= E [Xn] . (2.14)

aEsta conclusao pode ser tirada quer recorrendo a formula de Taylor quer recorrendo as pro-priedades das series de potencias; nos exercıcios praticos usaremos, preferencialmente, a primeirajustificacao.

Demonstracao. A demonstracao deste resultado em toda a sua generalidade esta fora doambito do programa. Na referencia [Bil95, p. 278]pode ler-se uma demonstracao que usao integral de Lebesgue. Na referencia [Esq07, p. 53] proposicao 5.3, demonstra-se umresultado mais geral no ambito das funcoes de variavel complexa. E possıvel apresentaruma demonstracao simples no caso particular de uma variavel contınua com densidadecom suporte compacto. Seja entao X uma variavel aleatoria tal que para x /∈ [−A,+A]se verifique que fX(x) = 0. Seja T > 0 qualquer e observe-se que para t ∈ [−T, T ]qualquer mas fixo e para x ∈ [−A,+A] se tem que pelo criterio de Weierstrass que aserie

+∞∑n=0

|(tx)n|n!

≤+∞∑n=0

(AT )n

n!= eAT < +∞

converge uniformemente pelo que se tem, pelo resultado que permite integrar uma seriedesde que haja convergencia uniforme, que para t ∈ [−T, T ],

MX(t) =

∫ +∞

−∞etxfX(x)dx =

∫ +A

−AetxfX(x)dx =

∫ +A

−A

(+∞∑n=0

(tx)n

n!

)fX(x)dx =

=

+∞∑n=0

tn

n!

∫ +A

−AxnfX(x)dx =

+∞∑n=0

tn

n!

∫ +∞

−∞xnfX(x)dx =

+∞∑n=0

E [Xn]tn

n!,

que e o resultado apresentado na formula (2.13). Neste caso, o resultado e valido paraqualquer t ∈ R uma vez que T e arbitrario. A formula (2.14) resulta da formula (2.13)dado ser possıvel derivar uma serie de potencias no interior do intervalo de convergenciaque, neste caso, e ]−∞,+∞[.

IME 28 19 de Setembro de 2016

Page 35: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.5

2.5 Propriedades da funcao geradora de momentos

A funcao geradora de momentos quando esta definida num intervalo aberto goza de umconjunto de propriedades muito uteis nas aplicacoes.

(a) Se duas variaveis aleatorias sao independentes entao a funcao geradora de momen-tos da soma das variaveis aleatorias e o produto das funcoes geradoras de momentosde cada uma das variaveis aleatorias.

(b) A funcao geradora de momentos caracteriza a distribuicao de probabilidade. As-sim quando duas funcoes geradoras de momentos de duas leis de probabilidadecoincidem num intervalo aberto, necessariamente nao vazio, pode concluir-se queas leis tambem coincidem.

(c) Se uma sucessao de funcoes geradoras de momentos, correspondente a uma sucessaode leis de probabilidade, converge num intervalo aberto para uma funcao geradorade momentos de uma certa lei de probabilidade entao a sucessao das leis convergepara essa lei.

Previamente, necessitamos explicitar a nocao de convergencia de leis de probabilida-des.

Definicao 14 (Convergencia de leis de probabilidade). A sucessao de leis de umasucessao de variaveis aleatorias (Xn)n≥1 converge para a lei da variavel aleatoriaX∞ se e so se qualquer que seja h : R 7→ R contınua e limitada se verificar que:

limn→+∞

E [h(Xn)] = E [h(X∞)] .

Observacao 17. A convergencia definida na definicao 14 pode representar-se por

XnL−−−−−→

n→+∞X∞

o que se le: a sucessao (Xn)n≥1 converge em lei para X∞. Esta convergencia e, de facto,uma convergencia das leis de probabilidade e nao necessita da explicitacao das variaveisaleatorias referidas (veja-se [Met79, p. 176] para uma abordagem mais avancada a estanocao).

Proposicao 8 (Condicao necessaria e suficiente para a convergencia de leis de proba-bilidade). Uma sucessao (Xn)n≥1 converge em lei para X∞ se e so se para qualquerponto de continuidade x de FX∞, a funcao de distribuicao de X∞ se verificar que:limn→+∞ FXn(x) = FX∞(x).

Demonstracao. Veja-se [Met79, p. 176] ou [Sin92, p. 114] para demonstracoes desteresultado.

IME 29 19 de Setembro de 2016

Page 36: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

Em complemento da proposicao 8, no caso em que a funcao de distribuicao limite econtınua pode garantir-se a convergencia uniforme.

Teorema 8 (Teorema de Polya sobre a convergencia uniforme das funcoes de distri-buicao). Seja (Fn)n≥1 uma sucessao de funces de distribuicao convergindo pontual-mente para uma funcao de distribuicao limite contınua em R. Entao a convergenciae uniforme, isto e,

limn→+∞

supx∈R|Fn(x)− F (x)| = 0 .

Demonstracao. Em [0, 1], contradomınio comum das funcoes de distribuicao de proba-bilidade e para m ≥ 1 a determinar, consideremos m pontos de igualmente espacados deum comprimento igual a 1/m. Dado que F e funcao de distribuicao monotona crescentee contınua, existem m − 1 pontos x1, . . . , xm−1 ∈ R, domınio comum das funcoes dedistribuicao, tais que, dada a hipotese de convergencia pontual se verifica:

∀j = 1, . . . ,m− 1 F (xj) =j

me limn→+∞

Fn(xj) = F (xj) .

Seja agora ε > 0 arbitrario. Escolhendo m igual a parte inteira de 1/m acrescida deuma unidade, temos que pela convergencia pontual, para cada j = 1, . . . ,m − 1 existenj = nj(ε) ≥ 1 tal que:

∀n ≥ nj |Fn(xj)− F (xj)| ≤ ε .Seja agora n0 = max (n1, . . . , nm−1) e considere-se n ≥ n0. Entao para x < x1 tem-seque:

0 < Fn(x) ≤ Fn(x1) ≤ F (x1) + ε ≤ 2ε .

Do mesmo modo para xl ≤ x ≤ xl+1:

F (xl)− ε ≤ Fn(xl) ≤ Fn(x) ≤ Fn(xl+1) ≤ F (xl+1) + ε . (2.15)

Mas tambem se verifica que

F (xl)− ε ≤ F (xl) ≤ F (x) ≤ F (xl+1) ≤ F (xl+1) + ε , (2.16)

tem-se em consequencia das formulas (2.15) e (2.16) que:

∀x ∈ R ∀n ≥ n0 |Fn(x)− F (x)| ≤ ε ,

tal como se pretendia.

Apresentamos seguidamente os enunciados dos resultados referidos acima.

Teorema 9 (FGM da soma de variaveis aleatorias independentes). Sejam X e Yvariaveis aleatorias independentes tomando valores reais cujas funcoes geradoras demomentos MX(t) e MY (t) estejam definidas em intervalos abertos, por exemplo,]− tX , tX [ e ]− tY , tY [, respectivamente. Entao,

∀t ∈]− tX , tX [∩]− tY , tY [ MX+Y (t) = MX(t)×MY (t)

IME 30 19 de Setembro de 2016

Page 37: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.5

Demonstracao. Consideremos, que X e Y sao discretas, que X(Ω) = xn : n ≥ 1 queY (Ω) = ym : m ≥ 1, que MX(t) existe para t ∈] − tX ,+tX [ e que MY (t) existepara t ∈] − tY ,+tY [, com tX > 0 e tY > 0. Entao, para t ∈] − tX ,+tX [∩] − tY ,+tY [,observando que X + Y e a variavel aleatoria que vale xn + ym quando X vale xn e Yvale ym:

MX+Y (t) = E[et(X+Y )

]=∑n≥1

∑m≥1

et(xn+yn)P [X = xn, Y = ym] =

=∑n≥1

∑m≥1

etxnetynP [X = xn]P [Y = ym] =

=

∑n≥1

etxnP [X = xn]

∑m≥1

etynP [Y = ym]

= MX(t)MY (t)

em que na terceira igualdade usamos a independencia e a na quarta o facto de estarmosa fazer o produto de series a termos positivos convergentes. Suponhamos agora queX e Y sao contınuas admitindo densidades fX e fY e tais que, como no caso em queambas so discretas, MX(t) existe para t ∈] − tX ,+tX [ e que MY (t) existe para t ∈] − tY ,+tY [, com tX > 0 e tY > 0. Dado que X e Y sao independentes sabemos que:F(X,Y )(x, y) = FX(x)FY (y) o que implica que f(X,Y )(x, y) = fX(x)fY (y). Assim, parat ∈]− tX ,+tX [∩]− tY ,+tY [,

MX+Y (t) = E[et(X+Y )

]=

∫ +∞

−∞

∫ +∞

−∞et(x+y)f(X,Y )(x, y)dxdy =

=

∫ +∞

−∞

∫ +∞

−∞etxetyfX(x)fY (y)dxdy =

=

(∫ +∞

−∞etxfX(x)dx

)(∫ +∞

−∞etyfY (y)dy

)= MX(t)MY (t)

em que a quinta igualdade resulta das propriedades dos integrais multiplos. O caso geralque cobre, por exemplo, o caso em que X e discreta e Y e contınua pode ser demonstradomuito simplesmente no ambito do integral de Lebesgue.

Teorema 10 (Caracterizacao da lei pela FGM). Sejam X e Y variaveis aleatoriastomando valores reais cujas funcoes geradoras de momentos MX(t) e MY (t) estejamdefinidas em intervalos abertos, por exemplo, ]−tX , tX [ e ]−tY , tY [, respectivamente.Entao,

(∀t ∈]− tX , tX [∩]− tY , tY [ MX(t) = MY (t))⇒ LX ≡ LY ,

Demonstracao. A demonstracao deste resultado no caso geral requer conhecimentos forado ambito desta disciplina (veja-se, por exemplo [Bil95, p. 388]).

IME 31 19 de Setembro de 2016

Page 38: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

Teorema 11 (Convergencia de FGM). Sejam (Xn)n≥1 e X variaveis aleatorias to-mando valores reais cujas funcoes geradoras de momentos MXn(t) e MX(t) estejamdefinidas num intervalo aberto comum, por exemplo, ]− t0, t0[. Entao, se para todoo t ∈] − t0, t0[ se verificar que limn→+∞MXn(t) = MX(t) ter-se-a que a sucessao(Xn)n≥1 converge em lei para X o que implica que para todo o x ∈ R que seja pontode continuidade de FX se tem que limn→+∞ FXn(x) = FX(x).

Demonstracao. A demonstracao deste resultado requer conhecimentos fora do ambitodesta disciplina (veja-se, por exemplo [Bil95, p. 390]).

2.6 Teoremas limite

Os teoremas limite, como os teoremas do limite central, sao, conjuntamente com asleis dos grandes numeros, resultados fundamentais nas aplicacoes das probabilidades,em particular, nos problemas da Estatıstica. Para alem de permitirem a determinacaodos valores de probabilidades aproximadas de uma forma simples permitem, tambem, adeterminacao dos intervalos de confianca em muitas situacoes importantes na pratica.Nesta seccao exploraremos alguns exemplos de teoremas em que uma sucessao de dis-tribuicoes converge para a distribuicao de Poisson ou para a distribuicao Gaussiana.Previamente, necessitamos detalhar tres resultados tecnicos.

O primeiro resultado tecnico exprime a funcao geradora de momentos de uma trans-formacao afim da variavel aleatoria.

Proposicao 9 (Transformacao afim da variavel aleatoria). Seja X uma variavelaleatoria tomando valores reais com funcao geradora de momentos MX(t) definidanum intervalo aberto, por exemplo, ]− t0, t0[. Sejam b ∈ R qualquer e a ∈ R \ 0.Entao aX + b e uma variavel aleatoria tomando valores reais cuja funcao geradorade momentos MaX+b(t) esta definida no intervalo aberto ]− t0

|a| ,−t0|a| [ e verifica

∀t ∈]− t0|a|,− t0|a|

[MaX+b(t) = etbMX(at) . (2.17)

Demonstracao. Para t nas condicoes da expressao (2.17) tem-se que:

MaX+b(t) = E[et(aX+b)

]= E

[etbetaX

]= etbE

[etaX

]= etbMX(at)

pelas propriedades do valor esperado uma vez que o factor etb e determinıstico.

O segundo e terceiros resultados resultam da teoria das series de potencias e saoessenciais para toda esta seccao.

IME 32 19 de Setembro de 2016

Page 39: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.6

Proposicao 10 (Comportamento local do logaritmo na vizinhanca de 1). ExisteRL : R 7→ R contınua em ]− 1,+1[, verificando RL(0) = −1/2 e tal que:

∀x ∈]− 1,+1[ log(1 + x) = x+ x2RL(x) .

Demonstracao. O desenvolvimento em serie de potencias da funcao log(1 + x), obtidopor integracao da serie geometrica de razao −x, para |x| < 1, e dado por:

log(1+x) =

∫dx

1− (−x)= x−x

2

2+x3

3−· · ·+(−1)n+1xn

n+· · · = x+x2

(+∞∑n=0

(−1)n+1xn

n+ 2

).

Se for, por definicao, RL(x) :=∑+∞

n=1(−1)n+1xn/(n+2) para |x| < 1, tem-se pelo criteriode d’Alembert que a serie converge para qualquer x ∈]−1, 1[, sendo neste intervalo abertouma funcao indefinidamente derivavel e tal que RL(0) = −1/2.

Proposicao 11 (Comportamento local da exponencial na vizinhanca de 0). ExisteRE : R 7→ R contınua em R, verificando RE(0) = 1/3! e tal que:

∀x ∈]− 1,+1[ exp(x) = 1 + x+x2

2!+ x3RE(x) .

Demonstracao. O desenvolvimento em serie de potencias da funcao ex e dado para x ∈ Rpor:

ex =+∞∑n=0

xn

n!= 1 + x+

x2

2!+x3

3!+ · · ·+ xn

n!+ · · · = 1 + x+

x2

2!+ x3

(+∞∑n=0

xn

(n+ 3)!

).

Se for, por definicao, RE(x) :=∑+∞

n=1 xn/(n + 3)! para x ∈ R, tem-se pelo criterio de

d’Alembert que a serie converge para x ∈ R, sendo neste conjunto aberto uma funcaoindefinidamente derivavel e tal que RE(0) = 1/3!.

O teorema seguinte, atribuıdo ao matematico Paul Levy, e um resultado util nasaplicacoes.

Teorema 12 (Aproximacao da Poisson a Binomial para eventos raros). Seja(Xn)n≥1 uma sucessao de variaveis aleatorias tais que para n ≥ 1 se tenha queXn _ B(Nn, pn) verificando:

(i) limn→+∞Nn = +∞,

(ii) limn→+∞Nnpn = λ.

Seja X∞ _ P(λ). Entao para t ∈ R tem-se que limn→+∞MXn(t) = MX∞(t)donde resulta que para todo o ponto de continuidade x de FX∞ se tem quelimn→+∞ FXn(x) = FX∞(x).

IME 33 19 de Setembro de 2016

Page 40: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

Demonstracao. Sabemos (ver tabela 2.3 ou exercıcio 28) que se tem:

MXn(t) =(1 + pn(et − 1)

)Nn =

(1 +

NnpnNn

(et − 1)

)Nn= e

Nn log(

1+NnpnNn

(et−1))

Observe-se que, pelas hipoteses acima, dado t ∈ R existe n0 ≥ 1 tal que para n ≥ n0 setem que ∣∣∣∣Nnpn

Nn(et − 1)

∣∣∣∣ < 1 .

Em consequencia, pelo lema 10 temos

limn→+∞

Nn log

(1 +

NnpnNn

(et − 1)

)=

= limn→+∞

Nn

(NnpnNn

(et − 1) +

(NnpnNn

(et − 1)

)2

RL

(NnpnNn

(et − 1)

))=

= limn→+∞

(Nnpn(et − 1) +

((Nnpn)2

Nn(et − 1)2

)2

RL

(NnpnNn

(et − 1)

))=

= λ(et − 1)

donde resulta imediatamente, (ver tabela 2.3 ou exercıcio 29) que:

limn→+∞

MXn(t) = eλ(et−1) = MX∞(t) ,

resultando a ultima conclusao de uma aplicacao directa do teorema 11.

Observacao 18. Na pratica e de uso comum aplicar a aproximacao da lei de Poissona lei binomial para X _ B(N, p) com N ≥ 50 e Np < 5 (veja-se [SS99, p. 158]).O leitor podera atraves de uma simulacao computacional verificar a qualidade destaaproximacao.

O teorema seguinte permite considerar uma variavel aleatoria adequadamente norma-lizada, com lei de Poisson, como assimptoticamente normal, no caso em que o parametrocresce indefinidamente.

Teorema 13 (Aproximacao da normal estandardizada a Poisson). Consideremos(Xn)n≥1 uma sucessao de variaveis aleatorias tais que Xn _ P(λn), isto e, Xn e umavariavel com lei de Poisson de parametro λn. Suponha-se que limn→+∞ λn = +∞.Seja X∞ _ N(0, 1). Entao para t ∈ R tem-se que

limn→+∞

MXn−λn√λn

(t) = MX∞(t) ,

donde resulta, em consequencia dos teoremas 11 e 8, que

limn→+∞

supx∈R

∣∣∣∣FXn−λn√λn

(x)− 1√2π

∫ x

−∞e−

t2

2 dt

∣∣∣∣ = 0 .

IME 34 19 de Setembro de 2016

Page 41: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.6

Demonstracao. A demonstracao segue a mesma linha de raciocınio que a a demonstracaodo teorema 12. Com efeito, aplicando a proposicao 9, temos que para t ∈ R :

MXn−λn√λn

(t) = e−√λntMXn(

t√λn

) = e−√λnteλn(e

t√λn −1) = eλn(e

t√λn −1)−

√λnt

uma vez que Xn sendo Poisson tem a funcao geradora de momentos conhecida (vertabela 2.3 ou exercıcio 28). Aplicando agora a proposicao 11 temos que:

λn(et√λn − 1)−

√λnt = λn

(1 +

t√λn

+1

2!

(t√λn

)2

+

(t√λn

)3

RE(t√λn

)− 1

)−

−√λnt =

=t2

2+

t3√λnRE(

t√λn

) ,

donde resulta que:

limn→+∞

MXn−λn√λn

(t) = limn→+∞

eλn(et√λn −1)−

√λnt = e

t2

2 = MX∞(t) ,

uma vez que a distribuicao normal estandardizada tem funcao geradora de momentosconhecida (ver tabela 2.2 ou exercıcio 20). A ultima conclusao resulta, mais uma vez,de uma aplicacao directa do teorema 11.

Observacao 19. Este teorema tem como aplicacao a determinacao de intervalos de con-fianca (segundo a definicao 15) para valores da variavel de Poisson (veja-se, por exemplo,o exercıcio 34).

Definicao 15 (Intervalo de confianca). Seja X uma variavel aleatoria tomandovalores reais. Um intervalo Ix0,α ⊆ R e um intervalo de confianca de nıvel α paraum valor x0 ∈ X(Ω) se se verificar que:

P [x0 ∈ Ix0,α] = α .

O primeiro teorema limite central que estudaremos e a versao de Lindeberg-Levydo teorema do limite central que e simples mas ainda assim muito util, em particular,em Estatıstica. A demonstracao apresentada e trabalhosa mas e do mesmo tipo dasanteriores.

IME 35 19 de Setembro de 2016

Page 42: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

Teorema 14 (Teorema do limite central para variaveis iid). Seja (Xn)n≥1, umasucessao de variaveis aleatorias, independentes e identicamente distribuıdas comX uma variavel aleatoria cuja funcao geradora de momentos exista num intervaloaberto, por exemplo, ] − t0,+t0[. Seja, para simplificar as notacoes, E [X] = 0 eV [X] = σ2. Seja, por definicao,

YN :=1√N

N∑n=1

Xn .

Entao, para t ∈]− t0,+t0[ tem-se que

limN→+∞

MYN (t) = et2σ2

2 ,

donde resulta, em consequencia dos teoremas 11 e 8, que:

limN→+∞

supx∈R

∣∣∣∣∣P[

1√N

N∑n=1

Xn ≤ x

]− 1

σ2√

∫ x

−∞e−

t2

2σ2 dt

∣∣∣∣∣ = 0 . (2.18)

Demonstracao. Observe-se que se tem imediatamente, em resultado da independencia(ver teorema 9) e de todas as variaveis Xn terem a mesma distribuicao que X, que:

MYN (t) = E[etYN

]= E

[e∑Nn=1

tXn√N

]= E

[N∏n=1

etXn√N

]=

N∏n=1

E

[etXn√N

]=

(MX(

t√N

)

)N.

Observemos agora que para t ∈]− t0,+t0[ que consideraremos fixo de agora em diante,dado que MX e uma funcao contınua que vale 1 em t = 0, existe N0 ≥ 1 tal que paraN ≥ N0 se tem ∣∣∣∣MX

(t√N

)− 1

∣∣∣∣ < 1 .

Pela formula (2.13) do teorema 7, e com as hipoteses de que E [X] = 0 e V [X] = σ2,sabemos que:

MX

(t√N

)− 1 =

σ2t2

2N+

+∞∑k=3

E[Xk]

k!

(t√N

)k=

=σ2t2

2N+

(t√N

)3(

+∞∑k=0

E[Xk+3

](k + 3)!

(t√N

)k)

Note-se que se considerarmos a funcao RN , soma da serie de potencias dada para t ∈ Rpor

RN (t) :=

+∞∑k=0

E[Xk+3

](k + 3)!

(t√N

)k

IME 36 19 de Setembro de 2016

Page 43: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.6

temos que RN esta bem definida por aplicacao do criterio de D’Alembert a serie daformula (2.13). Com efeito, dado que essa serie converge temos, pelo criterio de D’Alembert,que:

limk→+∞

∣∣∣∣∣E[Xk+1

]tk+1

(k + 1)!

k!

E [Xk] tk

∣∣∣∣∣ = limk→+∞

∣∣∣∣∣E[Xk+1

]E [Xk]

∣∣∣∣∣ |t|k + 1≤ 1 .

Em consequencia, aplicando o mesmo criterio a serie que define RN temos para N ≥sup(N0, 2) que:

limk→+∞

∣∣∣∣∣∣E[Xk+4

](k + 4)!

(t√N

)k+1 (k + 3)!

E [Xk+3]

(√N

t

)k∣∣∣∣∣∣ ≤ limk→+∞

∣∣∣∣∣E[Xk+4

]E [Xk+3]

∣∣∣∣∣ |t|k + 4

1√N0

< 1

pelo que a serie converge e RN esta bem definida, sendo uma funcao contınua da variavelt que vale E

[X3]/3! para t = 0. Note-se ainda que para N ≥ sup(N0, 2)

|RN (t)| ≤+∞∑k=0

∣∣E [Xk+3]∣∣

(k + 3)!

(|t|√N0

)ksendo que, pelo mesmo tipo de argumentacao que apresentamos para RN , a serie a direitadefine uma funcao contınua, que denominaremos R+

N0e que vale

∣∣E [X3]∣∣ /3! para t = 0.

Podemos agora concluir comecando por observar que:

MYN (t) =

(MX

(t√N

))N= exp

(N log

(1 + MX

(t√N

)− 1

))=

= exp

(N log

(1 +

σ2t2

2N+

(t√N

)3

RN (t)

)).

De seguida, escolha-se N1 ≥ 1 tal que para N ≥ N1:∣∣∣∣∣σ2t2

2N+

(t√N

)3

RN (t)

∣∣∣∣∣ ≤ σ2t2

2N+

(|t|√N

)3

R+N0

(t) < 1 .

Para N ≥ sup(N0, 2, N1) pode aplicar-se, de novo, a proposicao 10 vindo que:

MYN (t) = exp

(σ2t2

2+

t3√NRN (t)+

+N

(σ2t2

2N+

(t√N

)3

RN (t)

)2

RL

(σ2t2

2N+

(t√N

)3

RN (t)

) .

Dado o que sabemos sobre RL e sobre RM fica claro que:

limN→+∞

MYN (t) = et2σ2

2 , (2.19)

tal como querıamos demonstrar, sendo que a ultima conclusao decorre do teorema 11 edo facto da funcao a direita na formula (2.19) ser a funcao geradora de momentos deuma variavel aleatoria com lei N(0, σ2).

IME 37 19 de Setembro de 2016

Page 44: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

Observacao 20. O teorema 14 e valido para qualquer sucessao de variaveis aleatoriasindependentes e identicamente distribuıdas com media nula e variancia finita, isto e,sem a hipotese de que a funcao geradora de momentos existe num intervalo aberto.A demonstracao, sem a hipotese restritiva faz-se com recurso a funcao caracterıstica,seguindo uma linha de argumentacao semelhante a que seguimos acima (veja-se, porexemplo, [Met79, p. 209]).

O teorema seguinte mostra que a distribuicao binomial tambem pode ser aproximadapela normal estandardizada quando as variancias crescem sem limite real.

Teorema 15 (De Moivre - Laplace; Aproximacao da normal estandardizada a bi-nomial). Consideremos (Xn)n≥1 uma sucessao de variaveis aleatorias tais que paran ≥ 1 se tem que Xn _ B(Nn, pn), isto e, uma sucessao de variaveis binomiais deparametros Nn ≥ 1 e pn ∈ [0, 1]. Seja X∞ _ N(0, 1). Suponha-se que:

(i) limn→+∞√Nnpn(1− pn) = +∞;

(ii) Existe 0 < u < 1/2 tal que u ≤ pn ≤ 1− u.

Entao para t ∈ R, tem-se que:

limn→+∞

M Xn−Nnpn√Nnpn(1−pn)

(t) = MX∞(t) ,

donde resulta, em consequencia dos teoremas 11 e 8, que

limn→+∞

supx∈R

∣∣∣∣F Xn−Nnpn√Nnpn(1−pn)

(x)− 1√2π

∫ x

−∞e−

t2

2 dt

∣∣∣∣ = 0 .

Demonstracao. A prova segue o metodo que vimos usando nesta seccao. Consideremosas seguintes notacoes para facilitar a apresentacao.

µn := Nnpn , σn :=√Nnpn(1− pn) , Yn :=

Xn −Nnpn√Nnpn(1− pn)

=Xn − µnσn

.

Tem-se entao por aplicacao da proposicao 9 que

MYn(t) = e−µntσn MXn(

t

σn) = e−

µntσn

(1 + pn

(etσn − 1

))Nn=

= exp

(Nn log

(1 + pn

(etσn − 1

))− µnt

σn

)Observamos seguidamente, a semelhanca do que se afirmou na proposicao 10, que existeRL,3 : R 7→ R contınua em ]− 1,+1[, verificando RL,3(0) = 1/3 e tal que:

∀x ∈]− 1,+1[ log(1 + x) = x− x2

2+ x3RL,3(x) ,

IME 38 19 de Setembro de 2016

Page 45: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.6

(veja-se o exercıcio 32). Pelo que temos com an = pn

(etσn − 1

)log(

1 + pn

(etσn − 1

))= pn

(etσn − 1

)− 1

2

[pn

(etσn − 1

)]2+ a3

nRL,3(an) .

Usando agora o comportamento local da exponencial na vizinhanca de zero, detalhadona proposicao 11 temos que:

etσn − 1 =

t

σn+

t2

2σ2n

+t3

σ3n

RE(t

σn)

e ainda reagrupando todos os termos de ordem superior ou igual a 3 em t/σn na funcaoR?E , funcao contınua tal que R?E(0) = 0:(

etσn − 1

)2=

t2

σ2n

+t3

2σ3n

+t4

σ4n

RE(t

σn) +

t4

4σ4n

+t5

σ5n

RE(t

σn) +

t6

σ6n

RE(t

σn)2 =

=t2

σ2n

+t3

2σ3n

R?E(t

σn) .

Temos entao, dado que µn := Nnpn que:

Nn log(

1 + pn

(etσn − 1

))− µnt

σn= µn

(t

σn+

t2

2σ2n

+t3

σ3n

RE(t

σn)

)−

− µnpn2

(t2

σ2n

+t3

2σ3n

R?E(t

σn)

)+Nna

3nRL,3(an)− µnt

σn=

=

(µnσ2n

− µnpnσ2n

)t2

2+µnt

3

σ3n

RE(t

σn)− µnpnt

3

4σ3n

R?E(t

σn) +Nna

3nRL,3(an) .

Observando agora, dado que µn = Nnpn e que que σ2n = Nnpn(1− pn)

µnσ2n

− µnpnσ2n

=1

1− pn− pn

1− pn= 1 ,

e que se verifica, em virtude das hipoteses, que:

limn→+∞

µnt3

σ3n

= 0 , limn→+∞

µnpnt3

4σ3n

= 0 , limn→+∞

Nna3n = 0 ,

podemos concluir que

limn→+∞

MYn(t) = et2

2 ,

tal como se afirmou no enunciado, ficando assim demonstrado o teorema.

Observacao 21. A primeiras versoes referenciadas do teorema 15 sao de Abraham DeMoivre em 1733, num artigo e em 1738 num livro. Em [Sin92, p. 30] e em [Fel71, p.186] pode-se encontrar discussoes do teorema de De Moivre - Laplace para variaveisbinomiais com lei B(N, p) em que o parametro N cresce indefinidamente, estando oparametro p ∈]0, 1[ fixo.

IME 39 19 de Setembro de 2016

Page 46: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

O ultimo teorema que estudaremos e um terorema de limite central para somasde variaveis aleatorias independentes com um numero de termos aleatorio, com lei dePoisson. Este tipo de teoremas e de grande utilidade em Matematicas Actuariais dadoque uma tal soma pode representar a soma das indemnizacoes pagas por uma companhiade seguros num dado instante (ver, por exemplo, [BGH+97, p. 386]).

Teorema 16 (Limite central para somas de variaveis iid com numero aleatorio determos com lei de Poisson). Seja (Xn)n≥1, uma sucessao de variaveis aleatorias, in-dependentes e identicamente distribuıdas com X uma variavel aleatoria cuja funcaogeradora de momentos exista num intervalo aberto, por exemplo, ] − t0,+t0[. Seja(Nn)n≥1 uma sucessao de variaveis aleatorias com lei de Poisson P(λn) tal quelimn→+∞ λn = +∞.Seja, para simplificar as notacoes, E [X] = µ, E

[X2]

= µ2 e V [X] = σ2. Seja, pordefinicao,

Sn :=

Nn∑i=1

Xi e Zn :=Sn − λnµ√

λnµ2

Entao, para t ∈]− t0/√µ2,+t0/

õ2[ tem-se que

limn→+∞

MZn(t) = et2

2 ,

donde resulta, em consequencia dos teoremas 11 e 8, que:

limN→+∞

supx∈R

∣∣∣∣∣P[Sn −E [Sn]√V [Sn]

≤ x

]− 1√

∫ x

−∞e−

t2

2 dt

∣∣∣∣∣ = 0 .

Demonstracao. A demonstracao segue a metodologia das outras demostracoes ja feitas.Determinemos a funcao geradora de momentos de S. Temos 2 que:

MSn(t) = E[et∑Nni=1Xi

]=

+∞∑k=0

P [Nn = k]E[et∑ki=1 Xi | Nn = k

]=

=

+∞∑k=0

P [Nn = k]M∑ki=1 Xi

(t) =

+∞∑k=0

P [Nn = k] (MX(t))k =

=

+∞∑k=0

P [Nn = k] ek log(MX(t)) = MNn (log (MX(t)))

Aplicando agora o teorema 7 mostra-se que:

E [Sn] =d

dtMSn(t)

∣∣∣∣t=0

= E [N ]E [X] = λnµ ,

2Usando os resultados relativos a esperanca condicional referidos no capıtulo III.

IME 40 19 de Setembro de 2016

Page 47: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.6

e que

E[S2n

]=

d2

dt2MSn(t)

∣∣∣∣t=0

= E[N2]E [X]2 +E [N ]

(E[X2]−E [X]2

).

Destes dois resultados pode concluir-se que:

V[S2n

]= E

[S2n

]−E [Sn]2 = λnµ2 .

Tal como anteriormente, aplicando a proposicao 9, tem-se que:

MZn(t) = e− λnµ√

λnµ2tMSn

(t√λnµ2

)= e− λnµ√

λnµ2tMNn

(logMX

(t√λnµ2

))=

= e− λnµ√

λnµ2teλn

(MX

(t√λnµ2

)−1

).

Em virtude da hipotese feita sobre a funcao geradora de momentos de X, invocando oteorema 7 e reagrupando os termos de ordem superior ou igual a tres em t, temos que

MX

(t√λnµ2

)= 1 +

E [X] t√λnµ2

+E[X2]t2

2λnµ2+

(1√λn

)3 +∞∑k=3

E[Xk]tk

k!(√λn)k−3 (√

µ2

)k .Dado que para t ∈]− t0/

õ2, t0/

√µ2[, e para λn ≥ 1 se tem que

+∞∑k=3

∣∣E [Xk]tk∣∣

k!(√λn)k−3 (√

µ2

)k ≤ +∞∑k=3

∣∣E [Xk]tk∣∣

k!(õ2

)k < +∞ , (2.20)

tem-se que

λn

(MX

(t√λnµ2

)− 1

)=

λnµ√λµ2

t+λnµ2

λnµ2

t2

2+

1√λn

+∞∑k=3

E[Xk]tk

k!(√λn)k−3 (√

µ2

)k .Agora, com a funcao R3,λn(t) definida para t ∈]− t0/

õ2, t0/

√µ2[, e para λn ≥ 1 por

R3,λn(t) :=

+∞∑k=3

E[Xk]tk

k!(√λn)k−3 (√

µ2

)kvem que

MZn(t) = et2

2+ 1√

λnR3,λn (t)

o que atendendo a majoracao dada na formula (2.20) mostra que

limn→+∞

MZn(t) = et2

2

tal como se pretendia.

IME 41 19 de Setembro de 2016

Page 48: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

Observacao 22. Os teoremas de limite central mostram que sob certas condicoes e paradeterminados grandes valores de um parametro e valida uma aproximacao pela distri-buicao normal. A questao natural que e coloca e a de saber a partir de que ordem degrandeza do parametro e valida uma tal aproximacao? Ou, mais precisamente, qual ea velocidade de convergencia da aproximacao? Um teorema celebre, a desigualdade deBerry-Esseen, diz-nos que no caso do teorema 14 a velocidade de convergencia para zerona formula (2.19) e maior que C/

√N , sendo C uma constante que depende dos segundos

e terceiros momentos dos termos. A demostracao deste teorema faz-se com recurso asfuncoes caracterısticas. Um interessante tema de trabalho aprofundado que propomosneste final de capıtulo e o de demonstrar resultados de tipo Berry-Esseen, usando asfuncoes geradoras de momentos, para os teoremas demonstrados acima.

2.7 Exercıcios

Exercıcio 20 (Lei normal estandardizada). Considere uma variavel aleatoria X _ N(0, 1) isto e, uma[1]variavel contınua com densidade

fX(t) =1√2πe−

t2

2 .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 21 (Lei de Cauchy). Considere uma variavel aleatoria X _ C isto e, uma variavel contınua[1]com densidade

fX(t) =1

1 + t2.

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 22 (Lei Gaussiana ou de Laplace-Gauss geral). Considere uma variavel aleatoria X _ N(µ, σ)[1]isto e, uma variavel contınua com densidade

fX(t) =1√2πσ

e− (t−µ)2

2σ2 .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 23 (Lei exponencial). Considere uma variavel aleatoria X _ E(δ) isto e, uma variavel[1]contınua com densidade

fX(t) =1

δe−

tδ 1I[0,+∞[(t) .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

IME 42 19 de Setembro de 2016

Page 49: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.7

Exercıcio 24 (Lei uniforme). Considere uma variavel aleatoria X _ U([a, b]) isto e, uma variavel[1]contınua com densidade

fX(t) =1

b− a1I[a,b](t) .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 25 (Lei gama). Considere uma variavel aleatoria X _ Γ(α, δ) isto e, uma variavel contınua [2]com densidade

fX(t) =β−αtα−1e

− tβ

Γ(α)1I]0,+∞[(t) .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 26 (Lei de Laplace). Considere uma variavel aleatoria X _ L(µ, β) isto e, uma variavel [2]contınua com densidade

fX(t) =1

2βe− |t−µ|

2β .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 27 (Lei de Bernoulli). Considere uma variavel aleatoria X _ B(p), para p ∈]0, 1[, isto e, [1]uma variavel discreta tal que X(Ω) = 0, 1 com lei dada por

P [X = 1] = p .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 28 (Lei Binomial). Considere uma variavel aleatoria X _ B(N, p), para p ∈]0, 1[ e N ≥ 2 [1]inteiro, isto e, uma variavel discreta tal que X(Ω) = 0, 1, . . . , N com lei dada por

P [X = k] =

(N

k

)pk(1− p)N−k .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 29 (Lei de Poisson). Considere uma variavel aleatoria X _ P(λ), para λ > 0, isto e, uma [1]variavel discreta tal que X(Ω) = N com lei dada por

P [X = k] = e−λλk

k!.

IME 43 19 de Setembro de 2016

Page 50: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

2 Capıtulo 2

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 30 (Lei geometrica). Considere uma variavel aleatoria X _ G(p) isto e, uma variavel discreta [1]tal que X(Ω) = N \ 0 com lei dada por

P [X = k] = p(1− p)k−1 .

1. Determine MX(t) a funcao geradora de momentos e o domınio de existencia desta.

2. Determine, se possıvel, os dois primeiros momentos de X.

3. Determine, se possıvel, uma formula geral para os momento de X.

Exercıcio 31 (Teorema do limite central para variaveis nao centradas). Seja (Xn)n≥1, uma sucessao[3]de variaveis aleatorias, independentes e identicamente distribuıdas com X uma variavel aleatoria cujafuncao geradora de momentos exista num intervalo aberto, por exemplo, ]−t0,+t0[. Seja, para simplificaras notacoes, E [X] = µ e V [X] = σ2. Seja, por definicao,

YN :=1

σ√N

N∑n=1

(Xn − µ) .

1. Mostre que, para t ∈]− t0,+t0[ se tem que:

limN→+∞

MYN (t) = et2

2 .

2. Mostre que, em consequencia, para x ∈ R:

limN→+∞

supx∈R

∣∣∣∣∣P[

1

σ√N

N∑n=1

(Xn − µ) ≤ x

]− 1√

∫ x

−∞e−

t2

2 dt

∣∣∣∣∣ = 0 .

Exercıcio 32 (Comportamento local de ordem 2, do logaritmo na vizinhanca de 1). Mostre que existe[2]RL,3 : R 7→ R contınua em ]− 1,+1[, verificando RL,3(0) = 1/3 e tal que:

∀x ∈]− 1,+1[ log(1 + x) = x− x2

2+ x3RL,3(x) .

Exercıcio 33. Com as notacoes do teorema 15 verifique que:[2]

limn→+∞

µnt3

σ3n

= 0 , limn→+∞

µnpnt3

4σ3n

= 0 , limn→+∞

Nna3n = 0 .

Exercıcio 34 (Intervalos de confianca para Poisson de parametro grande). Determine intervalos de[2]confianca para variaveis de Poisson de parametros λ = 200 e λ = 300 usando a aproximacao normal.

IME 44 19 de Setembro de 2016

Page 51: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 2. FUNCOES GERADORAS DE MOMENTOS E TEOREMAS LIMITESeccao: 2.8

[1]Exercıcio 35.

[1]Exercıcio 36.

[1]Exercıcio 37.

[1]Exercıcio 38.

[1]Exercıcio 39.

[1]Exercıcio 40.

[1]Exercıcio 41.

[1]Exercıcio 42.

2.8 Resolucoes

Resolucao:[Exercıcio 31]♦

Bibliografia

[BGH+97] Newton Bowers, Hans Gerber, James Hickman, Donald Jones, and CecilNesbitt. Actuarial Mathematics. Second edition. Society of Actuaries, 1997.

[Bil95] Patrick Billingsley. Probability and measure. Wiley Series in Probability andMathematical Statistics. John Wiley & Sons Inc., New York, third edition,1995. A Wiley-Interscience Publication.

[Esq07] M. L. Esquıvel. Probability generating functions for discrete real-valued ran-dom variables. Teor. Veroyatn. Primen., 52(1):129–149, 2007.

[Fel71] William Feller. An introduction to probability theory and its applications.Vol. II. Second edition. John Wiley & Sons Inc., New York, 1971.

[Met79] M. Metivier. Notions fondamentales de la theorie des probabilites. Dunoduniversite. Dunod, second edition, 1979.

[Sin92] Yakov G. Sinai. Probability theory. Springer Textbook. Springer-Verlag,Berlin, 1992. An introductory course, Translated from the Russian and witha preface by D. Haughton.

[SS99] Murray Spiegel and Larry Stephens. Theory and Problems of Statistics.Schaum Outline. McGraw-Hill, New York, third edition, 1999.

IME 45 19 de Setembro de 2016

Page 52: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

46

Page 53: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

Capıtulo 3

Formalismo da Estatıstica

The likelihood method has been particularly successful in the analysis of exponential families,but it also applies successfully to many other types of statistical models. However, there aremodels in which the likelihood estimator behaves badly and do not even get near the trueparameter it is supposed to estimate. This does not mean that the likelihood method isinadequate; but it means that the likelihood method, like all other methods of statistics inventedso far, has its limitations.

In J. Hoffmann-Jørgensen, Probability with a View Toward Statistics, Volume II, Chapman & Hall1994, page 318.

3.1 Introducao

O formalismo estatıstico abordado neste capıtulo e – na forma apresentada – um desen-volvimento natural da moderna teoria das probabilidades. No entanto, a Estatıstica teveum desenvolvimento proprio que comecou no tempo de Arquimedes – tendo por objectoa descricao quantitativa da situacao demografica, economica e polıtica dos estados – eatingiu uma idade de ouro nas primeiras decadas do seculo XX com os trabalhos deGalton, Pearson, Gosset e sobretudo Ronald Fisher (1890–1962). As contribuicoes desteultimo foram realmente notaveis; de entre estas contribuicoes destacamos: a analise davariancia, a maxima verosimilhanca, a inferencia fiducial e as nocoes de informacao deFisher e de estatıstica suficiente.

Mais recentemente sao de realcar resultados da escola matematica Russa, na sequenciados trabalhos de Tchebychev, Kolmogorov, Khinchine, Prohorov, Shiryaev e da escolaIndiana sobretudo com Rao e Parthasarathy.

Figura 3.1:Ronald Fishera quem deve-mos muitos dosconceitos queexploramos nestetexto.

47

Page 54: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

Ha excelentes obras em lıngua Portuguesa sobre os fundamentos e as aplicacoes daEstatıstica. A obra de referencia de Dinis Pestana e Sıvio Velosa (veja-se [PV08]) temmuita informacao que permite – a par do estudo dos detalhes tecnicos – a educacao deum espırito crıtico essencial as aplicacoes da Estatıstica. Uma outra obra de referencia– a de Bento Murteira e Marılia Antunes (veja-se [MM12]) – permite uma introducaorigorosa aos principais temas da Estatıstica.

3.2 Estatısticas e estimadores

As estatısticas sao funcoes dos segmentos iniciais das amostras, construıdas a partir defuncoes mensuraveis cujos valores nao dependem dos parametros do modelo. A definicaoformal e a seguinte.

Definicao 16 (Estatıstica). Seja X _ G(θ) com θ ∈ Θ ⊆ Rd um modelo cuja leidepende do parametro θ. Seja X = (X1, X2, . . . , Xm, . . . ) uma amostra de X e paraN ≥ 1 a funcao ψm definida em

∏mj=1Xj(Ω) tomando valores em R

p tal que:

1. para quaisquer x1 ∈ X1(Ω), . . . , xm ∈ Xm(Ω), tem-se que ψN (x1, . . . , xm) naodepende de θ.

2. ψm e mensuravel de∏mj=1Xj(Ω) em R

p.

Entao, a sucessao de variaveis aleatorias ψX = (ψm(X1, . . . , Xm))m≥1 e uma es-tatıstica.

Observacao 23. Se a amostra X = (X1, X2, . . . , Xm, . . . ) for a amostra canonica deX composta a partir de copias independentes de X, sendo X uma variavel aleatoriatomando valores reais, entao

∏mj=1Xi(Ω) ⊆ Rm e ψm devera ser mensuravel de Rm em

Rp.

Exemplo 4 (Estatıstica do valor medio). Seja para cada m ≥ 1, a funcao tal queψm : Rm 7→ R e que a xm = (x1, x2, . . . , xm) associa:

ψm(xm) = ψm(x1, x2, . . . , xm) =1

m

m∑j=1

xj .

Seja X _ G(θ) um modelo e X = (X1, X2, . . . , Xm, . . . ) uma amostra do modelo eXm = (X1, X2, . . . , Xm) o segmento inicial de comprimento m da amostra. EntaoψX = (ψm(X1, . . . , Xm))nm≥1 em que,

ψm(Xm) = ψm(X1, X2, . . . , Xm) =1

m

m∑j=1

Xj ,

e uma estatıstica.

IME 48 19 de Setembro de 2016

Page 55: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.2

Definicao 17 (Estimador de um parametro: definicao informal). Uma estatısticaψX = (ψm(X1, . . . , Xm))m≥1 e um estimador se para quase todas as realizacoesda amostra x = (x1, x2, . . . , xm . . . ) se tiver que, desde que m seja suficientementegrande,

ψm(xm) = ψm(x1, x2, . . . , xm) ≈ θ ,

em que a aproximacao indicada ≈ e num sentido a determinar.

Observacao 24 (Proposta de definicao). Com as notacoes da definicao 17, uma estatısticaψX diz-se um estimador de θ se p = d e se se verificar que, em distribuicao,

limm→+∞

ψm(X1, . . . , Xm) = δθ .

em que δθ e a lei de Dirac em θ.

Exemplo 5 (Estimador do valor esperado). Com as notacoes do exemplo 4 se X _G(θ) e se θ = E[X] entao uma vez que pela lei dos grandes numeros se tem quequase certamente,

limm→+∞

ψN (X1, X2, . . . , Xm) = limm→+∞

1

m

m∑j=1

Xi = E[X] ,

ψX = (ψN (X1, . . . , Xm))m≥1 e um estimador de θ = E[X].

Dado que um estimador de uma quantidade dependente do parametro desconhecido,e uma variavel aleatoria e conveniente que a localizacao dessa variavel aleatoria, descritapelo valor esperado – ou pela mediana – seja tao proxima quanto possıvel do verdadeirovalor essa quantidade.

Definicao 18 (Estimador centrado ou nao enviesado). Seja Seja τ : Θ 7→ R umadada funcao do parametro que pretendemos estimar. Seja Xm = (X1, X2, . . . , Xm)o segmento inicial de comprimento m da amostra X = (X1, X2, . . . , Xm, . . . ). Oestimador ψXτ = (ψτm(Xm))m≥1 de τ(θ) e centrado ou nao enviesado, se e so se:

∀m ≥ 1 E [ψτm(Xm)] = τ(θ) .

A qualidade dum estimador pode ser aferida de variadas formas. Seja τ : Θ 7→ R

uma dada funcao do parametro que pretendemos estimar e seja Tc,2,τ a famılia dosestimadores centrados de quadrado integravel de τ(θ), isto e tal que:

∀ ψXτ = (ψτm(Xm))m≥1 ∈ Tc,2,τ ∀m ≥ 1 Eθ [ψτm(Xm)] = τ(θ) e Vθ [ψτm(Xm)] < +∞ ,

sendo Xm = (X1, X2, . . . , Xm) o segmento inicial da amostra de comprimento m.

IME 49 19 de Setembro de 2016

Page 56: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

Definicao 19 (Estimador optimo). Um estimador ψX?,τ = (ψ?,τm (Xm))m≥1 ∈ Tc,2,τ eum estimador optimo na classe Tc,2,τ se se verificar que:

∀ ψXτ = (ψτm(Xm)m≥1 ∈ Tc,2,τ ∀m ≥ 1 Vθ [ψ?,τm (Xm)] ≤ Vθ [ψτm(Xm)] ,

isto e se for um estimador centrado de τ(θ) de variancia mınima.

Veremos adiante, no teorema 17, que ha um limite inferior para variancia de umestimador centrado e que qualquer estimador de variancia mınima tem uma estruturaespecial.

3.3 Os Estimadores da Maxima Verosimilhanca

Nesta seccao desenvolvemos resultados que descrevem as principais proriedades dos es-timadores de maxima verosimilhanca (veja-se [IM90, p. 92] e [KPS83, p. 490]).

Seja X _ G(θ) uma variavel aleatoria em que o parametro θ ∈ Θ ⊂ R e desconhe-cido 1. Suponhamos que a lei de X admite a densidade fθX . Consideremos as observacoesX = (X1, . . . Xm, . . . ), isto e uma amostra de X e, para m ≥ 1, seja Xm = (X1, . . . Xm) osegmento inicial de comprimento m da amostra. Como habitualmente os dados observa-dos x = (x1, x2, . . . , xm, . . . ) sao as realizacoes da amostra X e, xm = (x1, x2, dots, xm)e o segmento inicial da realizacao da amostra x.

Definicao 20 (Verosimilhanca de uma amostra). Para m ≥ 1, LθXm

, a verosimi-lhanca de Xm = (X1, . . . Xm) e a densidade da lei conjunta de Xm, isto e, e a funcaodefinida em R

m tomando valores reais dada por:

∀x1, x2, . . . xm ∈ R LθXm(x1, x2, . . . xm) =m∏j=1

fθXj (xj) =m∏j=1

fθX(xj)

A seguinte ideia e fundamental. Suponhamos que, em resultado de uma experienciaforam a = (a1, a2, . . . , am, . . . ) os valores observados. Dado que o parametro θ e desco-nhecido podemos considerar Lθ

Xm(a1, a2, . . . am) como funcao de θ definida em Θ. Uma

vez que LθXm

e uma densidade, e natural supor que o valor de θ que corresponde aos da-

dos observados a = (a1, a2, . . . , am, . . . ) e o valor θm = θm(a1, a2, . . . , am) que maximizaLθXm

(a1, a2, . . . am).

Definicao 21 (Estimador de Maxima Verosimilhanca). O estimador da maximaverosimilhanca (EMV) do parametro θ com os valores da amostra observadosa = (a1, a2, . . . , am, . . . ) e θm = θm(a1, a2, . . . , am) ∈ Θ, tal que:

LθmXm

(a1, a2, . . . am) = supθ∈Θ

LθXm(a1, a2, . . . am) .

1O que a seguir apresentamos e valido mutatis mutandis para θ ∈ Θ ⊂ Rd com d > 1.

IME 50 19 de Setembro de 2016

Page 57: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.3

A existencia do estimador da maxima verosimilhanca decorre de hipoteses simples,dado que a imagem de um compacto por uma funcao contınua e um compacto.

Proposicao 12 (Existencia do EMV). Se Θ for compacto e se LθXm

(a1, a2, . . . am)for uma funcao contınua definida sobre Θ, o estimador de maxima verosimilhancaexiste e tem-se que θm ∈ Θ.

A determinacao pratica do EMV pode fazer-se observando que se a verosimilhancafor regular o EMV corresponde a um ponto crıtico da verosimilhanca.

Proposicao 13 (Determinacao do EMV - 1). Se para quaisquer x1, . . . xm ∈ Rfixos Lθ

Xm(x1, x2, . . . xm) atingir o maximo num ponto interior de Θ e se Lθ

Xmfor

diferenciavel relativamente a θ entao θm = θm(a1, a2, . . . , am) e solucao da equacao

∂LθXm

(a1, a2, . . . , am)

∂θ= 0 ,

denominada, equacao de verosimilhanca.

Demonstracao. Veja-se o exercıcio 45.

Dado que a funcao logaritmo e regular e estritamente crescente, pode considerar-sea log-verosimilhanca como alternativa a verosimilhanca.

Definicao 22 (Log-verosimilhanca de uma amostra). Com as notacoes da de-

finicao 20, para m ≥ 1, lXm,θ, a log-verosimilhanca de Xm = (X1, . . . Xm) e:

∀x1, x2, . . . xm ∈ R lXm,θ(x1, x2, . . . xm) = log(LθXm(x1, ax2, . . . xm)

)

Proposicao 14 (Estimador de Maxima Verosimilhanca). O estimador da maximaverosimilhanca do parametro θ com os valores da amostra observados a =(a1, a2, . . . , am, . . . ) e θm = θm(a1, a2, . . . , am) ∈ Θ tal que:

lXm,θm

(a1, a2, . . . am) = supθ∈Θ

lXm,θ(a1, a2, . . . am) .

Resulta imediatamente que a determinacao do EMV pode tambem fazer-se usandoa log-verosimilhanca.

Proposicao 15 (Determinacao do EMV - 2). Com as notacoes e hipoteses daproposicao 13, entao θm = θm(a1, a2, . . . , am) e solucao da equacao

∂ lXm,θ(a1, a2, . . . am)

∂θ= 0 , (3.1)

tambem denominada, equacao de verosimilhanca.

IME 51 19 de Setembro de 2016

Page 58: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

Demonstracao. Exercıcio.

Exemplo 6 (Modelo Exponencial). Seja X _ E(λ) com densidade fλX(x) =λe−λx1Ix≥0(x). O EMV de λ e dado por:

λm =1

1m

∑mj=1 aj

.

Desenvolvimento: Considerando para simplificar λ = λm e dado que

LλXm(a1, a2, . . . am) =m∏j=1

fλX(aj) = λm exp

−λ m∑j=1

aj

m∏j=1

1Iaj≥0(aj)

tem-se que

lXm,λ(a1, a2, . . . am) = m log(λ)− λm∑j=1

aj +m∑j=1

log(

1Iaj≥0(aj))

pelo que

∂ lXm,λ(a1, a2, . . . am)

∂λ=m

λ−

m∑j=1

aj .

A solucao da equacao (3.1) da entao:

1

λm=

1

m

m∑j=1

aj .

Dado que E[X] = 1/λ a lei forte dos grandes numeros garante que para quase todas asescolhas a1, a2, . . . , am, . . .

limm→+∞

1

m

m∑j=1

aj =1

λ,

pelo que o EMV de λ e (fortemente) consistente. 5

Exemplo 7 (Modelo Normal). Seja X _ N(µ, σ2) com densidade

fµ,σ2

X (x) =1√

2πσ2exp

(−(x− µ)2

2σ2

).

Entao, µm e σ2m os estimadores de maxima verosimilhanca das componentes do

parametro (µ, σ) sao dados por:

µm =1

m

m∑j=1

xj Ee σ2m =

1

m

m∑j=1

xj − 1

m

m∑j=1

xj

2

.

IME 52 19 de Setembro de 2016

Page 59: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.3

Desenvolvimento: Vamos usar a proposicao 15. Para tal, observemos que:

log fµ,σ2

X (x) = −1

2log 2π − log σ − 1

2σ2(x− µ)2 , (3.2)

pelo que a log-verosimilhanca se pode representar por:

l = lXm,θ(x1, x2, . . . xm) = −m1

2log 2π −m log σ − 1

2σ2

m∑j=1

(xj − µ)2 .

A primeira equacao de verosimilhanca – relativa a componente µ do parametro – podeser obtida pela derivacao seguinte.

∂ l

∂µ=

1

σ2

m∑j=1

xj

− mµ

σ2,

de onde esulta a solucao da primeira equacao de verosimilhanca:

∂ l

∂µ= 0⇔ µ =

1

m

m∑j=1

xj .

A segunda equacao de verosimilhanca – relativa a componente σ do parametro – podeser obtida pela derivacao seguinte.

∂ l

∂σ= −m

σ− 1

σ3

m∑j=1

(xj − µ)2 ,

de onde resulta como solucao da segunda equacao de verosimihanca,

∂ l

∂σ= 0⇔ σ2 =

1

m

m∑j=1

(xj − µ)2 =1

m

m∑j=1

xj − 1

m

m∑j=1

xj

2

,

A verificacao de que as solucoes obtidas correspondem a valores maximos e deixada comoexercıcio. 5

Observacao 25. Exemplos de determinacao dos EMV para variados modelos usuais, paraalem do modelo normal – Binomial, Geometrico, Poisson, Exponencial, Pareto, UniformeExponencial transladada, Logarıtmica - podem ser estudados em [PV08, pp. 523–526].

A proposicao seguinte da-nos propriedades da log-verosimilhanca com consequenciasimportantes.

IME 53 19 de Setembro de 2016

Page 60: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

Proposicao 16 (Propriedades notaveis da log-verosimilhanca). Com as notacoes dadefininicao 22 e, sob hipoteses de regularidade que permitam aplicar o teorema 22,tem-se que:

[∂ lXm,θ(X1, X2, . . . Xm)

∂θ

]= Eθ

[∂

∂θlXm,θ(Xm)

]= 0 , (3.3)

e ainda,

[(∂

∂θlXm,θ(Xm)

)2]

= −Eθ[∂2

∂θ2lXm,θ(Xm)

]. (3.4)

Demonstracao. Com efeito tem-se que:

[∂

∂θlXm,θ(Xm)

]=

∫R

· · ·∫R

∂θlXm,θ(xm)

m∏j=1

fθXj (xj)

dx1 · · · dxm =

=

∫R

· · ·∫R

∂∂θL

θXm

(xm)

LθXm

(xm)

m∏j=1

fθXj (xj)

dx1 · · · dxm =

=

∫R

· · ·∫R

∂∂θL

θXm

(xm)

LθXm

(xm)LθXm(xm)dx1 · · · dxm =

=

∫R

· · ·∫R

∂θLθXm(xm)dx1 · · · dxm =

=∂

∂θ

∫R

· · ·∫R

LθXm(xm)dx1 · · · dxm =∂

∂θ1 = 0 .

A segunda formula e uma consequencia da primeira. Com efeito,

0 =∂

∂θEθ

[∂

∂θlXm,θ(Xm)

]=

∂θ

∫R

· · ·∫R

(∂

∂θlXm,θ(xm)

)LθXm(xm)dx1 · · · dxm =

=

∫R

· · ·∫R

(∂2

∂θ2lXm,θ(xm)

)LθXm(xm)dx1 · · · dxm+

+

∫R

· · ·∫R

(∂

∂θlXm,θ(xm)

)(∂

∂θLθXm(xm)

)dx1 · · · dxm =

= Eθ

[∂2

∂θ2lXm,θ(Xm)

]+

∫R

· · ·∫R

(∂

∂θlXm,θ(xm)

)2

LθXm(xm)dx1 · · · dxm =

= Eθ

[∂2

∂θ2lXm,θ(Xm)

]+Eθ

[(∂

∂θlXm,θ(Xm)

)2],

uma vez que pela definicao de log-verosimilhanca se tem que:

∂θLθXm(xm) =

(∂

∂θlXm,θ(xm)

)LθXm(xm) .

IME 54 19 de Setembro de 2016

Page 61: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.4

3.4 Informacao de Fisher

O conceito de informacao de Fisher de uma amostra e da maior importancia em es-tatıstica. Intervem em muitos resultados importantes – veja-se o teorema 17 adiante.

Definicao 23 (Informacao de Fisher de uma amostra). Com as notacoes, hipotesese resultados da proposicao 16, a Informacao de Fisher do segmento inicial Xm

de uma amostra X e:

I(θ,Xm) = Eθ

[(∂

∂θlXm,θ(Xm)

)2]

= Vθ

[∂

∂θlXm,θ(Xm)

]. (3.5)

Proposicao 17 (Propriedade essencial da Informacao de Fisher). Com as notacoesda proposicao 16 e da definicao 23 e, sob hipoteses de regularidade que permitamaplicar o teorema 22, tem-se que:

I(θ,Xm) = −Eθ[∂2

∂θ2lXm,θ(Xm)

]= −mEθ

[∂2

∂θ2lXm,θ(X1)

]= mI(θ,X1) . (3.6)

Demonstracao. Veja-se a resolucao do exercıcio 44.

Observacao 26. A informacao de Fisher I(θ,Xm) pode interpretar-se como uma medidada quantidade de informacao contida no segmento inicial da amostra de comprimentom e varia linearmente com m, a dimensao do segmento inicial da amostra.

Exemplo 8 (Modelo normal com variancia conhecida). Seja X _ N(θ, σ2) sendo quese supoe que σ2 e conhecido. Mostre que:

I(θ,Xm) =m

σ2.

Interprete a variacao de I(θ,Xm) em funcao da variacao de σ.

Desenvolvimento: Pela formula (3.2) e pela formula (3.5) da definicao 23 temosque

I(θ,X1) = Vθ

[∂

∂θlX1,θ(X1)

]= Vθ

[∂

∂θlog fθ,σ

2

X1(X1)

]= Vθ

[−X − θ

σ2

]=

1

σ2.

Pela igualdade mais a direita na formula (3.6), temos que

I(θ,Xm) = mI(θ,X1) =m

σ2,

IME 55 19 de Setembro de 2016

Page 62: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

tal como enunciado. Quanto menor for a variancia σ2 do modelo maior sera a informacaode Fisher de qualquer segmento inicial da amostra. 5

O resultado seguinte mostra que ha um limite inferior notavel para a variancia dosestimadores nao enviesados (seguimos a obra [Wil01, p. 190] para esta exposicao, emboracom as notacoes adaptadas ao contexto que assumimos).

Teorema 17 (Limite inferior de Cramer-Rao). Seja X _ G(θ) um modelo e ψX

um estimador do parametro θ nao enviesado, ou seja, tal que:

∀m ≥ 1 Eθ [ψm(Xm)] = θ .

Tem-se entao que:

Vθ [ψm(Xm)] ≥ 1

I(θ,Xm)(3.7)

sendo que a igualdade ocorre se e so se:

ψm(Xm)− θ =

(∂

∂θlXm,θ(Xm)

)×H(θ) (3.8)

em que H e uma funcao so de θ.

Demonstracao. A hipotese do estimador ser nao enviesado pode ainda representar-se,∫Rm

ψm(xm)LθXm(xm)dx1 · · · dxm = θ .

Mais uma vez usando,

∂θLθXm(xm) =

(∂

∂θlXm,θ(xm)

)LθXm(xm) ,

vem, derivando em ordem a θ que:

1 =

∫Rm

ψm(xm)

(∂

∂θLθXm(xm)

)dx1 · · · dxm =

=

∫Rm

ψm(xm)

(∂

∂θlXm,θ(xm)

)LθXm(xm)dx1 · · · dxm ,

isto e, usando mais uma vez o facto do estimador ser nao enviesado, que:

1 = Eθ

[ψm(Xm)

(∂

∂θlXm,θ(Xm)

)]= Eθ

[(ψm(Xm)− θ)

(∂

∂θlXm,θ(Xm)

)],

donde se conclui pela desigualdade de Cauchy-Schwarz, que:

12 ≤ Eθ[(ψm(Xm)− θ)2

]Eθ

[(∂

∂θlXm,θ(Xm)

)2]

= VθE [ψm(Xm)]× I(θ,Xm) ,

IME 56 19 de Setembro de 2016

Page 63: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.4

tal como se pretendia. A formula (3.8) e uma consequencia da demonstracao do casogeral da desigualdade de Cauchy-Schwarz num espaco com produto interno a partir doteorema de Pitagoras.

Observacao 27. O inverso da informacao de Fisher e denominado o limite inferiorda variancia mınima. E notavel que o limite inferior da variancia do estimador naodependa do estimador em questao, dependendo apenas do modelo atraves da densidadeda lei de probabilidade deste.

No caso de um modelo com densidade de tipo exponencial reduzido existe um esti-mador notavel do parametro – a media das observacoes – que tem a variancia mınimade Cramer–Rao. Os modelos exponenciais sao essenciais no estudo dos modelos linearesgeneralizados que faremos adiante.

Teorema 18 (Densidade de tipo exponencial: estimador de variancia mınima).Seja X uma variavel aleatoria com densidade da forma:

∀x ∈ R fθX(x) = r(θ)s(x) exp (xQ(θ)) , (3.9)

em que r, s e Q sao funcoes regulares. Sendo X = (X1, X2, . . . , Xm . . . ) uma amostrade X, entao:

θm =1

m

m∑j=1

Xj ,

e um estimador de variancia mınima no sentido da desigualdade de Cramer–Rao.

Demonstracao. Vamos verificar que para um modelo exponencial – como o que se indicou– vale a formula (3.8) do teorema 17. Consideremos a funcoes definidas por,

r1(θ)(x) = log(r(θ)) e s1(θ)(x) = log(s(θ)) .

A formula (3.9) pode escrever-se agora com estas funcoes:

∀x ∈ R fθX(x) = exp (xQ(θ) + r1(θ) + s1(x)) ,

Seja X = (X1, . . . , Xm, . . . ) uma amostra de X e a notacao para a media amostral deordem m,

∀m ≥ 1 Xm :=1

m

m∑j=1

Xj .

Pela formula (3.3) da proposicao 16 temos que para qualquer m ≥ 1:

0 = Eθ

[∂

∂θlXm,θ(Xm)

]= Eθ

[∂

∂θlX1,θ(X1)

]= Eθ

[XQ′(θ) + r′1(θ)

]=

= Eθ [X]Q′(θ) + r′1(θ) ,

IME 57 19 de Setembro de 2016

Page 64: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

de onde resulta que

[Xm

]= Eθ [X] = − r

′1(θ)

Q′(θ). (3.10)

Teremos que Xm sera um estimador nao enviesado de θ se se verificar Eθ[Xm

]= θ de

onde resulta, pela formula 3.10, que

θQ′(θ) + r′1(θ) = 0 . (3.11)

Assim sendo, tem-se, usando a formula (3.11), que:

∂θlXm,θm(Xm) =

∂θ

mXmQ(θ) +mr1(θ) +m∑j=1

s1(Xj)

=

= mXmQ′(θ) +mr′1(θ) = mQ′(θ)

(Xm − θ

),

isto e, finalmente,

Xm − θ =1

Q′(θ)

[∂

∂θlXm,θ(Xm)

],

o que pela formula (3.8) do teorema 17 nos garante que a variancia de Xm coincide como limite inferior de Cramer–Rao, estabelecendo o teorema.

Observacao 28. A informacao de Fisher e fundamental para a descricao do comporta-mento assimptotico dos estimadores de maxima verosimilhanca; veja-se o teorema 19 aseguir.

3.5 Consistencia e Normalidade Assimptotica dos EMV

Os estimadores de maxima verosimilhanca possuem propriedades notaveis; sao consis-tentes e assimptoticamente normais. Comecamos com a versao do resultado fundamentalpara um parametro unidimensional.

A demonstracao da consistencia requer desenvolvimentos – tecnicamente elaborados– que nao faremos nesta edicao.

Observacao 29. A partir dos estimadores de maxima verosimilhanca, de um dado pa-rametro, e possıvel construir estimadores assimptoticamente normais de uma funcaoregular do parametro. Para tal, um resultado essencial e o metodo-δ que pode serestudado no exercıcio 54.

IME 58 19 de Setembro de 2016

Page 65: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.5

Teorema 19 (Consistencia e Normalidade Assimptotica). Suponhamos verificadasas seguintes condicoes.

1. Para k = 1, 2, 3 as derivadas parciais

∂k log fθX(x)

∂θk,

existem para quaisquer θ ∈ Θ e x ∈ R,

2. Para k = 1, 2, 3 existem funcoes integraveis gk tais que∣∣∣∣∂k log fθX(x)

∂θk

∣∣∣∣ ≤ gk(x) e supθ∈Θ

∫R

g3(x)fθX(x)dx < +∞ .

3. A quantidade I(θ,X), denominada a informacao de Fisher de θ dada por

I(θ,X) = I(θ) :=

∫R

[∂ log fθX(x)

∂θ

]2

fθX(x)dx , (3.12)

e positiva, finita e nao nula.

Entao, θm = θm(a1, a2, . . . , am) o EMV do parametro θ e consistente, isto e:

limm→+∞

θm =Prob. θ

e e assimpoticamente normal, isto e, para uma v.a. W _ N(0, I(θ)−1),

limm→+∞

√m(θm − θ

)=Distrib. W .

Demonstracao. Vamos seguir as linhas gerais da demonstracao da normalidade assimp-totica para o caso do parametro ser unidimensional em [IM90, p. 92]. Consideremos avariavel aleatoria,

Um(θ) =m∑j=1

∂θlog(fθX(Xj)

).

Seja θm o EMV do parametro θ e seja θ0 o verdadeiro valor do parametro. Seja, dadoque Um(θm)(ω) para cada ω ∈ Ω fixo, o desenvolvimento em serie de Taylor de segundaordem,

0 = Um(θ0)(ω) +(θm − θ0

) d

dθUm(θ0)(ω) +

1

2

(θm − θ0

)2 d2

dθ2Um(θ?)(ω) =

= Um(θ0)(ω) +(θm − θ0

)[ ddθUm(θ0)(ω) +

1

2

(θm − θ0

) d2

dθ2Um(θ?)(ω)

],

IME 59 19 de Setembro de 2016

Page 66: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

de onde resulta que:(θm − θ0

)=

−Um(θ0)(ω)[ddθUm(θ0)(ω) + 1

2

(θm − θ0

)d2

dθ2Um(θ?)(ω)] .

em que θm = θm(ω) e em que θ? ∈[∣∣∣θ0, θm

∣∣∣], o envolucro convexo de θ0, θm e claro,

θ? = θ?(ω). Tem-se entao dado que I(θ) definida em (3.12) e nao nula,

√m(θm − θ0

)=Um(θ0)(ω)√

mI(θ)

−1[ddθUm(θ0)(ω)+ 1

2(θm−θ0) d2

dθ2Um(θ?)(ω)

mI(θ)

] , (3.13)

pelo que finalmente se tem,

√m(θm − θ0

)=Um(θ0)(ω)√

mI(θ)

[−1

mI(θ)

dUm(θ0)(ω)

dθ+

−1

2mI(θ)

(θm − θ0

) d2

dθ2Um(θ?)(ω)

]−1

.

Note-se que em virtude da hipotese 2 do teorema,∣∣∣∣ 1

2mI(θ)

(θm − θ0

) d2

dθ2Um(θ?)(ω)

∣∣∣∣ ≤∣∣∣θm − θ0

∣∣∣2I(θ)

1

m

m∑j=1

g3(Xj) ,

mas como pela hipotese referida,

supθ∈Θ

Eθ [g3(X)] = supθ∈Θ

∫R

g3(x)fθX(x)dx < +∞ ,

vem pela lei dos grandes numeros que quase certamente

limm→+∞

1

m

m∑j=1

g3(Xj) ∈ R ,

pelo que, como se tem limm→+∞ θm =Prob. θ, tambem,

limm→+∞

1

2mI(θ)

(θm − θ0

) d2

dθ2Um(θ?) =Prob. 0 .

Note-se ainda que, como se tem

1

m

dUm(θ0)(ω)

dθ=

1

m

m∑j=1

∂2

∂θ2log(fθX(Xj)

),

pela lei dos grandes numeros vem que quase certamente,

limm→+∞

1

mI(θ)

dUm(θ0)

dθ=

1

I(θ)lim

m→+∞

1

m

m∑j=1

∂2

∂θ2log(fθX(Xj)

)=

=1

I(θ)Eθ

[∂2

∂θ2log(fθX(X)

)]E =

=1

I(θ)

∫R

[∂ log fθX(x)

∂θ

]2

fθX(x)dx =1

I(θ)I(θ) = 1

IME 60 19 de Setembro de 2016

Page 67: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.6

Para concluir temos apenas que aplicar o teorema do limite central, por exemplo naversao apresentada no primeiro capıtulo no teorema 5. Com efeito, observe-se primeira-mente que:

Um(θ0)(ω)√mI(θ)

=1√

mI(θ)

m∑j=1

∂θlog(fθX(Xj)

).

Seguidamente tem-se que,

EθE

[∂

∂θlog fθX(X)

]=

∫R

(∂

∂θlog fθX(x)

)fθX(x)dx =

=

[(fθX(x)

)2]+∞

−∞−∫R

fθX(x)

(∂

∂θlog fθX(x)

)dx =

= −∫R

fθX(x)

(∂

∂θlog fθX(x)

)dx ,

donde resulta que

[∂

∂θlog fθX(X)

]= 0 .

Em terceiro lugar tem-se que

VθE

[∂

∂θlog(fθX(X)

)]= Eθ

[(∂

∂θlog fθX(X)

)2]

=

=

∫R

[∂ log fθX(x)

∂θ

]2

fθX(x)dx = I(θ) .

Em consequencia, e uma vez que as variaveis aleatorias ∂∂θ log

(fθX(Xj)

)para j ≥ 1 sao

independentes podemos aplicar o teorema do limite central tal como enunciado acimano teorema 5. Assim tem-se que se Z _ N(0, 1),

limm→+∞

1√m√I(θ)

m∑j=1

∂θlog(fθX(Xj)

)=Distrib. Z ,

e consequentemente, se W _ N(0, I(θ)−1)

limm→+∞

1√mI(θ)

m∑j=1

∂θlog(fθX(Xj)

)=Distrib. W ,

pelo que pela formula (3.13) se tem a conclusao do teorema, uma vez que o factor dolado direito da formula converge quase certamente – e por isso tambem em probabilidade– para 1 (veja-se a proposicao 5).

IME 61 19 de Setembro de 2016

Page 68: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

3.6 Estatısticas Suficientes

Uma estatıstica que contem toda a informacao que a amostra nos traz sobre o modelo edenominada estatıstica suficiente. Apresentamos seguidamente a definicao sob forma deuma condicao de factorizacao da verosimilhanca. A definicao usual faz-se por meio dasprobabilidades condicionais e o criterio que apresentamos seguidamente como definicaofoi obtido por Halmos e Savage em 1949 (veja-se [HS49]).

Definicao 24 (Estatıstica Suficiente). Seja X um modelo e X =(X1, X2, . . . , Xm, . . . ) uma amostra desse modelo. Com as notacoes da de-finicao 17, a estatıstica ψX = (ψN (X1, . . . , Xm))m≥1 e suficiente se e sse param ≥ 1 a verosimilhanca da amostra Lθ

Xm(x1, x2, . . . xm) se factoriza sob a forma:

LθXm(x1, x2, . . . xm) = G(θ, ψN (x1, . . . , xm)H(x1, . . . , xm) , (3.14)

em que G e H sao funcoes apenas das variaveis indicadas.

Observacao 30. Resulta imediatamente da definicao que se ψX for uma estatıstica sufici-ente e se ϕ for bijectiva e regular entao a estatıstica ϕ ψX = (ϕ ψN (X1, . . . , Xm))m≥1

tambem e uma estatıstica suficiente.

Mais uma vez, no caso do modelo exponencial reduzido, o valor medio amostral euma estatıstica sufciciente.

Proposicao 18 (Modelo exponencial: estatıstica suficiente). Seja X uma variavelaleatoria com densidade de tipo exponencial reduzido. Entao a media amostral euma estatıstica suficente para esse modelo.

Demonstracao. Com as notacoes da proposicao 18 e da correspondente demonstracaoseja a densidade de X dada por:

∀x ∈ R fθX(x) = exp (xQ(θ) + r1(θ) + s1(x)) ,

de onde resulta que:

LθXm(x1, x2, . . . xm) =m∏j=1

fθX(xj) = exp

Q(θ)

m∑j=1

xj

+mr1(θ) +m∑j=1

s1(xj)

.

Considerando

G

θ, m∑j=1

xj

= exp

Q(θ)

m∑j=1

xj

+mr1(θ)

,

IME 62 19 de Setembro de 2016

Page 69: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.7

e ainda

H(x1, . . . , xm) = exp

m∑j=1

s1(xj)

,

tem-se que a verosimilhanca do modelo exponencial reduzido verifica bem a condicaoexpressa pela formula (3.14) da definicao 24.

O teorema seguinte mostra a importancia das estatısticas suficientes.

Teorema 20 (Rao-Blackwell-Kolmogorov). Se existir um estimador optimo segundoas definicoes 18 e 19 – para uma qualquer funcao do parametro desconhecido – esseestimador e, necessariamente, funcao da estatıstica suficiente.

3.7 Testes de Hipoteses

Em estudos anteriores – veja-se por exemplo as apresentacoes 24 e 25 das aulas da uni-dade curricular Probabilidades e Estatıstica E 2 ou as notas de licoes [Mig05] – e, geral-mente, assim descrita a metodologia dos testes de hipoteses para modelos parametricos:

• Identificar a hipotese nula que pretendemos rejeitar se os dados nos derem, paratal, evidencia por nos considerada como significativa;

• Escolher um estimador para o parametro;

• Determinar uma estatıstica de teste que meca a discrepancia entre o estimadorescolhido e um possıvel valor para o parametro desconhecido;

• Para um dado nıvel de significancia, determinar a regiao do espaco amostral –denominada a regiao crıtica – tal que se a amostra observada provier dessa regiaoconsideramos haver evidencia suficiente para rejeitar a hipotese nula.

Vamos desenvolver e esclarecer rigorosamente – no que vai seguir- se – esta metodologiaque acabamos de descrever; tal sera feito num contexto bastante geral que nos sera utilna avaliacao dos resultados de ajustamento de modelos estatısticos tais como os modeloslineares generalizados.

As ideias fundamentais sobre a metodologia dos testes de hipoteses que apresentamossao bem conhecidas desde os trabalhos de Ronald Fisher. Para estear a apresentacoesdos testes de hipoteses que fazemos seguidamente, veja-se por exemplo [Wil01, p. 222],ou [IM90, p. 204] ou [CB08, p. 373].

A ideia fundamental num teste de hipotese e que, tal como na moderna teoria doconhecimento cientıfico desenvolvida por Karl Popper 3 – veja-se [Pop02, p. 18] – emEstatıstica, procura-se rejeitar – e nao, aceitar – a hipotese de base; define-se entao a

2http://ferrari.dmat.fct.unl.pt/personal/mle/DocPE-E/2012-2013/PE E-2012-2013.html3...it must be possible for an empirical scientific system to be refuted by experience.

IME 63 19 de Setembro de 2016

Page 70: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

Hipotese Nula, que rejeitamos, se existir – nos dados observados – evidencia suficientepara o podermos fazer controlando os riscos associados aos erros da decisao de rejeitaressa hipotese nula 4. No teste de hipoteses, a hipotese nula e comparada a HipoteseAlternativa que visa complementar, relativamente a hipotese nula, as escolhas possıveisentre os diferentes estados do mundo.

Definicao 25 (Testes de Hipoteses – I). Seja X _ G(θ) um modelo em que θ ∈Θ ⊆ Rd. Seja X = (X1, X2, . . . Xm, . . . ) uma amostra generica desse modelo epara cada m ≥ 1 seja Xm = (X1, X2, . . . Xm) o segmento inicial de comprimentom da amostra. Seja x = (x1, x2, . . . , xm, . . . ) uma realizacao generica da amostrae xm = (x1, x2, . . . , xm) o segmento inicial de comprimento m dessa realizacao daamostra. Sejam Θ0,Θ1 ⊂ Θ e tais que Θ0 ∩ Θ1 = ∅. A Hipotese Nula H0 e aHipotese Alternativa HA sao definidas por:

H0 : θ ∈ Θ0 HA : θ ∈ Θ1 .

Um Teste de Hipoteses consiste num procedimento – baseado nos dados da rea-lizacao da amostra – para decidir sobre uma eventual rejeicao da hipotese nula.

Uma proporcao assinalavel de testes de hipoteses aplicados na pratica resultam doprocedimento descrito seguidamente. Este procedimento – construıdo considerando vero-similhancas – justifica-se com o mesmo argumento que justifica os estimadores da maximaverosimilhanca, a saber, para um dado conjunto de dados observados, o parametro dadistribuicao no modelo mais adequado deve ser o que maximiza a densidade conjuntado segmento inicial da amostra.

Definicao 26 (Testes de Hipoteses – II: Teste da Razao de Verosimilhancas). Comas notacoes das definicoes 20 e 25, a Razao de Verosimilhancas associada aosdados resultantes da realizacao x da amostra X e:

R(xm) :=supθ∈Θ0

LθXm

(xm)

supθ∈Θ1LθXm

(xm). (3.15)

O Teste de Hipoteses da Razao de Verosimilhancas consiste em rejeitar H0

se:R(xm) ≤ κ , (3.16)

para κ constante a determinar.

Observacao 31. Dado que o teste visa rejeitar a hipotese nula – formulada na condicaoθ ∈ Θ0 – quanto menor for R(xm), maior sera a evidencia carreada pelos dados de queo verdadeiro valor do parametro pertence a Θ1, levando-nos, por isso, a rejeitar a hipotese

4Esclarece Dinis Pestana (ver [PV08, p. 559]): Uma ideia, mesmo que pareca muito boa, deve serpelo menos transitoriamente negada, e so se a evidencia factual nos levar a rejeitar essa negacao e quedeve ser acolhida como promissora.

IME 64 19 de Setembro de 2016

Page 71: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.7

nula. Note-se que a formula 3.16 define no espaco amostral da estatıstica R(Xm) umaregiao denominada regiao crıtica – neste caso Rc := xm : R(xm) ∈]−∞, κ] – que ea regiao de rejeicao do teste de hipoteses, isto e, sempre que com os dados observadosx se tenha xm ∈ Rc temos evidencia suficiente para rejeitar a hipotese nula.

Observacao 32. Por vezes considera-se que a hipotese alternativa se define com Θ1 =Θ \Θ0. Nesse caso, dado que o teste fica descrito apenas por Θ0 e que,

supθ∈Θ1

LθXm(xm) ≤ supθ∈Θ

LθXm(xm)

pode-se definir uma outra razao de verosimilhancas R# tal que:

R#(xm) :=supθ∈Θ0

LθXm

(xm)

supθ∈Θ LθXm

(xm)≤

supθ∈Θ0LθXm

(xm)

supθ∈Θ1LθXm

(xm)= R(xm) .

e sem perda de generalidade usar R# em vez de R.

Para poder efectuar o procedimento descrito na definicao 26 e necessario dar o valornumerico adequado a κ. Tal e feito recorrendo a um dos dois tipos de erro que podemoscometer quando efectuamos o teste. O erro de tipo I descrito e a seguir.

Definicao 27 (Testes de Hipoteses – III: Erro de Tipo I). Com as notacoes dadefinicao 25, o Erro de Tipo I consiste em rejeitar H0 quando H0 e verdadeira.

Observacao 33. Para determinar um valor para κ considerado adequado fixa-se um valoraceitavel para o erro de tipo I. Tradicionalmente consideram-se tres valores que descre-vem o nıvel de significancia com que os dados permitirao, eventualmente, rejeitar ahipotese nula: 5% (significante), 1% (muito significante) e 0.1% (extremamentesignificante).

Observacao 34 (Probabilidade de Erro de tipo I). Seja Rc a regiao crıtica do teste dehipoteses. Se se verificar que θ ∈ Θ0 cometeremos um erro de tipo I se ocorrer quexm ∈ Rc. A probabilidade de cometer um erro de tipo I, dado que,

Xm ∈ Rc = ω ∈ Ω : Xm(ω) = xm ∈ Rc ,

e, por isso,Pθ [Xm ∈ Rc] . (3.17)

Definicao 28 (Testes de Hipoteses – IV: Nıvel de significancia do teste de hipoteses).Com as notacoes das definicoes 25 e 26, fixado o Nıvel de Significancia α, o valoradequado de κ – para esse nıvel de significancia – e κα tal que se verifique:

α = supθ∈Θ0

Pθ [R(Xm) ≤ κα] ,

ou seja, κα e o valor limiar mınimo de κ para rejeitar a hipotese nula consistentecom a hipotese nula ser verdadeira.

IME 65 19 de Setembro de 2016

Page 72: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

Observacao 35. A notacao Pθ indica que calculamos a probabilidade usando a lei deprobabilidade do modelo em que o parametro vale θ. A determinacao efectiva de κα faz-se, geralmente, recorrendo a distribuicao da estatıstica R(Xm), se esta for conhecida.Caso contrario, o teorema de Wilks– ver o teorema 21 adiante – da, sob condicoes muitogerais, a distribuicao assimptotica das razoes de verosimilhancas.

O conceito de valor-p definido a seguir e de grande utilidade; e a probabilidade deobter uma valor da estatıstica pelo menos tao extremo como o que se obteve com osdados observados supondo verdadeira a hipotese nula.

Definicao 29 (Testes de Hipoteses – V: valor-p (p-value)). Com as notacoes dasdefinicoes 25 e 26, o valor-p e definido por

valor-p = valor-p (xm) = supθ∈Θ0

Pθ [R(Xm) ≤ R(xm)] ,

Rejeita-se a hipotese nula se

valor-p (xm) ≤ α ,

ou seja, um valor-p pequeno, relativamente a α, deve ser tomado como evidenciacontra a hipotese nula.

Observacao 36. O valor-p e o valor da probabilidade – calculada admitindo que a hipotesenula H0 e verdadeira – de se observarem valores da estatıstica de teste – neste caso arazao de verosimilhancas – tanto ou mais desfavoraveis a hipotese nula H0 do que foramos dados efectivamente observados. O valor-p e, ainda, o valor maximo da probabilidadede rejeitar a hipotese nula, consistente com a hipotese nula ser verdadeira, sendo que osdados observados contra a hipotese nula ocorrem aleatoriamente.

Observacao 37. Note-se que o sentido das desigualdades nas definicoes 26, 28 e 29 de-pende da escolha feita na formula (3.15) de considerar o termo relativo a Θ0 no nu-merador. Alguns autores fazem a escolha oposta – Θ0 no denominador da razao deverosimilhancas – o que obriga a que as desigualdades subsequentes devam ser, tambem,as opostas. Sublinhe-se, de novo que tanto o valor κα como o valor-p sao determinadosadmitindo que a hipotese nula e verdadeira.

Na decisao a tomar sobre a eventual rejeicao da hipotese nula pode cometer-se umoutro erro, para alem do ja referido erro de tipo I.

Definicao 30 (Testes de Hipoteses – VI: Erro de Tipo II). Com as notacoes dadefinicao 25, o Erro de Tipo II consiste em nao rejeitarEH0 quando H0 e falsa.

Observacao 38 (Probabilidade de Erro de tipo II). Seja Rc a regiao crıtica do teste dehipoteses. Se se verificar que θ ∈ Θ1 cometeremos um erro de tipo I se ocorrer quexm ∈ (Rc)

c. A probabilidade de cometer um erro de tipo I e, por isso,

Pθ [Xm ∈ (Rc)c] = 1−Pθ [Xm ∈ Rc] . (3.18)

IME 66 19 de Setembro de 2016

Page 73: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.7

Para o controle dos erros de tipo I e II e util definir a funcao potencia do teste.

Definicao 31 (Testes de Hipoteses – VII: Funcao Potencia). Com as notacoes dadefinicao 25, a Funcao Potencia do teste de hipoteses definida sobre Θ e:

π(θ) = Pθ [ rejeitar H0] = Pθ [R(Xm) ≤ κα] = Pθ [Xm ∈ Rc] ,

pretendendo-se que:

• π(θ) seja pequena para θ ∈ Θ0 (erro de tipo I com pequena probabilidade);

• π(θ) seja grande para θ ∈ Θ1 (erro de tipo II com pequena probabilidade);

sendo que a probabilidade de erro de tipo II e: 1− π(θ) para θ ∈ Θ1.

Observacao 39. Dado ser impossıvel ter, simultaneamente, as probabilidades de erro detipo I e II arbitrariamente pequenas, comeca-se por controlar a probabilidade de errode tipo I procurando-se, depois, que a probabilidade de erro de tipo II seja tao pequenaquanto possıvel. De acordo com Casela e Berger (ver [CB08, p. 383]), qualitativamenteum bom teste tem uma funcao potencia proxima de 1 para quase todos os θ ∈ Θ1 eproxima de 0 para quase todos os θ ∈ Θ0.

Caso nao seja possıvel determinar exactamente a lei da estatıstica R(Xm) – que eessencial para a determinacao da regiao de rejeicao da hipotese nula – pode geralmenteusar-se o teorema de Wilks, que apresentamos a seguir, desde que haja um numerosuficiente de dados observados no segmento inicial da realizacao da amostra.

Teorema 21 (Teorema de Wilks (ver o artigo original [Wil38])). Com as notacoesdas definicoes 25, 26 e 28, suponha-se adicionalmente que Θ0 e um subconjunto deRd com dimensao r0 – isto e, em que o numero de parametros reais livres e r0 – e

que Θ1 e um outro subconjunto de Rd com dimensao r1 > r0. Entao supondo H0

verdadeira, tem-se que:

limm→+∞

−2 logR(Xm) =Distrib. χ2r1−r0

Demonstracao. Ver por exemplo [MM12, p. 408] para a demonstracao num caso simples,[IM90, p. 206] para o caso da hipotese nula simples e [PH94] para demonstracoes emcasos mais gerais.

Observacao 40. Tal como foi referido na observacao 35, torna-se assim possıvel desde queo segmento inicial dos dados observados seja suficientemente grande a determinacao dasquantidades de interesse definidas pela razao de verosimilhancas. Nas aplicacoes assume-se que as dimensoes dos conjuntos, referidas no teorema, coincidem com o numero deparametros independentes de cada uma das hipoteses.

IME 67 19 de Setembro de 2016

Page 74: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

Vamos estudar um exemplo classico de teste de hipoteses na perspectiva dum testede razao de verosimilhancas (veja-se [MM12, p. 404] ou [IM90, p. 204]). Testamos ahipotese nula µ = µ0 contra a hipotese alternativa µ 6= µ0, num modelo normal commedia e variancia desconhecidas; trata-se de uma hipotese simples para a media. Sejamas notacoes usuais: X = (X1, X2, . . . Xm, . . . ) uma amostra deX,Xm = (X1, X2, . . . Xm)um segmento inicial desta amostra, x = (x1, x2, . . . xm, . . . ) uma realizacao generica daamostra e xm = (x1, x2, . . . xm) um segmento inicial desta realizacao. Sabemos que asucessao das medias amostrais e das variancias amostrais, dadas para m ≥ 1 por,

µm =1

m

m∑j=1

Xj e σ2m =

1

m

m∑j=1

(Xj − µm)2 (3.19)

sao os EMV de µ e σ2 (ver exemplo 7).

Exemplo 9 (Modelo Normal: media e variancia desconhecidas, razao de verosimi-lhancas para a hipotese simples para a media). Seja X _ N(µ, σ2) com µ e σ2

desconhecidos. Sendo:H0 : µ = µ0 e HA : µ 6= µ0 ,

E tem-se que:

R(xm) =

[∑mj=1 (xj − µm)2∑mj=1 (xj − µ0)2

]m2

.

Desenvolvimento: A densidade do modelo e dada por:

fµ,σ2

X (X) =1√

2πσ2exp

(−(x− µ)2

2σ2

).

Assim, a verosimilhanca para o segmento inicial da realizacao da amostra xm e dadapor,

Lµ,σ2

Xm(xm) =

(1

2πσ2

)m2

exp

− m∑j=1

(xj − µ)2

2σ2

.

Sob a hipotese H0 : µ = µ0, o EMV de σ2 e,

σ20,m =

1

m

m∑j=1

(Xj − µ0)2 .

Assim, sob a hipotese H0 tem-se fazendo as substituicoes evidentes, que:

sup(µ,σ2)∈Θ0

Lµ,σ2

Xm(xm) = L

µ0,σ20,m

Xm(xm) =

(1

2πσ20,m

)m2

exp

− m∑j=1

(xj − µ0)2

2 σ20,m

=

=

[m

2π∑m

j=1 (xj − µ0)2

]m2

e−m2 .

IME 68 19 de Setembro de 2016

Page 75: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.7

Da mesma forma, tem-se que sob a hipotese HA : µ 6= µ0 se tem – usando os EMV paraµ e σ sem restricoes referidos nas formulas (3.19) – que,

sup(µ,σ2)∈Θ\Θ0

Lµ,σ2

Xm(xm) = L

µm,σ2m

Xm(xm) =

(1

2πσ2m

)m2

exp

− m∑j=1

(xj − µm)2

2 σ2m

=

=

[m

2π∑m

j=1 (xj − µm)2

]m2

e−m2 .

Em consequencia tem-se que:

R(xm) =sup(µ,σ2)∈Θ0

Lµ,σ2

Xm(xm)

sup(µ,σ2)∈Θ\Θ0Lµ,σ2

Xm(xm)

=

[E

∑mj=1 (xj − µm)2∑mj=1 (xj − µ0)2

]m2

, (3.20)

tal como anunciado. 5

Exemplo 10 (Modelo Normal: media e variancia desconhecidas, teste de hipotesesimples para a media, lei da razao de verosimilhancas). Com as notacoes implıcitasno exemplo 9 tem-se que

R(Xm) =

1

1 + m(µm−µ0)2∑mj=1(Xj−µm)2

m2

=

[1

1 + T 2

m−1

]m2

, (3.21)

em que, sob a hipotese H0,

T =

√m− 1(µm − µ0)

σm_ tm−1 .

Assim, dado que φm(x) = [1/(1+(x2/(m−1)))]m/2 e bijectiva e com inversa explıcitapodemos considerar conhecida a distribuicao de R(Xm).

Desenvolvimento: Com efeito, dado que se tem a formula (3.20), a substituicao

m∑j=1

(xj − µ0)2 =

m∑j=1

(xj − µm)2 +m(µm − µ0)2 ,

da imediatamente a parte a esquerda da formula (3.21). Por definicao, (ver [IM90, p.40] ou [MM12, p. 103]), se Z1 e Z2 sao variaveis aleatorias independentes tais queZ1 _ N(0, 1) e Z2 _ χ2

m entao, √mZ1√Z2

_ tm .

E claro que sendo a funcao φ com o grafico dado na figura seguinte tem-se que,

IME 69 19 de Setembro de 2016

Page 76: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

Figura 3.2: Funcao φ10.

-4 -2 2 4

0.2

0.4

0.6

0.8

1.0

P [R(Xm) ≤ x] = P[φ(T )m/2 ≤ x

]= P

[|T | ≥ φ−1(x2/m)

],

sendo pois facil determinar a regiao crıtica de um teste de hipoteses com um nıvel designificancia α para a hipotese nula do exemplo 9 acima. 5

Exemplo 11 (Modelo Normal: media e variancia desconhecidas, teste de hipotesesimples para a media, aplicacao do teorema de Wilks). Em resultado do teorema 21,tem-se que, para m suficientemente grande,

−2 logR(Xm) =Distrib. χ21 ,

pelo que para grandes amostras se pode considerar conhecida a distribuicao deR(Xm) com uma justificacao distinta da que se indicou no exemplo 10.

Observacao 41. Muitos outros testes de hipoteses podem ser desenhados por meio dasrazoes de verosimilhancas. Assim, no caso do modelo normal veja-se [Pes98, pp. 155,156, 158]; o teste de ajustamento do χ2 em [Pes98, p. 168]; o teste de independencia doχ2 em [Pes98, p. 176].

3.8 Exercıcios

Nesta seccao propomos exercıcios sobre as ideias fundamentais que estudamos no forma-lismo da Estatıstica. As notas a margem assinalam a dificuldade dos exercıcios, graduadade [1] - aplicacoes imediatas dos conceitos introduzidos - ate [3] - exercıcios que podemrequerer domınio de conceitos estudados noutras unidades curriculares.

Exercıcio 43 (Estatıstica da razao de Verosimilhancas). Mostre que a variavel aleatoria R(Xm) da [1]definicao 28 e uma estatıstica.

Exercıcio 44 (Propriedade essencial da informacao de Fisher). Demonstre a proposicao 17. [1]

Exercıcio 45 (Equacoes de verosimilhanca). Neste exercıcio esclarecem-se os resultados sobre a ob- [2]tencao dos estimadores da maxima verosimilhanca (ver [ZC04, p. 215, 463]).

IME 70 19 de Setembro de 2016

Page 77: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.8

1. Demonstre o lema de Fermat; seja f : Θ ⊆ R 7→ R uma funcao derivavel admitindo um extremo– maximo ou mınimo – num ponto interior de θ0 ∈ Θ. Mostre que entao f ′(θ0) = 0.

2. Demonstre a proposicao 13.

Exercıcio 46 (Estimador da Maxima Verosimilhanca: Modelo de Poisson). Seja o modelo X _ P(θ) [1]isto e, uma variavel aleaoria com distribuicao de Poisson de parametro θ. Considere a parametrizacaoda funcao de probabilidade de X dada por:

∀k ∈ N fθX(k) = e−θθk

k!.

1. Mostre que a log-verosimilhanca do modelo verifica, para m ≥ 1,

lXm,θ(k1, k2, . . . km) = −mθ +m

(1

m

m∑j=1

kj

)log(θ)−

m∑j=1

log(kj !) .

2. Mostre que o estimador da maxima verosimilhanca do parametro θ e dado por:

∀m ≥ 1 θm =1

m

m∑j=1

kj .

3. Que propriedades notaveis tem este estimador?

Exercıcio 47 (Estimador da Maxima Verosimilhanca: Modelo de Bernoulli). Seja o modelo X _ B(π) [1]isto e, uma variavel aleaoria com distribuicao de Bernoulli de parametro π. Considere a parametrizacaoda funcao de probabilidade de X dada por:

∀k ∈ 0, 1 fπX(k) = πk(1− π)(1−k) .

1. Mostre que a log-verosimilhanca do modelo verifica, para m ≥ 1,

lXm,θ(k1, k2, . . . km) = m

[(1

m

m∑j=1

kj

)log(π) +

(1−

(1

m

m∑j=1

kj

))log(1− π)

].

2. Mostre que o estimador da maxima verosimilhanca do parametro π e dado por:

∀m ≥ 1 πm =1

m

m∑j=1

kj .

3. Que propriedades notaveis tem este estimador?

Exercıcio 48 (Estimador da Maxima Verosimilhanca: Modelo Gama). Seja o modelo X _ Γ(θ, λ) [1]isto e, uma variavel aleaoria com distribuicao gama de parametros θ e λ sendo que este parametro econhecido. Considere a parametrizacao da densidade de X dada por:

∀x ∈ [0,+∞[ fθX(x) =θλ

Γ(λ)xλ−1e−θx .

1. Mostre que a log-verosimilhanca do modelo verifica, para m ≥ 1,

lXm,θ(k1, k2, . . . km) = λm log(θ)−m log Γ(λ) + (λ− 1)

m∑j=1

log(xj)− θm∑j=1

xj .

IME 71 19 de Setembro de 2016

Page 78: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

2. Mostre que o estimador da maxima verosimilhanca do parametro π e dado por:

∀m ≥ 1 θm =λ

1m

∑mj=1 xj

.

3. Que propriedades notaveis tem este estimador?

Exercıcio 49. Mostre que se um estimador tem variancia mınima no sentido do limite inferior de [1]Cramer–Rao entao esse estimador e uma estatıstica suficiente.

Exercıcio 50 (Densidade de tipo exponencial: estimador eficiente). Seja X uma variavel aleatoria com [1]densidade de tipo exponencial, ou seja, tal que:

fθ,φX (x) = exp

[xθ − b(θ)a(φ)

+ c(x, φ)

],

em que θ e φ sao parametros e a, b e c sao funcoes regulares. Seja X = (X1, X2, . . . , Xm, . . . ) umaamostra de X e Xm a media amostral de ordem m:

Xm =1

m

m∑j=1

Xj .

1. Considerando a formula (3.3) na proposicao 16, mostre que:

E[Xm

]= E [X] = b′(θ) .

2. Mostre que se (E[Xm

])m≥1 for um estimador centrado – nao enviesado – de θ, entao:

Xm − θ =a(φ)

m

∂θlXm,θ(Xm) ,

ou seja, (E[Xm

])m≥1 e um estimador de variancia mınima – de θ – no sentido de Cramer–Rao.

Exercıcio 51 (Limite inferior de Cramer–Rao para funcoes enviesadas do parametro). Seja X _ G(θ) [2]um modelo e ψXτ = (ψτm(Xm))m≥1 um estimador de uma funcao τ do parametro θ, com vies v, isto e,tal que:

∀m ≥ 1 Eθ [ψτm(Xm)] = τ(θ) + v(θ) .

Tem-se entao que:

Vθ [ψτm(Xm)] ≥ (τ ′(θ) + v′(θ))2

I(θ,Xm)(3.22)

sendo que a igualdade ocorre se e so se:

ψτm(Xm)− (τ(θ) + v(θ)) =

(∂

∂θlXm,θ(Xm)

)×H(θ) (3.23)

em que H e uma funcao so de θ. (Veja-se [IM90, p. 61–62]).

Exercıcio 52 (Modelo de Poisson: hipotese simples). Seja X _ P(λ) uma variavel com distribuicao de [1]Poison de parametro λ ∈ R?+ desconhecido e em que a parametrizacao da funcao de probabilidade fλX edada por:

∀k ∈ N fλX(k) = e−λλk

k!.

Seja o teste de hipoteses dado por:

H0 : λ = λ0 e HA : λ 6= λ0 ,

isto e, com Θ0 = λ0 e Θ1 = R?+ \ λ0.

IME 72 19 de Setembro de 2016

Page 79: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.8

1. Mostre com a notacoes usuais, e particular com km = (k1, k2, . . . , km) segmento inicial de umarealizacao observada da amostra Xm = (X1, . . . , Xm, . . . ), que o EMV do parametro λ e dadopor:

λm :=1

m

m∑j=1

kj .

2. Mostre que:

supλ∈Θ0

LλXm

(km) = Lλ0Xm

(km) = e−mλ0λmλm0∏mj=1 kj

e supλ∈Θ\Θ0

LλXm

(km) = e−mλmλmλmm∏mj=1 kj

.

3. Mostre que se for

Xm =1

m

m∑j=1

Xj ,

entao tem-se que:

−2 log (R(Xm) =) = 2m

[(λ0 −Xm) +Xm log

(Xm

λ0

)]_ χ2

1 .

4. Mostre que se justiifica rejeitar a hipotese nula com o nıvel de significancia α se,

2m

[(λ0 − λm) + λm log

(λmλ0

)]≥ quantilα

(χ2

1

).

Exercıcio 53 (Modelo normal: teste de hipotese composta). (Veja-se o exemplo 9 e [MM12, p. 406].)Seja o modelo X _ N(µ, σ2) em que ambos µ e σ sao desconhecidos e se tem (µ, σ2) ∈ Θ = R ×R?+. [1]Seja o teste de hipoteses definido por:

H0 : (µ, σ2) = (µ, σ20) e HA : (µ, σ2) 6= (µ, σ2

0) ,

isto e, com Θ0 = R× σ20 e Θ1 = R× (R?+ \ σ2

0).

1. Mostre que, com as notacoes usuais implıcitas na formula (3.19),

sup(µ,σ2)∈Θ0

Lµ,σ2

Xm(xm) = L

µm,σ20

Xm(xm) e sup

(µ,σ2)∈Θ1

Lµ,σ2

Xm(xm) = L

µm,σ2m

Xm(xm) .

2. Mostre que com

Qm−1 =1

σ20

m∑j=1

(Xj −Xm)2 _ χ2m−1 ,

se tem,

R(Xm) =sup(µ,σ2)∈Θ0

Lµ,σ2

Xm(Xm)

sup(µ,σ2)∈Θ1Lµ,σ2

Xm(Xm)

=

(Qm−1

M

)m2

exp

(−Qm−1 −m

2

)3. Determine, com duas justificacoes distintas, regioes crıticas para um teste da razao de verosimi-

lhancas com nıvel de significancia α para a hipotese nula descrita acima.

Exercıcio 54 (Metodo Delta). (ver [IM90, p. 91] e [TdO82]) Considere um modelo X _ G(θ) com θ ∈ [2]Θ ⊆ Rd cuja distribuicao depende do parametro θ. Seja X = (X1, X2, . . . , Xm, . . . ) uma amostra de X eXm = (X1, X2, . . . , Xm) o segmento inicial de comprimento m da amostra X. Seja ψX = (ψm(Xm))m≥1

um estimador consistente do parametro θ – pertencente ai interior de Θ – tal que se Zσ2(θ) _ N(0, σ2(θ))se tenha,

limm→+∞

√m (ψm(Xm)− θ) =Distrib. Zσ2(θ) . (3.24)

IME 73 19 de Setembro de 2016

Page 80: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

1. Seja Φ uma funcao derivavel e com derivada nao nula. Mostre que entao se tem que, para umavariavel aleatoria Z(Φ′(θ))2·σ2(θ) _ N(0, (Φ′(θ))2 · σ2(θ)),

limm→+∞

√m (Φ(ψm(Xm))− Φ(θ)) =Distrib. Z(Φ′(θ))2·σ2(θ) .

2. Seja Φ uma funcao derivavel, com derivada contınua e nao nula. Mostre que entao se tem que,para uma variavel aleatoria Zσ2(θ) _ N(0, σ2(θ)),

limm→+∞

√m (Φ(ψm(Xm))− Φ(θ))

Φ′(ψm(Xm))=Distrib. Zσ2(θ) .

3.9 Resolucoes

Resolucao:[Exercıcio 54] Dado que Φ e diferenciavel tem-se pelo teorema de Taylor(ver, por exemplo, [ZC04, p. 220]) que para x ∈ Vθ, vizinhanca de θ,

Φ(x) = Φ(θ) + (x− θ)[Φ′(θ) + S(x)

]com lim

x→θS(x) = 0 . (3.25)

Seja ε > 0; pela condicao sobre S sabemos que existe δ = δ(ε) tal que

|x− θ| < δ ⇒ |S(x)| < ε .

Em consequencia, tem-se que:

ω ∈ Ω : |S(ψm(Xm)(ω))| ≥ ε ⊆ ω ∈ Ω : |ψm(Xm)(ω)− θ| ≥ δ ,

donde resulta, dado que o estimador ψX e consistente, que

limm→+∞

ES(ψm(Xm)) =Prob. 0 . (3.26)

Seja Ωθ = ω ∈ Ω : ψm(Xm)(ω) ∈ Vθ. Sobre Ωθ, pela formula (3.25), tem-se que:√m [Φ(ψm(Xm))− Φ(θ)]−

√m [(ψm(Xm)− θ)] Φ′(θ) =

=√m [(ψm(Xm)− θ)]S(ψm(Xm))

Pelas formulas (3.24) e (3.26) tem-se que:

limm→+∞

E√m [(ψm(Xm)− θ)]S(ψm(Xm)) =Prob. 0

donde resulta pelo teorema de Slutsky (teorema 4) que:

limm→+∞

√m [Φ(ψm(Xm))− Φ(θ)] =Distrib.

√m [(ψm(Xm)− θ)] Φ′(θ) =Distrib. Zσ2(θ) ,

ou seja quelim

m→+∞

√m [Φ(ψm(Xm))− Φ(θ)] =Distrib. Z(Φ′(θ))2·σ2(θ) ,

isto e, a primeira conclusao do exercıcio. Seguidamente, dado que ψX e consistente eque Φ′ e contınua, tem-se (ver exercıcio 17) que,

limm→+∞

Φ′(ψm(Xm)) =Prob. Φ′(θ) ,

donde resulta a segunda conclusao do exercıcio pela proposicao sobre as propriedadesdas convergencias (ver proposicao 5). ♦

IME 74 19 de Setembro de 2016

Page 81: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.9

Apendice

Nesta seccao enunciamos resultados que sao uteis para o desenvolvimento do texto acima.O primeiro resultado permite a derivacao de um integral em quea funcao integrandadepende de um parametro.

Teorema 22 (O teorema de derivacao do integral relativamente a um parametroda funcao integranda). Seja (X,A, µ) um espaco de medida, U um aberto de R ef : X × U 7→ R uma funcao tal que:

(i) Para qualquer t0 ∈ U , a funcao f(·, t0) : X 7→ R e integravel.

(ii) f e derivavel em qualquer t0 ∈ U ,

∀x ∈ X, ∂f(x, t0)

∂t:=

∂f(x, t)

∂t

∣∣∣∣t=t0

:= limh→0,h6=0

f(x, t0 + h)− f(x, t0)

h∈ R .

e esta derivada e uma funcao (de x ∈ X) integravel.

(iii) Existe uma funcao F : X 7→ R+ integravel tal que para qualquer x ∈ X,

∀t ∈ U∣∣∣∣∂f(x, t)

∂t

∣∣∣∣ ≤ F (x)

Entaod

dt

∫Xf(x, t)dµ(x)

∣∣∣∣t=t0

=

∫X

∂f(x, t)

∂t

∣∣∣∣t=t0

dµ(x)

Demonstracao. Resulta de uma aplicacao do teorema dos valores intermediarios e doteorema da convergencia dominada de Lebesgue (ver [Lan69, p. 375]). Com efeito, pelahipotese (i), tem-se que:

d

dt

∫Xf(x, t)dµ(x)

∣∣∣∣t=t0

= limh→0

1

h

(∫Xf(x, t0 + h)dµ(x)−

∫Xf(x, t0)dµ(x)

)=

= limh→0

∫X

(f(x, t0 + h)− f(x, t0)

h

)dµ(x) .

Para que a conclusao do teorema resulte e suficiente garantirmos que se verificam ashipoteses de aplicacao do teorema da convergencia dominada de Lebesgue. Para talobservemos que, pelo teorema dos valores intermedios e pela hipotese (iii),

|f(x, t0 + h)− f(x, t0)| ≤ |h| supt∈[|t0,t0+h|]

∣∣∣∣∂f(x, t)

∂t

∣∣∣∣ ≤ |h|F (x) ,

IME 75 19 de Setembro de 2016

Page 82: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

3 Capıtulo 3

em que [|t0, t0 +h|] e o segmento de estremidades t0 e t0 +h, isto e, o intervalo [t0, t0 +h]se for h > 0 e o intervalo [t0 + h, t0] se for h < 0. Tem-se assim que, para h 6= 0:∣∣∣∣f(x, t0 + h)− f(x, t0)

h

∣∣∣∣ ≤ F (x)

Dado que F e integravel e que ha convergencia, pela hipotese (ii)podemos concluir comose pretende.

Bibliografia

[CB08] G. Casella and R.L. Berger. Statistical Inference. Duxbury advanced series.Duxbury Thomson Learning, 2008.

[HS49] Paul R. Halmos and L. J. Savage. Application of the radon-nikodym theorem tothe theory of sufficient statistics. Ann. Math. Statist., 20(2):225–241, 06 1949.

[IM90] G.I. Ivchenko and Yu.I. Medvedev. Mathematical Statistics. Mir PublishersMoscow, 1990.

[KPS83] V.S. Koroljuk, N.I. Portenko, and A.V. Skorohod. Aide-memoire de theoriedes probabilites et de statistique mathematique. Editions de Moscou. EditionsMir, 1983.

[Lan69] S. Lang. Analysis II. Number v. 2 in Addison-Wesley series in mathematics.Addison-Wesley Pub. Co., 1969.

[Mig05] Maria de Fatima Miguens. Probabilidades e Estatıstica I. Edicao da Autora,Outubro 2005. Notas de licoes na FCT/UNL.

[MM12] B. Murteira and Antunes M. Probabilidades e Estatıstica, volume 2. EscolarEditora, 2012.

[Pes98] Wiebe R. Pestman. Mathematical statistics. An introduction. Berlin: de Gruy-ter, 1998.

[PH94] J. Pfanzagl and R. Hamboker. Parametric Statistical Theory. De Gruyter text-book. W. de Gruyter, 1994.

[Pop02] K. Popper. The Logic of Scientific Discovery. Routledge Classics. Taylor &Francis, 2002.

[PV08] Dinis Pestana and Sılvio Velosa. Introducao a Probabilidade e a Estatıstica. Vol.I. Textos Universitarios. Fundacao Calouste Gulbenkian, Lisboa, third edition,2008. Terceira edicao revista e aumentada.

[TdO82] J. Tiago de Oliveira. The δ–method for obtention asymptotic distributions;applications,. Publ. Inst. Statist. Univ. Paris, 1(XXVII):49–70, 1982.

IME 76 19 de Setembro de 2016

Page 83: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 3. FORMALISMO DA ESTATISTICA Seccao: 3.9

[Wil38] S. S. Wilks. The large-sample distribution of the likelihood ratio for testingcomposite hypotheses. Ann. Math. Statist., 9(1):60–62, 03 1938.

[Wil01] David Williams. Weighing the Odds: A Course in Probability and Statistics.Cambridge University Press, 2001.

[ZC04] V.A. Zorich and R. Cooke. Mathematical Analysis I. Mathematical Analysis.Springer, 2004.

IME 77 19 de Setembro de 2016

Page 84: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

78

Page 85: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

Capıtulo 4

Modelos Lineares Generalizados

Firstly, a model with more parameters leads to predictions with less bias but with higher varianceand, we have to balance one against the other. Secondly, a model with more parameters tends to bemore sensitive to small changes in the data.

In David Williams, Weighing the Odds. A Course in Probability and Statistics, CambridgeUniversity Press 2001, page 236.

4.1 Introducao

De acordo com [Agr07, p. 72], todos os modelos lineares generalizados tem tres com-ponentes: a componente aleatoria que identifica a variavel aleatoria Y assumindo umadada distribuicao; a componente sistematica que especifica as variaveis explicativas e,por ultimo, a ligacao que da a relacao funcional entre a componente sistematica e o valoresperado da componente aleatoria. Seguidamente desenvolveremos estas ideias.

Um modelo linear generalizado (GLM de Generalized Linear Model em Ingles), temmuitas semelhancas com um modelo linear usual. Assim - numa primeira aproximacao -podemos descrever um GLM – a que chamaremos GLM ocasional – a partir da estru-tura dos dados e das correspondentes observacoes descritas seguidamente. Os conceitosrelevantes no contexto dos GLM serao detalhados progressivamente.

1. O modelo constituıdo pelas variaveis aleatorias Y,X1, X2, . . . , XN em que Y , avariavel independente tem uma relacao funcional com as variaveisX1, X2, . . . , XN ,os preditores, que podem nao ser independentes entre si - por exemplo, pode ter-se que X1 = X2 ·X3.

2. As observacoes, isto e, as amostras, Y = (Y1, Y2, . . . Ym) de Y e, para cadai ∈ 1, 2, . . . , N Xi = (Xi,1, Xi,2, . . . Xi,m) amostra de Xi, cujas realizacoes daoorigem aos dados:

y1 x1,1 x2,1 . . . xN,1y2 x1,2 x2,2 . . . xN,2. . . . . . . . . . . . . . .ym x1,m x2,m . . . xN,m .

(4.1)

79

Page 86: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

3. Uma relacao linear 1 entre as variaveis aleatorias X1, X2, . . . , XN tambem deno-minadas factores do modelo e uma funcao h, denominada a funcao de ligacaodo modelo, aplicada a esperanca condicional da variavel dependente Y :

h (E [Yj | X1,j , X2,j , . . . XN,j ]) = α0 + α1X1,j + α2X2,j + · · ·+ αNXN,j (4.2)

em que α0, α1, . . . , αN sao parametros do modelo 2.

4. Condicoes que asseguram a coerencia da definicao a saber:

(a) A variavel aleatoria Y tem tipo exponencial(ver o desenvolvimento desteconceito na seccao 4.5); cada distribuicao de tipo exponencial tem um parametronatural que e dado por uma funcao da media da distribuicao.

(b) A funcao de ligacao h que seja funcao do parametro natural da distribuicao ea funcao de ligacao canonica.

Observacao 42. Note-se que a formula (4.2) e equivalente a

h (E [Yj | X1,j = a1, X2,j = a2, . . . XN,j = aN ]) = α0 + α1a1 + α2a2 + · · ·+ αNaN (4.3)

em que, tal como acima, α0, α1, . . . , αN sao parametros do modelo e em que para cadai ∈ 1, 2, . . . , N ai ∈ Xi,j(Ω), isto e, os ai sao quaisquer elementos dos contradomıniosrespectivos de cada uma das respectivas variaveis aleatorias Xi,j .

Observacao 43. Suponhamos que α0, α1, . . . , αN designam os valores estimados dos para-metros do modelo descritos em (4.2) ou (4.3) a partir dos dados (4.1). Veremos adiantea forma natural de estimar estes parametros que decorre do metodo da maxima verosi-milhanca. E natural que para cada j ∈ 1, 2, . . . ,m exista εj um erro de ajustamento– ou um resıduo – tal que se verifique para j ∈ i, 2, . . . ,m:

Eh (E [Yj | X1,j = x1,j , X2,j = x2,j , . . . XN,j = xN,j ]) = α0 + α1x1,j + · · ·+ αNxN,j + εj

de onde resultara, se h for invertıvel,

E [Yj | X1,j = x1,j , . . . XN,j = xN,j ] = h−1 (α0 + α1x1,j + · · ·+ αNxN,j + εj) ,

o que no caso em que h−1 nao e linear faz com que os resıduos nao sejam aditivos. Talcomo noutros modelos estatısticos estudos sobre os resıduos podem aferir a qualidade doajustamento do modelo com os parametros estimados. Mas nao serao os resıduos – talcomo os definimos acima – os mais adequados para aferir a qualidade do ajustamento(ver a seccao 4.5).

1Veja-se por exemplo [MN89, p. 12] para esta interpretacao.2Na formula acima (4.2), a expressao E [Y | X1, X2, . . . XN ] representa a esperanca condicional de Y

dadas X1, X2, . . . XN .

IME 80 19 de Setembro de 2016

Page 87: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.2

4.2 Distribuicoes de tipo exponencial

Nesta seccao vamos desenvolver as principais propriedades das distribuicoes de tipoexponencial (veja-se, por exemplo, [SS94, p. 300]).

Definicao 32 (Distribuicao de Tipo Exponencial). Uma variavel aleatoria Y temdistribuicao de Tipo Exponencial se e so se a sua densidade fY – no caso contınuo– (ou a sua funcao de probabilidade, no caso discreto) se puder representar na forma,

fY (y) = fθ,φY (y) = exp

[yθ − b(θ)a(φ)

+ c(y, φ)

], (4.4)

em que θ e φ sao parametros e a, b e c sao funcoes regulares. O parametro θ edenominado o parametro natural da famılia exponencial.

Observacao 44. O parametro φ supoe-se conhecido; caso contrario e considerado umnuisance parameter e e estimado previamente ao resto do estudo estatıstico.

Na tabela seguinte podem ver-se alguns exemplos de distribuicoes de tipo exponencialcom os parametros e as funcoes a e b indicadas. Para um exemplo de como se podemobter estes termos da decomposicao da densidade da distribuicao veja-se a proposicao 19.

Distribuicao de Y θ = θ(E[Y ]) b(θ) a(φ)

Poisson P(λ) log(λ) eθ 1

Bernoulli B(π) log(

π1−π

)log(1 + eθ

)1

Normal N(µ, σ) µ θ2/2 σ2

Gama G(α, β) −1/α − log(−θ) 1/β

Tabela 4.1: Exemplos de distribuicoes de tipo exponencial com os parametros e asfuncoes.

Proposicao 19 (Forma Canonica). No caso em que a(φ) = φ – sendo φ, neste caso,denominado parametro de dispersao – uma variavel aleatoria Y tem distribuicaode tipo exponencial se e so se a sua densidade fY se pode representar na forma

fY (y) = r(θ)s(y) exp [yQ(θ)] , (4.5)

em que r, s e Q sao funcoes regulares.

Demonstracao. E imediato se se considerar, na formula (4.5), as definicoes seguintes:

Q(θ) =θ

φ, r(θ) = exp

[−b(θ)

φ

], s(y) = exp [c(y, φ)] .

IME 81 19 de Setembro de 2016

Page 88: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

Exemplo 12 (A distribuicao Binomial). Seja Y _ B(M,π) isto e, com distribuicaobinomial de parametros M e π. Verifique que Y tem uma distribuicao de tipoexponencial.

Resolucao: Com efeito, dado que,

∀k ∈ 0, 1, . . . ,M fY (k) = P[Y = k] =

(M

k

)πk(1− π)M−k ,

e que podemos representar esta funcao de probabilidade

fY (k) = exp

(log

(M

k

))exp

(log(1− π)M

)exp

(k log

1− π

)),

fica claro que com

φ = 1, r(θ) = exp(log(1− π)M

), s(k) = exp

(log

(M

k

)), Q(θ) = log

1− π

),

se tem a representacao de fY na forma canonica. ♦

Exercıcio 55 (Exemplos de distribuicoes de tipo exponencial). Mostre que a distribuicao normal e detipo exponencial. Exprima a densidade na forma canonica explicitando as funcoes r, s e Q correspon-dentes. Mesma questao para a distribuicao binomial.

Uma das justificacoes para o parametro θ se denominar parametro natural da distri-buicao advem do resultado seguinte.

Teorema 23 (Media e Variancia). Seja Y uma variavel aleatoria com distribuicaode tipo exponencial de acordo com as notacoes da definicao 32. Entao:

E[Y ] =db(θ)

dθ, V[Y ] = a(φ)

d2b(θ)

d2θ. (4.6)

Demonstracao. Suponhamos que a variavel Y e contınua. Dado que fθ,φY e uma densi-dade, tem-se que:

1 =

∫R

fθ,φY (y)dy .

Derivando a expressao acima em ordem ao parametro θ teremos, aplicando um resultadoconhecido de derivacao de um integral em ordem a um parametro (veja-se o teorema 22em apendice),

0 =∂

∂θ

∫R

fθ,φY (y)dy =

∫R

∂θ

(fθ,φY (y)

)dy . (4.7)

IME 82 19 de Setembro de 2016

Page 89: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.2

Dado que

∂θ

(fθ,φY (y)

)=

∂θexp

[yθ − b(θ)a(φ)

+ c(y, φ)

]=

=1

a(φ)

(y − db(θ)

)exp

[yθ − b(θ)a(φ)

+ c(y, φ)

]=

=y

a(φ)fθ,φY (y)− 1

a(φ)

db(θ)

dθfθ,φY (y) ,

tem-se que, usando a formula (4.7) e supondo que a(φ) 6= 0,∫R

yfθ,φY (y)dy − db(θ)

∫R

fθ,φY (y)dy = 0 ,

de onde resulta

E[Y ] =

∫R

yfθ,φY (y)dy =db(θ)

dθ,

tal como figura no enunciado. Para demonstrar a formula relativa a variancia o proce-dimento e semelhante. Assim,

∂2

∂θ2

(fθ,φY (y)

)=

d

(y

a(φ)fθ,φY (y)− 1

a(φ)

db(θ)

dθfθ,φY (y)

)=

=y

a(φ)

(y

a(φ)fθ,φY (y)− 1

a(φ)

db(θ)

dθfθ,φY (y)

)−

− 1

a(φ)

(d2b(θ)

dθ2fθ,φY (y) +

db(θ)

(y

a(φ)fθ,φY (y)− 1

a(φ)

db(θ)

dθfθ,φY (y)

))=

=y2

a(φ)2fθ,φY (y)− y

a(φ)2

db(θ)

dθfθ,φY (y)− 1

a(φ)

d2b(θ)

dθ2fθ,φY (y)−

− y

a(φ)2

db(θ)

dθfθ,φY (y) +

1

a(φ)2

(db(θ)

)2

fθ,φY (y) ,

ou seja em resumo,

∂2

∂θ2

(fθ,φY (y)

)=y2fθ,φY (y)

a(φ)2−

2yfθ,φY (y)

a(φ)2

db(θ)

dθ−fθ,φY (y)

a(φ)

d2b(θ)

dθ2+fθ,φY (y)

a(φ)2

(db(θ)

)2

.

Obviamente que se tem que:

0 =

∫R

∂2

∂θ2

(fθ,φY (y)

)dy ,

pelo que, supondo mais uma vez que a(φ) 6= 0 e usando o facto de fY ser uma densidade,

0 =

∫R

y2fθ,φY (y)dy − 2db(θ)

∫R

yfθ,φY (y)dy − a(φ)d2b(θ)

dθ2+

(db(θ)

)2

,

IME 83 19 de Setembro de 2016

Page 90: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

ou seja ainda, usando o resultado do teorema ja obtido,

E[Y 2] =

∫R

y2fθ,φY (y)dy = 2

(db(θ)

)2

+ a(φ)d2b(θ)

dθ2−(db(θ)

)2

,

de onde se conclui que

V[Y ] = E[Y 2]−E[Y ]2 = a(φ)d2b(θ)

dθ2,

tal como se indicou no enunciado. A demonstracao para o caso de uma variavel aleatoriadiscreta e semelhante sendo que a condicao de partida e que se se tiver Y (Ω) = I ⊆ N,∑

k∈IfY (k) =

∑k∈IP[Y = k] = 1

dado que fY representa, neste caso, uma funcao de probabilidade.

4.3 A funcao de ligacao canonica

Nesta seccao definimos precisamente a funcao de ligacao canonica de um modelo GLMsocorrendo-nos de uma segunda interpretacao de um tal modelo. Note-se que os pressu-postos com que definimos o modelo GLM ocasional podem ter uma interpretacao dife-rente se supusermos que os dados resultam de uma experiencia planeada previamente.Esta interpretacao da origem a um modelo que denominaremos GLM controlado 3.Neste modelo, a estrutura das observacoes apenas comporta a variavel resposta ou inde-pendente dado que se considera que os valores, do que no modelo GLM ocasional eram asvariaveis independentes, sao agora valores previamente fixados de acordo com o desenhointencional da experiencia.

1. A matriz de desenho da experiencia e dada por

X =

1 x1,1 x2,1 . . . xN,11 x1,2 x2,2 . . . xN,2. . . . . . . . . . . . . . .1 x1,m x2,m . . . xN,m

. (4.8)

2. Os dados y1, y2, . . . ym resultam da realizacao das observacoes, isto e da rea-lizacao de uma amostra Y = Y1, Y2, . . . Ym da variavel aleatoria Y , isto e, tal quepara ω ∈ Ω

Y1(ω) = y1, Y2(ω) = y2, . . . Ym(ω) = ym (4.9)

3A distincao entre um modelo controlado e um modelo ocasional – referido na seccao 4.1 – e feitatambem em [Pru11, p. 357] sendo que o modelo que denominamos ocasional e referido como observationalstudy.

IME 84 19 de Setembro de 2016

Page 91: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.4

3. Uma relacao entre a matriz de desenho da experiencia X e uma funcao Hh,denominada a funcao de ligacao do modelo, aplicada a esperanca do vectorY = (Y1, Y2, . . . Ym)t das observacoes da variavel dependente Y :

Hh (E [Y ]) = XA (4.10)

em que A = (α0, α1, . . . , αN )t e o vector dos parametros do modelo e em que

Hh(y1, y2, . . . ym) = (h(y1), h(y2), . . . h(ym)) ,

sendo h a funcao de ligacao univariada.

4. As condicoes de coerencia entre a distribuicao de Y e a funcao de ligacao.

(a) A variavel aleatoria Y tem tipo exponencial de acordo com a definicao 32sendo θ o parametro natural.

(b) Atendendo ao teorema 23 em que E [Y ] = db(θ)/dθ, a funcao de ligacaounivariadda h tal que

h (E [Y ]) = h

(db(θ)

)= θ , (4.11)

isto e, tal que h seja bijectiva e admita uma inversa h−1 verificando

h−1 =db(θ)

dθ, (4.12)

designa-se por funcao de ligacao canonica do modelo.

Observacao 45. Note-se que a formula (4.10) se pode representar na formah (E [Y1])h (E [Y2])

. . .h (E [Ym])

=

α0 + α1x1,1 + +α2x2,1 + · · ·+ αNxN,1α0 + α1x1,2 + +α2x2,2 + · · ·+ αNxN,2

. . .α0 + α1x1,m + +α2x2,m + · · ·+ αNxN,m

, (4.13)

ou seja, para cada j ∈ 1, . . . ,m,

h (E [Yj ]) = α0 + α1x1,j + +α2x2,j + · · ·+ αNxN,j . (4.14)

Observacao 46. A importancia de considerar as funcoes de ligacao canonicas advem dasimplificacao que trazem ao calculo dos estimadores dos parametros dos modelos GLM.

IME 85 19 de Setembro de 2016

Page 92: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

4.4 A estimacao nos modelos lineares generalizados

A estimacao dos parametros num modelo linear generalizado faz-se pelo metodo demaxima verosimilhanca4. Retomando as notacoes da seccao 4.3, temos na formula (4.10)o preditor linear comm componentes

Hh (E [Y ]) = XA

sendo que com a funcao de ligacao canonica univariada do modelo h ∈ C2(R), se verifica,

h (E [Yj ]) = h

(db(θj)

dθj

)= θj .

Para m observacoes – independentes dado provirem de uma amostra – tendo em conta

que θ = (θ1, θ2, . . . θm)t depende de A = (α0, α1, . . . , αN )t, a logverosimilhanca l(A)escreve-se,

l(A) =m∑j=1

log(fθj ,φY (yj)

)=

m∑j=1

(yjθj − b(θj)

a(φ)+ c(yj , φ)

). (4.15)

Sendo para abreviar a notacao lj := log(fθj ,φY (yj)

)e µj = E [Yj ], determine-se

∂lj∂αi

=∂lj∂θj

∂θj∂µj

∂µj∂h(µj)

∂h(µj)

∂αi.

Dado que se tem com b′(θj) := db(θj)/dθj e b′′(θj) := d2b(θj)/dθ2j ,

∂lj∂θj

=yj − b′(θj)a(φ)

=yj − µja(φ)

,

∂µj∂θj

=db′(θj)

dθj= b′′(θj) =

V[Yj ]

a(φ),

que, devido a formula (4.14),∂h(µj)

∂αi= xi,j ,

e uma vez que a derivada seguinte depende da funcao de ligacao h,

∂µj∂h(µj)

,

temos o resultado importante seguinte.

Proposicao 20. As equacoes de verosimilhanca sao dadas por

m∑j=1

(yj − µjV[Yj ]

xi,j∂µj

∂h(µj)

)= 0 i = 1, 2, . . . N . (4.16)

4A exposicao que se segue e inspirada em http://wikistat.fr/pdf/st-m-modlin-mlg.pdf

IME 86 19 de Setembro de 2016

Page 93: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.5

Observacao 47. Estas equacoes sao nao lineares em A pelo que devem ser resolvidas pormetodos iterativos – Newton-Raphson ou Scores de Fisher – pelo que desenvolveremoseste tema adiante. Dado que definem um estimador da maxima verosimilhanca, para ovector dos parametros A, este estimador e consistente e assimptoticamente normal (ver[Lin05, p. 136] ou [IM90, p. 89]) permitindo assim a construcao de testes de hipoteses.

4.5 Metodos para aferir a qualidade do ajustamento

Para aferir a qualidade do ajustamento usam-se sobretudo os desvios e nocoes relativasa resıduos modificados.

4.5.1 Desvios: a Deviance

Compara-se o modelo estimado com o modelo saturado (ou modelo perfeito ou aindamodelo completo), isto e com o modelo em que o numero de observacoes iguala o numerode parametros, ou seja, o modelo em que o valor medio da variavel coincide com o valorobservado da variavel, isto e, E[Yi] = yi (ver [Gil00, p. 56] ou [TS00, p. 59–60]).

Definicao 33 (Deviance). Sejam l a logverosimilhanca do modelo estimado com a

totalidade das observacoes disponıveis e lSat a logverosimilhanca do modelo saturado.Entao a deviance D e dada por

D = −2(

l− lSat

). (4.17)

Observacao 48. A deviance e pois o logaritmo do quadrado da razao das verosimilhancas.Nos GLM e usado em vez da soma dos quadrados usual no caso Gaussiano. Pela suanatureza a deviance permite testes do tipo razao de verosimilhancas (ver [IM90, p. 204]).

Proposicao 21 (Deviance no modelo de Poisson). Seja Y _ P(λ), Y =(Y1, Y2, . . . , Ym) uma amostra de Y , e os dados y1, y2, . . . , ym provenientes de umarealizacao da amostra Y. Entao

D = −2(

l− lSat)

= 2m∑j=1

[λj − yj + yj log

(yjλj

)]

Demonstracao. Temos que no caso do modelo ser um GLM se tem para cada dado yj

IME 87 19 de Setembro de 2016

Page 94: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

uma concretizacao λj de λ dado que E[Yj ] = λj ,

l = l((y1, . . . , ym), (λ1, . . . λm)) = log

m∏j=1

e−λλyj

yj !

=

=m∑j=1

[−λj + yj log(λj) + log(yj !)] .

Agora, por definicao, o modelo saturado corresponde a ter (y1, y2, . . . , ym) = (λ1, λ2, . . . λm)pelo que:

lSat =

m∑j=1

[−yj + yj log(yj) + log(yj !)] ,

pelo que

D = −2(

l− lSat

)= −2

m∑j=1

[−λj + yj log(λj) + log(yj !)− (−yj + yj log(yj) + log(yj !))] =

= 2m∑j=1

[λj − yj + yj log

(yjλj

)],

tal como anunciado.

Na tabela 4.2 (confira-se com [Gil00, p. 58] ou com [TS00, p. 66]) figuram as funcoesde desvio calculadas para diferentes distribuicoes de tipo exponencial; as justificacoessao semelhantes a que apresentamos, para a distribuicao de Poisson, na proposicao 21.Veja-se, por exemplo, [MN89, p. 32] para as funcoes de ligacao canonicas.

Distribuicao Ligacao h Deviance (desvio) D

Poisson P(λ) h(λ) = log(λ) 2∑m

j=1

[yj log

(yjλj

)+ λj − yj

]Bernoulli B(π) h(π) = log

1−π

)2∑m

j=1

[log(yjπj

)yj+ log

(1−yj1−πj

)(1−yj)]

Binomial B(M,π) h(π) = log(

π1−π

)2∑m

j=1

[log(yjπj

)yj+ log

(Mj−yjMj−πj

)(Mj−yj)]

Normal N(µ, σ) h(µ) = µ∑m

j=1 |yj − µj |2

Gama G(α, β) h(α) = − 1α 2

∑mj=1

[− log

(yjαj

)+

yj−αjαj

]Bin. Neg. B−(r, π)

Tabela 4.2: Funcoes de Ligacao (link) e desvios (deviances) para algumas distribuicoesde tipo exponencial

Observacao 49. Note-se que a deviance para o modelo saturado nocaso Bernoulli e:

lSat = log

m∏j=1

yyjj (1− yj)(1−yj)

= log(1) = 0 .

IME 88 19 de Setembro de 2016

Page 95: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.5

Veja-se, por exemplo, [jHLS13, p. 12].

Proposicao 22. Quando m o numero de observacoes tende para infinito a deviancetem distribuicao assimptotica χ2

m−(N+1), isto e a distribuicao do χ2 com m−(N+1)graus de liberdade, em que N + 1 e o numero de parametros.

Observacao 50. A proposicao 22 permite construir um teste de rejeicao do modelo con-soante a deviance seja considerada – ou nao – significativa (veja-se [TS00, p. 50]); se adeviance exceder um α-percentil de um χ2

m−(N+1), podemos afirmar com uma margemde erro α que o modelo saturado difere significativamente do modelo nulo, isto e, omodelo sem preditores, so com o termo constante. A aproximacao do χ2 e consideradapor muitos autores, em muitos casos, como duvidosa.

4.5.2 Resıduos de Pearson

Vamos detalhar os resıduos de Pearson no caso binomial seguindo [Lon97, p. 98]. Reto-mando as notacoes da seccao 4.1, a introducao, seja Xi = (Xi,1, Xi,2, . . . Xi,m) a amostradas variaveis preditoras e Y = (Y1, Y2, . . . Ym) a amostra da variavel dependente. Paraj ∈ 1, 2, . . .m seja

Xx = X1,j = x1,j , X2,j = x2,j , . . . , XN,j) = xN,j

em que para i ∈ 1, 2, . . . N se tem xi,j ∈ Xi(Ω). Tem-se entao que, ara j ∈ 1, 2, . . .m,

πj = E [Yj |Xx] = P [Yj = 1 |Xx] .

Por outro lado tem-se que dado que Yj _ B(πj),

V [Yj |Xx] = πj(1− πj) ,

tem-se a definicao seguinte.

Definicao 34 (Resıduos de Pearson). Sendo para cada j ∈ 1, 2, . . .m a probabi-lidade estimada dada por πj , tem-se que

rPj :=

yj − πj√πj(1− πj)

, (4.18)

sendo que um valor significativo de rPj sugere que o modelo falha no ajustamentoao dado de ordem j.

Observacao 51. Com o objectivo de garantir boas propriedades estatısticas usam-se osresıduos de Pearson estandardizados que notaremos rP-Est

j (veja-se [Lon97, p. 99]). Noentanto, na pratica, os valores de rP

j e rP-Estj sao frequentemente semelhantes.

Na figura 4.1 figuram os resıduos de Pearson para o exemplo pratico detalhado naseccao 4.6.2.

IME 89 19 de Setembro de 2016

Page 96: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

0 50 100 150 200 250 300

-20

24

Index

resi

dual

s(fit

, typ

e =

"pea

rson

")

-30 -20 -10 0 10

-4-2

02

4

Valores estimados

Res

íduo

s P

ears

on

Figura 4.1: Resıduos de Pearson e Resıduos de Pearson em funcao dos valores estimados

4.5.3 Resıduos do Desvio

Dado que a deviance D e uma soma de termos dj , j = 1, . . . ,m (veja-se, por exemplo atabela 4.2) cada termo pode ser interpretado como a contribuicao da observacao j paraa deviance total. Se definirmos

rdj :=√dj sinal(yj − πj) ,

temos uma forma de efectuar um diagnostico sobre a qualidade da parte linear do ajus-tamento.

Observacao 52. Note-se que com esta definicao,

D =m∑j=1

dj =m∑j=1

r2dj,

pelo que a deviance ”funciona”como uma soma de quadrados dos erros.

4.5.4 Distancia de Cook

Ver [Pru11, p. 357]

4.5.5 AIC – Akaike Information Criterion

Em [Gil00, p. 64] define-se o AIC como sendo,

AIC := −2 log(L(Y, A

))+ 2(N + 1)

IME 90 19 de Setembro de 2016

Page 97: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.6

em que L(Y, A

)e o valor da maxima verosimilhanca do modelo – o vector dos parametros

estimados e A e o vector das observacoes e Y – e N + 1 e o numero de parametros domodelo.

4.5.6 BIC – Bayesian Information Criterion

Em [Gil00, p. 65] define-se o BIC

BIC := −2 log(L(Y, A

))+ (N + 1) log (m)

em que L(Y, A

)e o valor da maxima verosimilhanca do modelo – o vector dos parametros

estimados e A e o vector das observacoes e Y – o numero de parametros do modelo eN + 1 e m e o numero de observacoes.

4.5.7 Teste de Wald

No contexto dos MLG efectuam-se o testes de Wald para verificar se os parametros esti-mados pelo metodo da maxima verosimilhanca (MMV) sao significativamente distintosde zero. Assim, seja α um dos coeficientes da regressao estimados pelo MMV. Dado queos estimadores de maxima verosimilhanca sao assimptoticamente normais teremos, nocaso da regressao logıstica em que a variancia dos estimadores e conhecida e, para umnumero de observacoes suficientemente grande, que:

α√V [α]

_ N(0, 1)

ouα2

V [α]_ χ2

1 ,

pelo que se pode testar a hipotese H0 : α = 0 contra H1 : α 6= 0 com um teste designificancia γ, rejeitando H0 se ∣∣∣∣∣ α√

V [α]

∣∣∣∣∣ > zγ/2 .

Veja-se a este proposito [Was13, p. 153].

4.6 O modelo Logit

Um dos principais exemplos de GLM e o seguinte 5. Suponhamos que se observa umapropriedade que um elemento de uma populacao pode ou nao ter; o modelo naturalpara esse fenomeno e uma variavel aleatoria Y _ B(π) com distribuicao binomial de

5Uma referencia muito completa sobre este modelo e [Col02].

IME 91 19 de Setembro de 2016

Page 98: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

parametro π em que consideramos que 1 representa o termos observado a propriedade e0 representa o nao termos observado a propriedade, convencionando-se que:

P [Y = 1] = π , P [Y = 0] = 1− π .

Suponhamos que se pretende quantificar a variacao de Y como funcao das variacoesde outras variaveis X1, X2, . . . , XN que supomos tambem observadas – ou, alternativa-mente, as quais podemos atribuir determinados valores – observando em seguida se, comesses valores, o elemento da populacao verifica — ou nao – a propriedade. Se procu-rararmos um modelo para a probabilidade de observar a propriedade e natural suporque, sendo B = (b1, b2, . . . , bN )t, se X1 = b1, X2 = b2, . . . , XN = bN se verifique paraα0, α1, . . . , αN ∈ R,

πB = α0 + α1b1 + α2b2 + · · ·αNbN . (4.19)

Este modelo nao e satisfatorio dado que, na formula (4.19), πA ∈ [0, 1] e tambem α0 +∑Ni=1 αiai ∈ R. Seja, entao h uma funcao estritamente monotona e regular tal que

h : [0, 1] 7→ R. O modelo dado pela formula (4.20) seguinte – em vez do modelo dadopelaa formula (4.19) – ja faz mais sentido.

h(πB) = α0 + α1b1 + α2b2 + · · ·αNbN . (4.20)

Uma escolha intuitiva para a funcao h e a funcao inversa da Logıstica dada por

h(π) = log

1− π

).

0.2 0.4 0.6 0.8 1.0x

0.2

0.4

0.6

0.8

1.0

1

ã5-10 x + 1

Funçã o Logística

0.2 0.4 0.6 0.8 1.0x

0.5

1.0

1.5

2.0

2.5

3.0

2 -

1

5log

x

1 - x

Inversa da Funçã o Logística

Figura 4.2: Exemplo de funcao logıstica h−1(x) = 1e−ax−b+1

e da sua inversa h(x) =log( x

1−x)b − a

b , para a = 10, b = −5.

Dado que a funcao h e invertıvel tem-se que

πB = h−1(α0 + α1b1 + · · ·αNbN ) =eα0+α1b1+···αN bN

1 + eα0+α1b1+···αN bN, (4.21)

ou seja, conseguimos recuperar πB como funcao nao linear dos parametros e dos factores.

IME 92 19 de Setembro de 2016

Page 99: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.6

Observacao 53 (Resıduos usuais nao aditivos). Suponhamos que A = (α0, α1, . . . , αN ) eum vector de parametros estimados. Em resultado da formula (4.20) e natural ter, paraum dado erro εB,

h(πB) = α0 + α1b1 + α2b2 + · · · αNbN + εB ,

donde resulta, a semelhnaca da formula (4.21),

πB = h−1(α0 + α1b1 + · · · αNbN + εB) =eα0+α1b1+···αN bN+εB

1 + eα0+α1b1+···αN bN+εB,

ou seja, os resıduos resultantes da estimacao dos parametros nao afectam πB de formaaditiva.

Definicao 35 (Modelo Logit). Se Y _ B(π), isto e se a variavel Y tiver distribuicaobinomial de parametro π e se a funcao de ligacao for a funcao h(x) = log (x/(1− x))temos um modelo Logit.

Observacao 54. Com o modelo binomial para a variavel Y ha outras funcoes de ligacaopara alem da funcao de ligacao Logit (veja-se, por exemplo, [MN89, p. 31]). Por exemploa funcao probit e a funcao complementar log–log.

4.6.1 Estimacao dos parametros no modelo Logit

Veja-se [Col02, p. 59–60].

4.6.2 Exemplo de aplicacao do modelo Logit com o R

Para efectuar um ajustamento de uma regressao logıstica o codigo R pode ser o seguinte.O comando para o ajustamento esta na linha 5. Os dados sao os resultantes da simulacaocom o Mathematica.

1 mydata ← read.csv("dada.csv", header=FALSE)

2 # Modelo Logit

3 # V8 resposta bin\’aria

4 # V1-V7 preditores

5 fit ← glm(V8∼V1+V2+V3+ V4+V5+V6+V7,data=mydata ,family=binomial ())

6 summary(fit) # resultados

7 confint(fit) # 95% intervalo de confian\cca para os coeficientes

8 exp(coef(fit)) # coeficientes exponenciados

9 exp(confint(fit)) # 95% intervalo de confiancca para os

coeficientes exponenciados

10 predict(fit , type="response") # valores previstos pelo modelo

11 residuals(fit , type="deviance") # res\’\iduos

Listing 4.1: Regressao Logıstica

Sendo que os primeiros resultados sao:

IME 93 19 de Setembro de 2016

Page 100: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

1 Call: glm(formula = V8 ∼ V1 + V2 + V3 + V4 + V5 + V6 + V7 , family

= binomial (), data = mydata)

2 Deviance Residuals:

3 Min 1Q Median 3Q Max

4 -2.25637 -0.17532 -0.01637 0.00563 2.39880

5 Coefficients:

6 Estimate Std. Error z value Pr(>|z|)

7 (Intercept) -60.456 1322 .922 -0.046 0.964

8 V1 -1.189 8.125 -0.146 0.884

9 V2 16.152 3.822 4.226 2.38e-05 ***

10 V3 28.869 1392 .520 0.021 0.983

11 V4 10.424 1.803 5.782 7.40e-09 ***

12 V5 16.721 3.151 5.307 1.12e-07 ***

13 V6 6.919 1.475 4.692 2.71e-06 ***

14 V7 18.350 4.420 4.152 3.30e-05 ***

15 ---

16 Signif. codes: 0 O~O*** 0.001 O~O** 0.01 O~O* 0.05 O~O. 0.1 O~O 1

17 (Dispersion parameter for binomial family taken to be 1)

18 Null deviance: 337 .40 on 299 degrees of freedom

19 Residual deviance: 115.54 on 292 degrees of freedom

20 AIC: 131 .54

21 Number of Fisher Scoring iterations: 17

Listing 4.2: Resultado da regressao Logıstica

Dos resultados acima pode concluir-se que os preditores V2, e V4 a V7 sao estatis-ticamente significativos. Note-se que os resultados a que nos referimos sao o z value e oPr(> |z|) para cada um dos preditores V1 a V7. O z value e o coefficiente da regressao(a coluna Estimate) dividido pelo standard error (a coluna Std. Error) – o desvio padraoda estimativa 6. O Pr(> |z|) da o valor p, o p-value do teste em que a hipotese nula eque o coefficiente da regressao e nulo; o z value e suposto ter distribuicao normal. Como teste de Wald, o efeito global dos termos V2 a V7 e estatisticamente significativo.

1 >wald.test(b = coef(fit ), Sigma = vcov(fit ), Terms = 2:7)

2 Chi-squared test: X2 = 51.3, df = 6, P(> X2) = 2.6e-09

Listing 4.3: Teste de Wald e resultado

1 >with(fit , null.deviance - deviance)

2 [1] 221 .8652

3 > with(fit , df.null - df.residual)

4 [1] 7

5 > with(fit , pchisq(null.deviance - deviance , df.null - df.residual

, lower.tail = FALSE))

6 [1] 2.651357e-44

7 > logLik(fit)

6Ver http://logisticregressionanalysis.com/1577-what-are-z-values-in-logistic-regression/

IME 94 19 de Setembro de 2016

Page 101: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.6

8 ’log Lik.’ -57.76795 (df=8)

Listing 4.4: Teste da Deviance com resultados

-30 -20 -10 0 10

-2-1

01

2

Predicted values

Residuals

glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)

Residuals vs Fitted

38270

128

-3 -2 -1 0 1 2 3

-2-1

01

2

Theoretical Quantiles

Std

. dev

ianc

e re

sid.

glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)

Normal Q-Q

38270

128

-30 -20 -10 0 10

0.0

0.5

1.0

1.5

Predicted values

Std. deviance resid.

glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)

Scale-Location

38270128

0.0 0.2 0.4 0.6 0.8

-4-2

02

4

Leverage

Std

. Pea

rson

resi

d.

glm(V8 ~ V1 + V2 + V3 + V4 + V5 + V6 + V7)

Cook's distance

10.5

0.51

Residuals vs Leverage

98

238

270

Figura 4.3: Graficos do ajustamento com as 7 variaveis

1 fit ← glm(V8∼V2+V4+V5+V6+V7,data=mydata ,family=binomial ()) #

ajustamento

2 summary(fit)

3 Call:

4 glm(formula = V8 ∼ V2 + V4 + V5 + V6 + V7 , family = binomial (),

5 data = mydata)

6

IME 95 19 de Setembro de 2016

Page 102: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

7 Deviance Residuals:

8 Min 1Q Median 3Q Max

9 -3.5402 -0.3366 -0.0590 0.0462 2.3515

10

11 Coefficients:

12 Estimate Std. Error z value Pr(>|z|)

13 (Intercept) -24.820 3.219 -7.712 1.24e-14 ***

14 V2 8.694 1.859 4.676 2.93e-06 ***

15 V4 9.061 1.580 5.736 9.70e-09 ***

16 V5 12.679 2.068 6.132 8.67e-10 ***

17 V6 6.352 1.326 4.790 1.67e-06 ***

18 V7 11.677 2.556 4.569 4.91e-06 ***

19 ---

20 Signif. codes: 0 O~O*** 0.001 O~O** 0.01 O~O* 0.05 O~O. 0.1 O~O 1

21

22 (Dispersion parameter for binomial family taken to be 1)

23

24 Null deviance: 337 .40 on 299 degrees of freedom

25 Residual deviance: 145.39 on 294 degrees of freedom

26 AIC: 157 .39

27

28 Number of Fisher Scoring iterations: 7

29 > wald.test(b = coef(fit ), Sigma = vcov(fit ), Terms = 1:5) #

Needs packages(aod)

30 Chi-squared test:

31 X2 = 64.5, df = 5, P(> X2) = 1.4e-12

Listing 4.5: Resultado da regressao Logıstica com 5 variaveis

4.6.3 Exemplo com o Mathematica

4.7 O modelo Probit

4.8 Exercıcios

As notas a margem assinalam a dificuldade dos exercıcios, graduada de [1] - aplicacoesimediatas dos conceitos introduzidos - ate [3] - exercıcios que podem requerer domıniode conceitos estudados noutras unidades curriculares.

Exercıcio 56 (Tipo exponencial: Bernoulli). Seja Y _ B(π), isto e, uma variavel de Bernoulli de [1]parametro π.

1. Mostre que:

fπY (k) = P [Y = k] = (1− π) exp

(k log

1− π

)),

e deduza que Y e de tipo exponencial.

2. Justifique que θ = log(π/(1− π)) e o parametro natural da distribuicao de Bernoulli.

3. Justifique que a funcao logit e a funcao de ligacao canonica correspondente.

IME 96 19 de Setembro de 2016

Page 103: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.8

-15 -10 -5 0 5

-4-3

-2-1

01

23

Predicted values

Residuals

glm(V8 ~ V2 + V4 + V5 + V6 + V7)

Residuals vs Fitted

118

191

38

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

Theoretical Quantiles

Std

. dev

ianc

e re

sid.

glm(V8 ~ V2 + V4 + V5 + V6 + V7)

Normal Q-Q

118

191

38

-15 -10 -5 0 5

0.0

0.5

1.0

1.5

Predicted values

Std. deviance resid.

glm(V8 ~ V2 + V4 + V5 + V6 + V7)

Scale-Location

118

191

38

0.0 0.1 0.2 0.3

-25

-20

-15

-10

-50

5

Leverage

Std

. Pea

rson

resi

d.

glm(V8 ~ V2 + V4 + V5 + V6 + V7)

Cook's distance

10.5

0.51

Residuals vs Leverage

98

118

191

Figura 4.4: Graficos do ajustamento com as variaveis 2,4,5,6,7

Exercıcio 57 (Tipo exponencial: Poisson). Seja Y _ P(λ), isto e, uma variavel de Poisson de [1]parametro λ.

1. Mostre que:

fλY (k) = P [Y = k] = exp (−λ)1

k!exp (k log(λ)) ,

e deduza que Y e de tipo exponencial.

2. Justifique que θ = log(λ) e o parametro natural da distribuicao de Poisson.

3. Justifique que a funcao log e a funcao de ligacao canonica correspondente.

IME 97 19 de Setembro de 2016

Page 104: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

Exercıcio 58 (Tipo exponencial: gama). Mostre que a distribuicao gama e de tipo exponencial. Indique[1]a respectiva representacao canonica, qual o parametro natural e a funcao de ligacao canonica.

Exercıcio 59 (Tipo exponencial: invariancia por estandardizacao). Seja X uma variavel aleatoria de [2]tipo exponencial. Seja r ∈ R, s > 0 e seja a variavel aleatoria (X − r)/s.

1. Determine a densidade de (X − r)/s exprimindo-a em funcao da densidade de X.

2. Mostre que (X − r)/s tambem de tipo exponencial apresentando a respectiva decomposicao dadensidade em funcao da decomposicao da densidade de X.

Exercıcio 60 (Uma demonstracao). Demonstre o teorema 22. [3]

Exercıcio 61 (Verosimilhanca nos modelos exponenciais). Seja Y uma variavel aleatoria de tipo expo- [1]nencial. Considere Y = (Y1, Y2, . . . , Ym) uma amostra de Y que tem como realizacao y1, y2, . . . , ym ∈Y (Ω). Seja θ ∈ Θ ⊆ Rd o parametro de Y .

1. De uma expressao para a verosimilhanca de Y para a amostra Y e para os dados y1, y2, . . . , ym.2. Defina o estimador de maxima verosimilhanca de θ, enunciando as propriedades suficientes sobre

a lei de Y e sobre Θ que garantem a existencia desse estimador.

3. Enuncie as propriedades do estimador de maxima verosimilhanca de θ que considera mais impor-tantes.

Exercıcio 62 (Deviance em modelos exponenciais). Confirme os resultados apresentados para a deviance [1]nos modelos que figuram na tabela 4.2.

4.9 Resolucoes

Resolucao:[Exercıcio 58] Consideremos X _ G e a densidade fα,βX desta distribuicaogama dada por:

fα,βX (x) =1

Γ(α)βαe−βxxα−1 .

Temos entao que:

log fα,βX (x) = −βx+ α log β + (α− 1) log x− log Γ(α)

=(β/α)x

(−1/α)− log (β/α)

(−1/α)+

[(α− 1) log x− log Γ(α) +

logα

(1/α)

].

Considerando

θ =β

α, b(θ) = log θ , φ = α , a(φ) = −1/α ,

e com

c(x, φ) = (α− 1) log x− log Γ(α) +logα

(1/α),

IME 98 19 de Setembro de 2016

Page 105: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.9

tem-se que

log fα,βX (x) =xθ − b(θ)a(φ)

+ c(x, φ) ,

tal como se pretendia. O parametro natural, de acordo com a definicao 32 e θ = β/α e,dado que E[X] = α/β, a funcao de ligacao canonica, de acordo com a definicao 4.11E etal que,

β

α= θ = h(E[X]) = h(α/β) ,

pelo que a funcao de ligacao canonica e tal que h(x) = 1/x, tal como se indicou natabela 4.2. ♦

Resolucao:[Exercıcio 59] Seja fX a densidade da variavel aleatoria X. Tem-se que:

P

[X − rs≤ x

]= [X ≤ sx+ r] =

∫ sx+r

−∞fX(u)du .

Com a mudanca de variavel u = sv + r (ou seja v = (u− r)/s) tem-se que:

P

[X − rs≤ x

]=

∫ x

−∞sfX(sv + r)dv ,

e, dado que g(x) := sfX(sx+ r) verifica, com a mudanca de variavel y = sx+ r (ou sejax = (y − r)/s,∫ +∞

−∞g(x)dx =

∫ +∞

−∞sfX(sx+ r)dx =

∫ +∞

−∞fX(y)dy = 1 ,

temos que g(x) e a densidade de (X − r)/s. Seja agora de acordo com a definicao ?? arepresentacao da densidade de X

fX(x) = fθ,φX (x) = exp

[xθ − b(θ)a(φ)

+ c(x, φ)

].

Tem-se entao que:

g(x) = sfθ,φX (sx+ r) = elog s exp

[(sx+ r)θ − b(θ)

a(φ)+ c(sx+ r, φ)

]=

= exp

[(xθ)/(1/s)− (1/s)(b(θ)− rθ)/(1/s)

a(φ)+ c(sx+ r, φ) + log s

]=

= exp

[xθ − (1/s)(b(θ)− rθ)

a(φ)(1/s)+ c(sx+ r, φ) + log s

],

o que mostra que, redefinindo φ de forma a incorporar s, com

b′(θ) =b(θ)− rθ

s, a′(φ′) =

a(φ)

se c′(x, φ′) = c(sx+ r, φ) + log s ,

IME 99 19 de Setembro de 2016

Page 106: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

se tem,

g(x) = exp

[xθ − b′(θ)a′(φ′)

+ c′(x, φ′)

],

o que mostra que (X − r)/s e de tipo exponencial. ♦

Resolucao:[Exercıcio 61: Binomial (veja-se [Col02, p. 66–67])] Seja Y _ B(M,π)uma variavel aleatoria Binomial. A log-verosimilhanca correspondente a m observacoese:

l = log

m∏j=1

(Mj

kj

)πkj (1− π)Mj−kj

=

=m∑j=1

[log

(Mj

kj

)+ kj log πj + (Mj − kj) log(1− πj)

].

No modelo saturado as probabilidades ajustadas serao correspondentes as proporcoesobservadas kj/Mj e temos que:

lSat =m∑j=1

[log

(Mj

kj

)+ kj log

(kjMj

)+ (Mj − kj) log

(1− kj

Mj

)]Em consequencia teremos que a deviance sera:

D = −2(

l− lSat

)=

= 2m∑j=1

[kj log

(kj/Mj

πj

)+ (Mj − kj) log

(1− (kj/Mj)

1− πj

)]

Note-se que se o numero de sucessos decorrentes da estimacao do modelo for kj = Mj πjem que πj e a probabilidade estimada no modelo tem-se que:

D = 2

m∑j=1

[kj log

(kj

kj

)+ (Mj − kj) log

(Mj − kjMj − kj

)]=

= 2m∑j=1

log

(kj

kj

)kj+ log

(Mj − kjMj − kj

)Mj−kj .

4.10 Comentarios sobre as referencias

Nesta seccao fazem-se breves comentarios as referencias indicadas com o fim de encorajara sua consulta.

IME 100 19 de Setembro de 2016

Page 107: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

CAPITULO 4. MODELOS LINEARES GENERALIZADOS Seccao: 4.10

• [HE06] Um texto que tambem auxilia a familiarizacao com as principais tecnicasestatısticas usando o software R.

• [Pru11] E um texto recente onde as principais tecnicas estatısticas podem ser ex-ploradas com o auxılio do software R.

• [Wil01] Um curso sobre Estatıstica por um eminente probabilista; um olhar crıticoe profundo sobre muitos conceitos.

• [MN89] E a obra dos autores que introduziram os princiapais conceitos estudadosneste capıtulo.

• [Agr07] Obra em que e dado mais enfase a discussao aprofundada das caracteısticasproprias de cada um dos muitos exemplos praticos apresentados ilustrando muitosproblemas aplicados e os modelos mais adequados.

• [Gil00] Apresentacao sucinta e bastante completa dos GLM, contendo alguns dosdetalhes tecnicos mais importantes.

• [jHLS13] A regressao logıstica e explicada sem grande detalhe tecnico mas pondoem evidencias as principais ideias e a forma de interpretar os resultados dasanalises.

• [Lon97] Obra completa com bastante detalhe tecnico e analises que permitem umamelhor compreensao das tecnicas e metodos apresentados.

• [TS00] Obra de referencia em lıngua Portuguesa onde se podem encontrar analisesrigorosas de variados exemplos praticos.

Bibliografia

[Agr07] A. Agresti. An Introduction to Categorical Data Analysis. Wiley Series inProbability and Statistics. Wiley, 2007.

[Col02] D. Collett. Modelling Binary Data, Second Edition. Chapman & Hall/CRCTexts in Statistical Science. Taylor & Francis, 2002.

[Gil00] J. Gill. Generalized Linear Models: A Unified Approach. Quantitative Applica-tions in the Social Sciences. SAGE Publications, 2000.

[HE06] T. Hothorn and B.S. Everitt. A Handbook of Statistical Analyses Using R. CRCPress, 2006.

[IM90] G.I. Ivchenko and Yu.I. Medvedev. Mathematical Statistics. Mir PublishersMoscow, 1990.

IME 101 19 de Setembro de 2016

Page 108: Infer^encia e Modela˘c~ao Estat stica - ferrari.dmat.fct ...ferrari.dmat.fct.unl.pt/personal/mle/DocInfModEst15/IME1617/Docs... · No terceiro cap tulo s~ao estudados os modelos

4 Capıtulo 4

[jHLS13] David W. jun. Hosmer, Stanley Lemeshow, and Rodney X. Sturdivant. Appliedlogistic regression. 3rd ed. Hoboken, NJ: John Wiley & Sons, 3rd ed. edition,2013.

[Lan69] S. Lang. Analysis II. Number v. 2 in Addison-Wesley series in mathematics.Addison-Wesley Pub. Co., 1969.

[Lin05] Yu. N. Lin’kov. Lectures in mathematical statistics. Parts 1 and 2. Translatedfrom the Russian original by Oleg Klesov and Vladimir Zayats. Providence, RI:American Mathematical Society (AMS), 2005.

[Lon97] J.Scott Long. Regression models for categorical and limited dependent variables.Thousand Oaks, CA: SAGE Publications, 1997.

[MN89] P. McCullagh and J.A. Nelder. Generalized Linear Models, Second Edition.Chapman & Hall/CRC Monographs on Statistics & Applied Probability. Taylor& Francis, 1989.

[Pru11] Randall Pruim. Foundations and Applications of Statistics: An IntroductionUsing R. Pure and Applied Undergraduate Texts. American MathematicalSociety, 2011.

[SS94] P.K. Sen and J.M. Singer. Large Sample Methods in Statistics: An Introductionwith Applications. Chapman & Hall/CRC Texts in Statistical Science. Taylor& Francis, 1994.

[TS00] Amaral Turkman and G.L. Silva. Modelos Lineares Generalizados - da teoria apratica. Edicoes SPE, Sociedade Portuguesa de Estatıstica, 2000.

[Was13] L. Wasserman. All of Statistics: A Concise Course in Statistical Inference.Springer Texts in Statistics. Springer New York, 2013.

[Wil01] David Williams. Weighing the Odds: A Course in Probability and Statistics.Cambridge University Press, 2001.

IME 102 19 de Setembro de 2016