Variavel aleat´ oria cont´ ´ınua · Exemplo 3. (Percentis) Um numero grande de alunos fazem...

Post on 14-Oct-2020

0 views 0 download

Transcript of Variavel aleat´ oria cont´ ´ınua · Exemplo 3. (Percentis) Um numero grande de alunos fazem...

Variavel aleatoria contınuaUma v.a. X e contınua se existe uma funcao fX : R→ [0,∞) t.q.

P(a ≤ X ≤ b) =

∫ b

afX (x)dx para todo a ≤ b com a, b ∈ R.

A funcao fX e chamada funcao densidade de probabilidade de X .

O suporte de X e o conjunto x ∈ R : fX (x) > 0.

Figure 1: (Bertsekas, D.P. e Tsitsikikilis, J.N. Introduction to probability,p.101.) Ilustacao de uma f.d.p. A probabilidade que X assuma valores nointervalo [a, b] e

∫ ba fX (x)dx, que e a regiao hachurada na figura.

A f.d.p. fX de uma v.a. X NAO e uma probabilidade:

podem existir valores x ∈ R para os quais fX (x) > 1.

Note que para x ∈ R e δ > 0 suficientemente pequeno,

P(x ≤ X ≤ x + δ) =

∫ x+δ

xfX (t)dt ≈ fX (x)δ.

Logo fX (x) pode ser interpretada como a “probabilidade porunidade de comprimento” proximo a x.

Figure 2: (Bertsekas, D.P. e Tsitsikikilis, J.N. Introduction to probability,p.101.) Interpretacao de uma f.d.p. fX (x) como “probabilidade porunidade de comprimento” ao redor de x.

Em particular: X e v.a. contınua⇒ P(X = x) = 0 para ∀x ∈ R.

Se X e uma v.a. contınua, entao a FDA FX de X e dada por

FX (x) = P(X ≤ x) =

∫ x

−∞

fX (t)dt , para todo x ∈ R.

O Teorema Fundamental do Calculo garante que

ddx

FX (x) = fX (x) para todo x ∈ R tal que fX e contınua.

Da definicao da FDA segue que para a, b ∈ R com a ≤ b ,

P(a < X ≤ b) = FX (b) − Fx(a) =

∫ b

afX (x)dx.

Note que para uma v.a. X contınua para a, b ∈ R com a ≤ b ,

P(a < X < b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a ≤ X ≤ b).

Em geral, para uma regiao qualquer A ⊆ R,

P(X ∈ A) =

∫A

fX (t)dt .

Teorema 1: A f.d.p fX de uma v.a. X contınua satisfaz:I fX (x) ≥ 0, para todo x ∈ R.I

∫ ∞−∞

fX (x)dx = 1.

Prova: Imediata da definicao.

O esperanca de uma v.a. X contınua com f.d.p fX e definido por

E(X) =

∫ ∞

−∞

xfX (x)dx.

Distribuicao uniforme em [a, b]

Uma v.a. X tem distribuicao Uniforme em [a, b] com a < bnumeros reais, se:

1. X assumi valores no intervalo [a, b].

2. A f.d.p. fX e dada por

fX (x) =

1b−a , se a ≤ x ≤ b

0, caso contrario.

Notacao: X ∼ Unif(a, b).

A FDA FX de uma v.a. X ∼ Unif(a, b) e dada por

FX (x) =

0, se x < ax−ab−a , se a ≤ x ≤ b

1, se x > b

.

Figure 3: (Blitzstein, J.K. e Hwang,J. Introduction to probability, p.202.)f.d.p. (esquerda) e FDA (direita) de uma variavels aleatoria comdistribuicao uniforme em [0, 1]

Se X ∼ Unif(a, b), entao E(X) = (b + a)/2. Quanto vale Var(X)?

Teorema 2: Se g : R→ R e X e v.a. contınua, entao

E(g(X)) =

∫ ∞

−∞

g(x)fX (x)dx.

Exemplo 1. Se X ∼ Unif(a, b), entao Var(X) = (b − a)2/12.

Solucao: Pelo Teorema 2,

E(X2) =

∫ b

ax2/(b − a)dx =

13

(b3 − a3)

(b − a)=

(a2 + ab + b2)

3,

de forma que

Var(X) = E(X2) − (E(X))2 =(a2 + ab + b2)

3−

(a + b

2

)2

= (b − a)2/12.

Se X ∼ Unif(a, b), entao E(X) = (b + a)/2. Quanto vale Var(X)?

Teorema 2: Se g : R→ R e X e v.a. contınua, entao

E(g(X)) =

∫ ∞

−∞

g(x)fX (x)dx.

Exemplo 1. Se X ∼ Unif(a, b), entao Var(X) = (b − a)2/12.

Solucao: Pelo Teorema 2,

E(X2) =

∫ b

ax2/(b − a)dx =

13

(b3 − a3)

(b − a)=

(a2 + ab + b2)

3,

de forma que

Var(X) = E(X2) − (E(X))2 =(a2 + ab + b2)

3−

(a + b

2

)2

= (b − a)2/12.

Exemplo 2. Se U ∼ Unif(0, 1) entao V = 1 − U ∼ Unif(0, 1). Defato, para todo 0 ≤ u ≤ 1, temos

P(1 − U ≤ u) = P(U ≥ 1 − u) = 1 − (1 − u) = u.

Alem disso, se U ∼ Unif(0, 1) entao V = a + (b − a)U ∼ Unif(a, b)para a < b reais. De fato, para todo 0 ≤ u ≤ 1, temos

P(a + (b − a)U ≤ u) = P(U ≤ (u − a)/(b − a)) = (u − a)/(b − a).

Exemplo 2. Se U ∼ Unif(0, 1) entao V = 1 − U ∼ Unif(0, 1). Defato, para todo 0 ≤ u ≤ 1, temos

P(1 − U ≤ u) = P(U ≥ 1 − u) = 1 − (1 − u) = u.

Alem disso, se U ∼ Unif(0, 1) entao V = a + (b − a)U ∼ Unif(a, b)para a < b reais. De fato, para todo 0 ≤ u ≤ 1, temos

P(a + (b − a)U ≤ u) = P(U ≤ (u − a)/(b − a)) = (u − a)/(b − a).

Universalidade da v.a. Unif(0, 1).

Se U ∼ Unif(0, 1), entao P(U ≤ u) = u para todo u ∈ [0, 1].

Teorema 3. Seja F uma FDA contınua e estritamente crescenteno suporte da distribuicao.

1. Seja U ∼ Unif(0, 1) e defina X = F−1(U). Entao X e uma v.a.com FDA F = FX .

2. Seja X uma v.a. com FDA FX = F e defina a v.a. U = F(X).Entao U ∼ Unif(0, 1).

Prova: 1. Sob as hipoteses do teorema, a funcao inversa F−1 deF esta bem definida. Como F e crescente, segue que

FX (x) = P(X ≤ x) = P(F−1(U) ≤ x) = P(U ≤ F(x)) = F(x).

2. Como F−1 e tambem uma funcao crescente, temos

P(U ≤ u) = P(F(X) ≤ u) = P(X ≤ F−1(u)) = F(F−1(u)) = u.

Universalidade da v.a. Unif(0, 1).

Se U ∼ Unif(0, 1), entao P(U ≤ u) = u para todo u ∈ [0, 1].

Teorema 3. Seja F uma FDA contınua e estritamente crescenteno suporte da distribuicao.

1. Seja U ∼ Unif(0, 1) e defina X = F−1(U). Entao X e uma v.a.com FDA F = FX .

2. Seja X uma v.a. com FDA FX = F e defina a v.a. U = F(X).Entao U ∼ Unif(0, 1).

Prova: 1. Sob as hipoteses do teorema, a funcao inversa F−1 deF esta bem definida. Como F e crescente, segue que

FX (x) = P(X ≤ x) = P(F−1(U) ≤ x) = P(U ≤ F(x)) = F(x).

2. Como F−1 e tambem uma funcao crescente, temos

P(U ≤ u) = P(F(X) ≤ u) = P(X ≤ F−1(u)) = F(F−1(u)) = u.

Universalidade da v.a. Unif(0, 1).

Se U ∼ Unif(0, 1), entao P(U ≤ u) = u para todo u ∈ [0, 1].

Teorema 3. Seja F uma FDA contınua e estritamente crescenteno suporte da distribuicao.

1. Seja U ∼ Unif(0, 1) e defina X = F−1(U). Entao X e uma v.a.com FDA F = FX .

2. Seja X uma v.a. com FDA FX = F e defina a v.a. U = F(X).Entao U ∼ Unif(0, 1).

Prova: 1. Sob as hipoteses do teorema, a funcao inversa F−1 deF esta bem definida. Como F e crescente, segue que

FX (x) = P(X ≤ x) = P(F−1(U) ≤ x) = P(U ≤ F(x)) = F(x).

2. Como F−1 e tambem uma funcao crescente, temos

P(U ≤ u) = P(F(X) ≤ u) = P(X ≤ F−1(u)) = F(F−1(u)) = u.

Exemplo 3. (Percentis) Um numero grande de alunos fazem umcerto exame de matematica. Suponha que a escala das notasvaria entre 0 e 100, e seja X a nota de um aluno escolhido aoacaso. Suponha tambem que X tenha uma distribuicao contınua,com FDA FX estritamente crescente em (0, 100).

Suponha que a nota mediana no exame e 60 (i.e., metade dosalunos tiraram uma nota acima de 60 e a outra metade abaixo de60). Em outras palavras,

F(60) = 1/2 ou equivalentemente F−1(1/2) = 60.

Se a note do Joao foi 72, entao o seu percentil e a fracao deestudantes cuja nota foram inferior a 72. Essa fracao e

1/2 < F(72) < 1.

De modo geral, se a nota de um aluno foi 0 < x < 100, entao opercentil desse aluno e F(x).

Assim F(X) e o percentil atingido por um aluno escolhido aoacaso e o Teorema 3 diz que F(X) ∼ Unif(0, 1)

Por outro lado, se o percentil e 0.95, entao F−1(0.95) e a nota quetem percentil 0.95. A funcao F−1 e chamada funcao quantil.

Exemplo 4. Considere a funcao F dada por

F(x) =

1 − e−x , para x > 0,

0, caso contrario.

a funcao F satisfaz as condicoes do Teorema 3. Nesse caso,

F−1(u) = − log(1 − u) para 0 < u < 1.

Assim, se U ∼ Unif(0, 1) entao X = F(U) − log(1 − U) e uma v.a.com FDA FX = F .

Simulando distribuicoes discretas a partir da Unif(0, 1)Sejam U ∼ Unif(0, 1) e X v.a. discreta com f.m.p. pj = P(X = j)com j = 0, 1, 2, . . . , n. Queremos simular X .

Defina os seguintes intervalos:

I0 = [0, p0) e Ij = [p0 + . . . + pj−1, p1 + . . . + pj),

para j = 1, . . . , n.

Figure 4: (Blitzstein, J.K. e Hwang,J. Introduction to probability, p.210.)particao do intervalo [0, 1] em funcao de uma dada f.m.p

Podemos construir X a partir da v.a. U da seguinte forma:

X = j ⇔ U ∈ Ij ,

isto e, definimos X = j se e somente se U pertence ao intervalo Ij .

Note queP(X = j) = P(U ∈ Ij) = pj ,

como desejado!

Distribuicao Normal padrao

Uma v.a. Z tem distribuicao Normal padrao, se:

1. Z assumi valores em R.

2. A f.d.p. fZ e dada por

fZ (z) =1√

2πe−z2/2, z ∈ R.

Notacao: Z ∼ N(0, 1).

Se Z ∼ N(0, 1), entao E(Z) = 0, pois fZ e simetrica em torno de 0:

fZ (z) = fZ (−z) para todo z ∈ R.

Notacao: Φ(z) = P(Z ≤ z) = 1√2π

∫ z−∞

e−x2/2dx para z ∈ R.

Note que Φ(z) = 1 − Φ(−z) (por simetria) para todo z ∈ R

Distribuicao Normal padrao

Uma v.a. Z tem distribuicao Normal padrao, se:

1. Z assumi valores em R.

2. A f.d.p. fZ e dada por

fZ (z) =1√

2πe−z2/2, z ∈ R.

Notacao: Z ∼ N(0, 1).

Se Z ∼ N(0, 1), entao E(Z) = 0, pois fZ e simetrica em torno de 0:

fZ (z) = fZ (−z) para todo z ∈ R.

Notacao: Φ(z) = P(Z ≤ z) = 1√2π

∫ z−∞

e−x2/2dx para z ∈ R.

Note que Φ(z) = 1 − Φ(−z) (por simetria) para todo z ∈ R

Distribuicao Normal padrao

Uma v.a. Z tem distribuicao Normal padrao, se:

1. Z assumi valores em R.

2. A f.d.p. fZ e dada por

fZ (z) =1√

2πe−z2/2, z ∈ R.

Notacao: Z ∼ N(0, 1).

Se Z ∼ N(0, 1), entao E(Z) = 0, pois fZ e simetrica em torno de 0:

fZ (z) = fZ (−z) para todo z ∈ R.

Notacao: Φ(z) = P(Z ≤ z) = 1√2π

∫ z−∞

e−x2/2dx para z ∈ R.

Note que Φ(z) = 1 − Φ(−z) (por simetria) para todo z ∈ R

Distribuicao Normal padrao

Uma v.a. Z tem distribuicao Normal padrao, se:

1. Z assumi valores em R.

2. A f.d.p. fZ e dada por

fZ (z) =1√

2πe−z2/2, z ∈ R.

Notacao: Z ∼ N(0, 1).

Se Z ∼ N(0, 1), entao E(Z) = 0, pois fZ e simetrica em torno de 0:

fZ (z) = fZ (−z) para todo z ∈ R.

Notacao: Φ(z) = P(Z ≤ z) = 1√2π

∫ z−∞

e−x2/2dx para z ∈ R.

Note que Φ(z) = 1 − Φ(−z) (por simetria) para todo z ∈ R

Figure 5: (Blitzstein, J.K. e Hwang,J. Introduction to probability, p.212.)f.d.p (esquerda) e FDA (direita) de uma v.a. normal padrao.

Se Z ∼ N(0, 1), entao Var(Z) = E(Z2) − (E(Z))2 = E(Z2).

Como

E(Z2) =1√

∫ ∞

−∞

z2e−z2/2dz

=2√

∫ ∞

0z2e−z2/2dz (z2e−z2/2e funcao par)

= 1 (integracao por partes).

Simetria de Z em torno de 0: Se Z ∼ N(0, 1), entao

P(Z ≤ −z) = P(Z ≥ z) para todo z ∈ R.

Se Z ∼ N(0, 1), entao Var(Z) = E(Z2) − (E(Z))2 = E(Z2).

Como

E(Z2) =1√

∫ ∞

−∞

z2e−z2/2dz

=2√

∫ ∞

0z2e−z2/2dz (z2e−z2/2e funcao par)

= 1 (integracao por partes).

Simetria de Z em torno de 0: Se Z ∼ N(0, 1), entao

P(Z ≤ −z) = P(Z ≥ z) para todo z ∈ R.

Distribuicao Normal(µ, σ2)

Seja Z ∼ N(0, 1). Para parametros µ ∈ R e σ2 ≥ 0, se

X = µ + σZ (transformacao afim),

entao X e uma v.a. Normal de media µ e variancia σ2.

Notacao: X ∼ N(µ, σ2).

Note que pela linearidade da integral:

E(X) = E(µ + σZ) = µ + σE(Z) = µ,

pois E(Z) = 0.

Pelas propriedades da variancia: Var(X) = Var(σZ + µ) = σ2,pois Var(Z) = 1.

Se X ∼ N(µ, σ2), entao a padronizacao de X e v.a. definida por

X − µσ∼ N(0, 1).

Teorema 4. (fdp e fda da Normal(µ, σ2)) Seja X ∼ N(µ, σ2). Seϕ(z) e Φ(z) denotam as funcoes de densidade de probabilidade ede distribuicao acumulada de uma distribuicao normal padrao,entao para todo x ∈ R FX (x) = Φ( x−µ

σ )

fX (x) = 1σϕ( x−µ

σ ).

Explicitamente, todo x ∈ R,

fX (x) =1√

2πσe−(x−µ)2/2σ2

.

Prova do Teorema 4. Como X = µ + σZ com Z ∼ N(0, 1), temosque X ≤ x = Z ≤ (x − µ)/σ de modo que FX (x) = Φ( x−µ

σ ).Tomando a derivada:

fX (x) =dFX (x)

dx=

dΦ((x − µ)/σ)

dx=

1σϕ(

x − µσ

).

Exemplo 5: Seja X ∼ N(µ, σ2). Encontre a f.d.p de −X .

Solucao: Como X = µ + σZ com Z ∼ N(0, 1), entao

−X = −µ + σ(−Z) ∼ N(−µ, σ2)⇒ f−X (x) =1√

2πσe−

(x+µ)2

2σ2

Teorema 5. (Regra do 68 − 95 − 99.7%) Se X ∼ N(µ, σ2), entao

P(|X − µ| < σ) ≈ 0.68

P(|X − µ| < 2σ) ≈ 0.95

P(|X − µ| < 3σ) ≈ 0.997

Exemplo 5. Seja X ∼ N(−1, 4). Determine o valor exato deP(|X | < 3) em termos de Φ e forneca uma aproximacao dessevalor usando o Teorema 5.

solucao. Ora, P(|X | < 3) = P(−1 < Z < 2) = Φ(2) − Φ(1). Alemdisso, do Teorema 5 sabemos

P(−1 < Z < 1) ≈ 0.68 e P(−2 < Z < 2) ≈ 0.95.

Da simetria em torno da origem segue que P(1 < Z < 2) = 0.135,de modo que P(|X | < 3) ≈ 0.68 + 0.135 = 0.815.

Teorema 5. (Regra do 68 − 95 − 99.7%) Se X ∼ N(µ, σ2), entao

P(|X − µ| < σ) ≈ 0.68

P(|X − µ| < 2σ) ≈ 0.95

P(|X − µ| < 3σ) ≈ 0.997

Exemplo 5. Seja X ∼ N(−1, 4). Determine o valor exato deP(|X | < 3) em termos de Φ e forneca uma aproximacao dessevalor usando o Teorema 5.

solucao. Ora, P(|X | < 3) = P(−1 < Z < 2) = Φ(2) − Φ(1). Alemdisso, do Teorema 5 sabemos

P(−1 < Z < 1) ≈ 0.68 e P(−2 < Z < 2) ≈ 0.95.

Da simetria em torno da origem segue que P(1 < Z < 2) = 0.135,de modo que P(|X | < 3) ≈ 0.68 + 0.135 = 0.815.

Teorema 5. (Regra do 68 − 95 − 99.7%) Se X ∼ N(µ, σ2), entao

P(|X − µ| < σ) ≈ 0.68

P(|X − µ| < 2σ) ≈ 0.95

P(|X − µ| < 3σ) ≈ 0.997

Exemplo 5. Seja X ∼ N(−1, 4). Determine o valor exato deP(|X | < 3) em termos de Φ e forneca uma aproximacao dessevalor usando o Teorema 5.

solucao. Ora, P(|X | < 3) = P(−1 < Z < 2) = Φ(2) − Φ(1). Alemdisso, do Teorema 5 sabemos

P(−1 < Z < 1) ≈ 0.68 e P(−2 < Z < 2) ≈ 0.95.

Da simetria em torno da origem segue que P(1 < Z < 2) = 0.135,de modo que P(|X | < 3) ≈ 0.68 + 0.135 = 0.815.

Distribuicao Exponencial

Uma v.a. X tem distribuicao Exponencial de parametro λ > 0, se:

1. X assumi valores em (0,∞).

2. A f.d.p. fX e dada por

fX (z) =

λe−λx , se x > 0

0, caso contrario.

Notacao: X ∼ Exp(λ).

Se X ∼ Exp(λ), entao

FX (x) =

1 − e−λx para x > 0

0, para x ≤ 0.

Figure 6: (Blitzstein, J.K. e Hwang,J. Introduction to probability, p.218.)f.d.p (esquerda) e FDA (direita) de uma v.a. exponencial

Exemplo 6: Mostre que se X ∼ Exp(λ), entao Y = λX ∼ Exp(1).

Solucao: E facil verificar que

FY (y) =

1 − e−y , para y > 0

0, caso contrario.

Portanto, vemos que

fY (y) =ddy

(FY (y)) =

e−y , para y > 0

0, caso contrario⇒ Y ∼ Exp(1).

Exemplo 7: Se X ∼ Exp(1), entao E(X) = 1 e Var(X) = 1.

Solucao: Integracao por partes.

Exemplo 8. Se X ∼ Exp(λ), entao E(X) = 1/λ e Var(X) = 1/λ2.

Solucao: Basta observar que X = Y/λ com Y ∼ Exp(1) a aplicaras propriedades da esperanca e variancia.

Teorema 6. Se X ∼ Exp(λ), entao X tem a Propriedade de Perdade Memoria, isto e, para todos s, t ≥ 0 temos

P(X > t + s|X > s) = P(X ≥ t).

Prova. Basta observar que P(X > x) = e−λx para todo x > 0 eusar a definicao de probabilidade condicional.

Exemplo 9. X ∼ Exp(λ)⇒ E(X |X > s) = s + 1/λ, para s ≥ 0.

Solucao. Escreva X = s + (X − s) e note que (X − s) ∼ Exp(λ)dado que X > s pela propriedade de Perda de Memoria.

Teorema 7. Se X e uma v.a. contınua positiva com a propriedadede perda de Memoria, entao X e uma v.a. exponencial.

Prova. Defina G(x) = P(X > x) = 1 − FX (x), observe que G econtınua e aplique a propriedade de perda de memoria para verque

G(tx) = Gx(t) para todo x, t ≥ 0.

O resultado segue ao tomar t = 1.

Exemplo 10. Fred vive na cidade Felisopolis, onde os onibussempre chegam no horario exato, com o tempo de 10 minutosentre sucessivos onibus. Suponha que ele chega na parada deonibus em um horario uniformemente distribuıdo em um certo dia(assuma que os onibus operam 24h por dia, todos os dias, e que oinstante que o Fred chega e independente do processo dechegada dos onibus.)

1. Qual e a distribuicao do tempo que Fred tem que esperarpara o proximo onibus? Qual o tempo medio que Fred temque esperar?

2. Dado que o onibus ainda nao chegou apos 6 minutos, qual aprobabilidade que Fred tera que esperar pelo menos 3minutos a mais?

3. Suponha que Fred se muda para uma outra cidade, onde otempo entre as chegadas sucessivas dos onibus tenha umadistribuicao exponencial de media 10 minutos. Nesse caso,qual e a distribuicao do tempo que Fred tem que esperar parao proximo onibus? Qual o tempo medio dessa distribuicao?

Solucao.

1. A distribuicao e Uniforme em [0, 10], de forma que a media e5 minutos.

2. Seja T o tempo de espera. Entao

P(T ≥ 6 + 3|T > 6) =P(T ≥ 9)

P(T > 6)=

1/104/10

=14.

3. Pela perda de memoria, a distribuicao e exponencial demedia 10.

Relacao entre exponencial e Poisson

Um processo de chegadas a tempo contınuo e chamado deProcesso de Poisson com taxa λ > 0 se:

1. O numero de chegadas que ocorrem em um intervalo decomprimento t e uma v.a. Poisson de taxa λt .

2. O numero de chegadas que ocorrem em intervalos disjuntossao independentes um do outro.

Figure 7: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.223.)Processo de Poisson. Cada marca X indica a ocorrencia de umachegada.

I Em um processo de Poisson, denote por Nt o numero dechegadas no intervalo [0, t]. Temos que Nt ∼ Poi(λt).

I Seja T1 o tempo da primeira chegada. Qual e a distribuicaode T1? Para cada t > 0, observe que

P(T1 > t) = P(Nt = 0) = e−λt ,

de modo que FT1(t) = 1 − e−λt e portanto T1 ∼ Exp(λ).

I Qual a distribuicao de T2 − T1, o tempo entre a primeira esegunda chegadas? Como o numero de chegadas emintervalos disjuntos sao independentes, T2 − T1 eindependente de T1. Alem disso, usando o mesmoargumento acima, podemos deduzir que T2 − T1 ∼ Exp(λ).

I De modo similar, T3 − T2 ∼ Exp(λ), independentemente deT2 − T1 e T1.

I Em um processo de Poisson, denote por Nt o numero dechegadas no intervalo [0, t]. Temos que Nt ∼ Poi(λt).

I Seja T1 o tempo da primeira chegada. Qual e a distribuicaode T1?

Para cada t > 0, observe que

P(T1 > t) = P(Nt = 0) = e−λt ,

de modo que FT1(t) = 1 − e−λt e portanto T1 ∼ Exp(λ).

I Qual a distribuicao de T2 − T1, o tempo entre a primeira esegunda chegadas? Como o numero de chegadas emintervalos disjuntos sao independentes, T2 − T1 eindependente de T1. Alem disso, usando o mesmoargumento acima, podemos deduzir que T2 − T1 ∼ Exp(λ).

I De modo similar, T3 − T2 ∼ Exp(λ), independentemente deT2 − T1 e T1.

I Em um processo de Poisson, denote por Nt o numero dechegadas no intervalo [0, t]. Temos que Nt ∼ Poi(λt).

I Seja T1 o tempo da primeira chegada. Qual e a distribuicaode T1? Para cada t > 0, observe que

P(T1 > t) = P(Nt = 0) = e−λt ,

de modo que FT1(t) = 1 − e−λt e

portanto T1 ∼ Exp(λ).

I Qual a distribuicao de T2 − T1, o tempo entre a primeira esegunda chegadas? Como o numero de chegadas emintervalos disjuntos sao independentes, T2 − T1 eindependente de T1. Alem disso, usando o mesmoargumento acima, podemos deduzir que T2 − T1 ∼ Exp(λ).

I De modo similar, T3 − T2 ∼ Exp(λ), independentemente deT2 − T1 e T1.

I Em um processo de Poisson, denote por Nt o numero dechegadas no intervalo [0, t]. Temos que Nt ∼ Poi(λt).

I Seja T1 o tempo da primeira chegada. Qual e a distribuicaode T1? Para cada t > 0, observe que

P(T1 > t) = P(Nt = 0) = e−λt ,

de modo que FT1(t) = 1 − e−λt e portanto T1 ∼ Exp(λ).

I Qual a distribuicao de T2 − T1, o tempo entre a primeira esegunda chegadas? Como o numero de chegadas emintervalos disjuntos sao independentes, T2 − T1 eindependente de T1. Alem disso, usando o mesmoargumento acima, podemos deduzir que T2 − T1 ∼ Exp(λ).

I De modo similar, T3 − T2 ∼ Exp(λ), independentemente deT2 − T1 e T1.

I Em um processo de Poisson, denote por Nt o numero dechegadas no intervalo [0, t]. Temos que Nt ∼ Poi(λt).

I Seja T1 o tempo da primeira chegada. Qual e a distribuicaode T1? Para cada t > 0, observe que

P(T1 > t) = P(Nt = 0) = e−λt ,

de modo que FT1(t) = 1 − e−λt e portanto T1 ∼ Exp(λ).

I Qual a distribuicao de T2 − T1, o tempo entre a primeira esegunda chegadas?

Como o numero de chegadas emintervalos disjuntos sao independentes, T2 − T1 eindependente de T1. Alem disso, usando o mesmoargumento acima, podemos deduzir que T2 − T1 ∼ Exp(λ).

I De modo similar, T3 − T2 ∼ Exp(λ), independentemente deT2 − T1 e T1.

I Em um processo de Poisson, denote por Nt o numero dechegadas no intervalo [0, t]. Temos que Nt ∼ Poi(λt).

I Seja T1 o tempo da primeira chegada. Qual e a distribuicaode T1? Para cada t > 0, observe que

P(T1 > t) = P(Nt = 0) = e−λt ,

de modo que FT1(t) = 1 − e−λt e portanto T1 ∼ Exp(λ).

I Qual a distribuicao de T2 − T1, o tempo entre a primeira esegunda chegadas? Como o numero de chegadas emintervalos disjuntos sao independentes, T2 − T1 eindependente de T1. Alem disso, usando o mesmoargumento acima, podemos deduzir que T2 − T1 ∼ Exp(λ).

I De modo similar, T3 − T2 ∼ Exp(λ), independentemente deT2 − T1 e T1.

I Em um processo de Poisson, denote por Nt o numero dechegadas no intervalo [0, t]. Temos que Nt ∼ Poi(λt).

I Seja T1 o tempo da primeira chegada. Qual e a distribuicaode T1? Para cada t > 0, observe que

P(T1 > t) = P(Nt = 0) = e−λt ,

de modo que FT1(t) = 1 − e−λt e portanto T1 ∼ Exp(λ).

I Qual a distribuicao de T2 − T1, o tempo entre a primeira esegunda chegadas? Como o numero de chegadas emintervalos disjuntos sao independentes, T2 − T1 eindependente de T1. Alem disso, usando o mesmoargumento acima, podemos deduzir que T2 − T1 ∼ Exp(λ).

I De modo similar, T3 − T2 ∼ Exp(λ), independentemente deT2 − T1 e T1.

I De modo geral, o tempo entre duas chegadas sucessivas euma v.a. exponencial de parametro λ, independentementedos tempos entre as chegadas anteriores.

I Conclusao: em um Processo de Poisson de taxa λ > 0,I o numero de chegadas em um intervalo de comprimento t e

Poi(tλ), eI os tempos entre chegadas sao Exp(λ) independentes.

I Assim, o Processo de Poisson relaciona as v.a.s Poisson(discreta) com as exponenciais (contınua).

Exemplo 11. (Mınimo de exponenciais independentes) SejamX1, . . . ,Xn v.a.s independentes com Xj ∼ Exp(λj) e denoteL = minX1, . . . ,Xn. Mostre que L ∼ Exp(λ1 + . . . + λn).

Solucao. Para todo t > 0,

P(L > t) = P(X1 > t , . . . ,Xn > t)

= P(X1 > t) . . . P(Xn > t) = e−t(λ1+...+λn)

Exemplo 11. (Mınimo de exponenciais independentes) SejamX1, . . . ,Xn v.a.s independentes com Xj ∼ Exp(λj) e denoteL = minX1, . . . ,Xn. Mostre que L ∼ Exp(λ1 + . . . + λn).

Solucao. Para todo t > 0,

P(L > t) = P(X1 > t , . . . ,Xn > t)

= P(X1 > t) . . . P(Xn > t) = e−t(λ1+...+λn)

Simetria de v.a.s contınuas i.i.d

Proposicao 1. Sejam X1, . . . ,Xn v.a.s contınuas i.i.d. EntaoP(Xa1 < . . . < Xan ) = 1/n! para toda permutacao a1, . . . , an de1, . . . , n.

Prova. Pela simetria todos os ordenamentos de X1, . . . ,Xn saoequiprovaveis. Note que

P(∪i,jXi = Xj) ≤∑i,j

P(Xi = Xj) = 0.

Logo, X1, . . . ,Xn sao todos distintos com probabilidade 1, e aprobabilidade de um ordenamento particular e 1/n!.

Exemplo 12. Em uma competicao de salto em altura, seja Xj otamanho do salto do j-esimo saltador, onde X1,X2, . . . sao v.a.scontınuas i.i.d. Dizemos que o j-esimo saltador estabelece umrecorde se Xj e maior do que Xj−1, . . . ,X1.

1. O evento “ o centesimo decimo saltador estabelece umrecorde ” e independente do evento “ o centesimo decimoprimeiro saltador estabelece um recorde ”?

2. Determine o numero medio de recordes entre os n primeirossaltadores. O que acontece com esse valor quando n → ∞?

3. Um recorde duplo ocorre no instante j se ambos o j-esimo e o(j-1)-esimo saltadores estabelecem um recorde. Encontre onumero medio de recordes duplos entre os n primeirossaltadores. O que acontece com esse valor quando n → ∞?

Exemplo 12. Em uma competicao de salto em altura, seja Xj otamanho do salto do j-esimo saltador, onde X1,X2, . . . sao v.a.scontınuas i.i.d. Dizemos que o j-esimo saltador estabelece umrecorde se Xj e maior do que Xj−1, . . . ,X1.

1. O evento “ o centesimo decimo saltador estabelece umrecorde ” e independente do evento “ o centesimo decimoprimeiro saltador estabelece um recorde ”?

2. Determine o numero medio de recordes entre os n primeirossaltadores. O que acontece com esse valor quando n → ∞?

3. Um recorde duplo ocorre no instante j se ambos o j-esimo e o(j-1)-esimo saltadores estabelecem um recorde. Encontre onumero medio de recordes duplos entre os n primeirossaltadores. O que acontece com esse valor quando n → ∞?

Exemplo 12. Em uma competicao de salto em altura, seja Xj otamanho do salto do j-esimo saltador, onde X1,X2, . . . sao v.a.scontınuas i.i.d. Dizemos que o j-esimo saltador estabelece umrecorde se Xj e maior do que Xj−1, . . . ,X1.

1. O evento “ o centesimo decimo saltador estabelece umrecorde ” e independente do evento “ o centesimo decimoprimeiro saltador estabelece um recorde ”?

2. Determine o numero medio de recordes entre os n primeirossaltadores. O que acontece com esse valor quando n → ∞?

3. Um recorde duplo ocorre no instante j se ambos o j-esimo e o(j-1)-esimo saltadores estabelecem um recorde. Encontre onumero medio de recordes duplos entre os n primeirossaltadores. O que acontece com esse valor quando n → ∞?

Solucao.1. Seja Ij o indicador de que o j-esimo saltador estabeleceu um

recorde. Da Proposicao 1 temos que P(Ij = 1) = 1/j. Alemdisso,

P(I110 = 1, I111 = 1) =109!

111!

=1

(100)(111)= P(I110 = 1)P(I110 = 1),

mostrando que os eventos sao independetes.2. Pela linearidade, o numero medio de recordes entre os n

primeiros saltadores e∑n

j=11j , que vai para infinito quando

n → ∞.3. Seja Jj o indicador de que no instante j ocorreu um recorde

duplo, com 2 ≤ j. Temos que P(Jj = 1) = 1j(j−1)

de forma queo numero medio de recordes duplos e

n∑j=1

1j(j − 1)

=n∑

j=1

1j − 1

−1j

= 1 − 1/n → 1 quando n → ∞.

Outros resumos de uma distribuicao

A media de uma v.a. e uma medida de centralidade. A mediana ea moda sao outras medidas de centralidade comumente usadas.

Dizemos que c ∈ R e uma mediana da v.a. X se

P(X ≤ c) ≥12

e P(X ≥ c) ≥12.

Dizemos que c ∈ R e uma moda da v.a. X discreta se

c = argmaxx∈ΩXpX (x).

Dizemos que c ∈ R e uma moda da v.a. X contınua se

c = argmaxx∈RfX (x).

Outros resumos de uma distribuicao

A media de uma v.a. e uma medida de centralidade. A mediana ea moda sao outras medidas de centralidade comumente usadas.

Dizemos que c ∈ R e uma mediana da v.a. X se

P(X ≤ c) ≥12

e P(X ≥ c) ≥12.

Dizemos que c ∈ R e uma moda da v.a. X discreta se

c = argmaxx∈ΩXpX (x).

Dizemos que c ∈ R e uma moda da v.a. X contınua se

c = argmaxx∈RfX (x).

Outros resumos de uma distribuicao

A media de uma v.a. e uma medida de centralidade. A mediana ea moda sao outras medidas de centralidade comumente usadas.

Dizemos que c ∈ R e uma mediana da v.a. X se

P(X ≤ c) ≥12

e P(X ≥ c) ≥12.

Dizemos que c ∈ R e uma moda da v.a. X discreta se

c = argmaxx∈ΩXpX (x).

Dizemos que c ∈ R e uma moda da v.a. X contınua se

c = argmaxx∈RfX (x).

Outros resumos de uma distribuicao

A media de uma v.a. e uma medida de centralidade. A mediana ea moda sao outras medidas de centralidade comumente usadas.

Dizemos que c ∈ R e uma mediana da v.a. X se

P(X ≤ c) ≥12

e P(X ≥ c) ≥12.

Dizemos que c ∈ R e uma moda da v.a. X discreta se

c = argmaxx∈ΩXpX (x).

Dizemos que c ∈ R e uma moda da v.a. X contınua se

c = argmaxx∈RfX (x).

Figure 8: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.244.)Uma distribuicao com duas modas (−3 e 3) e um numero infinito demedianas (todos os valores no intervalo [−1, 1])

Suponha que X e uma v.a. nao observada cujo valor queremosadvinhar, ao fazer uma previsao c.

A media e mediana sao candidatos naturais para c.

Qual dessesvalores e o “melhor”?

Teorema 8. Seja X uma v.a. com media µ, e seja m uma medianade X .

1. O valor de c que minimiza o erro quadratico medio E(X − c)2

e c = µ.

2. O valor de c que minimiza o erro absoluto medio E|X − c | ec = m.

Suponha que X e uma v.a. nao observada cujo valor queremosadvinhar, ao fazer uma previsao c.

A media e mediana sao candidatos naturais para c. Qual dessesvalores e o “melhor”?

Teorema 8. Seja X uma v.a. com media µ, e seja m uma medianade X .

1. O valor de c que minimiza o erro quadratico medio E(X − c)2

e c = µ.

2. O valor de c que minimiza o erro absoluto medio E|X − c | ec = m.

Suponha que X e uma v.a. nao observada cujo valor queremosadvinhar, ao fazer uma previsao c.

A media e mediana sao candidatos naturais para c. Qual dessesvalores e o “melhor”?

Teorema 8. Seja X uma v.a. com media µ, e seja m uma medianade X .

1. O valor de c que minimiza o erro quadratico medio E(X − c)2

e c = µ.

2. O valor de c que minimiza o erro absoluto medio E|X − c | ec = m.

Prova do Teorema 8.

1. Basta observar que E(X − c)2 = Var(X) + (µ − c)2 ≥ Var(X).

2. Verifique que para todo a < m,

E (|X − a | − |X −m|) ≥ (a −m)(2P(X ≤ m) − 1).

Como 2P(X ≤ m) − 1 ≥ 0, o resultado segue.

Prova do Teorema 8.

1. Basta observar que E(X − c)2 = Var(X) + (µ − c)2 ≥ Var(X).

2. Verifique que para todo a < m,

E (|X − a | − |X −m|) ≥ (a −m)(2P(X ≤ m) − 1).

Como 2P(X ≤ m) − 1 ≥ 0, o resultado segue.

Momentos de uma v.a. X

Seja X uma v.a. com media µ e variancia σ2.

O n-esimo momento de X e E(Xn).

O n-esimo momento central de X e E((X − µ)n).

O n-esimo momento padronizado de X e E(( X−µσ )n).

A assimetria da v.a. X e dado pelo seu terceiro momentopadronizado:

A(X) = E

(X − µσ

)3 .Como interpretar A(X)?

Momentos de uma v.a. X

Seja X uma v.a. com media µ e variancia σ2.

O n-esimo momento de X e E(Xn).

O n-esimo momento central de X e E((X − µ)n).

O n-esimo momento padronizado de X e E(( X−µσ )n).

A assimetria da v.a. X e dado pelo seu terceiro momentopadronizado:

A(X) = E

(X − µσ

)3 .Como interpretar A(X)?

Momentos de uma v.a. X

Seja X uma v.a. com media µ e variancia σ2.

O n-esimo momento de X e E(Xn).

O n-esimo momento central de X e E((X − µ)n).

O n-esimo momento padronizado de X e E(( X−µσ )n).

A assimetria da v.a. X e dado pelo seu terceiro momentopadronizado:

A(X) = E

(X − µσ

)3 .Como interpretar A(X)?

Momentos de uma v.a. X

Seja X uma v.a. com media µ e variancia σ2.

O n-esimo momento de X e E(Xn).

O n-esimo momento central de X e E((X − µ)n).

O n-esimo momento padronizado de X e E(( X−µσ )n).

A assimetria da v.a. X e dado pelo seu terceiro momentopadronizado:

A(X) = E

(X − µσ

)3 .Como interpretar A(X)?

Momentos de uma v.a. X

Seja X uma v.a. com media µ e variancia σ2.

O n-esimo momento de X e E(Xn).

O n-esimo momento central de X e E((X − µ)n).

O n-esimo momento padronizado de X e E(( X−µσ )n).

A assimetria da v.a. X e dado pelo seu terceiro momentopadronizado:

A(X) = E

(X − µσ

)3 .Como interpretar A(X)?

Dizemos que uma v.a. X tem distribuicao simetrica em torno de µse X − µ e µ − X tem a mesma distribuicao.

O valor µ na definicao acima e necessariamente E(X), caso amedia seja finita.

O valor µ e tambem a mediana de X . De fato, seX − µ e µ − X tem a mesma distribuicao entao

P(X ≤ µ) = P(X ≥ µ),

o que implica que

P(X ≤ µ) = 1 − P(X > µ) ≤ 1 − P(X ≥ 2) = 1 − P(X ≤ µ),

mostrando que P(X ≤ µ) ≥ 1/2.

Dizemos que uma v.a. X tem distribuicao simetrica em torno de µse X − µ e µ − X tem a mesma distribuicao.

O valor µ na definicao acima e necessariamente E(X), caso amedia seja finita. O valor µ e tambem a mediana de X .

De fato, seX − µ e µ − X tem a mesma distribuicao entao

P(X ≤ µ) = P(X ≥ µ),

o que implica que

P(X ≤ µ) = 1 − P(X > µ) ≤ 1 − P(X ≥ 2) = 1 − P(X ≤ µ),

mostrando que P(X ≤ µ) ≥ 1/2.

Dizemos que uma v.a. X tem distribuicao simetrica em torno de µse X − µ e µ − X tem a mesma distribuicao.

O valor µ na definicao acima e necessariamente E(X), caso amedia seja finita. O valor µ e tambem a mediana de X . De fato, seX − µ e µ − X tem a mesma distribuicao entao

P(X ≤ µ) = P(X ≥ µ),

o que implica que

P(X ≤ µ) = 1 − P(X > µ) ≤ 1 − P(X ≥ 2) = 1 − P(X ≤ µ),

mostrando que P(X ≤ µ) ≥ 1/2.

Dizemos que uma v.a. X tem distribuicao simetrica em torno de µse X − µ e µ − X tem a mesma distribuicao.

O valor µ na definicao acima e necessariamente E(X), caso amedia seja finita. O valor µ e tambem a mediana de X . De fato, seX − µ e µ − X tem a mesma distribuicao entao

P(X ≤ µ) = P(X ≥ µ),

o que implica que

P(X ≤ µ) = 1 − P(X > µ) ≤ 1 − P(X ≥ 2) = 1 − P(X ≤ µ),

mostrando que P(X ≤ µ) ≥ 1/2.

Dizemos que uma v.a. X tem distribuicao simetrica em torno de µse X − µ e µ − X tem a mesma distribuicao.

O valor µ na definicao acima e necessariamente E(X), caso amedia seja finita. O valor µ e tambem a mediana de X . De fato, seX − µ e µ − X tem a mesma distribuicao entao

P(X ≤ µ) = P(X ≥ µ),

o que implica que

P(X ≤ µ) = 1 − P(X > µ) ≤ 1 − P(X ≥ 2) = 1 − P(X ≤ µ),

mostrando que P(X ≤ µ) ≥ 1/2.

Proposicao 1. Seja X uma v.a. simetrica em torno da sua mediaµ. Entao para todo inteiro ımpar m, o m-esimo momento centralE(X − µ)m e 0, caso ele exista.

Prova. Pela simetria X − µ e µ − X tem a mesma distribuicao e emparticular os mesmos momentos (caso eles existam):

E(X − µ)m = E(µ − X)m.

Denote Y = (X − µ)m. Observando que (µ − X)m = −Y , temos daequacao acima que E(Y) = −E(Y). Logo E(Y) = 0.

Proposicao 1. Seja X uma v.a. simetrica em torno da sua mediaµ. Entao para todo inteiro ımpar m, o m-esimo momento centralE(X − µ)m e 0, caso ele exista.

Prova. Pela simetria X − µ e µ − X tem a mesma distribuicao e emparticular os mesmos momentos (caso eles existam):

E(X − µ)m = E(µ − X)m.

Denote Y = (X − µ)m. Observando que (µ − X)m = −Y , temos daequacao acima que E(Y) = −E(Y). Logo E(Y) = 0.

A Proposicao 1 justifica o uso de momentos padronizados ımparescomo medidas de assimetria de uma distribuicao.

Como o primeiro momento central e sempre nulo, o terceiromomento central e definido como medida de assimetria.

Um valor valor A(X) = E((X−µ)σ ) positivo e um indicativo de que a

distribuicao de X tem um cauda direita longa relativo a caudaesquerda, e um valor negativo indica o contrario.

Outra caracterıstica descritiva importante de uma distribuicao equao pesada (longa) sao as suas caudas.

Uma medida amplamente usada para capturar o comportamentoda cauda de uma distribuicao e baseada no quarto momentopadronizado.

A curtose de uma v.a. X com media µ e variancia σ2 e definida por

Curtose(X) = E

(X − µσ

)4 − 3

A razao para subtrair 3 e para que toda distribuicao normal tenhacurtose 0.

Outra caracterıstica descritiva importante de uma distribuicao equao pesada (longa) sao as suas caudas.

Uma medida amplamente usada para capturar o comportamentoda cauda de uma distribuicao e baseada no quarto momentopadronizado.

A curtose de uma v.a. X com media µ e variancia σ2 e definida por

Curtose(X) = E

(X − µσ

)4 − 3

A razao para subtrair 3 e para que toda distribuicao normal tenhacurtose 0.

Outra caracterıstica descritiva importante de uma distribuicao equao pesada (longa) sao as suas caudas.

Uma medida amplamente usada para capturar o comportamentoda cauda de uma distribuicao e baseada no quarto momentopadronizado.

A curtose de uma v.a. X com media µ e variancia σ2 e definida por

Curtose(X) = E

(X − µσ

)4 − 3

A razao para subtrair 3 e para que toda distribuicao normal tenhacurtose 0.

Outra caracterıstica descritiva importante de uma distribuicao equao pesada (longa) sao as suas caudas.

Uma medida amplamente usada para capturar o comportamentoda cauda de uma distribuicao e baseada no quarto momentopadronizado.

A curtose de uma v.a. X com media µ e variancia σ2 e definida por

Curtose(X) = E

(X − µσ

)4 − 3

A razao para subtrair 3 e para que toda distribuicao normal tenhacurtose 0.

Figure 9: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.252.)Assimetria e curtose de algumas distribuicoes conhecidas. Esquerda:fdp da Exp(1), assimetria=2, curtose=6. Centro: fmp da Poi(4),assimetria=0.5, curtose=0.25. Direita: fdp da Unif(0, 1), assimetria=0,curtose=-1.2

Momentos amostrais

Sejam X1, . . . ,Xn v.a.s i.i.d. O k-esimo momento amostral e a v.a.

Mk =1n

n∑j=1

Xkj .

A media amostral Xn e o primeiro momento amostral:

Xn =1n

n∑j=1

Xj .

A media populacional e a media µ da distribuicao da qual as v.a.sX1, . . . ,Xn sao geradas.

Teorema 9. (Media e variancia da media amostral) SejamX1, . . . ,Xn v.a.s i.i.d. com media µ e variancia σ2. Temos que

E(Xn) = µ e Var(Xn) =σ2

n.

Prova. Para provar que E(Xn) = µ basta usar a linearidade daesperanca. Para a variancia, vamos usar que a variancia da somade v.a.s independentes e a soma das variancias (essapropriedade sera provada mais adiante no curso):

Var(Xn) =1n2 Var(X1 + . . . + Xn) =

nσ2

n2 =σ

n.

Como E(Xn) = µ dizemos que Xn e nao viesado para estimar µ.

Sejam X1, . . . ,Xn v.a.s i.i.d. A variancia amostral e a v.a.

S2n =

1n − 1

n∑j=1

(Xj − Xn)2.

Teorema 10. (Media da variancia amostral). Sejam X1, . . . ,Xn

v.a.s i.i.d. com media µ e variancia σ2. Temos que

E(S2n ) = σ2.

Como E(S2n ) = σ2 dizemos que S2

n e nao viesado para estimar σ2.

Prova do Teorema 10. Basta provar a identidade

n∑j=1

(Xj − c)2 =n∑

j=1

(Xj − Xn)2 + n(Xn − c)2,

valida para todo c ∈ R, escolher µ = c e tomar esperanca emambos os lados da identidade acima.

Funcao Geradora de Momentos

A funcao geradora de momentes (FGM) de uma v.a. X e dada por

MX (t) = E(etX ),

para todo t ∈ R tal que E(etX ) e finita.

Hipotese: existe δ > 0 tal que MX (t) < ∞ para todo t ∈ (−δ, δ).

Exemplo 13. Se X ∼ Ber(p), entao MX (t) = pet + (1 − p) paratodo t ∈ R.

Exemplo 14. Se X ∼ Geom(p), entao MX (t) = pet

1−qet , ondeq = 1 − p e t < log(1/q).

Exemplo 15. Seja U ∼ Unif(a, b), entao

MU(t) =

1, se t = 0etb−eta

t(b−a)se t , 0.

Porque FGM e importante?

Teorema 11. Seja X v.a. com FGM MX (t) definida para |t | < δ.

1. Para todo n ≥ 1, temos M(n)(0) = E(Xn).

2. FGM determina a distribuicao: Se Y e uma v.a. com FGMMY (t) definida em para |t | < ε para ε > 0, satisfazendo

MX (t) = MY (t) para |t | < minε, δ,

entao X e Y tem a mesma distribuicao.

3. Se Y e uma v.a. com FGM MY (t) definida em para |t | < δ,independente de X , entao

MX+Y (t) = MX (t)MY (t) para |t | < δ.

Prova: 1. Segue da expansao de taylor de etX .

2. Omitida.

3. Basta usar que E(f(X)g(Y)) = E(f(X))E(g(Y)) se X e Y saoindependentes tais que E(f(X)) < ∞ e E(g(Y)) < ∞.

Exemplo 15. Prove que se X ∼ Bin(n, p), entao para todo t ∈ R,

MX (t) = (pet + (1 − p))n.

Solucao: Segue do exemplo 1 e do item 3 do Teorem 1.

Exemplo 16. Prove que se Z ∼ N(0, 1), entao para todo t ∈ R,

MZ (t) = et2/2.

Solucao: Ora, para todo t ∈ R,

MZ (t) =

∫ ∞

−∞

1√

2πetz−z2/2dz

= et2/2∫ ∞

−∞

1√

2πe−

12 (z−t)2

dz = et2/2.

Exemplo 17. Seja X ∼ Exp(1) e determine MX (t). Em seguida,use MX (t) para encontrar os momentos de X .

Solucao: Note que para t < 1,

MX (t) =

∫ ∞

0e−(1−t)xdx =

11 − t

.

Assim, a FGM de X e finita para t < 1. Em particular, para |t | < 1,

MX (t) =∞∑

n=0

tn =∞∑

n=0

tn

n!E(Xn).

Logo, deduzimos que E(Xn) = n! para todo n ≥ 0.

Exemplo 18. Seja X ∼ Exp(λ) e determine MX (t).

Solucao: Note que se Y = λX , entao Y ∼ Exp(1). Logo, paratodo n ≥ 0, temos Xn = Yn

λn e o exemplo 4 implica que

E(Xn) =n!

λn .

Exemplo 19. Seja Z ∼ N(0, 1) e determine os momentos de Z .

Solucao: Lembre que A FGM de Z e definida para todo t ∈ R por,

MZ (t) = et2/2 =∞∑

n=0

(2n)!

2nn!

t2n

(2n)!.

Logo, temos E(Z2n) =(2n)!2nn! = (2n − 1)(2n − 3) . . . (3)(1) (ver

exemplo 15 da Unidade I) e E(Z2n+1) = 0 para todo n ≥ 0.

Em particular, E(Z) = 0 e E(Z2) = 1 como ja vimos.

Exemplo 20. Seja X ∼ Poi(λ) e determine MX (t).

Solucao: Para todo t ∈ R,

MX (t) = E(etX ) = e−λ∞∑

x=0

(λet )x

x!= e−λeλet

= eλ(et−1).

Exemplo 21. X ∼ Poi(λ) e Y ∼ Poi(µ)⇒ X + Y ∼ Poi(λ + µ).

Solucao: Verifique que para todo t ∈ R,

MX+Y (t) = e(λ+µ)(et−1),

e use item 2 do Teorema 1.

No exemplo 8, Independencia e crucial: Se X ∼ Poi(λ) e Y = X ,entao X + Y = 2X nao e Poisson! (Porque?)

Distribuicoes conjuntas, marginais e condicionais

Em diversas ocasioes e interessante estudar a relacao entremultiplas variaveis aleatorias de um mesmo experimento. Porexemplo:

I Medicina: Para avaliar a efetividade de um tratamento,pode-se tomar varias medidas por paciente; a pressaoarterial, a frequencia cardıaca e as taxas de colesterol podemser mais informativas do que qualquer uma dessas medidasseparadamente.

I Financas: Para estudar a evolucao do preco das acoes deuma empresa, coletamos uma serie de medidas ao longo dotempo, e as estumados conjuntamente. Essa serie demedidas quando considerada conjuntamente pode ser usadapara deduzir a tendencia do preco das acoes da empresa.

Distribuicoes conjuntas, marginais e condicionais

Em diversas ocasioes e interessante estudar a relacao entremultiplas variaveis aleatorias de um mesmo experimento. Porexemplo:I Medicina: Para avaliar a efetividade de um tratamento,

pode-se tomar varias medidas por paciente; a pressaoarterial, a frequencia cardıaca e as taxas de colesterol podemser mais informativas do que qualquer uma dessas medidasseparadamente.

I Financas: Para estudar a evolucao do preco das acoes deuma empresa, coletamos uma serie de medidas ao longo dotempo, e as estumados conjuntamente. Essa serie demedidas quando considerada conjuntamente pode ser usadapara deduzir a tendencia do preco das acoes da empresa.

Distribuicoes conjuntas, marginais e condicionais

Em diversas ocasioes e interessante estudar a relacao entremultiplas variaveis aleatorias de um mesmo experimento. Porexemplo:I Medicina: Para avaliar a efetividade de um tratamento,

pode-se tomar varias medidas por paciente; a pressaoarterial, a frequencia cardıaca e as taxas de colesterol podemser mais informativas do que qualquer uma dessas medidasseparadamente.

I Financas: Para estudar a evolucao do preco das acoes deuma empresa, coletamos uma serie de medidas ao longo dotempo, e as estumados conjuntamente. Essa serie demedidas quando considerada conjuntamente pode ser usadapara deduzir a tendencia do preco das acoes da empresa.

A funcao de distribuicao acumulada conjunta de v.a.s X e Y e afuncao FX ,Y (x, y) definida por

FX ,Y (x, y) = P(X ≤ x,Y ≤ y) para todo x, y ∈ R.

A funcao massa de probabilidade conjunta de v.a.s discretas X eY e a funcao pX ,Y (x, y) definida por

pX ,Y (x, y) = P(X = x,Y = y) para todo (x, y) ∈ ΩX × ΩY .

A FMP conjunta determina a distribuicao conjunta de v.a.sdiscretas:

P((X ,Y) ∈ A) =∑ ∑

(x,y)∈A

p(X ,Y)(x, y),

para todo conjunto do plano A tal que (X ,Y) ∈ A e um evento.

A funcao de distribuicao acumulada conjunta de v.a.s X e Y e afuncao FX ,Y (x, y) definida por

FX ,Y (x, y) = P(X ≤ x,Y ≤ y) para todo x, y ∈ R.

A funcao massa de probabilidade conjunta de v.a.s discretas X eY e a funcao pX ,Y (x, y) definida por

pX ,Y (x, y) = P(X = x,Y = y) para todo (x, y) ∈ ΩX × ΩY .

A FMP conjunta determina a distribuicao conjunta de v.a.sdiscretas:

P((X ,Y) ∈ A) =∑ ∑

(x,y)∈A

p(X ,Y)(x, y),

para todo conjunto do plano A tal que (X ,Y) ∈ A e um evento.

A funcao de distribuicao acumulada conjunta de v.a.s X e Y e afuncao FX ,Y (x, y) definida por

FX ,Y (x, y) = P(X ≤ x,Y ≤ y) para todo x, y ∈ R.

A funcao massa de probabilidade conjunta de v.a.s discretas X eY e a funcao pX ,Y (x, y) definida por

pX ,Y (x, y) = P(X = x,Y = y) para todo (x, y) ∈ ΩX × ΩY .

A FMP conjunta determina a distribuicao conjunta de v.a.sdiscretas:

P((X ,Y) ∈ A) =∑ ∑

(x,y)∈A

p(X ,Y)(x, y),

para todo conjunto do plano A tal que (X ,Y) ∈ A e um evento.

Figure 10: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.279.)Funcao massa de probabilidade conjunta de v.a.s X e Y discretas.

Sejam X e Y v.a.s discretas. A funcao massa de probabilidademarginal de X e a funcao pX (x) definida por

pX ,Y (x) =∑

y∈ΩY

P(X = x,Y = y) para todo x ∈ ΩX .

Figure 11: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.280.)Funcao massa de probabilidade marginal de v.a discreta X.

Sejam X e Y v.a.s discretas. A funcao massa de probabilidademarginal de X e a funcao pX (x) definida por

pX ,Y (x) =∑

y∈ΩY

P(X = x,Y = y) para todo x ∈ ΩX .

Figure 11: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.280.)Funcao massa de probabilidade marginal de v.a discreta X.

Sejam X e Y v.a.s discretas com FMP conjunta pX ,Y (x, y). Afuncao massa de probabilidade condicional de Y dado X = x, comx ∈ ΩX tal que pX (x) > 0, e a funcao pY |X (y |x) definida por

pY |X (y |x) =pX ,Y (x, y)

pX (x)para todo y ∈ ΩY .

Figure 12: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.281.)Funcao massa de probabilidade de Y dado X = x onde X e Y sao v.a.sdiscretas.

Lembre que as v.a.s X e Y sao independentes, se

P(X ∈ A ,Y ∈ B) = P(X ∈ A)P(Y ∈ B),

para ∀ A ,B ⊆ R t.q. X ∈ A e Y ∈ B sao eventos.

Teorema 12. Para v.a.s X e Y discretas,

independencia⇔ pX ,Y (x, y) = pX (x)pY (y), ∀ (x, y) ∈ ΩX × ΩY .

Exemplo 22. Considere X e Y v.a.s Bernoulli com FMP conjunta

pX ,Y (x, y) =

2/6, se (x, y) = (0, 0)

1/6, se (x, y) = (0, 1)

2/6, se (x, y) = (1, 0)

1/6, se (x, y) = (1, 1)

.

As v.a.s X e Y sao independentes?

Marginal de X :

pX (0) = pX ,Y (0, 0) + pX ,Y (0, 1) = 1/2 e pX (1) = 1/2.

Marginal de Y :

pY (0) = pX ,Y (0, 0) + pX ,Y (1, 0) = 2/3 e pY (1) = 1/3

Logo, pelo Teorema 2, X e Y sao independentes!

Exemplo 23. Considere X e Y v.a.s Bernoulli com FMP conjunta

pX ,Y (x, y) =

1/2, se (x, y) = (0, 0)

0, se (x, y) = (0, 1)

1/4, se (x, y) = (1, 0)

1/4, se (x, y) = (1, 1)

.

Marginal de X : pX (0) = 1/2 = pX (1) = 1/2.

Marginal de Y : pY (0) = 3/4 e pY (1) = 1/4.

Logo, pelo Teorema 2 as v.a.s X e Y sao dependentes.

FMP condicional de X dado Y = 0:

pX |Y (x |0) =pX ,Y (x, 0)

pY (0)=

2/3, se x = 0

1/3, se x = 1.

FMP condicional de X dado Y = 1:

pX |Y (x |1) =pX ,Y (x, 1)

pY (1)=

0, se x = 0

1, se x = 1.

Exemplo 24. Para cada uma das N ∼ Poi(λ) bolas de uma urnaatribuımos independentemente uma cor, vermelha ou azul. A corvermelha e atribuıda com probabilidade p e a cor azul comprobabilidade q = 1 − p. Seja X o numero de bolas vermelhas e Yo numero de bolas azuis, de forma que X + Y = N. Encontre aFMP conjunta de X e Y .

Solucao: Precisamos calcular P(X = x,Y = y) para x, y ∈ N.Note que

P(X = x,Y = y) = P(N = x + y)P(X = x,Y = y |N = x + y)

= P(N = x + y)P(X = x |N = x + y)

=(x + y)!

x!y!pxqy e−λλx+y

(x + y)!

=e−pλ(pλ)x

x!

e−qλ(qλ)y

y!.

Em particular, X ∼ Poi(pλ) e Y ∼ Poi(qλ).

Alem disso, X e Y sao independentes (pelo Teorema 12)!

Exemplo 24. Para cada uma das N ∼ Poi(λ) bolas de uma urnaatribuımos independentemente uma cor, vermelha ou azul. A corvermelha e atribuıda com probabilidade p e a cor azul comprobabilidade q = 1 − p. Seja X o numero de bolas vermelhas e Yo numero de bolas azuis, de forma que X + Y = N. Encontre aFMP conjunta de X e Y .

Solucao: Precisamos calcular P(X = x,Y = y) para x, y ∈ N.Note que

P(X = x,Y = y) = P(N = x + y)P(X = x,Y = y |N = x + y)

= P(N = x + y)P(X = x |N = x + y)

=(x + y)!

x!y!pxqy e−λλx+y

(x + y)!

=e−pλ(pλ)x

x!

e−qλ(qλ)y

y!.

Em particular, X ∼ Poi(pλ) e Y ∼ Poi(qλ).

Alem disso, X e Y sao independentes (pelo Teorema 12)!

Proposicao 2. Se X ∼ Poi(λp), Y ∼ Poi(λq) com q = 1 − p, X e Yv.a.s independentes, entao

N = X + Y ∼ Poi(λ) e X |N = n ∼ Bin(n, p).

A recıproca da Proposicao 2 e valida.

Proposicao 3. Se N ∼ Poi(λ) e X |N = n ∼ Bin(n, p), entaoX ∼ Poi(λp), entao Y = N − X ∼ Poi(λq), e X e Y sao v.a.sindependentes.

A funcao densidade de probabilidade conjunta de v.a.s contınuasX e Y e uma funcao fX ,Y (x, y) tal que

P(a ≤ X ≤ b , c ≤ Y ≤ d) =

∫ b

a

∫ d

cfX ,Y (x, y)dxdy,

para todos a, b , c, d ∈ R satisfazendo a ≤ b e c ≤ d.

Figure 13: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.287.)Funcao densidade de probabilidade fX ,Y (x, y) de v.a.s X e Y contınuas.

Sejam X e Y v.a.s com FDP conjunta fX ,Y (x, y). A funcaodensidade de probabilidade marginal de X e a funcao fX (x)definida por

fX (x) =

∫ ∞

−∞

fX ,Y (x, y)dy para todo x ∈ R.

De maneira similar, definimos a marginal da v.a. Y .

Teorema 13. Para v.a.s X e Y contınuas,

independencia⇔ fX ,Y (x, y) = fX (x)fY (y), ∀ (x, y) ∈ R × R.

Exemplo 25. Considere X e Y v.a.s com FDP conjunta

fX ,Y (x, y) =

1, se 0 ≤ x ≤ 1, 0 ≤ x ≤ 1

0, caso contrario.

Marginal de X :

fX (x) =

∫ ∞

−∞

fX ,Y (x, y)dy =

1, se 0 ≤ x ≤ 1

0, caso contrario.

Logo X ∼ Unif(0, 1). Da modo similar, Y ∼ Unif(0, 1) e peloTeorema 13 as v.a.s X e Y sao independentes.

Exemplo 25. Considere X e Y v.a.s com FDP conjunta

fX ,Y (x, y) =

1, se 0 ≤ x ≤ 1, 0 ≤ x ≤ 1

0, caso contrario.

Marginal de X :

fX (x) =

∫ ∞

−∞

fX ,Y (x, y)dy =

1, se 0 ≤ x ≤ 1

0, caso contrario.

Logo X ∼ Unif(0, 1). Da modo similar, Y ∼ Unif(0, 1) e

peloTeorema 13 as v.a.s X e Y sao independentes.

Exemplo 25. Considere X e Y v.a.s com FDP conjunta

fX ,Y (x, y) =

1, se 0 ≤ x ≤ 1, 0 ≤ x ≤ 1

0, caso contrario.

Marginal de X :

fX (x) =

∫ ∞

−∞

fX ,Y (x, y)dy =

1, se 0 ≤ x ≤ 1

0, caso contrario.

Logo X ∼ Unif(0, 1). Da modo similar, Y ∼ Unif(0, 1) e peloTeorema 13 as v.a.s X e Y sao independentes.

Exemplo 26. Considere X e Y v.a.s com FDP conjunta

fX ,Y (x, y) =

1π , se x2 + y2 ≤ 1

0, caso contrario.

Marginal de X :

fX (x) =

∫ ∞

−∞

fX ,Y (x, y)dy =

2√

1−x2

π , se − 1 ≤ x ≤ 1

0, caso contrario.

Logo, fX ,Y (0, 1) = 1π , 0 = fX (1)fY (0) e pelo Teorema 13 as v.a.s

X e Y nao sao independentes!

Exemplo 26. Considere X e Y v.a.s com FDP conjunta

fX ,Y (x, y) =

1π , se x2 + y2 ≤ 1

0, caso contrario.

Marginal de X :

fX (x) =

∫ ∞

−∞

fX ,Y (x, y)dy =

2√

1−x2

π , se − 1 ≤ x ≤ 1

0, caso contrario.

Logo, fX ,Y (0, 1) = 1π , 0 = fX (1)fY (0) e pelo Teorema 13 as v.a.s

X e Y nao sao independentes!

Exemplo 26. Considere X e Y v.a.s com FDP conjunta

fX ,Y (x, y) =

1π , se x2 + y2 ≤ 1

0, caso contrario.

Marginal de X :

fX (x) =

∫ ∞

−∞

fX ,Y (x, y)dy =

2√

1−x2

π , se − 1 ≤ x ≤ 1

0, caso contrario.

Logo, fX ,Y (0, 1) = 1π , 0 = fX (1)fY (0) e pelo Teorema 13 as v.a.s

X e Y nao sao independentes!

Sejam X e Y v.a.s com FDP conjunta fX ,Y (x, y). A funcaodensidade de probabilidade condicional de Y dado X = x, comx ∈ R tal que fX (x) > 0, e a funcao fY |X (y |x) definida por

fY |X (y |x) =fX ,Y (x, y)

fX (x)para todo y ∈ R.

Figure 14: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.288.)Funcao densidade de probabilidade condicional fY |X (y |x).

Exemplo 27. Considere X e Y v.a.s com FDP conjunta

fX ,Y (x, y) =

1π , se x2 + y2 ≤ 1

0, caso contrario.

FMP condicional de X dado Y = y com −1 < y < 1:

fX |Y (x |y) =fX ,Y (x, y)

fY (y)=

1

2√

1−y2, se |x | ≤

√1 − y2

0, caso contrario

Informalmente: X |Y ∼ Unif(−√

1 − Y2,√

1 − Y2).

Exemplo 27. Considere X e Y v.a.s com FDP conjunta

fX ,Y (x, y) =

1π , se x2 + y2 ≤ 1

0, caso contrario.

FMP condicional de X dado Y = y com −1 < y < 1:

fX |Y (x |y) =fX ,Y (x, y)

fY (y)=

1

2√

1−y2, se |x | ≤

√1 − y2

0, caso contrario

Informalmente: X |Y ∼ Unif(−√

1 − Y2,√

1 − Y2).

Exemplo 27. Considere X e Y v.a.s com FDP conjunta

fX ,Y (x, y) =

1π , se x2 + y2 ≤ 1

0, caso contrario.

FMP condicional de X dado Y = y com −1 < y < 1:

fX |Y (x |y) =fX ,Y (x, y)

fY (y)=

1

2√

1−y2, se |x | ≤

√1 − y2

0, caso contrario

Informalmente: X |Y ∼ Unif(−√

1 − Y2,√

1 − Y2).

Para v.a.s X e Y com FDP conjunta FX ,Y :

P(a ≤ X ≤ b , c ≤ Y ≤ d) =

FX ,Y (b , d) + FX ,Y (a, c) − FX ,Y (a, d) − FX ,Y (b , c),

para todos a, b , c, d ∈ R satisfazendo a ≤ b e c ≤ d.

Para v.a.s X e Y conjuntamente contınuas,

fX ,Y (x, y) =∂2

∂x∂yFX ,Y (x, y),

sempre que as derivadas parciais forem bem definidas.

Alem disso, para uma FDP conjunta fX ,Y :∫ ∞

−∞

∫ ∞

−∞

fX ,Y (x, y)dxdy = 1.

Analogamente, para uma FMP conjunta pX ,Y :∑x∈ΩX

∑y∈ΩY

pX ,Y (x, y) = 1.

Teorema 14. (Forma contınua da Regra de Bayes e Lei daProbabilidade Total) Para v.a.s contınuas X e Y ,

fY |X (y |x) =fY (y)fX |Y (x |y)

fX (x)e fX (x) =

∫ ∞

−∞

fY (y)fX |Y (x |y)dy.

Teorema 15. Suponha que a FDP conjunta fX ,Y de X e Y seescreva como

fX ,Y (x, y) = g(x)h(y),

para todo x, y ∈ R, onde g e h sao funcoes nao negativas. EntaoX e Y sao independentes. Alem disso, se g ou h e uma FDPvalida, entao a outra tambem o e. Nesse caso, g e h sao FDPmarginais de X e Y respectivamente.

Observacao: O resultado analogo no caso discreto tambem vale.

Exemplo 28. Sejam T1 ∼ Exp(λ1) e T2 ∼ Exp(λ2) independentes.Calcule P(T1 < T2).

Solucao: Note que

P(T1 < T2) =

∫ ∞

0

∫ t2

0λ1e−λ1t1λ2e−λ2t2dt1dt2

=

∫ ∞

0(1 − λ1e−λ1t2)λ2e−λ2t2dt2

= 1 −∫ ∞

0λ2e−(λ1+λ2)t2dt2

=λ1

λ1 + λ2

Exemplo 28. Sejam T1 ∼ Exp(λ1) e T2 ∼ Exp(λ2) independentes.Calcule P(T1 < T2).

Solucao: Note que

P(T1 < T2) =

∫ ∞

0

∫ t2

0λ1e−λ1t1λ2e−λ2t2dt1dt2

=

∫ ∞

0(1 − λ1e−λ1t2)λ2e−λ2t2dt2

= 1 −∫ ∞

0λ2e−(λ1+λ2)t2dt2

=λ1

λ1 + λ2

O caso hıbrido

Em muitos casos e necessario considerar distribuicoes conjuntas,marginais e condicionais de um vetor aleatorio cujas coordenadassao v.a.s discretas e contınuas.

Exemplo 29. Uma lampada eletrica foi fabricada por uma das duasempresas. Lampadas que sao feitas pela empresa 0 duram umaquantidade Exp(λ0) de tempo, e lampadas produzidas pelaempresa 1 duram uma quantidade Exp(λ1) de tempo, comλ0 < λ1. A lampada de interesse aqui foi produzida pela empresa0 com probabilidade p0 e pela empresa 1 com probabilidadep1 = 1 − p0, mas ao inspeciona-la nao se sabe qual empresa aproduziu. Seja T o tempo de vida da lampada e I o indicador deque a lampada foi produzida pela empresa 1.

a) Determine a FDA e fdp de T.

b) A distribuicao de T tem perda de memoria?

c) Encontre a distribuicao condicional de I dado que T = t . Oque ocorre com essa distribuicao quando t → ∞?

Solucao:

a) Para todo t > 0:

FT (t) = P(T ≤ t) = (1 − e−λ0t )p0 + (1 − e−λ1t )p1

= 1 − p0e−λ0t − p1e−λ1t

Alem disso, FT (t) = 0 para t ≤ 0. Logo, temos que

fT (t) =

p0λ0e−λ0t + p1λ1e−λ1t , se t > 0.

0, caso contrario.

a) Determine a FDA e fdp de T.

b) A distribuicao de T tem perda de memoria?

c) Encontre a distribuicao condicional de I dado que T = t . Oque ocorre com essa distribuicao quando t → ∞?

Solucao:

a) Para todo t > 0:

FT (t) = P(T ≤ t) = (1 − e−λ0t )p0 + (1 − e−λ1t )p1

= 1 − p0e−λ0t − p1e−λ1t

Alem disso, FT (t) = 0 para t ≤ 0. Logo, temos que

fT (t) =

p0λ0e−λ0t + p1λ1e−λ1t , se t > 0.

0, caso contrario.

b) Como λ0 , λ1, T nao tem distribuicao exponencial e portantonao tem a propriedade de perda de memoria.

c) Usando a forma hıbrida da regra de Bayes, temos

P(I = 1|T = t) =P(I = 1)fT |I(t |1)

fT (t)

Logo, do item a) segue que

P(I = 1|T = t) =p1λ1

p0λ0e(λ1−λ0)t + p1λ1.

Como λ1 > λ0, temos

limt→∞P(I = 1|T = t) = 0.

Como interpretar esse resultado?

b) Como λ0 , λ1, T nao tem distribuicao exponencial e portantonao tem a propriedade de perda de memoria.

c) Usando a forma hıbrida da regra de Bayes, temos

P(I = 1|T = t) =P(I = 1)fT |I(t |1)

fT (t)

Logo, do item a) segue que

P(I = 1|T = t) =p1λ1

p0λ0e(λ1−λ0)t + p1λ1.

Como λ1 > λ0, temos

limt→∞P(I = 1|T = t) = 0.

Como interpretar esse resultado?

b) Como λ0 , λ1, T nao tem distribuicao exponencial e portantonao tem a propriedade de perda de memoria.

c) Usando a forma hıbrida da regra de Bayes, temos

P(I = 1|T = t) =P(I = 1)fT |I(t |1)

fT (t)

Logo, do item a) segue que

P(I = 1|T = t) =p1λ1

p0λ0e(λ1−λ0)t + p1λ1.

Como λ1 > λ0, temos

limt→∞P(I = 1|T = t) = 0.

Como interpretar esse resultado?

b) Como λ0 , λ1, T nao tem distribuicao exponencial e portantonao tem a propriedade de perda de memoria.

c) Usando a forma hıbrida da regra de Bayes, temos

P(I = 1|T = t) =P(I = 1)fT |I(t |1)

fT (t)

Logo, do item a) segue que

P(I = 1|T = t) =p1λ1

p0λ0e(λ1−λ0)t + p1λ1.

Como λ1 > λ0, temos

limt→∞P(I = 1|T = t) = 0.

Como interpretar esse resultado?

Teorema 16. Seja g : R2 → R uma funcao.

1. Para v.a.s X e Y com FMP conjunta pX ,Y ,

E(g(X ,Y)) =∑

x

∑y

g(x, y)pX ,Y (x, y).

2. Para v.a.s X e Y com FDP conjunta fX ,Y ,

E(g(X ,Y)) =

∫ ∞

−∞

∫ ∞

−∞

g(x, y)fX ,Y (x, y)dxdy.

Teorema 17. Se X e Y sao independentes, entao

E(XY) = E(X)E(Y).

Prova: Aplique Teorema 16 item 2 e Teorema 3 no caso contınuo(Teorema 16 item 1 e Teorema 2 no caso discreto).

Teorema 16. Seja g : R2 → R uma funcao.

1. Para v.a.s X e Y com FMP conjunta pX ,Y ,

E(g(X ,Y)) =∑

x

∑y

g(x, y)pX ,Y (x, y).

2. Para v.a.s X e Y com FDP conjunta fX ,Y ,

E(g(X ,Y)) =

∫ ∞

−∞

∫ ∞

−∞

g(x, y)fX ,Y (x, y)dxdy.

Teorema 17. Se X e Y sao independentes, entao

E(XY) = E(X)E(Y).

Prova: Aplique Teorema 16 item 2 e Teorema 3 no caso contınuo(Teorema 16 item 1 e Teorema 2 no caso discreto).

Exemplo 30. Sejam Z1,Z2i.i.d∼ N(0, 1). Determine E(|Z1 − Z2|).

Solucao via Teorema 16 e bastante complicada. Como alternativapodemos usar o seguinte resultado.

Teorema 18. Considere v.a.s X ∼ N(µ1, σ21) e Y ∼ N(µ2, σ

22)

independentes. Entao X + Y ∼ N(µ1 + µ2, σ21 + σ2

2).

Prova: Note que para i ∈ 1, 2 e t ∈ R,

MXi (t) = eµi t+σ2

i2 t2

.

Logo, como X e Y sao independentes, para t ∈ R

MX1+X2(t) = MX1(t)MX2(t) = e(µ1+µ2)t+σ2

1+σ22

2 t2,

e o resultado segue.

Exemplo 30. Sejam Z1,Z2i.i.d∼ N(0, 1). Determine E(|Z1 − Z2|).

Solucao via Teorema 16 e bastante complicada. Como alternativapodemos usar o seguinte resultado.

Teorema 18. Considere v.a.s X ∼ N(µ1, σ21) e Y ∼ N(µ2, σ

22)

independentes. Entao X + Y ∼ N(µ1 + µ2, σ21 + σ2

2).

Prova: Note que para i ∈ 1, 2 e t ∈ R,

MXi (t) = eµi t+σ2

i2 t2

.

Logo, como X e Y sao independentes, para t ∈ R

MX1+X2(t) = MX1(t)MX2(t) = e(µ1+µ2)t+σ2

1+σ22

2 t2,

e o resultado segue.

Exemplo 30. Sejam Z1,Z2i.i.d∼ N(0, 1). Determine E(|Z1 − Z2|).

Solucao via Teorema 16 e bastante complicada. Como alternativapodemos usar o seguinte resultado.

Teorema 18. Considere v.a.s X ∼ N(µ1, σ21) e Y ∼ N(µ2, σ

22)

independentes. Entao X + Y ∼ N(µ1 + µ2, σ21 + σ2

2).

Prova: Note que para i ∈ 1, 2 e t ∈ R,

MXi (t) = eµi t+σ2

i2 t2

.

Logo, como X e Y sao independentes, para t ∈ R

MX1+X2(t) = MX1(t)MX2(t) = e(µ1+µ2)t+σ2

1+σ22

2 t2,

e o resultado segue.

Solucao exemplo 30. Pelo Teorema 6,

Z1 − Z2 ∼ N(0, 2)

ou equivalentemente, Z1 − Z2 =√

2Z , onde Z ∼ N(0, 1). Logo,

E(|Z1 − Z2|) =√

2E(|Z |) =2√π

∫ ∞

0ze−z2/2dz =

2√π.

Distribuicao MultinomialSeja p = (p1, . . . , pk ) com pi ≥ 0 para todo 1 ≤ i ≤ k tal que

k∑i=1

pi = 1.

Um v.a. X = (X1, . . . ,Xk ) tem distribuicao Multinomial deparametros n e p, se:

1. X toma valores em ΩX = x ∈ 0, 1, . . . , nk :∑k

i=1 xi = n.2. Para cada x ∈ ΩX :

pX (x) =n!

x1! . . . xk !px1

1 . . . pxkk

Notacao: X ∼ Multk (n, p).

Para cada um dos n objetos de uma colecao, uma das kcategorias e atribuıda independentemente. A categoria i eatribuıda probabilidade pi . Se Xi e o numero de objetos nacategoria i, entao

X ∼ Multk (n, p).

Exemplo 31. Verifique que se X ∼ Multk (n, p), entao

Xi ∼ Bin(n, pi) para todo 1 ≤ i ≤ k .

Em particular, E(Xi) = npi e Var(Xi) = npi(1 − pi).

Exemplo 32. Verifique que se X ∼ Multk (n, p), entao o vetor

(X1 + X2,X3, . . . ,Xk ) ∼ Multk−1(n, (p1 + p2, p3, . . . , pk−1)).

Exemplo 33. Se X ∼ Multk (n, p), entao dado que X1 = x1,

(X2,X3, . . . ,Xk ) ∼ Multk−1(n − n1, (p′2, p′3, . . . , p

′k )),

onde p′i = pi/(p2 + . . . + pk ) para todo 2 ≤ i ≤ k .

Exemplo 31. Verifique que se X ∼ Multk (n, p), entao

Xi ∼ Bin(n, pi) para todo 1 ≤ i ≤ k .

Em particular, E(Xi) = npi e Var(Xi) = npi(1 − pi).

Exemplo 32. Verifique que se X ∼ Multk (n, p), entao o vetor

(X1 + X2,X3, . . . ,Xk ) ∼ Multk−1(n, (p1 + p2, p3, . . . , pk−1)).

Exemplo 33. Se X ∼ Multk (n, p), entao dado que X1 = x1,

(X2,X3, . . . ,Xk ) ∼ Multk−1(n − n1, (p′2, p′3, . . . , p

′k )),

onde p′i = pi/(p2 + . . . + pk ) para todo 2 ≤ i ≤ k .

Exemplo 31. Verifique que se X ∼ Multk (n, p), entao

Xi ∼ Bin(n, pi) para todo 1 ≤ i ≤ k .

Em particular, E(Xi) = npi e Var(Xi) = npi(1 − pi).

Exemplo 32. Verifique que se X ∼ Multk (n, p), entao o vetor

(X1 + X2,X3, . . . ,Xk ) ∼ Multk−1(n, (p1 + p2, p3, . . . , pk−1)).

Exemplo 33. Se X ∼ Multk (n, p), entao dado que X1 = x1,

(X2,X3, . . . ,Xk ) ∼ Multk−1(n − n1, (p′2, p′3, . . . , p

′k )),

onde p′i = pi/(p2 + . . . + pk ) para todo 2 ≤ i ≤ k .

Exemplo 34. Se X ,Y i.i.d∼ N(0, 1), defina T = X

Y e encontre fT (t).

Solucao: Pela simetria de X , temos que X/Y =d X/|Y |. Logo,

FT (t) = P(X ≤ t |Y |) =1√

∫ ∞

−∞

e−y2/2Φ(|y |t)dy

=2√

∫ ∞

0e−y2/2Φ(yt)dy (y 7→ e−y2/2Φ(|y |t) e par),

para todo t ∈ R. Assim, para todo t ∈ R,

fT (t) =ddt

(FT (t)) =2√

∫ ∞

0e−y2/2 d

dt(Φ(yt))dy

=1π

∫ ∞

0ye−(1+t2)y2/2dy

=1

π(1 + t2)

∫ ∞

0e−udu =

1π(1 + t2)

.

Conclusao: T e uma v.a. Cauchy.

Exemplo 34. Se X ,Y i.i.d∼ N(0, 1), defina T = X

Y e encontre fT (t).

Solucao: Pela simetria de X , temos que X/Y =d X/|Y |. Logo,

FT (t) = P(X ≤ t |Y |) =1√

∫ ∞

−∞

e−y2/2Φ(|y |t)dy

=2√

∫ ∞

0e−y2/2Φ(yt)dy (y 7→ e−y2/2Φ(|y |t) e par),

para todo t ∈ R. Assim, para todo t ∈ R,

fT (t) =ddt

(FT (t)) =2√

∫ ∞

0e−y2/2 d

dt(Φ(yt))dy

=1π

∫ ∞

0ye−(1+t2)y2/2dy

=1

π(1 + t2)

∫ ∞

0e−udu =

1π(1 + t2)

.

Conclusao: T e uma v.a. Cauchy.

Exemplo 34. Se X ,Y i.i.d∼ N(0, 1), defina T = X

Y e encontre fT (t).

Solucao: Pela simetria de X , temos que X/Y =d X/|Y |. Logo,

FT (t) = P(X ≤ t |Y |) =1√

∫ ∞

−∞

e−y2/2Φ(|y |t)dy

=2√

∫ ∞

0e−y2/2Φ(yt)dy (y 7→ e−y2/2Φ(|y |t) e par),

para todo t ∈ R. Assim, para todo t ∈ R,

fT (t) =ddt

(FT (t)) =2√

∫ ∞

0e−y2/2 d

dt(Φ(yt))dy

=1π

∫ ∞

0ye−(1+t2)y2/2dy

=1

π(1 + t2)

∫ ∞

0e−udu =

1π(1 + t2)

.

Conclusao: T e uma v.a. Cauchy.

Covariancia e CorrelacaoA Covariancia entre v.a.s X e Y e definida por

Cov(X ,Y) = E((X − E(X))(Y − E(Y)))

= E(XY) − E(X)E(Y) (Linearidade da esperanca).

As seguintes propriedades sao imediatas da definicao:

1. Cov(X ,X) = Var(X).2. Cov(X ,Y) = Cov(Y ,X)

3. Cov(X ,Z) = 0, se Z e v.a. constante com probabilidade 1.4. Cov(aX ,Y) = aCov(X ,Y), para a ∈ R.5. Cov(X ,Y + Z) = Cov(X ,Y) + Cov(X ,Z).6. Considere v.a.s (Xi)

ni=1 e (Yj)

mj=1. Para quaisquer numeros

reais (ai)ni=1 e (bj)

mj=1, temos

Cov(n∑

i=1

aiXi ,

m∑i=1

bjYj) =n∑

i=1

m∑j=1

aibjCov(Xi ,Yj).

Covariancia e CorrelacaoA Covariancia entre v.a.s X e Y e definida por

Cov(X ,Y) = E((X − E(X))(Y − E(Y)))

= E(XY) − E(X)E(Y) (Linearidade da esperanca).

As seguintes propriedades sao imediatas da definicao:

1. Cov(X ,X) = Var(X).

2. Cov(X ,Y) = Cov(Y ,X)

3. Cov(X ,Z) = 0, se Z e v.a. constante com probabilidade 1.4. Cov(aX ,Y) = aCov(X ,Y), para a ∈ R.5. Cov(X ,Y + Z) = Cov(X ,Y) + Cov(X ,Z).6. Considere v.a.s (Xi)

ni=1 e (Yj)

mj=1. Para quaisquer numeros

reais (ai)ni=1 e (bj)

mj=1, temos

Cov(n∑

i=1

aiXi ,

m∑i=1

bjYj) =n∑

i=1

m∑j=1

aibjCov(Xi ,Yj).

Covariancia e CorrelacaoA Covariancia entre v.a.s X e Y e definida por

Cov(X ,Y) = E((X − E(X))(Y − E(Y)))

= E(XY) − E(X)E(Y) (Linearidade da esperanca).

As seguintes propriedades sao imediatas da definicao:

1. Cov(X ,X) = Var(X).2. Cov(X ,Y) = Cov(Y ,X)

3. Cov(X ,Z) = 0, se Z e v.a. constante com probabilidade 1.4. Cov(aX ,Y) = aCov(X ,Y), para a ∈ R.5. Cov(X ,Y + Z) = Cov(X ,Y) + Cov(X ,Z).6. Considere v.a.s (Xi)

ni=1 e (Yj)

mj=1. Para quaisquer numeros

reais (ai)ni=1 e (bj)

mj=1, temos

Cov(n∑

i=1

aiXi ,

m∑i=1

bjYj) =n∑

i=1

m∑j=1

aibjCov(Xi ,Yj).

Covariancia e CorrelacaoA Covariancia entre v.a.s X e Y e definida por

Cov(X ,Y) = E((X − E(X))(Y − E(Y)))

= E(XY) − E(X)E(Y) (Linearidade da esperanca).

As seguintes propriedades sao imediatas da definicao:

1. Cov(X ,X) = Var(X).2. Cov(X ,Y) = Cov(Y ,X)

3. Cov(X ,Z) = 0, se Z e v.a. constante com probabilidade 1.

4. Cov(aX ,Y) = aCov(X ,Y), para a ∈ R.5. Cov(X ,Y + Z) = Cov(X ,Y) + Cov(X ,Z).6. Considere v.a.s (Xi)

ni=1 e (Yj)

mj=1. Para quaisquer numeros

reais (ai)ni=1 e (bj)

mj=1, temos

Cov(n∑

i=1

aiXi ,

m∑i=1

bjYj) =n∑

i=1

m∑j=1

aibjCov(Xi ,Yj).

Covariancia e CorrelacaoA Covariancia entre v.a.s X e Y e definida por

Cov(X ,Y) = E((X − E(X))(Y − E(Y)))

= E(XY) − E(X)E(Y) (Linearidade da esperanca).

As seguintes propriedades sao imediatas da definicao:

1. Cov(X ,X) = Var(X).2. Cov(X ,Y) = Cov(Y ,X)

3. Cov(X ,Z) = 0, se Z e v.a. constante com probabilidade 1.4. Cov(aX ,Y) = aCov(X ,Y), para a ∈ R.

5. Cov(X ,Y + Z) = Cov(X ,Y) + Cov(X ,Z).6. Considere v.a.s (Xi)

ni=1 e (Yj)

mj=1. Para quaisquer numeros

reais (ai)ni=1 e (bj)

mj=1, temos

Cov(n∑

i=1

aiXi ,

m∑i=1

bjYj) =n∑

i=1

m∑j=1

aibjCov(Xi ,Yj).

Covariancia e CorrelacaoA Covariancia entre v.a.s X e Y e definida por

Cov(X ,Y) = E((X − E(X))(Y − E(Y)))

= E(XY) − E(X)E(Y) (Linearidade da esperanca).

As seguintes propriedades sao imediatas da definicao:

1. Cov(X ,X) = Var(X).2. Cov(X ,Y) = Cov(Y ,X)

3. Cov(X ,Z) = 0, se Z e v.a. constante com probabilidade 1.4. Cov(aX ,Y) = aCov(X ,Y), para a ∈ R.5. Cov(X ,Y + Z) = Cov(X ,Y) + Cov(X ,Z).

6. Considere v.a.s (Xi)ni=1 e (Yj)

mj=1. Para quaisquer numeros

reais (ai)ni=1 e (bj)

mj=1, temos

Cov(n∑

i=1

aiXi ,

m∑i=1

bjYj) =n∑

i=1

m∑j=1

aibjCov(Xi ,Yj).

Covariancia e CorrelacaoA Covariancia entre v.a.s X e Y e definida por

Cov(X ,Y) = E((X − E(X))(Y − E(Y)))

= E(XY) − E(X)E(Y) (Linearidade da esperanca).

As seguintes propriedades sao imediatas da definicao:

1. Cov(X ,X) = Var(X).2. Cov(X ,Y) = Cov(Y ,X)

3. Cov(X ,Z) = 0, se Z e v.a. constante com probabilidade 1.4. Cov(aX ,Y) = aCov(X ,Y), para a ∈ R.5. Cov(X ,Y + Z) = Cov(X ,Y) + Cov(X ,Z).6. Considere v.a.s (Xi)

ni=1 e (Yj)

mj=1. Para quaisquer numeros

reais (ai)ni=1 e (bj)

mj=1, temos

Cov(n∑

i=1

aiXi ,

m∑i=1

bjYj) =n∑

i=1

m∑j=1

aibjCov(Xi ,Yj).

7. Var(X1 + X2) = Var(X1) + Var(X2) + 2Cov(X1,X2).

8. Para quaisquer v.a.s (Xi)ni=1, temos

Var(n∑

i=1

Xi) =n∑

i=1

Var(Xi) + 2∑i<j

Cov(Xi ,Xj).

Teorema 19. Se as v.a.s X e Y sao independentes, entao elassao nao correlacionadas, i.e., Cov(X ,Y) = 0.

Prova: Da independencia segue que E(XY) = E(X)E(Y) e assim,

Cov(X ,Y) = E(XY) − E(X)E(Y) = 0.

Exemplo 35. A recıproca do Teorema 7 nao e verdadeira. De fato,seja Z ∼ N(0, 1), defina as v.a.s X = Z e Y = Z2 e note que

Cov(X ,Y) = E(Z3) − E(Z)E(Z2) = 0.

7. Var(X1 + X2) = Var(X1) + Var(X2) + 2Cov(X1,X2).

8. Para quaisquer v.a.s (Xi)ni=1, temos

Var(n∑

i=1

Xi) =n∑

i=1

Var(Xi) + 2∑i<j

Cov(Xi ,Xj).

Teorema 19. Se as v.a.s X e Y sao independentes, entao elassao nao correlacionadas, i.e., Cov(X ,Y) = 0.

Prova: Da independencia segue que E(XY) = E(X)E(Y) e assim,

Cov(X ,Y) = E(XY) − E(X)E(Y) = 0.

Exemplo 35. A recıproca do Teorema 7 nao e verdadeira. De fato,seja Z ∼ N(0, 1), defina as v.a.s X = Z e Y = Z2 e note que

Cov(X ,Y) = E(Z3) − E(Z)E(Z2) = 0.

7. Var(X1 + X2) = Var(X1) + Var(X2) + 2Cov(X1,X2).

8. Para quaisquer v.a.s (Xi)ni=1, temos

Var(n∑

i=1

Xi) =n∑

i=1

Var(Xi) + 2∑i<j

Cov(Xi ,Xj).

Teorema 19. Se as v.a.s X e Y sao independentes, entao elassao nao correlacionadas, i.e., Cov(X ,Y) = 0.

Prova: Da independencia segue que E(XY) = E(X)E(Y) e assim,

Cov(X ,Y) = E(XY) − E(X)E(Y) = 0.

Exemplo 35. A recıproca do Teorema 7 nao e verdadeira. De fato,seja Z ∼ N(0, 1), defina as v.a.s X = Z e Y = Z2 e note que

Cov(X ,Y) = E(Z3) − E(Z)E(Z2) = 0.

A Correlacao entre v.a.s X e Y e definida por

Cor(X ,Y) =Cov(X ,Y)

DP(X)DP(Y).

Teorema 20. Para v.a.s X e Y , temos −1 ≤ Cor(X ,Y) ≤ 1.

Prova: S.P.G assuma que X e Y estao padronizadas e sejaρ = Cor(X ,Y). Por um lado,

0 ≤ Var(X + Y) = Var(X) + Var(Y) + 2Cov(X ,Y) = 2 + 2ρ.

Por outro lado,

0 ≤ Var(X − Y) = Var(X) + Var(Y) − 2Cov(X ,Y) = 2 − 2ρ.

Juntando as desigualdades o resultado segue.

A Correlacao entre v.a.s X e Y e definida por

Cor(X ,Y) =Cov(X ,Y)

DP(X)DP(Y).

Teorema 20. Para v.a.s X e Y , temos −1 ≤ Cor(X ,Y) ≤ 1.

Prova: S.P.G assuma que X e Y estao padronizadas e sejaρ = Cor(X ,Y). Por um lado,

0 ≤ Var(X + Y) = Var(X) + Var(Y) + 2Cov(X ,Y) = 2 + 2ρ.

Por outro lado,

0 ≤ Var(X − Y) = Var(X) + Var(Y) − 2Cov(X ,Y) = 2 − 2ρ.

Juntando as desigualdades o resultado segue.

Exemplo 36. Seja X = (X1, . . . ,Xk ) ∼ Multk (n, p). DetermineCov(Xi ,Xj) para todo 1 ≤ i, j ≤ k .

Solucao: Para i = j, temos Cov(Xi ,Xj) = Var(Xi) = npi(1 − pi),pois Xi ∼ Bin(n, pi). Para i , j, use que Xi + Xj ∼ Bin(n, pi + pj) eaplique a formula

2Cov(Xi ,Xj) = Var(Xi + Xj) − Var(Xi) − Var(Xj),

para deduzir que Cov(Xi ,Xj) = −npipj .

Exemplo 36. Seja X = (X1, . . . ,Xk ) ∼ Multk (n, p). DetermineCov(Xi ,Xj) para todo 1 ≤ i, j ≤ k .

Solucao: Para i = j, temos Cov(Xi ,Xj) = Var(Xi) = npi(1 − pi),pois Xi ∼ Bin(n, pi). Para i , j, use que Xi + Xj ∼ Bin(n, pi + pj) eaplique a formula

2Cov(Xi ,Xj) = Var(Xi + Xj) − Var(Xi) − Var(Xj),

para deduzir que Cov(Xi ,Xj) = −npipj .

Normal multivariadaUm v.a X = (X1, . . . ,Xk ) e normal multivariado se

t1X1 + . . . + tk Xk e uma v.a. normal

para todos t1, . . . , tk ∈ R.

Seja µi = E(Xi) para 1 ≤ i ≤ k e defina o vetor de medias

µ = (µ1, . . . , µk ).

Tambem defina a matriz de covariancia Σ dada por

Σ =

Cov(X1,X1) . . . Cov(X1,Xk )

......

Cov(Xk ,X1) . . . Cov(Xk ,Xk )

.O vetor µ e matriz Σ caraterizam o v.a X (Por que?)

Notacao: X ∼ N(µ,Σ).

Exemplo 37. Se X ,Y i.i.d∼ N(0, 1), entao X = (aX + bY , cX + dY) e

normal multivariado com µ = (0, 0) e

Σ =

(a2 + b2 ac + bdac + bd c2 + d2

).

Em particular, se a = 1, b = 0, c = ρ e d =√

1 − ρ2, temosX = (X , ρX +

√1 − ρ2Y) e um v.a. multivariado tal que as

marginais sao normais de media 0 e variancia 1.

Exemplo 38. Sejam X ∼ N(0, 1) e Y v.a. discreta tal que

P(Y = −1) = P(Y = 1) = 1/2.

Assuma que Y e X sao independentes. Entao o v.a. X = (X ,YX)NAO e normal bivariado (por que?) mas as suas marginais saonormais de media 0 e variancia 1.

Exemplo 37. Se X ,Y i.i.d∼ N(0, 1), entao X = (aX + bY , cX + dY) e

normal multivariado com µ = (0, 0) e

Σ =

(a2 + b2 ac + bdac + bd c2 + d2

).

Em particular, se a = 1, b = 0, c = ρ e d =√

1 − ρ2, temosX = (X , ρX +

√1 − ρ2Y) e um v.a. multivariado tal que as

marginais sao normais de media 0 e variancia 1.

Exemplo 38. Sejam X ∼ N(0, 1) e Y v.a. discreta tal que

P(Y = −1) = P(Y = 1) = 1/2.

Assuma que Y e X sao independentes. Entao o v.a. X = (X ,YX)NAO e normal bivariado (por que?) mas as suas marginais saonormais de media 0 e variancia 1.

Exemplo 37. Se X ,Y i.i.d∼ N(0, 1), entao X = (aX + bY , cX + dY) e

normal multivariado com µ = (0, 0) e

Σ =

(a2 + b2 ac + bdac + bd c2 + d2

).

Em particular, se a = 1, b = 0, c = ρ e d =√

1 − ρ2, temosX = (X , ρX +

√1 − ρ2Y) e um v.a. multivariado tal que as

marginais sao normais de media 0 e variancia 1.

Exemplo 38. Sejam X ∼ N(0, 1) e Y v.a. discreta tal que

P(Y = −1) = P(Y = 1) = 1/2.

Assuma que Y e X sao independentes. Entao o v.a. X = (X ,YX)NAO e normal bivariado (por que?) mas as suas marginais saonormais de media 0 e variancia 1.

Teorema 21. Seja X = (X1,X2) um v.a. normal multivariado. Secada coordenada de X1 e nao correlacionada com qualquercoordenada de X2, entao os v.a.s X1 e X2 sao independentes.

Exemplo 39. Sejam X ,Y i.i.d∼ N(0, 1) e defina X = (X + Y ,X − Y). O

v.a. X e normal multivariado (exemplo 37) e

Cov(X + Y ,X − Y) = Var(X) − Var(Y) = 0.

Logo, pelo Teorema 21, as v.a.s X + Y e X −Y sao independentes.

Prova do Teorema 21: Prova para o caso k = 2. Nesse caso,

MX ,Y (s, t) = E(esX1+tX2) = esµ1+tµ2+ 12 (s2σ2

1+t2σ22+2stρ),

onde ρ = Cov(X1,X2), σi = Var(Xi) e s, t ∈ R. Como ρ = 0,vemos que MX ,Y (s, t) e a FGM conjunta de v.a.s Z ∼ N(µ1, σ

21) e

W ∼ N(µ1, σ21) independentes, e portanto o resultado segue.

Teorema 21. Seja X = (X1,X2) um v.a. normal multivariado. Secada coordenada de X1 e nao correlacionada com qualquercoordenada de X2, entao os v.a.s X1 e X2 sao independentes.

Exemplo 39. Sejam X ,Y i.i.d∼ N(0, 1) e defina X = (X + Y ,X − Y). O

v.a. X e normal multivariado (exemplo 37) e

Cov(X + Y ,X − Y) = Var(X) − Var(Y) = 0.

Logo, pelo Teorema 21, as v.a.s X + Y e X −Y sao independentes.

Prova do Teorema 21: Prova para o caso k = 2. Nesse caso,

MX ,Y (s, t) = E(esX1+tX2) = esµ1+tµ2+ 12 (s2σ2

1+t2σ22+2stρ),

onde ρ = Cov(X1,X2), σi = Var(Xi) e s, t ∈ R. Como ρ = 0,vemos que MX ,Y (s, t) e a FGM conjunta de v.a.s Z ∼ N(µ1, σ

21) e

W ∼ N(µ1, σ21) independentes, e portanto o resultado segue.

Teorema 21. Seja X = (X1,X2) um v.a. normal multivariado. Secada coordenada de X1 e nao correlacionada com qualquercoordenada de X2, entao os v.a.s X1 e X2 sao independentes.

Exemplo 39. Sejam X ,Y i.i.d∼ N(0, 1) e defina X = (X + Y ,X − Y). O

v.a. X e normal multivariado (exemplo 37) e

Cov(X + Y ,X − Y) = Var(X) − Var(Y) = 0.

Logo, pelo Teorema 21, as v.a.s X + Y e X −Y sao independentes.

Prova do Teorema 21: Prova para o caso k = 2. Nesse caso,

MX ,Y (s, t) = E(esX1+tX2) = esµ1+tµ2+ 12 (s2σ2

1+t2σ22+2stρ),

onde ρ = Cov(X1,X2), σi = Var(Xi) e s, t ∈ R. Como ρ = 0,vemos que MX ,Y (s, t) e a FGM conjunta de v.a.s Z ∼ N(µ1, σ

21) e

W ∼ N(µ1, σ21) independentes, e portanto o resultado segue.

Transformacoes de v.a.s contınuas (caso univariado)Teorema 22. Considere uma v.a. X contınua com FDP fX e g umafuncao diferenciavel e estritamente monotona. Defina Y = g(X).Entao a v.a. Y e contınua com FDP fY dada por

fY (y) =

fX (h(y))| ddy h(y)|, se y = g(x) para algum x,

0, caso contrario,

onde h = g−1 e a inversa da funcao g.

Prova: Suponha g estritamente crescente (o caso decrescente eanalogo). Nesse caso, para y = g(x) temos g−1(y) = x e

FY (y) = P(Y ≤ y) = P(X ≤ g−1(y)) = FX (g−1(y)),

de maneira que pela regra da cadeia

fY (y) =ddy

(FY (y)) = fX (g−1(y))ddy

g−1(y).

Para y fora da imagem de g, FY (y) ∈ 0, 1 implicando fY (y) = 0.

Transformacoes de v.a.s contınuas (caso univariado)Teorema 22. Considere uma v.a. X contınua com FDP fX e g umafuncao diferenciavel e estritamente monotona. Defina Y = g(X).Entao a v.a. Y e contınua com FDP fY dada por

fY (y) =

fX (h(y))| ddy h(y)|, se y = g(x) para algum x,

0, caso contrario,

onde h = g−1 e a inversa da funcao g.

Prova: Suponha g estritamente crescente (o caso decrescente eanalogo). Nesse caso, para y = g(x) temos g−1(y) = x e

FY (y) = P(Y ≤ y) = P(X ≤ g−1(y)) = FX (g−1(y)),

de maneira que pela regra da cadeia

fY (y) =ddy

(FY (y)) = fX (g−1(y))ddy

g−1(y).

Para y fora da imagem de g, FY (y) ∈ 0, 1 implicando fY (y) = 0.

Exemplo 40. Seja Z ∼ N(0, 1) e defina Y = eZ . A v.a. Y echamada log-Normal. Pelo Teorem 40, a FDP fY e dado por

fY (y) =1

y√

2πe− log2(y)/2, para y > 0.

Convolucao

Teorema 23. Sejam X e Y v.a.s independentes.

1. X e Y discretas⇒ S = X + Y tem FMP pS dada por

pS(s) =∑

x∈ΩX

pX (x)pY (s − x),

para s ∈ ΩS = s ∈ R : s = x + y com x ∈ ΩX ey ∈ ΩY .

2. X e Y contınuas⇒ S = X + Y tem FDP fS dada por

fS(s) =

∫ ∞

−∞

fX (x)fY (s − x)dx.

Prova: Item 1 segue diretamente da independencia de X e Y .A prova do intem 2 sera omitida.

Convolucao

Teorema 23. Sejam X e Y v.a.s independentes.

1. X e Y discretas⇒ S = X + Y tem FMP pS dada por

pS(s) =∑

x∈ΩX

pX (x)pY (s − x),

para s ∈ ΩS = s ∈ R : s = x + y com x ∈ ΩX ey ∈ ΩY .

2. X e Y contınuas⇒ S = X + Y tem FDP fS dada por

fS(s) =

∫ ∞

−∞

fX (x)fY (s − x)dx.

Prova: Item 1 segue diretamente da independencia de X e Y .A prova do intem 2 sera omitida.

Exemplo 41. Sejam X e Y v.a.s com distribuicao Exp(λ)independentes. Determine a distribuicao de S = X + Y .

Solucao: Pelo Teorema 23, fS(s) = 0 para s ≤ 0 e

fS(s) =

∫ s

0λe−λxλe−λ(x−s)dx = λ2seλs ,

para s > 0.

Assim, S tem distribuicao Gamma(2, λ) (como veremos em breve).

Exemplo 41. Sejam X e Y v.a.s com distribuicao Exp(λ)independentes. Determine a distribuicao de S = X + Y .

Solucao: Pelo Teorema 23, fS(s) = 0 para s ≤ 0 e

fS(s) =

∫ s

0λe−λxλe−λ(x−s)dx = λ2seλs ,

para s > 0.

Assim, S tem distribuicao Gamma(2, λ) (como veremos em breve).

Exemplo 41. Sejam X e Y v.a.s com distribuicao Exp(λ)independentes. Determine a distribuicao de S = X + Y .

Solucao: Pelo Teorema 23, fS(s) = 0 para s ≤ 0 e

fS(s) =

∫ s

0λe−λxλe−λ(x−s)dx = λ2seλs ,

para s > 0.

Assim, S tem distribuicao Gamma(2, λ) (como veremos em breve).

Distribuicao BetaUma v.a. X tem distribuicao Beta com parametros a > 0 e b > 0,se:

1. X assumi valores no intervalo (0, 1).

2. A f.d.p. fX e dada por

fX (x) =

1B(a,b)

xa−1(1 − x)b−1, se 0 < x < 1

0, caso contrario

onde B(a, b) > 0 e uma constante t.q.∫ ∞−∞

fX (x)dx = 1.

Notacao: X ∼ Beta(a, b).

Por definicao,

B(a, b) =

∫ 1

0xa−1(1 − x)b−1dx

Distribuicao BetaUma v.a. X tem distribuicao Beta com parametros a > 0 e b > 0,se:

1. X assumi valores no intervalo (0, 1).

2. A f.d.p. fX e dada por

fX (x) =

1B(a,b)

xa−1(1 − x)b−1, se 0 < x < 1

0, caso contrario

onde B(a, b) > 0 e uma constante t.q.∫ ∞−∞

fX (x)dx = 1.

Notacao: X ∼ Beta(a, b).

Por definicao,

B(a, b) =

∫ 1

0xa−1(1 − x)b−1dx

A Famılia de distribuicoes Beta(a, b) e flexıvel.

Figure 15: (Blitzstein, J.K. e Hwang, J. Introduction to probability, p.352.)FDP de uma distribuicao Beta(a, b) para alguns valores de a e b.

Distribuicao Gama

Uma v.a. X tem distribuicao Gama com parametros a > 0 e 1, se:

1. X assumi valores no intervalo (0,∞).

2. A f.d.p. fX e dada por

fX (x) =

1Γ(a)

xa−1e−xdx, se x > 0

0, caso contrario

onde Γ(a) > 0 e uma constante t.q.∫ ∞−∞

fX (x)dx = 1.

Notacao: X ∼ Gama(a, 1).

Observacoes:I Γ e chamada funcao Gama.I Γ(n) = (n − 1)! para todo inteiro nao negativo n.I Γ(a + 1) = aΓ(a) para todo a > 0.

Exemplo 42. Seja X ∼ Gama(a, 1), defina a v.a. Y = Xλ com λ > 0

e encontre sua f.d.p fY .

Solucao: Pelo Teorema 1 com g(x) = x/λ para x > 0, temos

fY (y) =

fX (h(y))dh(y)

dy , se y > 0

0, caso contrario=

λaya−1

Γ(a)e−λy , se y > 0

0, caso contrario.

A v.a. Y tem distribuicao chamada Gama de parametros a > 0 eλ > 0.

Notacao: Y ∼ Gama(a, λ).

Exemplo 43. (Gama-Exponencial) Mostre que T1, . . .Tni.i.d∼ Exp(λ),

entao Sn =∑n

i=1 Ti ∼ Gama(n, λ).

Solucao: S.P.G assuma λ = 1. Lembre a FGM M(t) de uma v.a.Exp(1) e 1/(1 − t) para t < 1, de modo que MSn (t) = 1/(1 − t)n everifique que FGM de uma v.a. Gama(n, 1) e 1/(1 − t)n.

Exemplo 42. Seja X ∼ Gama(a, 1), defina a v.a. Y = Xλ com λ > 0

e encontre sua f.d.p fY .

Solucao: Pelo Teorema 1 com g(x) = x/λ para x > 0, temos

fY (y) =

fX (h(y))dh(y)

dy , se y > 0

0, caso contrario=

λaya−1

Γ(a)e−λy , se y > 0

0, caso contrario.

A v.a. Y tem distribuicao chamada Gama de parametros a > 0 eλ > 0.

Notacao: Y ∼ Gama(a, λ).

Exemplo 43. (Gama-Exponencial) Mostre que T1, . . .Tni.i.d∼ Exp(λ),

entao Sn =∑n

i=1 Ti ∼ Gama(n, λ).

Solucao: S.P.G assuma λ = 1. Lembre a FGM M(t) de uma v.a.Exp(1) e 1/(1 − t) para t < 1, de modo que MSn (t) = 1/(1 − t)n everifique que FGM de uma v.a. Gama(n, 1) e 1/(1 − t)n.

Exemplo 42. Seja X ∼ Gama(a, 1), defina a v.a. Y = Xλ com λ > 0

e encontre sua f.d.p fY .

Solucao: Pelo Teorema 1 com g(x) = x/λ para x > 0, temos

fY (y) =

fX (h(y))dh(y)

dy , se y > 0

0, caso contrario=

λaya−1

Γ(a)e−λy , se y > 0

0, caso contrario.

A v.a. Y tem distribuicao chamada Gama de parametros a > 0 eλ > 0.

Notacao: Y ∼ Gama(a, λ).

Exemplo 43. (Gama-Exponencial) Mostre que T1, . . .Tni.i.d∼ Exp(λ),

entao Sn =∑n

i=1 Ti ∼ Gama(n, λ).

Solucao: S.P.G assuma λ = 1. Lembre a FGM M(t) de uma v.a.Exp(1) e 1/(1 − t) para t < 1, de modo que MSn (t) = 1/(1 − t)n everifique que FGM de uma v.a. Gama(n, 1) e 1/(1 − t)n.

Exemplo 42. Seja X ∼ Gama(a, 1), defina a v.a. Y = Xλ com λ > 0

e encontre sua f.d.p fY .

Solucao: Pelo Teorema 1 com g(x) = x/λ para x > 0, temos

fY (y) =

fX (h(y))dh(y)

dy , se y > 0

0, caso contrario=

λaya−1

Γ(a)e−λy , se y > 0

0, caso contrario.

A v.a. Y tem distribuicao chamada Gama de parametros a > 0 eλ > 0.

Notacao: Y ∼ Gama(a, λ).

Exemplo 43. (Gama-Exponencial) Mostre que T1, . . .Tni.i.d∼ Exp(λ),

entao Sn =∑n

i=1 Ti ∼ Gama(n, λ).

Solucao: S.P.G assuma λ = 1. Lembre a FGM M(t) de uma v.a.Exp(1) e 1/(1 − t) para t < 1, de modo que MSn (t) = 1/(1 − t)n everifique que FGM de uma v.a. Gama(n, 1) e 1/(1 − t)n.

Exemplo 44. Seja X ∼ Gama(a, 1) e determine E(Xn), para n ≥ 1.

Solucao: Por definicao, para n ≥ 1,

E(Xn) =1

Γ(a)

∫ ∞

0xa+n−1e−xdx

=Γ(a + n)

Γ(a).

Em particular, E(X) =Γ(a+1)

Γ(a)= a, E(X2) =

Γ(a+2)Γ(a)

= a2 + a demodo que Var(X) = a.

Alem disso, se Y ∼ Gama(a, λ), entao temos Y = X/λ comX ∼ Gama(a, 1) e assim E(Y) = a/λ e Var(Y) = a/λ2.

Exemplo 44. Seja X ∼ Gama(a, 1) e determine E(Xn), para n ≥ 1.

Solucao: Por definicao, para n ≥ 1,

E(Xn) =1

Γ(a)

∫ ∞

0xa+n−1e−xdx

=Γ(a + n)

Γ(a).

Em particular, E(X) =Γ(a+1)

Γ(a)= a, E(X2) =

Γ(a+2)Γ(a)

= a2 + a demodo que Var(X) = a.

Alem disso, se Y ∼ Gama(a, λ), entao temos Y = X/λ comX ∼ Gama(a, 1) e assim E(Y) = a/λ e Var(Y) = a/λ2.

Exemplo 44. Seja X ∼ Gama(a, 1) e determine E(Xn), para n ≥ 1.

Solucao: Por definicao, para n ≥ 1,

E(Xn) =1

Γ(a)

∫ ∞

0xa+n−1e−xdx

=Γ(a + n)

Γ(a).

Em particular, E(X) =Γ(a+1)

Γ(a)= a, E(X2) =

Γ(a+2)Γ(a)

= a2 + a demodo que Var(X) = a.

Alem disso, se Y ∼ Gama(a, λ), entao temos Y = X/λ comX ∼ Gama(a, 1) e assim E(Y) = a/λ e Var(Y) = a/λ2.

Estatısticas de Ordem

Para v.a.s X1, . . . ,Xn as Estatısticas de Ordem sao dadas por

X(1),X(2), . . . ,X(n),

onde Xi e o i-esimo menor valor de X1, . . . ,Xn. Em particular,

X(1) = minX1, . . . ,Xn e X(n) = maxX1, . . . ,Xn.

Por definicao, temos X(1) ≤ X(2) . . . ≤ X(n).

Consideraremos apenas o caso que v.a.s X1, . . . ,Xn saocontınuas.

Exemplo 45. Sejam X1, . . . ,Xn v.as i.i.d. contınuas com FDA F .Determine a FDA FX(j) da v.a. X(j) para cada 1 ≤ j ≤ n.

Solucao: Precisamos calcular FX(j)(x) = P(X(j) ≤ x). Para isso,seja N a v.a. que conta o numero de v.a.s Xi que estao a esquerdade x e note que N ∼ Bin(n,F(x)). Logo, temos

FX(j)(x) = P(X(j) ≤ x) = P(N ≥ j) =n∑

k=j

(nk

)Fk (x)(1 − F(x))n−k .

Em particular, segue que a f.d.p fX(j) e dada para todo x ∈ R por

fX(j)(x) = n(n − 1j − 1

)F(j−1)(x)(1 − F(x))n−j f(x),

onde f e a f.d.p de F .

Exemplo 45. Sejam X1, . . . ,Xn v.as i.i.d. contınuas com FDA F .Determine a FDA FX(j) da v.a. X(j) para cada 1 ≤ j ≤ n.

Solucao: Precisamos calcular FX(j)(x) = P(X(j) ≤ x). Para isso,seja N a v.a. que conta o numero de v.a.s Xi que estao a esquerdade x e note que N ∼ Bin(n,F(x)). Logo, temos

FX(j)(x) = P(X(j) ≤ x) = P(N ≥ j) =n∑

k=j

(nk

)Fk (x)(1 − F(x))n−k .

Em particular, segue que a f.d.p fX(j) e dada para todo x ∈ R por

fX(j)(x) = n(n − 1j − 1

)F(j−1)(x)(1 − F(x))n−j f(x),

onde f e a f.d.p de F .

Exemplo 46. Sejam U1, . . . ,Uni.i.d∼ Unif(0, 1). Nesse caso, temos

fU(j)(u) =

n(n−1j−1

)uj−1(1 − u)n−j , se 0 < u < 1,

0, caso contrario,

para cada 1 ≤ j ≤ n. Logo, Uj ∼ Beta(j, n − j + 1) e

E(U(j)) =j

n + 1.

Em particular, para n = 2, temos que

E(|U1−U2|) = E(U(2)−U(1)) = E(U(2))−E(U(1)) = 2/3−1/3 = 1/3.

Teorema 24. (Desigualdade de Markov) Para qualquer v.a. X ,

P(|X | ≥ a) ≤E(|X |)

a, para qualquer a > 0.

Prova: Basta observar que a1|X |≥a ≤ |X | e tomar esperanca emambos os lados.

Teorema 25. (Desigualdade de Chebyshev) Para qualquer v.a. Xcom µ = E(X) e Var(X) = σ2,

P(|X − E(X)| ≥ a) ≤σ2

a2 , para qualquer a > 0.

Em particular, temos

P(|X − E(X)| ≥ aDP(X)) ≤1a2 , para qualquer a > 0.

Prova: Aplique a desigualdade de Markov para (X − E(X))2.

Teorema 24. (Desigualdade de Markov) Para qualquer v.a. X ,

P(|X | ≥ a) ≤E(|X |)

a, para qualquer a > 0.

Prova: Basta observar que a1|X |≥a ≤ |X | e tomar esperanca emambos os lados.

Teorema 25. (Desigualdade de Chebyshev) Para qualquer v.a. Xcom µ = E(X) e Var(X) = σ2,

P(|X − E(X)| ≥ a) ≤σ2

a2 , para qualquer a > 0.

Em particular, temos

P(|X − E(X)| ≥ aDP(X)) ≤1a2 , para qualquer a > 0.

Prova: Aplique a desigualdade de Markov para (X − E(X))2.

Teorema 24. (Desigualdade de Markov) Para qualquer v.a. X ,

P(|X | ≥ a) ≤E(|X |)

a, para qualquer a > 0.

Prova: Basta observar que a1|X |≥a ≤ |X | e tomar esperanca emambos os lados.

Teorema 25. (Desigualdade de Chebyshev) Para qualquer v.a. Xcom µ = E(X) e Var(X) = σ2,

P(|X − E(X)| ≥ a) ≤σ2

a2 , para qualquer a > 0.

Em particular, temos

P(|X − E(X)| ≥ aDP(X)) ≤1a2 , para qualquer a > 0.

Prova: Aplique a desigualdade de Markov para (X − E(X))2.

Teorema 24. (Desigualdade de Markov) Para qualquer v.a. X ,

P(|X | ≥ a) ≤E(|X |)

a, para qualquer a > 0.

Prova: Basta observar que a1|X |≥a ≤ |X | e tomar esperanca emambos os lados.

Teorema 25. (Desigualdade de Chebyshev) Para qualquer v.a. Xcom µ = E(X) e Var(X) = σ2,

P(|X − E(X)| ≥ a) ≤σ2

a2 , para qualquer a > 0.

Em particular, temos

P(|X − E(X)| ≥ aDP(X)) ≤1a2 , para qualquer a > 0.

Prova: Aplique a desigualdade de Markov para (X − E(X))2.

Teorema 26. (Desigualdade de Chernoff) Para qualquer v.a. X econstantes a > 0 e t > 0,

P(X ≥ a) ≤E(etX )

eta .

Prova: Note que

P(X ≥ a) = P(etX ≥ eta) ≤E(etX )

eta .

onde na desigualdade usamos a desigualdade de Markov parav.a. nao negativa etX .

Teorema 26. (Desigualdade de Chernoff) Para qualquer v.a. X econstantes a > 0 e t > 0,

P(X ≥ a) ≤E(etX )

eta .

Prova: Note que

P(X ≥ a) = P(etX ≥ eta) ≤E(etX )

eta .

onde na desigualdade usamos a desigualdade de Markov parav.a. nao negativa etX .

Exemplo 47. Seja Z ∼ N(0, 1). Temos as seguintes cotassuperiores para P(|Z | > 3):

I Markov: P(|Z | > 3) ≤E(|Z |)

3 = 13

√2/π

I Chebyshev: P(|Z | > 3) ≤ 19 ≈ 0.11.

I Chernoff: P(|Z | > 3) = 2P(Z > 3) ≤ 2e−3tet2/2. O lado direitoe minimizado em t = 3, implicando queP(|Z | > 3) ≤ 2e−9/2 ≈ 0.022.

Como ja vimos P(|Z | > 3) ≈ 0.003 e dessa maneira vemos que adesigualdade de Chernoff nos fornece uma cota superior maisprecisa

Lei dos Grandes Numeros

Sejam X1, . . . ,Xn v.a.s i.i.d com media µ e variancia σ2 finitas.

A media amostral Xn e a v.a. definida por

Xn =X1 + . . . + Xn

n

Ja verificamos que

E(Xn) = µ e Var(Xn) =σ2

n.

Teorema 27. (Lei dos Grandes Numeros) A media amostral Xn

converge em probabilidade para a media populacional µ quandon → ∞, isto e para qualquer ε > 0,

limn→∞P(|Xn − µ| > ε) = 0.

Prova do Teorema 27: Observe que E(Xn) = µ de modo que adesigualdade de Chebyshev implica que

P(|Xn − µ| > ε) = P(|Xn − E(Xn)| > ε) ≤Var(Xn)

ε=σ2

nε,

e o resultado segue.

Exemplo 48. Suponha que X1,X2, . . . sao v.a.s i.i.d. Bernoulli deparametro p. A LGN afirma que

Xn → p quando n → ∞ em probabilidade.

Figure 16: (Blitzstein, J.K. e Hwang,J. Introduction to probability, p.432.)Evolucao da proporcao de caras em 6 sequencias de lancamentos demoedas honestas. A medida que o numero de lancamentos aumenta, aproporcao de caras se aproxima de 1/2.

Aplicacao: Integracao de Monte CarloSuponha que

∫ ba f(x)dx nao tenha uma formula exata e portanto o

melhor que podemos fazer e obter uma aproximacao para o valordessa integral. Suponha que 0 ≤ f(x) ≤ c para todo a ≤ x ≤ b.

Figure 17: (Blitzstein, J.K. e Hwang,J. Introduction to probability, p.433.)Integracao Monte Carlo. para aproximar a area abaixo de f(x) entrea ≤ x ≤ b, gere pontos aleatorios no retangulo [a, b] × [0, c], e aproximea area abaixo de f(x) pela proporcao de pontos que caem abaixo dografico de f(x), multiplicado pela area total do retangulo.

Verificacao do metodo de integracao de Monte Carlo

Tome pontos (X1,Y1), . . . , (Xn,Yn) i.i.d uniformemente distribuıdosno retangulo A = [a, b] × [0, c] e defina para cada 1 ≤ j ≤ n,

Ij =

1, se o par (Xj ,Yj) esta abaixo do grafico de f(x)

0, caso contrario.

Denote p = P(Ij = 1) e observe que

p =

∫ ba f(x)dx

c(b − a).

Pela LGN podemos estimar p usando 1n∑n

j=1 Ij , de modo que

∫ b

af(x)dx ≈ c(b − a)

1n

n∑j=1

Ij .

Teorema Central do Limite

Sejam X1, . . . ,Xn v.a.s i.i.d com media µ e variancia σ2 finitas.

Qual e a distribuicao de Xn − µ para n suficientemente grande?

Teorema 28. Quando n → ∞,

n1/2(Xn − µ)

σ→ N(0, 1) em distribuicao,

i.e., a FDA de Xn−µσ converge para Φ(x) quando n → ∞ para todo

x ∈ R, onde Φ denota a FDA de uma v.a. normal padrao.

Prova: S.P.G podemos assumir µ = 0 e σ = 1. Vamos provaresse resultado no caso que a FGM M(t) das v.a.s Xi existe. Aprova para o caso geral e omitida.

Denote Sn =∑n

i=1 Xi . Queremos mostrar que a FGM de Sn/n1/2

converge para a FGM de uma normal padrao. Para isso, note que

E(etSn/n1/2) =

(E(etX1/n1/2

))n

= M(t/n1/2)n.

Logo, log(E(etSn/n1/2)) = n log(M(t/n1/2)) e aplicando a L’Hopital

duas vezes deduzimos que

limn→∞

n log(M(t/n1/2)) = limn→∞

log(M(t/n1/2))

1/n

= limy→0

log(M(ty))

y2 =t2

2,

e o resultado segue.

Figure 18: (Blitzstein, J.K. e Hwang,J. Introduction to probability, p.438.)Teorema do limite central. Histogramas da distribuicao de Xn paradiferentes distribuicoes das v.a.s Xj . Cada histograma foi construıdo combase em 10.000 simulacoes de Xn.

Aplicacoes

Exemplo 49. Seja Y ∼ Poi(n). Sabemos que em distribuicao Ypode ser escrito como a soma de n v.a.s i.i.d. com distribuicaoPoi(1). Logo, para n grande,

Y ∼ N(n, n).

Exemplo 50. Seja Y ∼ Gama(n, λ). Sabemos que em distribuicaoY pode ser escrito como a soma de n v.a.s i.i.d. com distribuicaoExp(λ). Logo, para n grande,

Y ∼ N(nλ,

nλ2

).

Aplicacoes

Exemplo 49. Seja Y ∼ Poi(n). Sabemos que em distribuicao Ypode ser escrito como a soma de n v.a.s i.i.d. com distribuicaoPoi(1). Logo, para n grande,

Y ∼ N(n, n).

Exemplo 50. Seja Y ∼ Gama(n, λ). Sabemos que em distribuicaoY pode ser escrito como a soma de n v.a.s i.i.d. com distribuicaoExp(λ). Logo, para n grande,

Y ∼ N(nλ,

nλ2

).

Aproximacao Binomial pela Normal

Sejam X1, . . . ,Xn v.a.s i.i.d Bernoulli de parametro p.

Logo, X =∑n

i=1 Xi ∼ Bin(n, p) e pelo TCL segue que

P(a ≤ X ≤ b) = P

a − np√np(1 − p)

≤X − np√np(1 − p)

≤b − np√np(1 − p)

≈ Φ

b − np√np(1 − p)

− Φ

a − np√np(1 − p)

,se n e suficientemente grande, onde a e b sao numeros reais coma ≤ b e Φ e a FDA da normal padrao.

Exemplo 51. Em cada dia, o valor de uma acao muito volatil sobe70% e desce 50% com iguais probabilidades, independentementedos dias anteriores. Denote Yn o valor desta acao apos n dias,comecando de um valor inicial Y0 = 100.

1. Explique porque log(Yn) e aproximadamente Normal para ngrande, e determine os seus parametros.

2. O que acontece com E(Yn) quando n → ∞?

3. Use a Lei dos Grandes Numeros para determinar ocomportamento de Yn quando n → ∞.

Distribuicao Qui-quadradoSejam Z1, . . . ,Zn

i.i.d∼ N(0, 1) e defina a v.a.

V = Z21 + Z2

2 + . . . + Z2n .

A v.a. V assim definida tem distribuicao Qui-quadrado com n grausde liberdade.

Notacao:V ∼ χ2n.

Proposicao 1. V ∼ χ2n entao V ∼ Gama(n/2, 1/2).

Prova: Basta provar que Z21 ∼ Gama(1/2, 1/2). Para isso, note

que para todo x > 0,

P(Z21 ≤ x) = Φ(

√x) − Φ(−

√x) = 2Φ(

√x) − 1.

Logo, a f.d.p de Z21 e dada para x > 0 por

1√

2πx−1/2e−x/2,

e o resultado segue.

Distribuicao t-StudentSejam Z e V v.a.s independentes com Z ∼ N(0, 1) e V ∼ χ2

n.

A v.a. T = Z√V/n

tem distribuicao t-Student com n graus deliberdade.

Notacao: T ∼ tn.

Proposicao 2. Seja T ∼ tn. Entao as seguintes propriedadesvalem,

1. T e simetrica ao redor de 0: −T ∼ tn.

2. Se n = 1, entao T e uma v.a. Cauchy.

3. T converge para uma v.a. Normal em distribuicao quandon → ∞.

Prova: Item 1 e imediato. O item 2 segue do fato que quandon = 1, T = Z/|Z1|, onde Z ,Z1

i.i.d∼ N(0, 1). Para provar o Item 3,

aplique a LFGN para concluir que V/n → 1 quando n → ∞ comprobabilidade 1 e portanto T → Z ∼ N(0, 1) quando n → ∞.

Distribuicao t-StudentSejam Z e V v.a.s independentes com Z ∼ N(0, 1) e V ∼ χ2

n.

A v.a. T = Z√V/n

tem distribuicao t-Student com n graus deliberdade.

Notacao: T ∼ tn.

Proposicao 2. Seja T ∼ tn. Entao as seguintes propriedadesvalem,

1. T e simetrica ao redor de 0: −T ∼ tn.

2. Se n = 1, entao T e uma v.a. Cauchy.

3. T converge para uma v.a. Normal em distribuicao quandon → ∞.

Prova: Item 1 e imediato. O item 2 segue do fato que quandon = 1, T = Z/|Z1|, onde Z ,Z1

i.i.d∼ N(0, 1). Para provar o Item 3,

aplique a LFGN para concluir que V/n → 1 quando n → ∞ comprobabilidade 1 e portanto T → Z ∼ N(0, 1) quando n → ∞.

Distribuicao t-StudentSejam Z e V v.a.s independentes com Z ∼ N(0, 1) e V ∼ χ2

n.

A v.a. T = Z√V/n

tem distribuicao t-Student com n graus deliberdade.

Notacao: T ∼ tn.

Proposicao 2. Seja T ∼ tn. Entao as seguintes propriedadesvalem,

1. T e simetrica ao redor de 0: −T ∼ tn.

2. Se n = 1, entao T e uma v.a. Cauchy.

3. T converge para uma v.a. Normal em distribuicao quandon → ∞.

Prova: Item 1 e imediato. O item 2 segue do fato que quandon = 1, T = Z/|Z1|, onde Z ,Z1

i.i.d∼ N(0, 1). Para provar o Item 3,

aplique a LFGN para concluir que V/n → 1 quando n → ∞ comprobabilidade 1 e portanto T → Z ∼ N(0, 1) quando n → ∞.