AGA 0505 - Análise de Dados em Astronomia I 3 ...

26
AGA 0505 - Análise de Dados em Astronomia I 3. Distribuições de Probabilidades Laerte Sodré Jr. 1o. semestre, 2020 1 / 26

Transcript of AGA 0505 - Análise de Dados em Astronomia I 3 ...

Page 1: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

3. Distribuições de Probabilidades

AGA 0505 - Análise de Dados em Astronomia I

3. Distribuições de Probabilidades

Laerte Sodré Jr.

1o. semestre, 2020

1 / 26

Page 2: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

aula de hoje

1. distribuições de probabilidades2. a distribuição uniforme3. a distribuição normal ou gaussiana4. o teorema do limite central5. a distribuição binomial6. a distribuição de Poisson7. a distribuição exponencial8. a distribuição beta9. a distribuição de Cauchy

10. a distribuição χ2

11. a distribuição t de Student

12. distribuições em lei de potência

13. a distribuição gaussiana bivariada

É provável que coisas improváveis aconteçam

Aristóteles

2 / 26

Page 3: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuições de probabilidades

• clássicas• uniforme• binomial• normal• Poisson• exponencial

• fauna estatística• β, Cauchy, χ2, F, Γ, t, Weibull,...

• astrofísica• lei de potência• Schecther• log-normal• ...

3 / 26

Page 4: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição uniforme

• distribuição uniforme (entre 0 e X):

P(x|X) =

{ 1X , se 0 ≤ x ≤ X0, de outro modo

• média

E(x) =

∫ X

0x

1X

dx =X2

• variância

σ2 = E(x2)− E(x)2 =X2

3− X2

4=

X2

12

• distribuição cumulativa:

F(x) =

∫ x

0

1X

dx =xX

4 / 26

Page 5: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição normal ou gaussiana

• distribuição gaussiana:

P(x|µ, σ) =1√2πσ

exp[− (x− µ)2

2σ2

]2 parâmetros:• média µ• desvio padrão σ (ou variância σ2)

p = 1/σ2 é denominado precisão

• distribuição cumulativa:

F(x) =

∫ x

−∞P(x′|µ, σ)dx′ =

=12

[1 + erf

(x− µ√

)],

onde

erf(x) =2√π

∫ x

0e−u2/2du

é chamada de função erro5 / 26

Page 6: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição normal ou gaussiana

• distribuição gaussiana:

P(x|µ, σ) =1√2πσ

exp[− (x− µ)2

2σ2

]• distribuição cumulativa:

F(x) =12

[1 + erf

(x− µ√

)]

• a área total sob a curva é 1

• a área dentro de ±1σ é 0,68

• a área dentro de ±2σ é 0.95

• a área dentro de ±3σ é 0.997

• um resultado de 2σ teria apenas 5% dechance de ocorrer ao acaso

6 / 26

Page 7: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

teorema do limite central

• Teorema do Limite Central:• em condições bem gerais, fazer médias

produz uma distribuição gaussiana,independentemente da distribuição apartir da qual os dados são gerados

• se x1, x2, ..., xn é um conjunto devariáveis aleatórias com valor esperadoµ finito e variância σ2 finita, paraN →∞ a soma dessas variáveis tendea uma distribuição gaussiana de médiaNµ e variância Nσ2

• a variável

y =

∑Ni=1(xi − µ)∑N

i=1 σ2

tende a uma gaussiana de média nula evariância unitária

• uma consequência: os erros de médiasde dados vão tender a ser ’gaussianos’

7 / 26

Page 8: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

teorema do limite central

• Teorema do Limite Central:• em condições bem gerais, fazer médias

produz uma distribuição gaussiana,independentemente da distribuição apartir da qual os dados são gerados

• exemplo: valores médios em Nsimsimulações de 10 pontos com umadistribuição exponencial

8 / 26

Page 9: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição binomial

aplica-se quando há apenas dois resultados possíveis:sucesso/falha, detecção/não-detecção, cara/coroa• dá a probabilidade de n sucessos em N tentativas• a probabilidade de sucesso em cada tentativa é a mesma e designada por θ• as sucessivas tentativas são independentes entre si

P(n|θ,N) =

(Nn

)θn(1− θ)N−n =

N!

n!(N − n)!θn(1− θ)N−n

• média e variância:

n̄ =

N∑n=0

nP(n) = Nθ σ2 =

N∑n=0

(n− n̄)2P(n) = Nθ(1− θ)

9 / 26

Page 10: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição binomial

exemplo: em uma certa região do céu espera-se o mesmo número de estrelas e galáxias atéuma certa magnitude• considerando 10 objetos, qual é a probabilidade de se ter 8 ou mais galáxias?• no caso: N = 10 e θ = 1/2• probabilidade de n ≥ 8 sucessos em N tentativas:

P(n ≥ 8|θ,N) =

N∑n=8

(Nn

)θn(1− θ)N−n =

=1

210

N∑n=8

(Nn

)=

56124' 0.055

• assim, a probabilidade de n ≥ 8 galáxias em N = 10 objetos é ∼5.5%

10 / 26

Page 11: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição binomial

11 / 26

Page 12: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição de Poisson

• probabilidade de n eventos ocorreremnum certo intervalo de tempo, ou emcerta região do espaço, se estes eventosocorrem independentemente e com umamédia fixa

P(n|µ) =µn

n!e−µ

• média e variância:

n̄ =∑N

n=0 nP(n) = µ

σ2 =∑N

n=0(n− n̄)2P(n) = µ

12 / 26

Page 13: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição de Poisson

aplicações:

• contagens em detectores

• densidade de estrelas/galáxias

• explosões de supernovas

• variabilidade de AGNs

• ...

13 / 26

Page 14: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição de Poisson

exemplo:• em um detector, o número esperado de fótons de uma fonte é de 4.5 por segundo; qual

é a probabilidade de se detectar 6 fótons em 2 segundos?• taxa de fótons: λ = 4.5/sec• número esperado no intervalo de tempo t: µ = λt = 4.5× 2 = 9• probabilidade:

P(n|µ) =µn

n!e−µ =

96

6!e−9 ' 0.09

14 / 26

Page 15: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição exponencial

• descreve o intervalo de tempo entreeventos que obedecem a um processopoissoniano, isto é, que ocorremcontinuamente e independentemente,com uma taxa média constante, λ > 0:

P(x|λ) =

{λe−λx, se x ≥ 0

0, se x < 0

• média e variância:x̄ = 1

λ

σ2 = 1λ2

• distribuição cumulativa:

F(x|λ) =

{1− e−λx, se x ≥ 0

0, se x < 0

15 / 26

Page 16: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição exponencial

exemplo:• a taxa de supernovas média em uma galáxia como a Via Láctea é de 1 em 50 anos• a última supernova conhecida que explodiu na Via Láctea foi a de Kepler, em 1604• qual é a probabilidade de se esperar mais de 400 anos para se observar uma nova

supernova?• esta probabilidade é dada por ∫ ∞

t0

λe−λtdt = e−λt0 =

= e−400/50 = e−8 ' 0.00033546

ou, ∼ 0.03%

16 / 26

Page 17: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

a versátil distribuição beta

• função beta (0 < x < 1; a, b > 0):

Beta(x; a, b) =Γ(a + b)

Γ(a)Γ(b)xa−1(1− x)b−1

• propriedades:

• E(x) = a/(a + b)

• var(x) = ab/[(a + b)2(a + b + 1)]

• moda(x) = (a− 1)/(a + b− 2)

17 / 26

Page 18: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição de Cauchy

• distribuição de Cauchy ou lorentziana:

P(x|µ, γ) =γ

π[γ2 + (x− µ)2]

• parâmetro de localização: µparâmetro de escala γ

• como P(x) ∝ 1/x2 para x >> 1, a média,variância e desvio padrão não existem(“caudas pesadas”)

• dada uma amostra {xi} com distribuiçãode Cauchy, µ e γ devem ser estimadoscom métodos robustos

• µ pode ser estimado pela mediana eγ pelo intervalo entre quartis:2γ = q75 − q25

• se x e y são duas variáveis gaussianasindependentes amostradas de N(0, 1),então z = x/y distribui-se como Cauchycom µ = 0 e γ = 1

18 / 26

Page 19: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição do χ2

• dados: {xi}, i = 1,n:amostrados com N(µ, σ)• sejam

zi =xi − µσ

e

Q =

n∑i=1

z2i

• Q segue uma distribuição de χ2 comk = n graus de liberdade:

P(Q|k) = χ2(Q|k) =1

2k/2Γ(k/2)Q

k2−1e−

Q2

onde Q > 0 e Γ(x) é a função Γ

• Γ(z) =∫∞

0 xz−1e−xdxΓ(n) = (n− 1)! para n inteiro

• χ2(Q, k) depende de Q mas nãodiretamente de µ e σ

19 / 26

Page 20: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição do χ2

• χ2 por grau de liberdade:

χ2dof = χ2(Q|k)/k

• estatísticas de χ2dof :

• média: 1mediana: ∼ (1− 2

9k )3

desvio padrão:√

2/kskewnewss:

√8/k

curtosis: 12/k

20 / 26

Page 21: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição t de Student

• dados: {xi}, i = 1,n:amostrados com N(µ, σ)

• a variável

t =x̄− µσs/√

N

se distribui com uma pdf t com k = n− 1graus de liberdade

• note que t é baseado nas estimativas x̄ eσs, enquanto que o χ2 é baseado nosvalores verdadeiros µ e σ

• a distribuição t aparece na comparaçãoda média de duas amostras 21 / 26

Page 22: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição em lei de potência

muito comum em Astronomia:

• exemplos: contagens de galáxias,função de massa inicial de Salpeter

• também muito comum em outras áreas:flutuações no mercado econômico, taxade crescimento de empresas,distribuição de salários, etc

• N(> L): número de objetos ou eventoscom uma dada propriedade medida (e.g.a luminosidade) maior do que um certovalor L

• se a distribuição for uma lei de potênciacom expoente γ, temos:

N(> L) = KLγ+1 (forma integral)

ou

dN = (γ + 1)KLγdL (forma diferencial)

• essa é uma distribuição independente deescala, pois se f (x) = xγ , entãof (ax) = aγxγ = cte xγ = cte f (x), que é adefinição de independência de escala

22 / 26

Page 23: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição em lei de potência

• média e variância infinitas, a menos quelimites sejam determinados: isso é o queocorre na maioria dos casos concretos,pois sempre existem limitações físicasem ambos os ‘lados’ da distribuição

• exemplo: a função de massa inicial deSalpeter (1955)

ξ(M) = ξ0M−2.35

ξ(M)dM: número de estrelas nascidascom massas entre M e M + dM

23 / 26

Page 24: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição gaussiana bivariada

exemplo de uma distribuição bidimensional:• gaussiana bivariada:

P(x, y|µx, µy, σx, σy, σxy) =1

2πσxσy√

1− ρ2exp

(−

Z2

2(1− ρ2)

)

onde

Z2=

(x− µx)2

σ2x

+(y− µy)

2

σ2y

− 2ρ(x− µx)(y− µy)

σxσy

• coeficiente de correlação:

ρ =σxy

σxσy

• contornos P(x, y) = cte: elipses

P(x, y) ∼ N(µ,Σ)

onde µ é o vetor de valores médios eΣ é a matriz de covariância:

µ =

(µxµy

), Σ =

(σ2

x ρσxσyρσxσy σ2

y

)

24 / 26

Page 25: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

distribuição gaussiana bivariada

• gaussiana bivariada:

P(x, y|µx, µy, σx, σy, σxy) =1

2πσxσy√

1− ρ2exp

(−

Z2

2(1− ρ2)

)

onde

Z2=

(x− µx)2

σ2x

+(y− µy)

2

σ2y

− 2ρ(x− µx)(y− µy)

σxσy

• coeficiente de correlação:

ρ =σxy

σxσy

• distribuições condicionais: P(x|y) eP(y|x) são gaussianas(ver completando_o_quadrado.pdf)

exemplo:P(x|y) = N(µ, σ)

onde

µ = µx −ρσx(y− µy)

σy

eσ =

σx

(1− ρ2).

25 / 26

Page 26: AGA 0505 - Análise de Dados em Astronomia I 3 ...

introdução distribuições de probabilidades

exercícios

1. Jogue um dado honesto uma vez; quais são o valor médio e a variância esperados?2. Em uma distribuição gaussiana, qual é a probabilidade de se ter um resultado maior que

5σ da média?3. Se 60% das estrelas são binárias, qual é a probabilidade de que uma amostra aleatória

de 5 estrelas contenha a) 0, b) 1, c) 2, d) 3, e) 4 e f) 5 binárias?4. Em um levantamento de quasares cobrindo 1000 graus quadrados no céu encontrou-se

23400 quasares. Se a distribuição projetada destes objetos for modelada como umadistribuição de Poisson, qual é a probabilidade de se observar menos que 5 objetos emuma certa área de 1 grau quadrado?

26 / 26