Análise de Dados em Astronomia 3. Distribuições de ...
Transcript of Análise de Dados em Astronomia 3. Distribuições de ...
3. Distribuições de Probabilidades
Análise de Dados em Astronomia
3. Distribuições de Probabilidades
Laerte Sodré Jr.
AGA0505, 1o. semestre 2019
1 / 24
introdução
aula de hoje
1 distribuições de probabilidades2 a distribuição uniforme3 a distribuição normal ou gaussiana4 o teorema do limite central5 a distribuição binomial6 a distribuição de Poisson7 a distribuição exponencial8 a distribuição beta
9 a distribuição de Cauchy10 a distribuição χ2
11 a distribuição t de Student
12 distribuições em lei de potência
É provável que coisas improváveis aconteçam (Aristóteles)
2 / 24
distribuições de probabilidades
distribuições de probabilidades
clássicasuniformebinomialnormalPoissonexponencial
fauna estatísticaβ, Cauchy, χ2, F, Γ, t, Weibull,...
astrofísicalei de potênciaSchectherlog-normal...
3 / 24
distribuições de probabilidades
distribuição uniforme
distribuição uniforme (entre 0 e X):
P(x|X) =
{ 1X , se 0 ≤ x ≤ X0, de outro modo
média
E(x) =
∫ X
0x
1X
dx =X2
variância
σ2 = E(x2)− E(x)2 =X2
3− X2
4=
X2
12
distribuição cumulativa:
CDF(x) =
∫ x
0
1X
dx =xX
4 / 24
distribuições de probabilidades
distribuição normal ou gaussiana
distribuição gaussiana:
P(x|µ, σ) =1√2πσ
exp[− (x− µ)2
2σ2
]2 parâmetros:
média µdesvio padrão σ (ou variância σ2)
N(x;µ, σ)
distribuição cumulativa:
CDF(x) =
∫ x
−∞N(x′;µ, σ)dx′ =
=12
[1 + erf
(x− µ√
2σ
)],
onde
erf(x) =2√π
∫ x
0e−u2/2du
é chamada de função erro
5 / 24
distribuições de probabilidades
distribuição normal ou gaussiana
distribuição gaussiana:
P(x|µ, σ) =1√2πσ
exp[− (x− µ)2
2σ2
]distribuição cumulativa:
CDF(x) =12
[1 + erf
(x− µ√
2σ
)]
a área total sob a curva é 1a área dentro de ±1σ é 0,68a área dentro de ±2σ é 0.95a área dentro de ±3σ é 0.997um resultado de 2σ teria apenas 5%de chance de ocorrer ao acaso
6 / 24
distribuições de probabilidades
distribuição normal ou gaussiana
Teorema do Limite Central:em condições bem gerais, fazermédias produz uma distribuiçãogaussiana, independentemente dadistribuição a partir da qual os dadossão geradosse x1, x2, ..., xn é um conjunto devariáveis aleatórias com valoresperado µ finito e variância σ2 finita,para N →∞ a soma dessas variáveistende a uma distribuição gaussianade média Nµ e variância Nσ2
a variável
y =
∑Ni=1(xi − µ)∑N
i=1 σ2
tende a uma gaussiana de média nulae variância unitária
uma consequência: os erros demédias de dados vão tender a ser’gaussianos’
7 / 24
distribuições de probabilidades
distribuição normal ou gaussiana
Teorema do Limite Central:em condições bem gerais, fazermédias produz uma distribuiçãogaussiana, independentemente dadistribuição a partir da qual os dadossão geradosexemplo: valores médios em Nsimsimulações de 10 pontos com umadistribuição exponencial
8 / 24
distribuições de probabilidades
distribuição binomial
aplica-se quando há apenas dois resultados possíveis:sucesso/falha, detecção/não-detecção, cara/coroa
dá a probabilidade de n sucessos em N tentativasa probabilidade de sucesso em cada tentativa é a mesma e designada por θas sucessivas tentativas são independentes entre si
P(n|θ,N) =
(Nn
)θn(1− θ)N−n =
N!
n!(N − n)!θn(1− θ)N−n
média e variância:
n̄ =
N∑n=0
nP(n) = Nθ σ2 =
N∑n=0
(n− n̄)2P(n) = Nθ(1− θ)
9 / 24
distribuições de probabilidades
distribuição binomial
exemplo: em uma certa região do céu espera-se o mesmo número de estrelas e galáxiasaté uma certa magnitude
considerando 10 objetos, qual é a probabilidade de se ter 8 ou mais galáxias?no caso: N = 10 e θ = 1/2probabilidade de n ≥ 8 sucessos em N tentativas:
P(n ≥ 8|θ,N) =
N∑n=8
(Nn
)θn(1− θ)N−n =
=1
210
N∑n=8
(Nn
)=
56124' 0.055
assim, a probabilidade de n ≥ 8 galáxias em N = 10 objetos é ∼5.5%
10 / 24
distribuições de probabilidades
distribuição binomial
11 / 24
distribuições de probabilidades
distribuição de Poisson
probabilidade de n eventos ocorreremnum certo intervalo de tempo, ou emcerta região do espaço, se esteseventos ocorrem independentemente ecom uma média fixa
P(n|µ) =µn
n!e−µ
média e variância:
n̄ =∑N
n=0 nP(n) = µ
σ2 =∑N
n=0(n− n̄)2P(n) = µ
12 / 24
distribuições de probabilidades
distribuição de Poisson
aplicações:
contagens em detectores
densidade de estrelas/galáxias
explosões de supernovas
variabilidade de AGNs
...
13 / 24
distribuições de probabilidades
distribuição de Poisson
exemplo:em um detector, o número esperado de fótons de uma fonte é de 4.5 por segundo;qual é a probabilidade de se detectar 6 fótons em 2 segundos?taxa de fótons: λ = 4.5/secnúmero esperado no intervalo de tempo t: µ = λtprobabilidade:
P(n|µ) =µn
n!e−µ =
(4.5× 2)6
6!e−4.5×2 ' 0.09
14 / 24
distribuições de probabilidades
distribuição exponencial
descreve o intervalo de tempo entreeventos que obedecem a um processopoissoniano, isto é, que ocorremcontinuamente e independentemente,com uma taxa média constante, λ > 0:
P(x|λ) =
{λe−λx, se x ≥ 0
0, se x < 0
média e variância:x̄ = 1
λ
σ2 = 1λ2
distribuição cumulativa:
CDF(x|λ) =
{1− e−λx, se x ≥ 0
0, se x < 0
15 / 24
distribuições de probabilidades
distribuição exponencial
exemplo:a taxa de supernovas média em uma galáxia como a Via Láctea é de 1 em 50 anosa última supernova conhecida que explodiu na Via Láctea foi a de Kepler, em 1604qual é a probabilidade de se esperar mais de 400 anos para se observar uma novasupernova?esta probabilidade é dada por ∫ ∞
t0
λe−λtdt = e−λt0 =
= e−400/50 = e−8 ' 0.00033546
ou, ∼ 0.03%
16 / 24
distribuições de probabilidades
a versátil distribuição beta
função beta (0 < x < 1; a, b > 0):
Beta(x; a, b) =Γ(a + b)
Γ(a)Γ(b)xa−1(1− x)b−1
propriedades:
E(x) = a/(a + b)
var(x) = ab/[(a + b)2(a + b + 1)]
moda(x) = (a− 1)/(a + b− 2)
17 / 24
distribuições de probabilidades
distribuição de Cauchy
distribuição de Cauchy ou lorentziana:
P(x|µ, γ) =γ
π[γ2 + (x− µ)2]
parâmetro de localização: µparâmetro de escala γ
como P(x) ∝ 1/x2 para x >> 1, amédia, variância e desvio padrão nãoexistem (“caudas pesadas”)
dada uma amostra {xi} comdistribuição de Cauchy, µ e γ devemser estimados com métodos robustos
µ pode ser estimado pela mediana eγ pelo intervalo entre quartis:2γ = q75 − q25
se x e y são duas variáveis gaussianasindependentes amostradas de N(0, 1),então z = x/y distribui-se comoCauchy com µ = 0 e γ = 1
18 / 24
distribuições de probabilidades
distribuição do χ2
dados: {xi}, i = 1,n:amostrados com N(µ, σ)sejam
zi =xi − µσ
e
Q =
n∑i=1
z2i
Q segue uma distribuição de χ2 comk = n graus de liberdade:
P(Q|k) = χ2(Q|k) =1
2k/2Γ(k/2)Q
k2−1e−
Q2
onde Q > 0 e Γ(x) é a função Γ
Γ(z) =∫∞
0 xz−1e−xdxΓ(n) = (n− 1)! para n inteiro
χ2(Q, k) depende de Q mas nãodiretamente de µ e σ
19 / 24
distribuições de probabilidades
distribuição do χ2
χ2 por grau de liberdade:
χ2dof = χ2(Q/k|k)
estatísticas de χ2dof :
média: 1mediana: ∼ (1− 2
9k )3
desvio padrão:√
2/kskewnewss:
√8/k
curtosis: 12/k
20 / 24
distribuições de probabilidades
distribuição t de Student
dados: {xi}, i = 1,n:amostrados com N(µ, σ)
a variável
t =x̄− µσs/√
N
se distribui com uma pdf t comk = n− 1 graus de liberdadenote que t é baseado nas estimativas x̄e σs, enquanto que o χ2 é baseado nosvalores verdadeiros µ e σa distribuição t aparece nacomparação da média de duasamostras
21 / 24
distribuições de probabilidades
distribuição em lei de potência
muito comum em Astronomia:
exemplos: contagens de galáxias,função de massa inicial de Salpeter
também muito comum em outrasáreas: flutuações no mercadoeconômico, taxa de crescimento deempresas, distribuição de salários, etc
N(> L): número de objetos ou eventoscom uma dada propriedade medida(e.g. a luminosidade) maior do que umcerto valor L
se a distribuição for uma lei depotência com expoente γ, temos:
N(> L) = KLγ+1 (forma integral)
ou
dN = (γ+1)KLγdL (forma diferencial)
essa é uma distribuição independentede escala, pois se f (x) = xγ , entãof (ax) = aγxγ = cte xγ = cte f (x), que éa definição de independência deescala
22 / 24
distribuições de probabilidades
distribuição em lei de potência
média e variância infinitas, a menosque limites sejam determinados: isso éo que ocorre na maioria dos casosconcretos, pois sempre existemlimitações físicas em ambos os ‘lados’da distribuição
exemplo: a função de massa inicial deSalpeter (1955)
ξ(M) = ξ0M−2.35
ξ(M)dM: número de estrelas nascidascom massas entre M e M + dM
23 / 24
distribuições de probabilidades
exercícios
1 Jogue um dado honesto uma vez; quais são o valor médio e a variância esperados?2 Se 60% das estrelas são binárias, qual é a probabilidade de que uma amostra
aleatória de 5 estrelas contenha a) 0, b) 1, c) 2, d) 3, e) 4 e f) 5 binárias?3 Em um levantamento de quasares cobrindo 1000 graus quadrados no céu
encontrou-se 23400 quasares. Se a distribuição projetada destes objetos formodelada como uma distribuição de Poisson, qual é a probabilidade de se observarmenos que 5 objetos em uma certa área de 1 grau quadrado?
4 Sejam 0.5, 0.4 e 0.3 respectivamente as probabailidades de três estrelas explodiremcomo supernovas depois de um certo tempo t. Calcule a probabilidade de que em t:
1 nenhuma explodiu2 todas explodiram3 somente 1 não explodiu4 pelo menos 1 não explodiu
24 / 24