AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019....

26
AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades Laerte Sodré Jr. 1o. semestre, 2019 1 / 26

Transcript of AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019....

Page 1: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

1. Introdução

AGA 0505 - Análise de Dados em Astronomia I

2. Probabilidades

Laerte Sodré Jr.

1o. semestre, 2019

1 / 26

Page 2: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

aula de hoje:

1 o que são probabilidades2 distribuições de probabilidades3 a distribuição normal ou gaussiana4 probabilidades condicionais e

conjuntas5 as regras fundamentais das

probabilidades

6 exercícios sobre probabilidades7 o teorema de Bayes8 aplicações9 combinação de distribuições

A teoria das probabilidades é o senso comum reduzido ao cálculo

(Pierre-Simon Laplace)

2 / 26

Page 3: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

o que são probabilidades?

teoria das probabilidades: provê ummeio de quantificar as incertezas

fontes de incertezas:incerteza intrínseca ao fenômeno,como na Mecânica Quântica ou emfenômenos caóticos e/ouestocásticosincerteza nas medidas ouobservaçõesincerteza nos modelos, que leva auma incerteza nas predições

há uma disputa dentro da Estatística,tendo como base a natureza dasprobabilidades:métodos bayesianos xmétodos frequentistas

3 / 26

Page 4: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

o que são probabilidades?

probabilidade frequentista: medida da frequência de eventos (em váriosexperimentos ou ensemble de sistemas estatisticamente equivalentes)probabilidade bayesiana: medida da plausibilidade de uma proposição

os métodos bayesianos propõem um enfoque lógico para a análise de dadosbaseado no teorema de Bayesos métodos frequentistas foram largamente dominantes durante todo o século XX:existem muitos procedimentos frequentistas que são muito usados(ex.: estimativa de parâmetros via máxima verossimilhança)

4 / 26

Page 5: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

o que são probabilidades

probabilidade frequentista:o número de vezes que um evento ocorre dividido pelo número total de tentativas, nolimite de um número infinito de tentativasP(x): número entre 0 e 1 que mede a frequência com que a proposição x apareceem uma amostra

problemas:não comporta eventos únicos ou não repetíveislida com as propriedades assintóticas (“no limite...”)

probabilidade bayesiana: medida da plausibilidade de um eventoP(x): número entre 0 e 1 que mede o grau com que a proposição x é verdadeira(com 0 falsa e 1 verdadeira)

5 / 26

Page 6: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

distribuições de probabilidades

x: variável aleatória contínua oudiscreta

variável aleatória: variável cujosvalores são resultados de um processoaleatório ou estocástico, obedecendo auma certa distribuição deprobabilidades, P(x)

P(x): número entre 0 e 1 que mede aincidência da variável x ou o grau comque uma proposição x é verdadeira(com 0 falsa e 1 verdadeira)

P(x) pode ser uma função discreta oucontínua

quando se tem um contínuo deproposições, P(x) fica uma função dedensidade de probabilidades(fdp ou pdf):P(x)dx: número entre 0 e 1 que medeo grau de plausibilidade de que umacerta variável x esteja entre x e x + dxno caso de variáveis discretas adistribuição de probabilidades échamada de função de massa deprobabilidades (FMPs)as FDPs/FMPs podem sermultivariadas, i.e., funções de váriasvariáveis: P(x, y, z)

6 / 26

Page 7: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

distribuições de probabilidades

exemplos:

7 / 26

Page 8: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

distribuições cumulativas

P(x): função de distribuição deprobabilidades (FDP)

FDP cumulativa:

F(x) =

∫ x

−∞P(x′)d(x′)

notação: x ∼ P(x)x é uma variável aleatória queobedece a P(x)

8 / 26

Page 9: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

distribuição normal ou gaussiana

distribuição gaussiana:

P(x|µ, σ) =1√2πσ

exp[− (x− µ)2

2σ2

]2 parâmetros:

média µdesvio padrão σ (ou variância σ2)

notação: x ∼ N(x;µ, σ)

9 / 26

Page 10: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

probabilidades condicionais e conjuntas

probabilidades são, normalmente, condicionais, isto é, dependem ou podemdepender de outras proposições:P(x|y): lê-se probabilidade de x dado yP(x|y) mede a plausibilidade da proposição x se a proposição y é admitida comoverdadeiraP(x|y, z,w): tudo o que estiver a direita da barra “|” é suposto conhecido

probabilidade conjunta: P(x, y)probabilidade conjunta de duas proposições x e yP(x, y|z): probabilidade conjunta de x e y dado z

P(x) = P(x|H): toda variável depende de hipóteses (H), implícitas ou explícitas

10 / 26

Page 11: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

as regras fundamentais das probabilidades

as duas regras fundamentais das probabilidades:regra da soma: P(x) + P(x̄) = 1onde x̄ representa a probabilidade de x ser falso

regra do produto (ou da cadeia): P(x, y) = P(x|y)× P(y)

11 / 26

Page 12: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

exercícios sobre probabilidades

jogamos duas moedas: qual é aprobabilidade de sair duas caras?

Cada moeda pode dar:cara (H, heads) ou coroa (T, tails)

o espaço amostral éS = {(H,T), (H,H), (T,H), (T,T)}seja E o evento “sair duas caras”:E = {(H,H)}então, P(E) = n(E)/n(S) = 1/4

12 / 26

Page 13: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

exercícios sobre probabilidades

Uma caixa contém 4 bolas azuis, 2amarelas e 3 vermelhas.- Tiramos uma bola ao acaso e a retorna-mos à caixa.- Repetimos isso 3 vezes.- Qual é a probabilidade de termos tirado2 bolas azuis e 1 vermelha?

número total de bolas:n = 4 + 2 + 3 = 9probabilidade de tirarmos1 bola azul: 4/9;outra bola azul: 4/9;1 bola vermelha: 3/9probabilidade total de tirarmos2 bolas azuis e 1 vermelha :4/9× 4/9× 1/3 = 16/243 ' 0.0658

13 / 26

Page 14: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

exercícios sobre probabilidades

a mesma caixa: 4 bolas azuis, 2amarelas e 3 vermelhas.- Tiramos uma bola ao acaso e não aretornamos à caixa.- Repetimos isso 3 vezes.- Qual é a probabilidade de termos tirado2 bolas azuis e 1 vermelha?

possibilidades:P(A,A,V)=4/9×3/8×3/7=36/504P(A,V,A)=4/9×3/8×3/7=36/504P(V,A,A)=3/9×4/8×3/7=36/504probabilidade de tirarmos2 bolas azuis e 1 vermelha:3× 36/504 = 1/14 ' 0.2142

14 / 26

Page 15: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

exercícios sobre probabilidades

40% dos estudantes da classe disseram co-nhecer R e Python. 60% dos estudantesdisseram conhecer Python. Qual é aprobabilidade de um estudante queconhece Python conhecer também R?

seja A conhecer Python eB conhecer R

dados: P(A,B) = 0.4 P(A) = 0.6

o que se quer: P(B|A)

probabilidades condicionais:P(A,B) = P(B|A)P(A)

logo,P(B|A) = P(A,B)/P(A) = 0.4/0.6 =2/3 ' 0.67

15 / 26

Page 16: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

exercícios sobre probabilidades

probabilidade de A ou B:dados 2 eventos, A e B, qual é aprobabilidade de se ter A OU B?P(A ou B) = P(A) + P(B)− P(A e B)

diagrama de Venn

eventos mutuamente exclusivos: seum ocorre o outro não ou os dois nãopodem ocorrer ao mesmo tempoP(A e B) = 0exemplo qual é a probabilidade de seobter ou 5 ou 6 jogando um dado?P(5) = P(6) = 1/6, P(5 e 6) = 0 eportantoP(5 ou 6) = 1/6 + 1/6− 0 = 1/3

16 / 26

Page 17: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

probabilidades

exercícios sobre probabilidades

probabilidade de A ou B:dados 2 eventos, A e B, qual é aprobabilidade de se ter A OU B?P(A ou B) = P(A) + P(B)− P(A e B)

diagrama de Venn

eventos mutuamente exclusivos: seum ocorre o outro não ou os dois nãopodem ocorrer ao mesmo tempoP(A e B) = 0exemplo: qual é a probabilidade de setirar uma carta vermelha ou um 3 emum baralho de 52 cartas(4 naipes de 13 cartas)?P(V) = 26/52; P(3) = 4/52;P(V, 3) = 2/52e, portanto,P(V ou 3) = 26/52 + 4/52− 2/52 =28/52 = 7/13

17 / 26

Page 18: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

o teorema de Bayes

o teorema de Bayes

as duas regras fundamentais das probabilidades:

regra da soma: P(x) + P(x̄) = 1onde x̄ representa a probabilidade de x ser falso

regra do produto (ou da cadeia): P(x, y) = P(x|y)× P(y)

teorema de Bayes (∼1740)

da regra do produto vem que:

P(x, y) = P(x|y)× P(y) P(y, x) = P(y|x)× P(x)

como P(x, y) = P(y, x), temos o teorema de Bayes:

P(x|y) =P(y|x)× P(x)

P(y)

18 / 26

Page 19: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

o teorema de Bayes

as regras fundamentais das probabilidades: alguns resultados

regra da soma: P(x) + P(x̄) = 1

generalização para um conjunto deproposições discretas ou contínuas,“mutuamente exclusivas e exaustivas”:∑

k P(xk) = 1∫

P(x)dx = 1regra de normalização das probabilidades

a marginalização: quando se tem umconjunto yk de proposições “MEE”P(x) =

∑k P(x, yk) ou

P(x) =∫

P(x, y)dy

aplicação da regra do produto:vamos supor que x e y sãoindependentes:

P(x|y) = P(x) e P(y|x) = P(y)

portanto,

P(x, y) = P(x|y)P(y) = P(x)P(y)

a probabilidade de duas proposiçõesindependentes é o produto dasprobabilidades de cada uma

19 / 26

Page 20: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

o teorema de Bayes

as regras fundamentais das probabilidades: alguns resultados

aplicação da regra do produto:

P(x, y, z) = P(x|y, z)P(y, z)

P(y, z) = P(y|z)P(z)

logo,

P(x, y, z) = P(x|y, z)P(y|z)P(z)

valor esperado de uma função f (x)com respeito a uma distribuição deprobabilidades P(x):

E(f ) =

∫P(x)f (x)dx

E(f ) =∑

i

P(xi)f (xi)

20 / 26

Page 21: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

aplicações

o problema de Monty Hall

um programa de auditório:

você tem 3 portas na sua frente: umacontém uma Ferrari e as duas outrasestão vazias

MH pede para você escolher umadelas: você escolhe, por exemplo, a 1

antes de abrir a porta que vocêescolheu, MH (que sabe onde o carroestá), escolhe uma das portas vazias ea abre; sobra assim uma outra portafechada

MH então te pergunta: quer trocar deporta ou não quer? Você quer trocar aporta que escolheu por esta quesobrou ou não?o que é mais vantajoso fazer?

21 / 26

Page 22: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

aplicações

o problema de Monty Hall

um programa de auditório:vamos considerar N portas e o prêmio está atrás de uma delasescolhando uma caixa ao acaso, X:

P(premio|X) =1N

logo,

P(premio|nas outras caixas) =N − 1

N>

1N

é vantajoso trocar de porta!

22 / 26

Page 23: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

aplicações

tabela de contingência 2 x 2

temos duas variáveis:

T: teste de doençaT = 0 resultado negativo,T = 1 resultado positivo

D: presença de doençaD = 0: não tem a doença;D = 1: doente

combinações possíveis:(T,D) = (0, 0), (0, 1), (1, 0), (1, 1)

queremos determinar P(D = 1|T = 1)

vamos supor que conhecemos asprobabilidades:

P(T = 1|D = 0) = εfp falso positivo

P(T = 0|D = 0) = 1− εfp

P(T = 0|D = 1) = εfn falso negativo

P(D = 1) = εD probabilidade a priori da doença

23 / 26

Page 24: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

aplicações

tabela de contingência 2 x 2

probabilidades conhecidas:

P(T = 1|D = 0) = εfp falso positivo

P(T = 0|D = 0) = 1− εfp

P(T = 0|D = 1) = εfn falso negativo

P(D = 1) = εD probabilidade a priori da doença

queremos P(D = 1|T = 1):

P(D = 1|T = 1) =P(T=1|D=1)P(D=1)

P(T=1)

P(T = 1) = P(T = 1|D = 0)P(D = 0)+

P(T = 1|D = 1)P(D = 1) = εfp(1− εD) + (1− εfn)εD

P(D = 1|T = 1) =εD−εfnεD

εD+εfp−εD(εfp+εfn)

P(D = 1|T = 1) ' εDεD+εfp

só se pode diagnosticar com certeza uma doença (P ∼ 1)se εfp << εD

teste de DNA: um resultado positivo só é conclusivo se εfp for muitomenor que a probabilidade de que alguém escolhido ao acaso tenha omesmo DNA

24 / 26

Page 25: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

combinando distribuições de probabilidades

combinando distribuições

muitas vezes conhecemos adistribuição de uma variável masqueremos saber a distribuição de umaquantidade derivada, y = f (x)

P(x): pdf de x

P(y): pdf de y

como a densidade de probabilidades éconservada,

P(x)dx = P(y)dy e P(y) =

∣∣∣∣∣dxdy

∣∣∣∣∣P(x)

(cuidado se f (x) não é monotônica!)

exemplo: suponha queP(x) = exp(−x), (x > 0), e y(x) = ln(x)

como x = exp(y),P(y) = P(x)/|dy/dx| = x exp(−x) =exp(y− exp(y))

esta técnica se torna difícil de aplicarpara mais de uma variável

25 / 26

Page 26: AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidadeslaerte/aga0505_19/aula2.pdf · 2019. 3. 12. · 1. Introdução AGA 0505 - Análise de Dados em Astronomia I 2. Probabilidades

combinando distribuições de probabilidades

exercícios

1 Numa amostra de 100 quasares, 10 são radio-loud (fortes emissores em rádio). Doisobjetos são escolhidos aleatoriamente nesta amostra. Qual é a probabilidade deescolhermos

1 dois objetos radio-loud;2 dois objetos radio-quiet;3 um objeto radio-loud e um objeto radio-quiet.

2 Numa amostra de 100 galáxias, 68 estão formando estrelas e 44 têm um núcleoativo. Qual a probabilidade de uma galáxia ao acaso estar formando estrelas epossuir um núcleo ativo?

26 / 26