Técnicas Computacionais em Probabilidade e Estatística Ichang/home/mae5704/mae5704-aula2.pdf ·...

46
1 Técnicas Computacionais em Técnicas Computacionais em Probabilidade e Estatística I Probabilidade e Estatística I Aula II Aula II Chang Chang Chiann Chiann MAE 5704- IME/USP 1º Sem/2008

Transcript of Técnicas Computacionais em Probabilidade e Estatística Ichang/home/mae5704/mae5704-aula2.pdf ·...

1

Técnicas Computacionais em Técnicas Computacionais em Probabilidade e Estatística IProbabilidade e Estatística I

Aula IIAula II

ChangChang ChiannChiannMAE 5704- IME/USP

1º Sem/2008

2

Alguns modelos de interesse prático:Alguns modelos de interesse prático:

a) Bernoulli; Binomial;

b) Poisson; Geométrica; Hipergeométrica;

c) Uniforme; Exponencial;

d) Normal; Gama; quiquadrado; t

Caso discreto: a função de probabilidade p(x)=P(X=x)

Caso contínuo: f(x) f.d.p.

3

Algumas DistribuiçõesAlgumas Distribuições

Densidade de uma Variável com Distribuição Normal

• Centralidade ⇒ E(Y)• Dispersão ⇒ E(Y-E(Y))2

• Simetria ⇒ E(Y-E(Y))3

• Curtose (caudas) ⇒ E(Y-E(Y))4

Média µ=E(Y)

σDesvio Padrão

( )( )

+∞<<∞−>

−−= +∞−∞ µσ

σ

µ

σπσµ ,0),(

2

1exp

2

1),|( ],[

2

2/1yI

yyfY

4

Distribuição Chi-Quadrado Distribuição Exponencial

Distribuição Normal

Forma das DistribuiçõesForma das Distribuições

Quais “parâmetros” da distribuição serão adotados parainvestigar o problema real?

E(Y) ? Var(Y) ? …

5

Distribuição Triangular

0 4

1/2

0 2 10

1/8

Distribuição Uniforme (Retangular)

-1 0 1

1

6

Distribuições Exatas

( ) [ ] );()()1(/

)( Bernoulli da a.a. é,...,,

,...,1,0

21

pnBinokIppk

nnkYP

pYYY

n

knk

n

⇒−

==⇒ −

( ) [ ] )()(!

)(/

)(Poisson da a.a. é,...,,

,...2,1,0

21

λλ

λλ

nPkIk

nenkYP

YYY

kn

n

⇒==⇒−

( ) );()()(

1

)( lExponencia da a.a. é,...,,

1

0

21

θθ

θ

θnndunenu

nyYP

YYY

unnn

y

n

Γ⇒Γ

=≤⇒ −−

7

Distribuição Qui-Quadrado

)(2)2/(

1)(se~ ),0(

2/2/)2(2/

2uIeu

nufU

un

nn ∞−−

Γ=χ

( ) ( ) ( ) nUVarnnUEnUE 2)2(2 =+==

( )

( )

tesindependen v.a.são e

~)1()(

~)(

;,...,,

~1;0,...,,

2

212

2

12

2

2

12

22

21

2

1

221

sY

snYY

YNiidYYY

ZNiidZZZ

n

n

j

j

n

n

j

j

n

n

n

j

jn

−=

−⇒

−⇒

−=

=

=

χσσ

χσ

µσµ

χ

8

Distribuição t de Student

n

n

tnU

ZT

UZUNZ

~/

:Então tes.independen v.a. e ; ~ e )1;0(~ Seja 2

=

χ�

� ( )

1

2221

~/

amostral variânciae média a e com ,; ,...,,

−⇒ n

n

tns

Y

sYNiidYYY

µ

σµ

( ))(1

)2/(

2/)1()(se~ ),(

2/)1(2

tIn

t

nn

ntftT

n

n ∞−∞

+−

+

Γ

+Γ=

π

( ) ( ) )2/(:2 Para 0:1 Para −=>=> nnTVarnTEn�

⇒ Justifique a estatística do teste “t”

9

Distribuição F de Snedecor

)(1)2/()2/(

2)( ),0(

)2

(

2

1)

2

2(

21

2/

2

12121

1

1

wIwn

nw

nn

n

nnn

wf

nnn

n

+−−

+

ΓΓ

=

( ) ( )2

22

21

2122

22 )4()2(

)2(2)2/(

−−

−+=−=

nnn

nnnWVarnnWE�

21

21

,22

11

212

22

1

~/

/

:Então tes.independen v.a. e U; ~ e ~ USeja

nn

nn

FnU

nUW

UU

=

χχ

nn FTt ,12 ~ então ~T Se

10

Formulação do Problema Formulação do Problema (Clássico)(Clássico)

População Dados

“Realização de um “Realização de um

Experimento Aleatório”Experimento Aleatório”

( Y1, Y2, ... , Yn )

ESTATÍSTICAS

Y: Variável Aleatória

Y = y P ( y ) , f ( y )

PARÂMETROS

Amostra

Aleatória

sY

p

==

=

σµ

π

ˆˆ

ˆ2σµ

π

⇒ Modelos estruturais: Y=f (X)

11

Estimadores e Estatísticas de Teste

� Função de Verossimilhança (Fisher, 1922)

( )

( ) ( )∏=

=n

j

jn

n

YfL

yfiidYYY

1

21

;

;,...,,

θθ

θ

( )

( )n

θLθ

θLθ

nn

n

θθθ ˆ|log0,ˆ

0log

=∂

∂=⇒

=∂

� Método da Máxima verossimilhança

Soluções numéricas:

⇒Newton-Raphson

⇒Scoring

12

Estimadores e Estatísticas de Teste

Sob Condições de Regularidade

( ) ( ) ( )

∂−≡

∂=

−− θθ

θθ

θθ θθθθ ;log;log;;~ˆ2

2211

YfEYfEIInNn

� Estatística Razão de Verossimilhanças

( ) ( )[ ] 20

0

~lnˆln2 r

Hsob

n θLθLΛ χ−=

00: θθ =H

13

Propriedades de um Estimador

� Consistência: menor erro quadrático médio

� Não Viciado: E(T) = τ(θ)

� Suficiente: P(Y / T=t;θ) = P(Y / T=t)

� Variância Mínima (na classe dos não-viciados)

� Locação Invariante: t(y+k)=t(y)+k

� Escala invariante: t(ky) = kt(y)

� Robustez, Resistência …

[ ] ( ) [ ]22 )()()( TETVarTE θθ θτθτ −+=−

Úteis em análisesexploratórias!

14

Medidas de PosiçãoMedidas de Posição

Primeiro Primeiro quartilquartil: valor que deixa 25% das : valor que deixa 25% das

observações abaixo deleobservações abaixo dele

Segundo Segundo quartilquartil: mediana: mediana

Terceiro Terceiro quartilquartil: valor que deixa 75% das : valor que deixa 75% das

observações abaixo deleobservações abaixo dele

+

=)1(

4

11n

YQ

+

=)1(

4

22n

YQ

+

=)1(

4

33n

YQ

⇒⇒⇒⇒ Resumo de 5 números: MaxQQQMin 321

“aproximadas”

321 4

1

2

1

4

1QQQTrimédia ++=

15

Outras MédiasOutras MédiasMédia GeométricaMédia Geométrica

Média HarmônicaMédia Harmônica

nnG YYYY ...21=

nH YYYY

n 1...

11

21

+++=

16

Média GeométricaMédia Geométrican

nG YYYY ...21=

⇒ Média Proporcional, Média das Taxas, das Razões

Ex. Taxa Média de Lucro

2000 2001 2002

R$ 500 650 900

650 900

500 65034,1

650

900

500

650==GY

17

Média GeométricaMédia GeométricaEx. Epidemia de Gripe

1º Dia 2º Dia 3º Dia

# Casos 12 18 48

18 48

12 18

1º Dia → 2º Dia : # de casos de gripe foi multiplicado por 18/12

2º Dia → 3º Dia : # de casos de gripe foi multiplicado por 48/18

Calcule a Média geométrica destas duas taxas de crescimento?

Estime o número de casos para o 4º e 5º Dia, assumindo que o padrãode contaminação se mantém constante.

18

Média HarmônicaMédia Harmônica

nH YYYY

n 1...

11

21

+++=

Valoriza a regularidade (harmonia) ⇒ é a média das ações de vários indivíduos, desenvolvidas quando ocorre a colaboração de uma ação com as outras.

Ex. Velocidade Média

60km/h 40km/h

10km 10km

km/h4840

1

60

1

2

11=

+=

HYY = 50 km/h ??

YH ⇒ 20km em 25min

19

Harmônico GlobalHarmônico Global

nYYYH

1...

111

21

+++=

Harmonia e Matemática http://pessoal.sercomtel.com.br/matematica/outros/harmonia;htm

Ex. Uma pessoa demora 6h para construir um muro e outra leva 9h.Pondo-se as duas pessoas trabalhando juntas em quanto tempo o muro estará pronto?

H = 3,6 h = 3 h 36 min

20

Comparação entre as MédiasComparação entre as MédiasYYY GH ≤≤

2

YYY

H

G

+≅

quando os valores da variável não diferirem muito

Aluno P1 P2 P3 Y YG YH

A1 7 7 7 7 7 7

A2 6 8 7 7 6,95 6,90

A3 4 10 7 7 6,54 6,08

21

Simulação: Dados = { 6 6 6 6 5a Nota variando entre 0-10 }

22

20

25

30

35

40

15/12 29/12 12/1 26/1 9/2 23/2 8/3

Dias

Va

lor

em

US

$

Gráficos de Linha – Séries Temporais

23

Médias Móveis SimplesMédias Móveis Simples

k

YYMM

k

YYY

Yk

MMMM

kTTT

kTTT

k

j

jTTkhT

−−

+−−

=−=

−+=

+++=

== ∑

1

11

1

0][

...

1

Média Móvel com amplitude k

Série temporal com n observações: Y1 Y2 ... Yn

24

0

10

20

30

40

50

60

0 5 10 15 20

Período

Ven

das (

Yt)

Período Vendas (Yt)

1 19

2 45

3 32

4 40

5 23

6 49

7 38

8 44

9 27

10 52

11 42

12 48

13 32

14 56

15 46

16 52

25

Alisamento da Série

0

20

40

60

0 5 10 15 20

Período

Ven

das

Período Vendas (Yt) MM(h=4)

1 19 -

2 45 -

3 32 -

4 40 34

5 23 35

6 49 36

7 38 37,5

8 44 38,5

9 27 39,5

10 52 40,25

11 42 41,25

12 48 42,25

13 32 43,5

14 56 44,5

15 46 45,5

16 52 46,5

26

Outras MédiasOutras MédiasMédia QuadráticaMédia Quadrática

Média AbsolutaMédia Absoluta

e ainda existem outras propostas ...e ainda existem outras propostas ...

( )YYDDn

Y jj

n

j

jQ −== ∑=1

21

( )YYDDn

Y jj

n

j

jQ −== ∑=1

1

27

Grupo 1: 3,4,5,6,7Grupo 1: 3,4,5,6,7 Grupo 2: 1, 3, 5, 7, 9Grupo 2: 1, 3, 5, 7, 9 Grupo 3: 5,5,5,5,5Grupo 3: 5,5,5,5,5

Exemplo Exemplo 22:: Considere as notas de um teste de 3 grupos de alunos

GG 11* * * * *

GG 22* * * * *

GG 33

*****

0 105

e md1= md2= md3 = 5Temos: x1 = x2 = x3 = 5_ _ __ __

28

Medidas de DispersãoMedidas de Dispersão

Finalidade:Finalidade: encontrar um valor que resuma a variabilidade de um conjunto de dados

••Amplitude (Amplitude (AA):):

Para os grupos anteriores, temos:Grupo 1, A = 4Grupo 2, A = 8Grupo 3, A = 0

A = máx - min

29

∑= −

−=

−++−+−=

n

i

in

n

xx

n

xxxxxxs

1

2222

212

1

)(

1

)(...)()(

VariânciaPadrãoDesvio == s

•• Variância Variância amostralamostral::

•• Desvio padrão:Desvio padrão:

∑=

−=

−++−+−=

n

i

in

n

xx

n

xxxxxxxVar

1

2222

21 )()(...)()(

)(

•• VariânciaVariância

30

G3: s2 = 0 ⇒⇒⇒⇒ s = 0

Cálculo para os grupos:

4GG11: s2 =(3-5)2+(4-5)2+ (5-5)2+ (6-5)2+ (7-5)2

GG22: s2 = 10 ⇒⇒⇒⇒ s = 3,16

⇒⇒⇒⇒ s = 1,58⇒⇒⇒⇒ s2 = 10/4= 2,5

31

FórmulaFórmula alternativaalternativa::

Em G1: ΣXi2 = 9 + 16 + 25 + 36 +49 = 135

1)(

n

1i

=∑=

n

XnX

S

i

22

2

4⇒⇒⇒⇒ S2 = 135 - 5×(5)2 = 2,5

32

- é uma medida de dispersão relativa- elimina o efeito da magnitude dos dados- exprime a variabilidade em relação à média

%100×=x

sCV

•• Coeficiente de Variação (Coeficiente de Variação (CVCV))

33

Altura 1,143m 0,063m 5,5%Peso 50 kg 6kg 12%

MédiaDesvioPadrão

Coef. de Variação

ConclusãoConclusão: Os alunos são, aproximadamente, duas vezes mais dispersos quanto ao peso do que quanto à altura.

Altura e peso de alunos

Exemplo Exemplo 3:3:

34

ConclusãoConclusão: Em relação às médias, as alturas dos adolescentes e dos recém-nascidos apresentam variabilidade quase iguais.

Desviopadrão

Coef. devariação

Média

Recém-nascidos 50 6 12%Adolescentes 160 16 10%

Altura (em cm) de uma amostra de recém-nascidos e de uma amostra de adolescentes

Exemplo Exemplo 4:4:

35

•• Desvio MédioDesvio Médio

∑=

−=n

ii

xn

xdm x1

1)(

36

•• Desvio mediano absoluto (uma medida Desvio mediano absoluto (uma medida robusta em relação à mediana)robusta em relação à mediana)

)()(1

xmdxdma xmd ini−=

≤≤

••Variância aparada (SVariância aparada (S22((αα))))

37

DadosDados: 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7

Q1 = 2,05 e Q3= 4,9

Q3 - Q1 = 4,9 - 2,05 = 2,85

••IntervaloIntervalo--InterquartilInterquartil::

É a diferença entre o terceiro quartil e o primeiro quartil, ou seja, QQ3 3 -- QQ11..

38

Para uma Para uma distdist. Normal:. Normal:

IQ = 1,349IQ = 1,349σσ

UmUm estimadorestimador do desvio padrão do desvio padrão populacionalpopulacional

S*=IQ/1,349S*=IQ/1,349

39

Medidas de VariabilidadeMedidas de VariabilidadeConsistênciaConsistência13 QQIQ −=

Assegurar consistência

{ }2QYMedianaMAD jj −=

( ) ( )

3490,1

3490,1)4/3(21;~

IQ

qnormIQENY j

=∗=⇒µ

( ) ( )

MAD

qnormMADENY j

4826,1

4826,1)4/3(

;~ 2

==⇒ σσ

σµ

Multiplicação por um fator de escala para assegurarconsistência

40

Medidas de VariabilidadeMedidas de Variabilidade

( )

{ }

%100

1

1

1

2

1

1

22

13

)1()(

×=

−=

−=

−−

=

−=

−=

=

=

Y

sCV

QYMedianadma

yYn

dm

yyn

s

QQIQ

YYAV

jj

n

j

j

n

i

i

n ⇒ Amplitude de Variação (“Range”)

⇒ Intervalo Inter-Quartil

⇒ Variância (u.m.² ) ⇒ s

⇒ Desvio Médio Absoluto

⇒ Desvio Mediano Absoluto

⇒ Coeficiente de Variação (adimensional)

41

Comparação entreComparação entre EstimadoresEstimadores de Escalade Escala

Ind. Yj Y(j) | Y(j) - Q2 | Ind. Yj Y(j) | Y(j) - Q2 |1 800 500 312 1 900 675 2252 974 700 112 2 803 751 1493 500 725 87 3 1145 765 1354 725 765 47 4 900 803 975 812 794 18 5 1225 825 756 794 800 12 6 751 850 507 765 812 0 7 825 900 08 900 826 14 8 1070 900 09 826 850 38 9 1128 1070 17010 700 850 38 10 1080 1080 18011 850 900 88 11 675 1128 22812 945 945 133 12 850 1145 24513 850 974 162 13 765 1225 325

AD=81.62 MAD=47 AD=144.54

Mediana=900IQ=277MAD=149

s=120.37 IQ=85Média=932.08s=176.58

Rural Urbano

Média=803.15 Mediana=812

Scores de desempenho escolar de estudantes da zona rural e urbana

• os valores de MAD indicam uma grande variabilidade entre os desempenhos dos estudantes da zona urbana. Entre os estudantes da zona rural há maishomogeneidade

42

EstimadoresEstimadores de Escalade EscalaMedidas de VariabilidadeMedidas de Variabilidade

Scores de desempenho escolar de estudantes da zona rural e urbana

s é influenciado

pelo valor 500

Medida Rural Urbano U/Rs 120.37 176.58 1.47AD 81.62 144.54 1.77MAD 47 149 3.17IQ 85 277 3.26s' 82.20 176.58 2.15

Super-estimam

⇒ IQ: aparar 50% das obs parece ser muito

⇒ Escolha apropriada do estimador de escala não é simples

43

Rural Urbana

Gráficos de Simetria para os dados do Score de Estudantes

⇒⇒⇒⇒ Transformações para garantir simetria: transformações potência

pYkY ⇒

(Y-Q2)r

(Q2-Y)r

180160140120100806040200

350

300

250

200

150

100

50

0

Scatterplot of (Q2-Y)r vs (Y-Q2)r

(Y-Q2)u

(Q2-Y)u

350300250200150100500

250

200

150

100

50

Scatterplot of (Q2-Y)u vs (Y-Q2)u

44

EstimadoresEstimadores de Escalade EscalaMedidas de VariabilidadeMedidas de Variabilidade

Calcule as medidas s e MAD para as amostras a seguir:

⇒ Note que na presença de obs atípicas (irregularidades locaisnos dados) a escolha do estimador de escala não é simples.

0

1

2

3

10

0

0

2

3

4

Amostra 1 Amostra 2

45

Comparação de Comparação de EstimadoresEstimadores de Escalade EscalaEstudos de Simulação (n=20)

Valor esperado do estimador (8000 “runs”)Grau crescente de

contaminação para

caudas pesadas

� s é mais sensível a caudas pesadas� MAD e IQ são mais resistentes� Compararar estimadores ⇒ comparar suas variâncias (precisão)

⇒ A variância de um estimador depende de seu valor esperado ⇒ Como comparar estimadores se há variação dentro e entre distribuições?

⇒ Adotar a variância do ln do estimador, V(ln T), que tem boas propriedades de invariância

Estimador 20 N(0;1) 19 N(0;1), 1 N(0;100) 20 N(0;1) / U(0;1)s 0.98 2.23 23.26MAD 0.64 0.68 1.51IQ 1.35 1.41 3.25

])ln([])(ln)(ln[])(ln[ TVarkTVarkTVar =+=

46

EstimadoresEstimadores de Escalade EscalaEstudos de Simulação (n=20)

Valor da Var [ ln (estimador) ] (8000 “runs”)

Limite de Cramer-Rao

Estimador 20 N(0;1) 19 N(0;1), 1 N(0;100) 20 N(0;1) / U(0;1)s 0.026 0.271 1.1AD 0.032 0.085 0.634MAD 0.074 0.071 0.105IQ 0.063 0.062 0.115Mínima Var 0.026 0.029 0.099

Simulação

Estimador 20 N(0;1) 19 N(0;1), 1 N(0;100) 20 N(0;1) / U(0;1) Trieficiências 100 11 9 9AD 81 34 16 16MAD 35 41 94 35IQ 41 47 86 41

Eficiência dos estimadores (razão entre variâncias)

IQ é um estimador robusto e teve a maior eficiência relativa (trieficiência)