Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central:...

Post on 18-Apr-2015

164 views 0 download

Transcript of Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central:...

EstatísticaAmostragem

Amostragem

1

-amostra: parâmetros e estatísticas

-medidas de tendência central: média, mediana e moda

-medidas de dispersão: variância

-distribuição empírica e histograma

-escolha de amostras aleatórias

-amostragem de distribuição normal, teorema de limite central

-distribuições t e 2

-amostragem de distribuição binomial

Pontos mais importantes:

EstatísticaAmostragem

Num estudo confronta-se com uma grande colecção (quantidade) de elementos de interesse ou população. Geralmente as conclusões sobre a população está baseada de analise de um número (pouco) de observações ou amostra.

2

amostrapopulação conclusõesamostragem analise

Definição: Um conjunto de v.a-s independentes X1, X2,...,Xn com a mesma distribuição Fx constitui uma amostra da distribuição Fx.

EstatísticaAmostragem

Amostra aleatória: qualquer membro de população têm a mesma probabilidade de ser escolhido como uma mostra

Para tirar conclusões válidas (correctas) sobre qualquer população, a amostra tem de ser representativa

Amostra

Como tirar uma amostra representativa?

Tamanho?

Amostra mais representativa é uma amostra aleatória

3

EstatísticaAmostragem

4

Parâmetros Estatísticas

• Uma medida directamente associada a população:

- valor de esperança ()

- variância

- etc.

• Quantidades calculadas (completamente determinadas pela) de uma amostra:

-média amostral

-variância amostral

-etc.

As estatísticas são estimativas dos parâmetros da população. Cada amostra duma população resulta noutra estimativa estatísticas são v.a.-s.

EstatísticaAmostragem

5

Medidas de tendência central:

Valor média (pesada) de v.a. X: E[X]=

dx)x(xf

)xX(Px ii

Definição de média amostral:

n

X...XXX n21

EstatísticaAmostragem

6

X é uma v.a., por isso:

...n

1

XE...XEXEn

1

n

X...XXEXE n21

n21

nn

n

XVar...XVarXVarn

1

n

X...XXVarXVar

2

2

2

n212n21

No caso que não ser conhecido, a média amostral representa uma estimativa natural.

! XaEaXE

! )X(VaraVar(aX) 2

! )X(VarXVar n

1ii

n

1ii

EstatísticaAmostragem

7

A mediana (m), é o valor central de distribuição (Fx(m)) no sentido em que é igualmente provável obter x superior ou inferior a m.

P(Xm)=P(Xm)= 1/2 ou F(m)=1/2Suponha que nos queremos escolher c numa forma que o erro absoluto |X-c| (ou E[|X-c|]) de previsão de X seja mínimo:

mc2

1)c(F

01)c(F2)c(cf)c(F1)c(cf)c(cf)c(cf)c(Fdc

cXEd

:cpor çãodiferencia

))c(F1(cdx)x(xfdx)x(xf)c(cFdx)x(f)cx(dx)x(f)xc(

dx)x(fcxdx)x(fcxdx)x(fcxcXE

c

c

c

c

c

c

EstatísticaAmostragem

8

Exemplo: calcule a mediana de distribuição Weibull,

2xe1)x(F x>0

833.02ln)2ln()5.0ln(

2/11)(2/122

22

mmm

eemF mm

Definição da mediana amostral (xk): seja X1 X2 ... Xn uma amostra ordenada, a mediana amostral é:

xk=0.5(x(0.5n)+x0.5n+1) se n é par

xk= x(0.5(n+1)) se n é ímpar

A mediana amostral representa uma estimativa natural de m

Nota: De igual modo, podemos definir outros Percentis) e.g 25%, 50% (m), 75%

EstatísticaAmostragem

Exemplo:

n=7, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41 e 0.42

-> mediana (i=4): 0.35

n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42

-> mediana ((x4+x5)/2): 0.375

9

EstatísticaAmostragem

10

O valor mais frequente numa população chama-se moda (a):

h)x(f

)xX(PP(x) )x(Pmax)a(P i

x

A moda de uma amostra aleatória é o valor que ocorre com a maior frequência.

Exemplo:

n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42

-> moda : 0.35

EstatísticaAmostragem

11

Medidas de dispersão:

Variância da v.a. X: Var[X]=2= E[(X-)2]

A estatística, variância e desvio padrão amostral, é definida pela:

n

1i

2i2

1n

)Xx(S

ou

1n

Xnx

1n

Xn

1n

XnX2

1n

x

1n

X

1n

xX2

1n

x

1n

)XXx2x(

1n

)Xx(S

n

1i

22i2

n

1i

2i

n

1i

2n

1ii

n

1i

2in

1i

2i

2i

n

1i

2i2

e

n

1i

2i2

1n

)Xx(SS

EstatísticaAmostragem

Grau de liberdade: a expressão anterior também se escreve,

12

n

1i

2i2 )Xx(

S

onde é o grau de liberdade. Porque =n-1?

0)y()y(...)y()y( n21 Isto implica que qualquer n-1 y determine o n-issimo elemento. Só n-1 elementos são independentes.

EstatísticaAmostragem

13

O que podemos dizer sobre o valor de esperança de S2?

222

1

22)1( XnEXnEXnExESnEn

ii

Agora sabendo: XE n

XVar2

; ;

E[U] Var(U)]E[Uou E[U]-]E[UVar(U) 2222

Temos: 22

2

nXE

222

222 )1()()1(

n

nnnSnE

22SE

A variância amostral representa uma estimativa natural de

222 XEe

EstatísticaAmostragem

14

Distribuições empíricas:

A função de distribuição empírica Fn(x), onde -<x< , é definida

pela

n

k

n

xX :que talk, sobservasõe de número)x(F k

n

V.a. discreta, a função de distr. de probabilidade empírica(pn):

n

i

n

jnúmerojpn

iX :i valoresde

)(

Às vezes, podemos querer obter informação global sobre a distribuição da população (não só sobre os parâmetros).

pn(j) também chama-se proporção.

EstatísticaAmostragem

3 2 2 4 4 5 5 5 1 3 6 1 1 6 3 3 2 3 4 6 1 1 3 4 2 4 5 3 3 1

Exemplo: Amostra:

Amostra ordenada:

1 1 1 1 1 1 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 5 5 5 5 6 6 6

1 2 3 4 5 6

p(xi) 6/30 4/30 8/30 5/30 4/30 3/30

F(xi) 6/30 10/30 18/30 23/30 27/30 30/30

Distribuição empírica:

EstatísticaAmostragem

16

V.a. continua, a função de distr. de frequência (fn):

n

jX :mostra na i valoresde número)j(f i

n

O gráfico de distribuição de frequência chama-se histograma:

0 2 4 6 8 10

0

10

20

30

40

50

60

freq

uenc

y

F-value, min

EstatísticaAmostragem

17

Selecção de amostras aleatórias:

Descrição mais representativa das propriedades da população é fornecida por uma amostra aleatória, onde qualquer membro da população têm a mesma probabilidade de ser escolhido. Como?

Distribuição uniforme(U))

outros para

x

0

1)x(f

f(x)

ab

dx1

)bXa(Pb

a

E[X]= /2

Var(X)= /12

U(0,1) chama-se número aleatório

EstatísticaAmostragem

18

Seja k uma amostra aleatória de n elementos. Para j=1,2,...,n vamos definir:

mostra está não j

mostra na está j

0

1I j

Para o primeiro elemento I1: P(I1=1)=k/n

Para o segundo elemento I2: P(I2=1| I1=1)=(k-1)/(n-1) e,

P(I2=1| I1=0)=(k)/(n-1) ou

P(I2=1| I1)=(k-I1)/(n-1)

Em geral:n2,...,j

1jn

Ik)I,...,I|1I(P

1j

1ii

1j1j

EstatísticaAmostragem

19

Seja U um número aleatório (U(0,1)), assim P(U<a)=a

outros para

n/kU

0

1I 1

1

outros para

1n

IkU

0

1I

12

2

outros para1jn

I...IkU

0

1I

1j1j

j

EstatísticaAmostragem

Escolha aleatoriamente k=2 de n=5

20

EstatísticaAmostragem

U1(0.68587)>0.4

U2(0.25848)<0.5 (2,X)

U3(0.85227)>1/3

U4(0.78724)>0.5 (2,5)

21

EstatísticaAmostragem

Amostragem de distribuição normal:

Distribuição normal (N))A distribuição normal tem

importância elevada entre as distribuições especiais, porque muitos

fenómenos seguem, pelo menos aproximadamente, distribuição

normal:

-altura de pessoas

-movimento “Braun” das moléculas

-o erro na medição de uma quantidade física

2

2

2

)x(

e2

1)x(f

22

EstatísticaAmostragem

E[X]=

Var[X]=2

- inflexão

23

EstatísticaAmostragem

Seja X N), a Y=aX+B é uma v.a. Na+ba2).

Por isso a variável Z=(x-)/ tem uma N(0,1):

0XE1

EX

EX

E]Z[E

1]X[E]X[E1X

E

X2XE

XE

XE

XVar)Z(Var

2

222

22

2

2

2

2

2222

Z chama-se distr. normal padrão, e permite-nos facilmente calcular as probabilidades de X em termos de probabilidade de Z.

24

EstatísticaAmostragem

P(X>X<

P(X>X<

-tabelas de P(z<x)=(x) para calcular probabilidades

-Exemplo: e 2=16, calcule X<7

8413.01587.01)1(14

37zP

7XP)7X(P

25

f(x)

EstatísticaAmostragem

26

(z)

EstatísticaAmostragem

Teorema de limite central:A soma de um grande número de

variáveis aleatórias independentes tem uma distribuição normal.

Fenómenos físicos (e não só) estão afectados por um grande

número de factores, consequentemente seguem uma distr. normal.

Seja X1, X2,..., Xn v.a.s independentes com a mesma distribuição (mas não necessariamente normal) com e 2. Então para n grande:

)1,0(Z~n

nX...XX n21

-exemplo: distr. da média do lançamento de n dados

27

Muitas técnicas de estatística estão baseadas de pre-suposição de normalidade

EstatísticaAmostragem

28

EstatísticaAmostragem

29

Recordar: XE n

XVar2

e

Assim: )1,0(N~X

n

Variância da população é estimada pela s2. O que podemos dizer

sobre a distribuição de t=(x-)/s ou

t tem uma distribuição conhecida que chama-se distribuição Student “t” com grau de liberdade.

s

Xnt

,xxxn

1X n21

EstatísticaAmostragem

30

Distribuição Student tn: Seja Z [N(0,1)] e X (2) duas v.a.

independentes. Distribuição t está definida pela,

X

Zt

E[t]=0

Var[t]=/(-2)

para n grande t~Z

0

- t

f(t)- complicado (tabelas)

EstatísticaAmostragem

31

EstatísticaAmostragem

32

Outra característica importante da amostra de uma distribuição normal, é que X e s2 são independentes, e a v.a. (n-1)s2/2 tem uma distribuição com n-1 grau de liberdade

Distribuição “Chi-quadrado”, 2(): Se foram Z,1, Z2,... Zn v.a.

normais padrão. A v.a. X:

X= Z21+ Z2

2,...+ Z2n

tem uma distribuição chi-quadrado com graus de liberdade.

E[X]=

Var[X]=2

X>0

f(x)- complicado (tabelas)

EstatísticaAmostragem

33

EstatísticaAmostragem

34

Porquê é importante saber a distribuição de e X=(n-1)s2/2 ? s

Xnt

Porque podemos dar respostas sobre questões como:

-qual é a probabilidade da média da população ser se a média de amostra é x

-qual é a probabilidade da variância da população ser se a variância de amostra é s2

EstatísticaAmostragem

35

Amostragem de distribuição binomial:

Distribuição Bernoulli e binomial (Bin,p))

Seja X é uma v.a. Bernoulli tal que, X=1 quando um acontecimento

ocorre (sucesso) e X=0 no caso que não ocorre (falha). E.g.

resposta “sim” num inquérito tipo sim/não

P(X=0)= 1-p

P(X=1)= p

E[X]=P(X=1) + 0P(X=0)= p

Var(X)=E[X2]- E2[X]=p-p2=p(1-p)

EstatísticaAmostragem

36

Suponha que faça-se n experiências independentes de uma variável

aleatória Bernoulli com probabilidade P de sucesso. Neste caso o

número de sucesso X, chama-se uma variável binomial (Bi(n,p)) com

a função distr. de probabilidade:

inii

nini P1PCP1Pi

niXp

O valor de esperança matemática e a variância é dada por:

nPXEXEn

ii

1

n

ii PnPXVarXVar

1

)1()()(

EstatísticaAmostragem

37

EstatísticaAmostragem

38

Aplicando o teorema de limite central, temos que a v.a. X= X1+ X2,...,

+Xn tem uma distribuição aproximadamente normal. Se for np

suficientemente grande,

)1,0(~)1(

NPP

nPX

)1,0(~)1(

NPnP

nPX

Assim,