Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central:...

38
Estatística Amostragem Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição empírica e histograma -escolha de amostras aleatórias -amostragem de distribuição normal, teorema de limite central -distribuições t e 2 -amostragem de distribuição binomial Pontos mais importantes:

Transcript of Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central:...

Page 1: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

Amostragem

1

-amostra: parâmetros e estatísticas

-medidas de tendência central: média, mediana e moda

-medidas de dispersão: variância

-distribuição empírica e histograma

-escolha de amostras aleatórias

-amostragem de distribuição normal, teorema de limite central

-distribuições t e 2

-amostragem de distribuição binomial

Pontos mais importantes:

Page 2: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

Num estudo confronta-se com uma grande colecção (quantidade) de elementos de interesse ou população. Geralmente as conclusões sobre a população está baseada de analise de um número (pouco) de observações ou amostra.

2

amostrapopulação conclusõesamostragem analise

Definição: Um conjunto de v.a-s independentes X1, X2,...,Xn com a mesma distribuição Fx constitui uma amostra da distribuição Fx.

Page 3: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

Amostra aleatória: qualquer membro de população têm a mesma probabilidade de ser escolhido como uma mostra

Para tirar conclusões válidas (correctas) sobre qualquer população, a amostra tem de ser representativa

Amostra

Como tirar uma amostra representativa?

Tamanho?

Amostra mais representativa é uma amostra aleatória

3

Page 4: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

4

Parâmetros Estatísticas

• Uma medida directamente associada a população:

- valor de esperança ()

- variância

- etc.

• Quantidades calculadas (completamente determinadas pela) de uma amostra:

-média amostral

-variância amostral

-etc.

As estatísticas são estimativas dos parâmetros da população. Cada amostra duma população resulta noutra estimativa estatísticas são v.a.-s.

Page 5: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

5

Medidas de tendência central:

Valor média (pesada) de v.a. X: E[X]=

dx)x(xf

)xX(Px ii

Definição de média amostral:

n

X...XXX n21

Page 6: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

6

X é uma v.a., por isso:

...n

1

XE...XEXEn

1

n

X...XXEXE n21

n21

nn

n

XVar...XVarXVarn

1

n

X...XXVarXVar

2

2

2

n212n21

No caso que não ser conhecido, a média amostral representa uma estimativa natural.

! XaEaXE

! )X(VaraVar(aX) 2

! )X(VarXVar n

1ii

n

1ii

Page 7: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

7

A mediana (m), é o valor central de distribuição (Fx(m)) no sentido em que é igualmente provável obter x superior ou inferior a m.

P(Xm)=P(Xm)= 1/2 ou F(m)=1/2Suponha que nos queremos escolher c numa forma que o erro absoluto |X-c| (ou E[|X-c|]) de previsão de X seja mínimo:

mc2

1)c(F

01)c(F2)c(cf)c(F1)c(cf)c(cf)c(cf)c(Fdc

cXEd

:cpor çãodiferencia

))c(F1(cdx)x(xfdx)x(xf)c(cFdx)x(f)cx(dx)x(f)xc(

dx)x(fcxdx)x(fcxdx)x(fcxcXE

c

c

c

c

c

c

Page 8: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

8

Exemplo: calcule a mediana de distribuição Weibull,

2xe1)x(F x>0

833.02ln)2ln()5.0ln(

2/11)(2/122

22

mmm

eemF mm

Definição da mediana amostral (xk): seja X1 X2 ... Xn uma amostra ordenada, a mediana amostral é:

xk=0.5(x(0.5n)+x0.5n+1) se n é par

xk= x(0.5(n+1)) se n é ímpar

A mediana amostral representa uma estimativa natural de m

Nota: De igual modo, podemos definir outros Percentis) e.g 25%, 50% (m), 75%

Page 9: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

Exemplo:

n=7, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41 e 0.42

-> mediana (i=4): 0.35

n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42

-> mediana ((x4+x5)/2): 0.375

9

Page 10: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

10

O valor mais frequente numa população chama-se moda (a):

h)x(f

)xX(PP(x) )x(Pmax)a(P i

x

A moda de uma amostra aleatória é o valor que ocorre com a maior frequência.

Exemplo:

n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42

-> moda : 0.35

Page 11: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

11

Medidas de dispersão:

Variância da v.a. X: Var[X]=2= E[(X-)2]

A estatística, variância e desvio padrão amostral, é definida pela:

n

1i

2i2

1n

)Xx(S

ou

1n

Xnx

1n

Xn

1n

XnX2

1n

x

1n

X

1n

xX2

1n

x

1n

)XXx2x(

1n

)Xx(S

n

1i

22i2

n

1i

2i

n

1i

2n

1ii

n

1i

2in

1i

2i

2i

n

1i

2i2

e

n

1i

2i2

1n

)Xx(SS

Page 12: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

Grau de liberdade: a expressão anterior também se escreve,

12

n

1i

2i2 )Xx(

S

onde é o grau de liberdade. Porque =n-1?

0)y()y(...)y()y( n21 Isto implica que qualquer n-1 y determine o n-issimo elemento. Só n-1 elementos são independentes.

Page 13: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

13

O que podemos dizer sobre o valor de esperança de S2?

222

1

22)1( XnEXnEXnExESnEn

ii

Agora sabendo: XE n

XVar2

; ;

E[U] Var(U)]E[Uou E[U]-]E[UVar(U) 2222

Temos: 22

2

nXE

222

222 )1()()1(

n

nnnSnE

22SE

A variância amostral representa uma estimativa natural de

222 XEe

Page 14: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

14

Distribuições empíricas:

A função de distribuição empírica Fn(x), onde -<x< , é definida

pela

n

k

n

xX :que talk, sobservasõe de número)x(F k

n

V.a. discreta, a função de distr. de probabilidade empírica(pn):

n

i

n

jnúmerojpn

iX :i valoresde

)(

Às vezes, podemos querer obter informação global sobre a distribuição da população (não só sobre os parâmetros).

pn(j) também chama-se proporção.

Page 15: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

3 2 2 4 4 5 5 5 1 3 6 1 1 6 3 3 2 3 4 6 1 1 3 4 2 4 5 3 3 1

Exemplo: Amostra:

Amostra ordenada:

1 1 1 1 1 1 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 5 5 5 5 6 6 6

1 2 3 4 5 6

p(xi) 6/30 4/30 8/30 5/30 4/30 3/30

F(xi) 6/30 10/30 18/30 23/30 27/30 30/30

Distribuição empírica:

Page 16: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

16

V.a. continua, a função de distr. de frequência (fn):

n

jX :mostra na i valoresde número)j(f i

n

O gráfico de distribuição de frequência chama-se histograma:

0 2 4 6 8 10

0

10

20

30

40

50

60

freq

uenc

y

F-value, min

Page 17: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

17

Selecção de amostras aleatórias:

Descrição mais representativa das propriedades da população é fornecida por uma amostra aleatória, onde qualquer membro da população têm a mesma probabilidade de ser escolhido. Como?

Distribuição uniforme(U))

outros para

x

0

1)x(f

f(x)

ab

dx1

)bXa(Pb

a

E[X]= /2

Var(X)= /12

U(0,1) chama-se número aleatório

Page 18: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

18

Seja k uma amostra aleatória de n elementos. Para j=1,2,...,n vamos definir:

mostra está não j

mostra na está j

0

1I j

Para o primeiro elemento I1: P(I1=1)=k/n

Para o segundo elemento I2: P(I2=1| I1=1)=(k-1)/(n-1) e,

P(I2=1| I1=0)=(k)/(n-1) ou

P(I2=1| I1)=(k-I1)/(n-1)

Em geral:n2,...,j

1jn

Ik)I,...,I|1I(P

1j

1ii

1j1j

Page 19: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

19

Seja U um número aleatório (U(0,1)), assim P(U<a)=a

outros para

n/kU

0

1I 1

1

outros para

1n

IkU

0

1I

12

2

outros para1jn

I...IkU

0

1I

1j1j

j

Page 20: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

Escolha aleatoriamente k=2 de n=5

20

Page 21: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

U1(0.68587)>0.4

U2(0.25848)<0.5 (2,X)

U3(0.85227)>1/3

U4(0.78724)>0.5 (2,5)

21

Page 22: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

Amostragem de distribuição normal:

Distribuição normal (N))A distribuição normal tem

importância elevada entre as distribuições especiais, porque muitos

fenómenos seguem, pelo menos aproximadamente, distribuição

normal:

-altura de pessoas

-movimento “Braun” das moléculas

-o erro na medição de uma quantidade física

2

2

2

)x(

e2

1)x(f

22

Page 23: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

E[X]=

Var[X]=2

- inflexão

23

Page 24: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

Seja X N), a Y=aX+B é uma v.a. Na+ba2).

Por isso a variável Z=(x-)/ tem uma N(0,1):

0XE1

EX

EX

E]Z[E

1]X[E]X[E1X

E

X2XE

XE

XE

XVar)Z(Var

2

222

22

2

2

2

2

2222

Z chama-se distr. normal padrão, e permite-nos facilmente calcular as probabilidades de X em termos de probabilidade de Z.

24

Page 25: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

P(X>X<

P(X>X<

-tabelas de P(z<x)=(x) para calcular probabilidades

-Exemplo: e 2=16, calcule X<7

8413.01587.01)1(14

37zP

7XP)7X(P

25

f(x)

Page 26: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

26

(z)

Page 27: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

Teorema de limite central:A soma de um grande número de

variáveis aleatórias independentes tem uma distribuição normal.

Fenómenos físicos (e não só) estão afectados por um grande

número de factores, consequentemente seguem uma distr. normal.

Seja X1, X2,..., Xn v.a.s independentes com a mesma distribuição (mas não necessariamente normal) com e 2. Então para n grande:

)1,0(Z~n

nX...XX n21

-exemplo: distr. da média do lançamento de n dados

27

Muitas técnicas de estatística estão baseadas de pre-suposição de normalidade

Page 28: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

28

Page 29: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

29

Recordar: XE n

XVar2

e

Assim: )1,0(N~X

n

Variância da população é estimada pela s2. O que podemos dizer

sobre a distribuição de t=(x-)/s ou

t tem uma distribuição conhecida que chama-se distribuição Student “t” com grau de liberdade.

s

Xnt

,xxxn

1X n21

Page 30: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

30

Distribuição Student tn: Seja Z [N(0,1)] e X (2) duas v.a.

independentes. Distribuição t está definida pela,

X

Zt

E[t]=0

Var[t]=/(-2)

para n grande t~Z

0

- t

f(t)- complicado (tabelas)

Page 31: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

31

Page 32: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

32

Outra característica importante da amostra de uma distribuição normal, é que X e s2 são independentes, e a v.a. (n-1)s2/2 tem uma distribuição com n-1 grau de liberdade

Distribuição “Chi-quadrado”, 2(): Se foram Z,1, Z2,... Zn v.a.

normais padrão. A v.a. X:

X= Z21+ Z2

2,...+ Z2n

tem uma distribuição chi-quadrado com graus de liberdade.

E[X]=

Var[X]=2

X>0

f(x)- complicado (tabelas)

Page 33: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

33

Page 34: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

34

Porquê é importante saber a distribuição de e X=(n-1)s2/2 ? s

Xnt

Porque podemos dar respostas sobre questões como:

-qual é a probabilidade da média da população ser se a média de amostra é x

-qual é a probabilidade da variância da população ser se a variância de amostra é s2

Page 35: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

35

Amostragem de distribuição binomial:

Distribuição Bernoulli e binomial (Bin,p))

Seja X é uma v.a. Bernoulli tal que, X=1 quando um acontecimento

ocorre (sucesso) e X=0 no caso que não ocorre (falha). E.g.

resposta “sim” num inquérito tipo sim/não

P(X=0)= 1-p

P(X=1)= p

E[X]=P(X=1) + 0P(X=0)= p

Var(X)=E[X2]- E2[X]=p-p2=p(1-p)

Page 36: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

36

Suponha que faça-se n experiências independentes de uma variável

aleatória Bernoulli com probabilidade P de sucesso. Neste caso o

número de sucesso X, chama-se uma variável binomial (Bi(n,p)) com

a função distr. de probabilidade:

inii

nini P1PCP1Pi

niXp

O valor de esperança matemática e a variância é dada por:

nPXEXEn

ii

1

n

ii PnPXVarXVar

1

)1()()(

Page 37: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

37

Page 38: Estatística Amostragem 1 -amostra: parâmetros e estatísticas -medidas de tendência central: média, mediana e moda -medidas de dispersão: variância -distribuição.

EstatísticaAmostragem

38

Aplicando o teorema de limite central, temos que a v.a. X= X1+ X2,...,

+Xn tem uma distribuição aproximadamente normal. Se for np

suficientemente grande,

)1,0(~)1(

NPP

nPX

)1,0(~)1(

NPnP

nPX

Assim,