Post on 18-Apr-2015
EstatísticaAmostragem
Amostragem
1
-amostra: parâmetros e estatísticas
-medidas de tendência central: média, mediana e moda
-medidas de dispersão: variância
-distribuição empírica e histograma
-escolha de amostras aleatórias
-amostragem de distribuição normal, teorema de limite central
-distribuições t e 2
-amostragem de distribuição binomial
Pontos mais importantes:
EstatísticaAmostragem
Num estudo confronta-se com uma grande colecção (quantidade) de elementos de interesse ou população. Geralmente as conclusões sobre a população está baseada de analise de um número (pouco) de observações ou amostra.
2
amostrapopulação conclusõesamostragem analise
Definição: Um conjunto de v.a-s independentes X1, X2,...,Xn com a mesma distribuição Fx constitui uma amostra da distribuição Fx.
EstatísticaAmostragem
Amostra aleatória: qualquer membro de população têm a mesma probabilidade de ser escolhido como uma mostra
Para tirar conclusões válidas (correctas) sobre qualquer população, a amostra tem de ser representativa
Amostra
Como tirar uma amostra representativa?
Tamanho?
Amostra mais representativa é uma amostra aleatória
3
EstatísticaAmostragem
4
Parâmetros Estatísticas
• Uma medida directamente associada a população:
- valor de esperança ()
- variância
- etc.
• Quantidades calculadas (completamente determinadas pela) de uma amostra:
-média amostral
-variância amostral
-etc.
As estatísticas são estimativas dos parâmetros da população. Cada amostra duma população resulta noutra estimativa estatísticas são v.a.-s.
EstatísticaAmostragem
5
Medidas de tendência central:
Valor média (pesada) de v.a. X: E[X]=
dx)x(xf
)xX(Px ii
Definição de média amostral:
n
X...XXX n21
EstatísticaAmostragem
6
X é uma v.a., por isso:
...n
1
XE...XEXEn
1
n
X...XXEXE n21
n21
nn
n
XVar...XVarXVarn
1
n
X...XXVarXVar
2
2
2
n212n21
No caso que não ser conhecido, a média amostral representa uma estimativa natural.
! XaEaXE
! )X(VaraVar(aX) 2
! )X(VarXVar n
1ii
n
1ii
EstatísticaAmostragem
7
A mediana (m), é o valor central de distribuição (Fx(m)) no sentido em que é igualmente provável obter x superior ou inferior a m.
P(Xm)=P(Xm)= 1/2 ou F(m)=1/2Suponha que nos queremos escolher c numa forma que o erro absoluto |X-c| (ou E[|X-c|]) de previsão de X seja mínimo:
mc2
1)c(F
01)c(F2)c(cf)c(F1)c(cf)c(cf)c(cf)c(Fdc
cXEd
:cpor çãodiferencia
))c(F1(cdx)x(xfdx)x(xf)c(cFdx)x(f)cx(dx)x(f)xc(
dx)x(fcxdx)x(fcxdx)x(fcxcXE
c
c
c
c
c
c
EstatísticaAmostragem
8
Exemplo: calcule a mediana de distribuição Weibull,
2xe1)x(F x>0
833.02ln)2ln()5.0ln(
2/11)(2/122
22
mmm
eemF mm
Definição da mediana amostral (xk): seja X1 X2 ... Xn uma amostra ordenada, a mediana amostral é:
xk=0.5(x(0.5n)+x0.5n+1) se n é par
xk= x(0.5(n+1)) se n é ímpar
A mediana amostral representa uma estimativa natural de m
Nota: De igual modo, podemos definir outros Percentis) e.g 25%, 50% (m), 75%
EstatísticaAmostragem
Exemplo:
n=7, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41 e 0.42
-> mediana (i=4): 0.35
n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42
-> mediana ((x4+x5)/2): 0.375
9
EstatísticaAmostragem
10
O valor mais frequente numa população chama-se moda (a):
h)x(f
)xX(PP(x) )x(Pmax)a(P i
x
A moda de uma amostra aleatória é o valor que ocorre com a maior frequência.
Exemplo:
n=8, concentração de CO2 (g/m3): 0.3, 0.32, 0.35, 0.35, 0.4, 0.41, 0.405 e 0.42
-> moda : 0.35
EstatísticaAmostragem
11
Medidas de dispersão:
Variância da v.a. X: Var[X]=2= E[(X-)2]
A estatística, variância e desvio padrão amostral, é definida pela:
n
1i
2i2
1n
)Xx(S
ou
1n
Xnx
1n
Xn
1n
XnX2
1n
x
1n
X
1n
xX2
1n
x
1n
)XXx2x(
1n
)Xx(S
n
1i
22i2
n
1i
2i
n
1i
2n
1ii
n
1i
2in
1i
2i
2i
n
1i
2i2
e
n
1i
2i2
1n
)Xx(SS
EstatísticaAmostragem
Grau de liberdade: a expressão anterior também se escreve,
12
n
1i
2i2 )Xx(
S
onde é o grau de liberdade. Porque =n-1?
0)y()y(...)y()y( n21 Isto implica que qualquer n-1 y determine o n-issimo elemento. Só n-1 elementos são independentes.
EstatísticaAmostragem
13
O que podemos dizer sobre o valor de esperança de S2?
222
1
22)1( XnEXnEXnExESnEn
ii
Agora sabendo: XE n
XVar2
; ;
E[U] Var(U)]E[Uou E[U]-]E[UVar(U) 2222
Temos: 22
2
nXE
222
222 )1()()1(
n
nnnSnE
22SE
A variância amostral representa uma estimativa natural de
222 XEe
EstatísticaAmostragem
14
Distribuições empíricas:
A função de distribuição empírica Fn(x), onde -<x< , é definida
pela
n
k
n
xX :que talk, sobservasõe de número)x(F k
n
V.a. discreta, a função de distr. de probabilidade empírica(pn):
n
i
n
jnúmerojpn
iX :i valoresde
)(
Às vezes, podemos querer obter informação global sobre a distribuição da população (não só sobre os parâmetros).
pn(j) também chama-se proporção.
EstatísticaAmostragem
3 2 2 4 4 5 5 5 1 3 6 1 1 6 3 3 2 3 4 6 1 1 3 4 2 4 5 3 3 1
Exemplo: Amostra:
Amostra ordenada:
1 1 1 1 1 1 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 5 5 5 5 6 6 6
1 2 3 4 5 6
p(xi) 6/30 4/30 8/30 5/30 4/30 3/30
F(xi) 6/30 10/30 18/30 23/30 27/30 30/30
Distribuição empírica:
EstatísticaAmostragem
16
V.a. continua, a função de distr. de frequência (fn):
n
jX :mostra na i valoresde número)j(f i
n
O gráfico de distribuição de frequência chama-se histograma:
0 2 4 6 8 10
0
10
20
30
40
50
60
freq
uenc
y
F-value, min
EstatísticaAmostragem
17
Selecção de amostras aleatórias:
Descrição mais representativa das propriedades da população é fornecida por uma amostra aleatória, onde qualquer membro da população têm a mesma probabilidade de ser escolhido. Como?
Distribuição uniforme(U))
outros para
x
0
1)x(f
f(x)
ab
dx1
)bXa(Pb
a
E[X]= /2
Var(X)= /12
U(0,1) chama-se número aleatório
EstatísticaAmostragem
18
Seja k uma amostra aleatória de n elementos. Para j=1,2,...,n vamos definir:
mostra está não j
mostra na está j
0
1I j
Para o primeiro elemento I1: P(I1=1)=k/n
Para o segundo elemento I2: P(I2=1| I1=1)=(k-1)/(n-1) e,
P(I2=1| I1=0)=(k)/(n-1) ou
P(I2=1| I1)=(k-I1)/(n-1)
Em geral:n2,...,j
1jn
Ik)I,...,I|1I(P
1j
1ii
1j1j
EstatísticaAmostragem
19
Seja U um número aleatório (U(0,1)), assim P(U<a)=a
outros para
n/kU
0
1I 1
1
outros para
1n
IkU
0
1I
12
2
outros para1jn
I...IkU
0
1I
1j1j
j
EstatísticaAmostragem
Escolha aleatoriamente k=2 de n=5
20
EstatísticaAmostragem
U1(0.68587)>0.4
U2(0.25848)<0.5 (2,X)
U3(0.85227)>1/3
U4(0.78724)>0.5 (2,5)
21
EstatísticaAmostragem
Amostragem de distribuição normal:
Distribuição normal (N))A distribuição normal tem
importância elevada entre as distribuições especiais, porque muitos
fenómenos seguem, pelo menos aproximadamente, distribuição
normal:
-altura de pessoas
-movimento “Braun” das moléculas
-o erro na medição de uma quantidade física
2
2
2
)x(
e2
1)x(f
22
EstatísticaAmostragem
E[X]=
Var[X]=2
- inflexão
23
EstatísticaAmostragem
Seja X N), a Y=aX+B é uma v.a. Na+ba2).
Por isso a variável Z=(x-)/ tem uma N(0,1):
0XE1
EX
EX
E]Z[E
1]X[E]X[E1X
E
X2XE
XE
XE
XVar)Z(Var
2
222
22
2
2
2
2
2222
Z chama-se distr. normal padrão, e permite-nos facilmente calcular as probabilidades de X em termos de probabilidade de Z.
24
EstatísticaAmostragem
P(X>X<
P(X>X<
-tabelas de P(z<x)=(x) para calcular probabilidades
-Exemplo: e 2=16, calcule X<7
8413.01587.01)1(14
37zP
7XP)7X(P
25
f(x)
EstatísticaAmostragem
26
(z)
EstatísticaAmostragem
Teorema de limite central:A soma de um grande número de
variáveis aleatórias independentes tem uma distribuição normal.
Fenómenos físicos (e não só) estão afectados por um grande
número de factores, consequentemente seguem uma distr. normal.
Seja X1, X2,..., Xn v.a.s independentes com a mesma distribuição (mas não necessariamente normal) com e 2. Então para n grande:
)1,0(Z~n
nX...XX n21
-exemplo: distr. da média do lançamento de n dados
27
Muitas técnicas de estatística estão baseadas de pre-suposição de normalidade
EstatísticaAmostragem
28
EstatísticaAmostragem
29
Recordar: XE n
XVar2
e
Assim: )1,0(N~X
n
Variância da população é estimada pela s2. O que podemos dizer
sobre a distribuição de t=(x-)/s ou
t tem uma distribuição conhecida que chama-se distribuição Student “t” com grau de liberdade.
s
Xnt
,xxxn
1X n21
EstatísticaAmostragem
30
Distribuição Student tn: Seja Z [N(0,1)] e X (2) duas v.a.
independentes. Distribuição t está definida pela,
X
Zt
E[t]=0
Var[t]=/(-2)
para n grande t~Z
0
- t
f(t)- complicado (tabelas)
EstatísticaAmostragem
31
EstatísticaAmostragem
32
Outra característica importante da amostra de uma distribuição normal, é que X e s2 são independentes, e a v.a. (n-1)s2/2 tem uma distribuição com n-1 grau de liberdade
Distribuição “Chi-quadrado”, 2(): Se foram Z,1, Z2,... Zn v.a.
normais padrão. A v.a. X:
X= Z21+ Z2
2,...+ Z2n
tem uma distribuição chi-quadrado com graus de liberdade.
E[X]=
Var[X]=2
X>0
f(x)- complicado (tabelas)
EstatísticaAmostragem
33
EstatísticaAmostragem
34
Porquê é importante saber a distribuição de e X=(n-1)s2/2 ? s
Xnt
Porque podemos dar respostas sobre questões como:
-qual é a probabilidade da média da população ser se a média de amostra é x
-qual é a probabilidade da variância da população ser se a variância de amostra é s2
EstatísticaAmostragem
35
Amostragem de distribuição binomial:
Distribuição Bernoulli e binomial (Bin,p))
Seja X é uma v.a. Bernoulli tal que, X=1 quando um acontecimento
ocorre (sucesso) e X=0 no caso que não ocorre (falha). E.g.
resposta “sim” num inquérito tipo sim/não
P(X=0)= 1-p
P(X=1)= p
E[X]=P(X=1) + 0P(X=0)= p
Var(X)=E[X2]- E2[X]=p-p2=p(1-p)
EstatísticaAmostragem
36
Suponha que faça-se n experiências independentes de uma variável
aleatória Bernoulli com probabilidade P de sucesso. Neste caso o
número de sucesso X, chama-se uma variável binomial (Bi(n,p)) com
a função distr. de probabilidade:
inii
nini P1PCP1Pi
niXp
O valor de esperança matemática e a variância é dada por:
nPXEXEn
ii
1
n
ii PnPXVarXVar
1
)1()()(
EstatísticaAmostragem
37
EstatísticaAmostragem
38
Aplicando o teorema de limite central, temos que a v.a. X= X1+ X2,...,
+Xn tem uma distribuição aproximadamente normal. Se for np
suficientemente grande,
)1,0(~)1(
NPP
nPX
)1,0(~)1(
NPnP
nPX
Assim,