A quantos filmes você já assistiu? A quantos filmes ainda assistirá?
Planejamento e Otimização de Experimentos...Intervalo de confiança para a média populacional a...
Transcript of Planejamento e Otimização de Experimentos...Intervalo de confiança para a média populacional a...
Planejamento e Otimização
de Experimentos
Um Pouco de Estatística
Prof. Dr. Anselmo E de Oliveira
anselmo.quimica.ufg.br
Populações, Amostras e Distribuições
População
Amostra
aleatória
representativa
Distribuições
Normal
t de Student
F
2
Não paramétricas
Populações, Amostras e Distribuições
Com quantos grãos se faz uma feijoada?
depende do tamanho da feijoada
receita: 1 kg de feijão
Quantos grãos existem em 1 kg de feijão?
Populações, Amostras e Distribuições
contar todos os caroços abordagem estatística
descobrir o peso de um caroço e dividir 1.000 g por esse valor
caroços/kg
caroços/kg
os pesos dos caroços não são idênticos
os pesos dos caroços variam de modo imprevisível
Populações, Amostras e Distribuições
deve haver limite para as massas dos caroços
0 g < mc < 1 kg
mc não deve flutuar muito
População
- conjunto de todos os valores possíveis
- conjunto dos pesos individuais de todos os caroços do pacote
Populações, Amostras e Distribuições
Obter uma estimativa a partir de uma amostra da população
Amostra
representativa
aleatória
Populações, Amostras e Distribuições
Como deve ser feita a amostragem em um saco de feijão?
a chance de um caroço de feijão ser pesado
deve ser exatamente a mesma para todos os caroços pesar e colocar novamente no saco
a hipótese da aleatoriedade deve ser obedecida
Histograma Pesos de 140 caroços extraídos aleatoriamente de um pacote de 1 kg de feijão preto (em gramas)
flutuação restrita
maior = 0,3043 g
menor = 0,1188 g
maioria 0,20 g
Populações, Amostras e Distribuições
Ocorrência
número de caroços em um dado intervalo
Frequência/Frequência Relativa
número de caroços em um dado intervalo dividido pelo número total de caroços.
8,6% dos pesos medidos estão entre 0,18 e 0,19 g
Histograma de frequência
• peso x frequência
• facilidade da representação gráfica
• concentração em torno de 0,20 g
• diminuição progressiva quando se afasta de 0,20 g
• simetria na distribuição.
Populações, Amostras e Distribuições
Média Amostral
𝑥 =1
𝑁 𝑥𝑖
𝑁
𝑖
= 0,2024 𝑔
Desvio 𝑑𝑖 = 𝑥𝑖 − 𝑥
Variância Amostral
𝑉 𝑥 =1
𝑁 − 1 𝑑𝑖
2
𝑁
𝑖
= 0,0132 𝑔2
Desvio Padrão Amostral
𝑠𝑥 = 𝑉 𝑥 = 0,0363 g
essa média calculada está em concordância com o histograma dos pesos
Populações, Amostras e Distribuições
Exemplo
Um desvio padrão
0,2024 ± 0,0363 g [0,1661 g, 0,2387 g]
66 % da área total do histograma
96,8 % da área total do histograma
Dois desvios padrão
0,2024 ± 0,0726 g [0,1298 g, 0,2750 g]
𝑠𝑥 = 0,0363 g 𝑥 = 0,2024 g
Populações, Amostras e Distribuições
66% da área
96,8% da área
Populações, Amostras e Distribuições
Estimativas Amostrais
𝑥 e s
Modelo Estatístico
Distribuição Normal, ou Gaussiana
Parâmetros Populacionais
e
Distribuição Normal
Distribuição Normal
Distribuição Normal: sempre?
Medidas de condutividade realizadas em um poço d’água em um ano Condutividade (S/cm)
9,43 Bloco Freqüência 49,00 10 1 116,80 33 4 111,80 56 1 28,40 79 0
120,40 101 0 116,80 124 12 111,80
28,40
120,40
116,80
111,80
28,40
120,40
116,80
111,80
28,40
114,20
média 86,77 desv pad 42,91
0
2
4
6
8
10
12
14
10 33 56 79 101 124 Mais
Fre
qü
ên
cia
Bloco
Histograma
Distribuição Log-Normal
A sample of data from a log-normal distribution 914.9 1568.3 50.5 94.1 199.5 23.8 70.5 213.1
44.1 331.7 139.3 115.6 38.4 357.1 725.9 253.2
905.6 155.4 138.1 95.2 75.2 275.0 401.1 653.8
390.8 483.5 62.6 128.5 81.5 218.5 308.2 41.2
60.3 506.9 221.8 112.5 93.7 199.3 210.6 39.2
0
5
10
15
20
25
30
244.8 465.8 686.8 907.8 1128.8 1349.8 1570.8 Mais
Fre
qü
ên
cia
Média = 275.0
Distribuição Log-Normal
Média = 2.2267
0
1
2
3
4
5
6
7
8
9
10
Fre
qü
ên
cia
Probabilidade de Ocorrência
Distribuição normal da variável aleatória
𝑥 ≈ 𝑁 𝜇, 𝜎2
𝑧 ≈ 𝑁 0,1
a b
𝑝 𝑎 < 𝑥 < 𝑏 = 𝑝 𝑎 ≤ 𝑥 ≤ 𝑏 =
𝑓 𝑥 𝑑𝑥𝑏
𝑎
Probabilidade de Ocorrência
Probabilidade de Ocorrência
Probabilidade de Ocorrência
Qual a probabilidade de ocorrência de um evento em um dado intervalo?
Se uma amostra se distribui normalmente, pode-se utilizar a Distribuição Normal para fazer inferências
exemplo da feijoada:
área total do histograma área total para variável aleatória
66,6% 68,3%
96,8% 95,4%
100% 99,7%
boa concordância
Probabilidade de Ocorrência
xz
2,Nx 1,0Nz
z representa o afastamento de x em relação à média populacional, , medido em desvios padrão,
Na prática, não é necessário calcular uma integral faz-se uma padronização da variável aleatória x, de média e variância 2
Probabilidade de Ocorrência
Exemplo Padronizar os resultados de uma análise laboratorial calculando,
por exemplo, uma concentração – ou qualquer outra propriedade que esteja sendo avaliada –, cujo resultado esteja 2,5 desvios padrão acima da média
xz zx 5,2z
5,2x
Probabilidade de Ocorrência
P(1-q), q = confiança
P() = 0,05 ou 5%
P(0,05) q = 0,95 = 95 %
P(0,05) representa uma confiança de 95 %
1 em 20
P < 0,05
q incerteza e vice-versa P(0,05) representa uma confiança menor (incerteza maior)
que P(0,01)
Probabilidade de Ocorrência
z = 1,96
fração da área total sob a curva que está localizada à direita de z = 1,96
P(0,025)
como a curva é simétrica, essa área é idêntica à esquerda de z = 1,96
a soma das duas caudas representa 5% da área total
os 95% restantes estão entre [1,96; 1,96]
31,12 z
31,162,0 zP
Probabilidade de Ocorrência
Considere um população com média 0,2024 e desvio 0,0363. Qual a probabilidade de encontrar valores entre 0,18 e 0,25?
21 xxxP
1z 2z
21 zzzP
62,01 z
𝑧1 =0,18 − 0,2024
0,0363 𝑧2 =
0,25 − 0,2024
0,0363 𝑧 =
𝑥 − 𝜇
𝜎
𝑥1 = 0,18
𝑥2 = 0,25
Probabilidade de Ocorrência
Área Correspondente a P(-0,62 < z < 1,31)
-0,62 1,31
Probabilidade de Ocorrência
A probabilidade de ocorrência do evento será, então, toda a área da curva (100%) menos a área hachuriada
-0,62 1,31
1,0 P(0,62 < z < 1,31)
31,162,00,1 zP
0,1 2676,0 0951,0
6373,0
Conclusão: 63,73% dos valores devem estar entre 0,18 e 0,25
standard normal distribution
Limite de Confiança,
Distribuição Normal
Distribuição t de Student
Amostragem Aleatória
Desvio Padrão da Média
graus de liberdade (df) = 𝑁 − 1
𝜆 = 𝑡𝜈𝑠
𝑁
Amostragem Aleatória
Intervalo de Confiança para a média
Distribuição Normal
Distribuição t de Student
𝑥 − 𝑡𝜈𝑠
𝑁< 𝜇 < 𝑥 + 𝑡𝜈
𝑠
𝑁
Amostragem Aleatória
Quando o número de graus de liberdade do desvio padrão é maior do que 30, utiliza-se a distribuição Normal.
Amostragem Aleatória
Tomando como base o peso de um caroço, escolhido aleatoriamente, mc = 0,1188 g, e usando a distribuição normal
N = 1 𝑥 = 0,1188
p(0,05) ⇒ z = 1,96
supondo = 0,0363 g (valor amostral, s, 140 caroços)
intervalo de confiança para a média populacional a partir de uma observação
Amostragem Aleatória
Intervalo de confiança para a média populacional a partir da distribuição normal
Com quantos grãos se faz uma feijoada?
Logo, com 95% de confiança, nossa feijoada deve conter entre 4.798 e 5.092 caroços
N = 140
s = 0 ,0363
z = 1,96, com 95% de confiança
= 0,2024 g
Amostragem Aleatória
Usando a distribuição t
N = 10
s = 0 ,0423
𝑡𝜈 = ?, com 95% de confiança
= 0,1887 g
Com quantos grãos se faz uma feijoada?
𝑥 − 𝑡𝜈𝑠
𝑁< 𝜇 < 𝑥 + 𝑡𝜈
𝑠
𝑁
Amostragem Aleatória
t9 = 2,262 P(0,025)
como a curva é simétrica: P(20,025) = P(0,05)
ou 95% de confiança
Amostragem Aleatória
Usando a distribuição t
Com quantos grãos se faz uma feijoada? N = 10 caroços
s = 0,0423 g
t9 = 2,262 (95% de confiança)
= 0,1887 g Logo, com 95% de confiança, nossa feijoada deve conter entre 4.566 e 6.313 caroços
𝑥 − 𝑡𝜈𝑠
𝑁< 𝜇 < 𝑥 + 𝑡𝜈
𝑠
𝑁
Amostragem Aleatória
Comparação entre a distribuição normal e a distribuição t, com 95% de confiança
Distribuição Normal (N = 140)
Distribuição t de Student, com 9 graus de liberdade
obs: o intervalo de confiança varia conforme o inverso de 𝑁
4.798 < 𝑛𝑐 < 5.052
4.566 < 𝑛𝑐 < 6.313
0,1964 𝑔 < 𝜇 < 0,2084 g
0,1584 𝑔 < 𝜇 < 0,2190 g
Apresentação dos resultados
intervalo de confiança pode ser usado como teste para avaliação de erro sistemático
𝝁 = 𝒙 ± 𝝀 𝟗𝟓% 𝜆 = 𝑡𝜈
𝑠
𝑁
Teste com Intervalo de confiança
A escala de absorvância de um espectrofotômetro é testada em um comprimento de onda particular com uma solução padrão, que tem uma absorvância de 0,470. 10 medidas da absorvância com um espectrofotômetro fornecem um valor médio de 0,461, e um desvio padrão de 0,003. Encontre o intervalo de confiança para a absorvância média medida pelo espectrofotômetro, e então decida se há erro sistemático presente.
?
𝜇 = 𝑥 ± 𝜆
𝜇 = 𝑥 ± 𝑡𝜈𝑠
𝑁
1 - 0,05 = 95%
1 - 0,025 = 97,5%
Uma cauda
Intervalo de Confiança
Duas caudas
1 – 2*0,05 = 90% 1 – 2*0,025 = 95%
confiança
Como o intervalo de confiança não inclui a absorvância conhecida de 0,470, tudo indica que há um erro sistemático
Teste com Intervalo de confiança
𝜇 = 𝑥 ± 𝑡𝜈𝑠
𝑁
𝑥 = 0,461 𝑠 = 0,003 𝑡9 = 2,262 𝑁 = 10
𝜇 = 0,461 ± 2,2620,003
10
𝜇 = 0,461 ± 0,002
Tamanho da Amostra
Distribuição Normal
Distribuição t de Student
precisão L
𝜇 ± 𝑧𝜎
𝑁
𝑥 ± 𝑡𝜈𝑠
𝑁
Tamanho da Amostra
Tamanho da Amostra
Uma precisão de 0,1%, significa L = 0,1%
2
L
zN
Distribuição Normal
Distribuição t de Student 𝑁 >𝑡𝜈𝑠
𝐿
2
Tamanho da Amostra
Após 20 titulações o desvio padrão obtido foi 0,1509%. Qual o número mínimo de titulações para estimar a concentração média, dentro de uma precisão de 0,1%?
𝑁 ≥𝑡𝜈𝑠
𝐿
2
Pontos de probabilidade da distribuição t com graus de liberdade
Tamanho da Amostra
10 titulações são necessárias para estimar a concentração, com 95% de confiança
Tamanho da Amostra
As estimativas também podem ser feitas a partir de uma série histórica
Calcule N para = 0,5%
L = 0,2%
z(95%) = 1,96
O INMETRO exige, no mínimo, 07 medidas para um padrão
N ≥𝑧𝜎
𝐿
2
≥1,96 × 0,5
0,2
2
≥ 24
Testes de Significância
Comparando com um valor de referência
Teor de ácido acético no vinagre deve ser de 4%
Procedimento: titulação com base
Três titulações resultaram em 3,91; 4,01 e 3,61%
𝑥 =? 𝑠 =?
Testes de Significância
Média e Desvio padrão (N=3)
Intervalo de confiança (distribuição t de Student)
t = t3-1 = t2 = 4,30 com 95% de confiança, ou p(0,05)
3
2082,0
3
2082,0 30,4843,330,4843,3
%36,4%32,3 •O intervalo de confiança contém o valor de referência (4%)
•O lote está dentro da especificação
𝑥 = 3,843% 𝑠 = 0,2082%
𝑥 − 𝑡𝜈𝑠
𝑁< 𝜇 < 𝑥 + 𝑡𝜈
𝑠
𝑁
Testes de Significância
Mais cinco titulações
t = t8-1 = t7 = 2,365 com 95% de confiança, ou p(0,05)
%93,3%71,3 •O intervalo de confiança não contém o valor de referência, 4 %
•O lote está fora da especificação
Logo, existe evidência, com 95% de confiança, que o teor médio de ácido acético no lote de vinagre é inferior a 4%
𝑥 = 3,818% 𝑠 = 0,1286%
Testes de Significância
Comparando Dois Tratamentos
Comparando Duas Médias
Comparações Emparelhadas
Comparando Duas Variâncias
Testes de Significância
Comparando Duas Médias
Hipótese Nula
𝜇𝐴 = 𝜇𝐵 ↔ 𝜇𝐴 − 𝜇𝐵 = 0
Verificar se o intervalo de confiança contém o zero
Médias para os métodos A e B, de acordo com a
distribuição t de Student
𝜇𝐴 = 𝑥 𝐴 ± 𝑡𝜈𝐴𝑠𝐴
𝑁𝐴 𝜇𝐵 = 𝑥 𝐵 ± 𝑡𝜈𝐵
𝑠𝐵
𝑁𝐵
Testes de Significância
11
11 22
BA
BBAA
NN
sNsNs
nesse caso, admite-se que sA2 e sB
2 são estimativas da mesma variância populacional
𝜇𝐴 − 𝜇𝐵 = 𝑥 𝐴 − 𝑥 𝐵 ± 𝑡𝜈𝑠1
𝑁𝐴+1
𝑁𝐵
𝜈 = 𝜈𝐴 + 𝜈𝐵 = 𝑁𝐴 − 1 + 𝑁𝐵 − 1 = 𝑁𝐴 + 𝑁𝐵 − 2
Testes de Significância
Dois métodos para a determinação de boro em plantas apresentam os seguintes resultados, após 10 determinações de cada método:
Espectrofotométrico
média = 28,0 g/g; desvio padrão = 0,3 g/g
Flurimétrico
média = 26,25 g/g; desvio padrão = 0,23 g/g
Esses dois métodos apresentam médias que diferem significativamente?
Testes de Significância
FE
FEFENN
stxx11
0,2825,26 10
11
11 22
FE
FFEE
NN
sNsNs
223,0
23,0
= 2 x (N-1) = 2 x (10-1) = 18
𝑡18 =?P(0.05) 𝑡18 = 2.101 𝑃 0.05
Testes de Significância
Intervalo para as diferenças das médias, com 95 % de confiança
Como o intervalo de confiança não inclui o zero, as duas médias diferem significativamente.
Testes de Significância
Quando a suposição que os desvios padrão são iguais não é válida
11
22
22
222
B
B
B
A
A
A
B
B
A
A
N
Ns
N
Ns
Ns
Ns
e deve ser arredondado ao número inteiro mais próximo.
Testes de Significância
Comparações Emparelhadas
Amostra 1: Técnico A, N ensaios
Amostra 2: Técnico B, N ensaios
Hipótese Nula: 1 = 2
Pergunta: Existe diferença sistemática entre os dois técnicos?
(diferença na maneira de se realizar a análise química)
Testes de Significância
BiAii xxd
N
i
id dN
s 2
1
1
• Desvio
• Desvio Padrão
• Média dos Desvios
N
i
idN
d1
Se não existe diferença analítica entre o técnico A e o técnico B, a hipótese nula é verdadeira.
𝜇𝐴 − 𝜇𝐵 = 𝑑 ± 𝑡𝜈𝑠𝑑
𝑁
Testes de Significância
Teste t pareado
𝑑𝑖 = 1.48; 0.66; 0.24; 0.21; −0.10; −0.61; −0.10; 0.09; −0.07; −0.21
𝑑 = 0.159 𝑠𝑑 = 0.57
𝑡9 = 2.262 𝑃 0.05
𝜇𝐴 − 𝜇𝐵 = 𝑑 ± 𝑡𝜈𝑠𝑑
𝑁
𝜇𝐴 − 𝜇𝐵 = 0.159 ± 2.2620.57
10
= 0.159 ± 0.408
𝑡9 =?P(0.05)
Como o intervalo de confiança inclui o zero, as duas médias não diferem significativamente.
Testes de Significância
Comparando Duas Variâncias
Método A
Método B
Pergunta: Existe diferença significativa entre os dois métodos?
(um dos métodos é mais preciso que o outro)
Testes de Significância
Hipótese Nula: 22
BA ss
Teste F 𝐹 =𝑠𝐴2
𝑠𝐵2
Testes de Significância
Uma ou Duas Caudas?
Teste com duas caudas
diferenças entre médias em ambas direções
diferença entre um valor experimental e um valor de referência independentemente do sinal da diferença
Teste com uma cauda um resultado é maior (ou menor) que o outro
Testes de Significância
Outliers
Dixon´s Q-test: the data point are ranked and the difference between a suspected outlier and the observation closest to it is compared to the total range of measurements: Q-value;
If the calculated Q-value exceeds the critical value of Q, from tables, this point may therefore be rejected from subsequent analysis.
Testes de Significância
- Ex: 𝑄 =1056−1012
1056−990= 0.67
n = 10
Table of critical values for Dixon's Q-test at P=0.05: 0.466
Qcalc > Qtab 1056 may be rejected from subsequent analysis