MAE 317 Planejamento e Pesquisa I - IME-USP
Transcript of MAE 317 Planejamento e Pesquisa I - IME-USP
MAE 317
Planejamento e Pesquisa I
Profa. Júlia Maria Pavan Soler
IME/USP – 1º Semestre/2019
Delineamento Completamente
Aleatorizado - DCA
T1 T2 . . . Tk
Y11 Y12 . . . Y1k
Y21 Y22 . . . Y2k
Yn11 Y n22 . . . Ynkk
. . . . . . Yij . . .resposta da i-ésima unidade
experimental exposta ao j-ésimo
tratamento
nj réplicas no tratamento jnj
Tratamentos: 1 Fator em k níveis
Fator de Efeito Fixo
Esquema de aleatorização:
atribuição completamente aleatória
das unidades experimentais aos k
tratamentos
1
k
j
j
n n
MotivaçãoConsidere o seguinte delineamento completamente aleatorizado (DCA)
com um fator fixo em 4 níveis e seis réplicas por tratamento.
Dados: Medidas de clorofila a dissolvida na água
T1 T2 T3 T4
6,2 12,7 7,0 8,3
4,8 11,3 4,4 7,1
3,0 9,3 3,8 11,7
5,6 9,5 5,0 10,0
7,1 11,7 5,5 8,5
4,8 15,3 3,2 12,4
Discuta o delineamento experimental e a estrutura dos dados.
Há evidência amostral para efeito de tratamento?
Motivação
Dados: Tempo de coagulação (em seg) de amostras de sangue
extraídas de 16 animais aleatoriamente alocados a 4 tratamentos.
T1 T2 T3 T4
62 63 68 57
60 67 66 52
63 70 71 60
59 64 67 59
61 66 68 57 63Média
Discuta o delineamento experimental e a estrutura dos dados.
Há evidência amostral para efeito de tratamento?
Dados (Problema 3.3, Oehlert, 2010): Altura
de plantas submetidas ao stress da passage
(pisada) de transeuntes.
Dados
(Problema 3.2, Oehlert, 2010):
Cientistas investigam se o
gasto energético destinado à
reprodução afeta a longevidade
em moscas de frutas
Discuta o delineamento usado
e a estrutura dos dados.
Há evidência amostral para
diferenças entre os
“tratamentos”?
Dados (Problema 3.4, Oehlert, 2010):
Concentração de adenine no cérebro de ratos
tratados com doses de cafeína
Motivação
Discuta o delineamento experimental e a estrutura dos dados.
Há evidência amostral para efeito de tratamento?
Dados (Exercício 3.1, Oehlert, 2010):
Peso relative do fígado (em % do
peso corporal) de ratos tratados com
diferentes dietas
Planejamento e Análise de DadosEstrutura Geral de Análise de Dados: (Goos and Gilmour, 2012)
Estrutura da Unidade Amostralamostragem, aleatorização
efeitos aleatórios
Estrutura do Tratamentotipo do delineamento
efeitos fixos
Esboço da Análiseesqueleto da ANOVA
Estrutura da Respostatipo de variável
Modelagemmodelo inicial
seleção de modelosmodelo final/interpretação
Estrutura das Unidades Experimentais
24 unidades amostrais completamente
aleatorizadas a 4 tratamentos
6 réplicas em cada tratamento (amostras
balanceadas)
Estrutura de Tratamentos
1 Fator (Tratamento) em 4 níveis
Fator Fixo: T1, T2, T3 e T4
Estrutura da variável resposta
Uma única variável quantitativa de interesse:
concentração de clorofila a dissolvida na água
Delineamento Completamente
Aleatorizado - DCA
Fontes de Variação
T1 . . . Tk
Y11 . . . Y1k
Yn11 . . . Ynkk
. . . . . . . . .
);( 2
1 N
n1 . . . nk
. . .
. . .1s ksky1y
);( 2 kN
2
2 1
( )
1
jn
ij j
ij
j
y y
sn
Variação DENTRO
do tratamento j
2
12
( )
1
k
j j
j
T
n y y
sk
Variação ENTRE
tratamentos
Inicialmente, considere as
seguintes fontes de variação:
é aquela devido a fontes de erro
desconhecidas. Todas as unidades
receberam o mesmo tratamento, logo esta
variabilidade é experimental, de fatores
não controlados ou até mesmo genuína
é aquela devido ao efeito dos
tratamentos. Esta variabilidade informa
sobre o efeito do fator de interesse no
estudo, 1
1 1 k
ij j
i j j
y y yn k
Var. Entre = 67,15 Var. Dentro = 3,26 1,81
Estatísticas Descritivas
variação entre
variação dentro= 67,15/3,26 = 20,60
Há evidência amostral para a existência de
efeito do tratamento? Discutir
T4
T3
T2
T1
15
10
5
Trat
Resp
Boxplots of Resp by Trat
(means are indicated by solid circles)
n=6
Dotplots ?
Suposição
T1 T2 . . . Tk
Y11 Y12 . . . Y1k
Yn11 Yn22 . . . Ynkk
. . . . . . Yij . . .
Amostra
1y 2y ky
1s 2s ks
. . .
. . .
Normalidade
Variância constante
Independência
);( 2
1 N );( 2
2 N );( 2 kN População...
);(~ 2 ji j NY
kH . . .: 21
A : existe pelo menos uma
diferença entre as médias dos
tratamentos
Yij: resposta da i-ésima unidade de
medida submetida ao j-ésimo
tratamento
n1 n2 . . . nk
iid
Variação Residual
2
2( )
; 1, 2,...,1
ij j
j
j
y ys j k
n
kn
S Q R
knn
snsns
k
kkR
...
)1(...)1(
1
22
112
Quadrado Médio Residual (QMRes)
Estimativa da consistência
interna dos dados22 Rs
T1 . . . Tk
Y11 . . . Yk1
Yn11 . . . Ynkk
. . . . . . . . .
);( 2
1 N );( 2 kN
1s ks. . .
. . .ky1y
22 R e sQ MEsE R
Sob as suposições de normalidade,
independência e homocedasticidade!
n1 . . . nk
DENTRO de Tratamentos
Variação ENTRE Tratamentos
Sob e
amostras balanceadas
k amostras aleatórias são extraídas
da mesma distribuição );( 2N
Lembrar da distribuição
amostral da média amostral
2
2( )
1
j j
Tr
n y ys
k
QME
Quadrado Médio de Tratamento ou
Quadrado Médio Entre (QME)
kjH j , . . . ,2,1,:
T1 . . . Tk
Y11 . . . Yk1
Yn11 . . . Ynkk
. . . . . . . . .
);( 2
1 N );( 2 kN
1s ks. . .
. . .ky1y
n1 . . . nk
Variação ENTRE
rk
yy j22
1
)(
2
2 2( )
1
j
Tr
r y ys
k
Sob H e balanceamento:
22 Rs
Sob H as duas
estatísticas estimam
2 2
Tr Rs s
2 2
TrE QME E s
2
T1 . . . Tk
Y11 . . . Yk1
Yn11 . . . Ynkk
. . . . . . . . .
);( 2
1 N );( 2 kN
1s ks. . .
. . .ky1y 2 2
Trs
ANOVA - Comparação de Médias
Yij );( 2 jN
H: k. . .21
A: existe pelo menos uma diferença entre as médias
Sob H duas estimativas de2
2
Trs
2
Rs
Quadrado Médio de
Tratamento
Quadrado Médio
Residual
2
Trs
2
Rs“valor grande” Evidência de que H é falsoF =
Componentes de Variabilidade
)()( ji jji j yyyyyy
)()( ji jji j yyyyyy
SQTotal SQTratamento SQResidual
Estatísticas associadas às somas de quadrados:
Tabela de ANOVA
Fonte de
variação
ENTRE k-1
DENTRO n-k
TOTAL n-1
2)( yyn jj
ij
jij yy 2)(
ij
ij yy 2)(
SQE/(k-1)
SQR/(n-k)
QME/QMR
k. . .21H:
2
Trs
2
RsF = F ( k-1 , n-k )
Sob normalidade,
homocedasticidade e
independência
Interprete
descritivamente
o valor “F” !
Sob H
SQ QM F valor-pGrau de
liberdade
Tabela de ANOVA
F.V. g.l. SQ QM F valor-p
ENTRE k-1
DENTRO n-k
TOTAL n-1
2)( yyn jj
ij
jij yy 2)(
ij
ij yy 2)(
SQE/(K-1)
SQR/(N-K)
QME/QMR
k. . .21H:
SQTotal
SQER 2
)) (1(~ knkFQ M R
Q M EF
Coeficiente de determinação:
proporção da variabilidade
total de Y explicada pelos
tratamentos
Tabela de ANOVA
Experimento para avaliar a utilização de um inóculo de fungos no desenvolvimento
de mudas de Eucalyptos citriodora. O fungos ajudam no crescimento das plantas?
Três tratamentos de interesse:
IA - inóculo ausente;
I S - inóculo selvagem (proveniente da raiz de grama batatais) e
I M - inóculo de G. mosseae (proveniente da raiz do arroz)
Sementes de mesma origem foram semeadas em sacos plásticos contendo o mesmo
tipo de solo, os quais foram mantidos em Casa de Vegetação em condições
ambientais consideradas homogêneas. Foram usadas 5 repetições para cada
tratamento sob um delineamento inteiramente casualizado (DCA). Após 48 dias, a
medição da altura das mudas foi feita.
Trat Repetições Média
A 7.86 6.38 6.90 7.78 7.17 7.218
M 6.20 7.82 8.50 6.50 7.09 7.222
S 9.67 8.08 9.25 8.20 8.64 8.768
Média 7.736
Duscuta o delineamento.
Faça suposições.
Calcule a variabilidade
Entre e Dentro de
tratamentos.
Há evidência para o efeito
de tratamento?
Modelo Estrutural e Distribucional
i jji jy
ji jyE
ij );0( 2N
k parâmetros definem o valor esperado de y:k ,. . .,, 21
Parametrização de Médias
kjriV a ryV a r i ji j , . . . ,2,1, . . . ,2,1;2
iid
Considerando os dados de “clorofila a” escreva as equações
impostas pelo modelo estrutural adotado!
ijY 2( ; )jN iid
Modelo Estrutural e Distribucional
ij j ijy
Parametrização de Desvios de Médias
(k+1) parâmetros definem o valor esperado de y: k ,. . .,,, 21
Restrições de Identificabilidade dos Parâmetros
121
1
...0
kk
k
j
j
:
: jj
Média geral da resposta (o valor esperado basal da resposta)
Efeito do tratamento Tj no valor esperado basal da
resposta (é o desvio em relação à média geral da
resposta)
Modelo Estrutural
kyk
j
ji jji j /;1
i jji jy efeito do tratamento: componente de desvios
na média de Y
ij );0( 2N
componente aleatóriocomponente fixo
0;1
k
j
jjji jyE
2 i ji j V a ryV a r
Modelo Estrutural e Distribucional
kj
jy
ijj
ij
ij ,...,2
1
1
1
Parametrização de Casela de Referência
:1
:, . . . ,2 kjj
O valor esperado da resposta para unidades submetidas ao
tratamento T1 (considerado como referência)
Efeito do tratamento Tj em relação ao valor esperado
da resposta ao tratamento T1 (é o desvio em relação a
esta referência)
Modelo Estrutural e Estimadores
ij j ijy
( ) ( )ij j ij jy y y y y y
ijej
Formalização Matricial
Modelo ANOVA - Modelo Linear Geral
0;1
k
j
jijjijy
1 1 1n n k k nY X
vetor de
observações
Matriz de
Planejamento
vetor de
parâmetros
vetor de
resíduos
Como está definida a matriz X no caso de Regressão ?
Para os dados de “clorofila a” escreva o modelo linear na forma
matricial, considerando as diferentes parametrizações.
1 1 0 0
1 1 0 0
1 1 0 0
1 1 0 0
1 1 0 0
1 0 1 0
1 0 1 0
1 0 1 0
1 0 1 0
1 0 1 0
1 0 0 1
1 0 0 1
1 0 0 1
1 0 0 1
1 0 0 1
1 -1 -1 -1
1 -1 -1 -1
1 -1 -1 -1
1 -1 -1 -1
1 -1 -1 -1
0;1
k
j
jijjijy
n kX 1nY 1k 1ne
1
2
3
= +
11
21
31
41
51
12
22
32
42
52
13
23
33
43
53
14
24
34
44
54
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
e
Parametrização de desvios de médias
DCA: 1 fator em 4 níveis e 5 réplicas
11
21
31
41
51
12
22
32
42
52
13
23
33
43
53
14
24
34
44
54
y
y
y
y
y
y
y
y
y
y
y
y
y
y
y
y
y
y
y
y
Tabela de ANOVA - Notação Matricial
F.V. g.l. SQ QM F p
Trat k-1
Resíduo n-k
TOTAL n-1
nY I P Y
SQTr / (k-1)
SQR / (n-k)
QMTr / QMR
kH . . .: 21
1Y P J Y
n
1nY I J Y
n
1
P X X X X
: matriz de 1’s
0. . .: 21 kH
1 1n nJ
Procedimentos de Inferência
0;1
k
j
jijjijy
1 1 1n n k k nY X
YXXX 1
YXXXXY 1ˆ
P: Matriz de Projeção
ˆˆm i nˆˆm i n;ˆ XYXY
Solução via o Método de Mínimos
Quadrados e Máxima Verossimilhança
(sob Yij ~ N(j;2) ) conduzem aos
mesmos estimadores.
iid
Modelos Lineares
1 1 1
ˆ
1
1
ˆ ; min
ˆ
ˆ
ˆˆ
n n k k nY X
S Y X Y X
X X X Y
X X X Y
Y X X X X X Y PY
Y
Y
)(XC
Projeção PY
Teorema de Gauss-Markov:
Os estimadores de máxima verossimilhança têm variância mínima na classe dos
estimadores não viesados e que sejam funções lineares das observações.
(Equações Normais)
Geometria da ANOVA
Y
Y
R
A T
D
Y: vetor de dados
A: vetor média geral
D=Y-A: desvios em relação à média geral
Tr: desvios das médias dos tratamentos em
relação à média geral
R: resíduos
0)(1 1
k
j
r
i
j yyy
0)(1 1
k
j
r
i
ij yyy
0)(1 1
k
j
r
i
jij yyy
0))((1 1
k
j
r
i
jijj yyyy
D é ortogonal a A
A é ortogonal a Tr
A é ortogonal a R
R é ortogonal a Tr
ˆ ˆ
A Tr R
Y Y R Y A Tr
S S S S
Aditividade das Somas de
Quadrados (comprimento
ao quadrado dos vetores)
Tr
Exemplo: 1 fator em 4 níveis
2122
3342
5211
0031
6532
6532
6532
6532
63636363
63636363
63636363
63636363
59676459
60717063
52666760
57686362
)()( ji jji j yyyyyy
Observação YMédia geral A Efeito de
Tratamento Tr
Resíduo R
SQTotal = SQMédia + SQTrat + SQResidual
Soma de Quadrados 63.892 = 63.504 + 296 + 92
SQTotal Corrigida = 63.892 – 63.504 = 388
Número de g.l. 16 = 1 + 3 + 12
T1 T2 T3 T4
Ré
pli
cas
Médias 61 66 68 57
ANOVA
2~ ( ; ); ; 0ij j j j j
j
Y N
0 1 2 1: ... ... 0k kH
H1: existe pelo menos uma diferença entre as médias
Formulação do Modelo, Construção da Tabela de ANOVA,
Obtenção das Estimativas
Entender o Efeito de Tratamento: Comparações Múltiplas entre Médias
iid
Análise de Diagnóstico das premissas do Modelo