MAE 317 Planejamento e Pesquisa I - IME-USP

Post on 05-Jul-2022

2 views 0 download

Transcript of MAE 317 Planejamento e Pesquisa I - IME-USP

MAE 317

Planejamento e Pesquisa I

Profa. Júlia Maria Pavan Soler

pavan@ime.usp.br

IME/USP – 1º Semestre/2019

Delineamento Completamente

Aleatorizado - DCA

T1 T2 . . . Tk

Y11 Y12 . . . Y1k

Y21 Y22 . . . Y2k

Yn11 Y n22 . . . Ynkk

. . . . . . Yij . . .resposta da i-ésima unidade

experimental exposta ao j-ésimo

tratamento

nj réplicas no tratamento jnj

Tratamentos: 1 Fator em k níveis

Fator de Efeito Fixo

Esquema de aleatorização:

atribuição completamente aleatória

das unidades experimentais aos k

tratamentos

1

k

j

j

n n

MotivaçãoConsidere o seguinte delineamento completamente aleatorizado (DCA)

com um fator fixo em 4 níveis e seis réplicas por tratamento.

Dados: Medidas de clorofila a dissolvida na água

T1 T2 T3 T4

6,2 12,7 7,0 8,3

4,8 11,3 4,4 7,1

3,0 9,3 3,8 11,7

5,6 9,5 5,0 10,0

7,1 11,7 5,5 8,5

4,8 15,3 3,2 12,4

Discuta o delineamento experimental e a estrutura dos dados.

Há evidência amostral para efeito de tratamento?

Motivação

Dados: Tempo de coagulação (em seg) de amostras de sangue

extraídas de 16 animais aleatoriamente alocados a 4 tratamentos.

T1 T2 T3 T4

62 63 68 57

60 67 66 52

63 70 71 60

59 64 67 59

61 66 68 57 63Média

Discuta o delineamento experimental e a estrutura dos dados.

Há evidência amostral para efeito de tratamento?

Dados (Problema 3.3, Oehlert, 2010): Altura

de plantas submetidas ao stress da passage

(pisada) de transeuntes.

Dados

(Problema 3.2, Oehlert, 2010):

Cientistas investigam se o

gasto energético destinado à

reprodução afeta a longevidade

em moscas de frutas

Discuta o delineamento usado

e a estrutura dos dados.

Há evidência amostral para

diferenças entre os

“tratamentos”?

Dados (Problema 3.4, Oehlert, 2010):

Concentração de adenine no cérebro de ratos

tratados com doses de cafeína

Motivação

Discuta o delineamento experimental e a estrutura dos dados.

Há evidência amostral para efeito de tratamento?

Dados (Exercício 3.1, Oehlert, 2010):

Peso relative do fígado (em % do

peso corporal) de ratos tratados com

diferentes dietas

Planejamento e Análise de DadosEstrutura Geral de Análise de Dados: (Goos and Gilmour, 2012)

Estrutura da Unidade Amostralamostragem, aleatorização

efeitos aleatórios

Estrutura do Tratamentotipo do delineamento

efeitos fixos

Esboço da Análiseesqueleto da ANOVA

Estrutura da Respostatipo de variável

Modelagemmodelo inicial

seleção de modelosmodelo final/interpretação

Estrutura das Unidades Experimentais

24 unidades amostrais completamente

aleatorizadas a 4 tratamentos

6 réplicas em cada tratamento (amostras

balanceadas)

Estrutura de Tratamentos

1 Fator (Tratamento) em 4 níveis

Fator Fixo: T1, T2, T3 e T4

Estrutura da variável resposta

Uma única variável quantitativa de interesse:

concentração de clorofila a dissolvida na água

Delineamento Completamente

Aleatorizado - DCA

Fontes de Variação

T1 . . . Tk

Y11 . . . Y1k

Yn11 . . . Ynkk

. . . . . . . . .

);( 2

1 N

n1 . . . nk

. . .

. . .1s ksky1y

);( 2 kN

2

2 1

( )

1

jn

ij j

ij

j

y y

sn

Variação DENTRO

do tratamento j

2

12

( )

1

k

j j

j

T

n y y

sk

Variação ENTRE

tratamentos

Inicialmente, considere as

seguintes fontes de variação:

é aquela devido a fontes de erro

desconhecidas. Todas as unidades

receberam o mesmo tratamento, logo esta

variabilidade é experimental, de fatores

não controlados ou até mesmo genuína

é aquela devido ao efeito dos

tratamentos. Esta variabilidade informa

sobre o efeito do fator de interesse no

estudo, 1

1 1 k

ij j

i j j

y y yn k

Var. Entre = 67,15 Var. Dentro = 3,26 1,81

Estatísticas Descritivas

variação entre

variação dentro= 67,15/3,26 = 20,60

Há evidência amostral para a existência de

efeito do tratamento? Discutir

T4

T3

T2

T1

15

10

5

Trat

Resp

Boxplots of Resp by Trat

(means are indicated by solid circles)

n=6

Dotplots ?

Suposição

T1 T2 . . . Tk

Y11 Y12 . . . Y1k

Yn11 Yn22 . . . Ynkk

. . . . . . Yij . . .

Amostra

1y 2y ky

1s 2s ks

. . .

. . .

Normalidade

Variância constante

Independência

);( 2

1 N );( 2

2 N );( 2 kN População...

);(~ 2 ji j NY

kH . . .: 21

A : existe pelo menos uma

diferença entre as médias dos

tratamentos

Yij: resposta da i-ésima unidade de

medida submetida ao j-ésimo

tratamento

n1 n2 . . . nk

iid

Variação Residual

2

2( )

; 1, 2,...,1

ij j

j

j

y ys j k

n

kn

S Q R

knn

snsns

k

kkR

...

)1(...)1(

1

22

112

Quadrado Médio Residual (QMRes)

Estimativa da consistência

interna dos dados22 Rs

T1 . . . Tk

Y11 . . . Yk1

Yn11 . . . Ynkk

. . . . . . . . .

);( 2

1 N );( 2 kN

1s ks. . .

. . .ky1y

22 R e sQ MEsE R

Sob as suposições de normalidade,

independência e homocedasticidade!

n1 . . . nk

DENTRO de Tratamentos

Variação ENTRE Tratamentos

Sob e

amostras balanceadas

k amostras aleatórias são extraídas

da mesma distribuição );( 2N

Lembrar da distribuição

amostral da média amostral

2

2( )

1

j j

Tr

n y ys

k

QME

Quadrado Médio de Tratamento ou

Quadrado Médio Entre (QME)

kjH j , . . . ,2,1,:

T1 . . . Tk

Y11 . . . Yk1

Yn11 . . . Ynkk

. . . . . . . . .

);( 2

1 N );( 2 kN

1s ks. . .

. . .ky1y

n1 . . . nk

Variação ENTRE

rk

yy j22

1

)(

2

2 2( )

1

j

Tr

r y ys

k

Sob H e balanceamento:

22 Rs

Sob H as duas

estatísticas estimam

2 2

Tr Rs s

2 2

TrE QME E s

2

T1 . . . Tk

Y11 . . . Yk1

Yn11 . . . Ynkk

. . . . . . . . .

);( 2

1 N );( 2 kN

1s ks. . .

. . .ky1y 2 2

Trs

ANOVA - Comparação de Médias

Yij );( 2 jN

H: k. . .21

A: existe pelo menos uma diferença entre as médias

Sob H duas estimativas de2

2

Trs

2

Rs

Quadrado Médio de

Tratamento

Quadrado Médio

Residual

2

Trs

2

Rs“valor grande” Evidência de que H é falsoF =

Componentes de Variabilidade

)()( ji jji j yyyyyy

)()( ji jji j yyyyyy

SQTotal SQTratamento SQResidual

Estatísticas associadas às somas de quadrados:

Tabela de ANOVA

Fonte de

variação

ENTRE k-1

DENTRO n-k

TOTAL n-1

2)( yyn jj

ij

jij yy 2)(

ij

ij yy 2)(

SQE/(k-1)

SQR/(n-k)

QME/QMR

k. . .21H:

2

Trs

2

RsF = F ( k-1 , n-k )

Sob normalidade,

homocedasticidade e

independência

Interprete

descritivamente

o valor “F” !

Sob H

SQ QM F valor-pGrau de

liberdade

Tabela de ANOVA

F.V. g.l. SQ QM F valor-p

ENTRE k-1

DENTRO n-k

TOTAL n-1

2)( yyn jj

ij

jij yy 2)(

ij

ij yy 2)(

SQE/(K-1)

SQR/(N-K)

QME/QMR

k. . .21H:

SQTotal

SQER 2

)) (1(~ knkFQ M R

Q M EF

Coeficiente de determinação:

proporção da variabilidade

total de Y explicada pelos

tratamentos

Tabela de ANOVA

Experimento para avaliar a utilização de um inóculo de fungos no desenvolvimento

de mudas de Eucalyptos citriodora. O fungos ajudam no crescimento das plantas?

Três tratamentos de interesse:

IA - inóculo ausente;

I S - inóculo selvagem (proveniente da raiz de grama batatais) e

I M - inóculo de G. mosseae (proveniente da raiz do arroz)

Sementes de mesma origem foram semeadas em sacos plásticos contendo o mesmo

tipo de solo, os quais foram mantidos em Casa de Vegetação em condições

ambientais consideradas homogêneas. Foram usadas 5 repetições para cada

tratamento sob um delineamento inteiramente casualizado (DCA). Após 48 dias, a

medição da altura das mudas foi feita.

Trat Repetições Média

A 7.86 6.38 6.90 7.78 7.17 7.218

M 6.20 7.82 8.50 6.50 7.09 7.222

S 9.67 8.08 9.25 8.20 8.64 8.768

Média 7.736

Duscuta o delineamento.

Faça suposições.

Calcule a variabilidade

Entre e Dentro de

tratamentos.

Há evidência para o efeito

de tratamento?

Modelo Estrutural e Distribucional

i jji jy

ji jyE

ij );0( 2N

k parâmetros definem o valor esperado de y:k ,. . .,, 21

Parametrização de Médias

kjriV a ryV a r i ji j , . . . ,2,1, . . . ,2,1;2

iid

Considerando os dados de “clorofila a” escreva as equações

impostas pelo modelo estrutural adotado!

ijY 2( ; )jN iid

Modelo Estrutural e Distribucional

ij j ijy

Parametrização de Desvios de Médias

(k+1) parâmetros definem o valor esperado de y: k ,. . .,,, 21

Restrições de Identificabilidade dos Parâmetros

121

1

...0

kk

k

j

j

:

: jj

Média geral da resposta (o valor esperado basal da resposta)

Efeito do tratamento Tj no valor esperado basal da

resposta (é o desvio em relação à média geral da

resposta)

Modelo Estrutural

kyk

j

ji jji j /;1

i jji jy efeito do tratamento: componente de desvios

na média de Y

ij );0( 2N

componente aleatóriocomponente fixo

0;1

k

j

jjji jyE

2 i ji j V a ryV a r

Modelo Estrutural e Distribucional

kj

jy

ijj

ij

ij ,...,2

1

1

1

Parametrização de Casela de Referência

:1

:, . . . ,2 kjj

O valor esperado da resposta para unidades submetidas ao

tratamento T1 (considerado como referência)

Efeito do tratamento Tj em relação ao valor esperado

da resposta ao tratamento T1 (é o desvio em relação a

esta referência)

Modelo Estrutural e Estimadores

ij j ijy

( ) ( )ij j ij jy y y y y y

ijej

Formalização Matricial

Modelo ANOVA - Modelo Linear Geral

0;1

k

j

jijjijy

1 1 1n n k k nY X

vetor de

observações

Matriz de

Planejamento

vetor de

parâmetros

vetor de

resíduos

Como está definida a matriz X no caso de Regressão ?

Para os dados de “clorofila a” escreva o modelo linear na forma

matricial, considerando as diferentes parametrizações.

1 1 0 0

1 1 0 0

1 1 0 0

1 1 0 0

1 1 0 0

1 0 1 0

1 0 1 0

1 0 1 0

1 0 1 0

1 0 1 0

1 0 0 1

1 0 0 1

1 0 0 1

1 0 0 1

1 0 0 1

1 -1 -1 -1

1 -1 -1 -1

1 -1 -1 -1

1 -1 -1 -1

1 -1 -1 -1

0;1

k

j

jijjijy

n kX 1nY 1k 1ne

1

2

3

= +

11

21

31

41

51

12

22

32

42

52

13

23

33

43

53

14

24

34

44

54

e

e

e

e

e

e

e

e

e

e

e

e

e

e

e

e

e

e

Parametrização de desvios de médias

DCA: 1 fator em 4 níveis e 5 réplicas

11

21

31

41

51

12

22

32

42

52

13

23

33

43

53

14

24

34

44

54

y

y

y

y

y

y

y

y

y

y

y

y

y

y

y

y

y

y

y

y

Tabela de ANOVA - Notação Matricial

F.V. g.l. SQ QM F p

Trat k-1

Resíduo n-k

TOTAL n-1

nY I P Y

SQTr / (k-1)

SQR / (n-k)

QMTr / QMR

kH . . .: 21

1Y P J Y

n

1nY I J Y

n

1

P X X X X

: matriz de 1’s

0. . .: 21 kH

1 1n nJ

Procedimentos de Inferência

0;1

k

j

jijjijy

1 1 1n n k k nY X

YXXX 1

YXXXXY 1ˆ

P: Matriz de Projeção

ˆˆm i nˆˆm i n;ˆ XYXY

Solução via o Método de Mínimos

Quadrados e Máxima Verossimilhança

(sob Yij ~ N(j;2) ) conduzem aos

mesmos estimadores.

iid

Modelos Lineares

1 1 1

ˆ

1

1

ˆ ; min

ˆ

ˆ

ˆˆ

n n k k nY X

S Y X Y X

X X X Y

X X X Y

Y X X X X X Y PY

Y

Y

)(XC

Projeção PY

Teorema de Gauss-Markov:

Os estimadores de máxima verossimilhança têm variância mínima na classe dos

estimadores não viesados e que sejam funções lineares das observações.

(Equações Normais)

Geometria da ANOVA

Y

Y

R

A T

D

Y: vetor de dados

A: vetor média geral

D=Y-A: desvios em relação à média geral

Tr: desvios das médias dos tratamentos em

relação à média geral

R: resíduos

0)(1 1

k

j

r

i

j yyy

0)(1 1

k

j

r

i

ij yyy

0)(1 1

k

j

r

i

jij yyy

0))((1 1

k

j

r

i

jijj yyyy

D é ortogonal a A

A é ortogonal a Tr

A é ortogonal a R

R é ortogonal a Tr

ˆ ˆ

A Tr R

Y Y R Y A Tr

S S S S

Aditividade das Somas de

Quadrados (comprimento

ao quadrado dos vetores)

Tr

Exemplo: 1 fator em 4 níveis

2122

3342

5211

0031

6532

6532

6532

6532

63636363

63636363

63636363

63636363

59676459

60717063

52666760

57686362

)()( ji jji j yyyyyy

Observação YMédia geral A Efeito de

Tratamento Tr

Resíduo R

SQTotal = SQMédia + SQTrat + SQResidual

Soma de Quadrados 63.892 = 63.504 + 296 + 92

SQTotal Corrigida = 63.892 – 63.504 = 388

Número de g.l. 16 = 1 + 3 + 12

T1 T2 T3 T4

pli

cas

Médias 61 66 68 57

ANOVA

2~ ( ; ); ; 0ij j j j j

j

Y N

0 1 2 1: ... ... 0k kH

H1: existe pelo menos uma diferença entre as médias

Formulação do Modelo, Construção da Tabela de ANOVA,

Obtenção das Estimativas

Entender o Efeito de Tratamento: Comparações Múltiplas entre Médias

iid

Análise de Diagnóstico das premissas do Modelo