Aspectos Importantes da Estatística na Pesquisa
e Experimentação
_____________________________________________________________________________________________________________
Prof. Carlos Sigueyuki Sediyama
Universidade Federal de Viçosa
Departamento de Fitotecnia
V I Ç O S A - M G
M A I O - 2 0 1 0
ii
© Proibida a reprodução, parcial ou total, sem autorização expressa do autor
1
Aspectos importantes da Estatística na pesquisa e
experimentação
Preleção apresentada pelo Prof. Carlos
Sigueyuki Sediyama no 2o
Curso de
Redação Científica promovido pela
EPAMIG Zona da Mata, Vila Gianetti, 47
– Viçosa, MG, dia 17/05/2010, das 16 h 30
min às 18 h 30 min.
1. INTRODUÇÃO
Este roteiro tem como objetivo orientar as discussões de alguns aspectos da
Estatística na pesquisa científica. Levanta questões relacionadas com os procedimentos e
metodologias empregados nas experimentações agrícolas, os quais visam à obtenção de
informações úteis ao pesquisador, em seu esforço de tentar promover o desenvolvimento
da agricultura.
Serão abordados poucos itens em razão da exiguidade de tempo, porém importantes
de serem compreendidos, pois são elementos que devem ser lembrados na elaboração de
projetos, ajudam na compreensão dos resultados obtidos nos experimentos e facilitam a
exposição desses resultados aos interlocutores interessados.
Não serão apresentados cálculos, nem como aplicar os métodos de análise dos
dados, porém serão apontados alguns itens que devem ser lembrados na condução de
experimentos e podem auxiliar na obtenção de informações úteis desses experimentos.
1.1. O que é um experimento
Realizamos experimentos todo o tempo. Operários novos na cidade desejam
encontrar o trajeto mais curto ou mais rápido até seus locais de trabalho; mestres-cuca
experimentam novas receitas; engenheiros da computação tentam produzir computadores
mais rápidos e confiáveis; e etc. Os objetivos geralmente são as melhorias nos processos
ou nos produtos, ou encontrar o nível ótimo, tal como o caminho mais curto para o
trabalho.
No nosso caso, considera-se experimento, ou ensaio, a investigação planejada para
a obtenção de novos fatos, ou para confirmar ou rejeitar os resultados de experimentos
anteriores, que irão auxiliar numa decisão administrativa, tais como: recomendar certa
variedade, indicar determinado procedimento, receitar um defensivo, ordenar a aplicação
de quantidade correta de fertilizante, produzir um novo equipamento, etc.
Tais experimentos podem ser enquadrados em três categorias:
1. Experimentos preliminares;
2. Experimentos críticos; e
3. Experimentos demonstrativos.
Nessa seqüência, experimento da categoria anterior serve de orientação para o da categoria seguinte.
Experimentos preliminares - O número de tratamentos é grande. O número de repetições
pode ser pequeno e inclusive pode ser igual a 1 (um). Auxilia na escolha dos
tratamentos a serem estudados nos experimentos críticos.
2
Experimentos críticos - São experimentos em que as respostas aos tratamentos são
comparadas. O número de observações é suficiente para dar segurança razoável na
determinação de diferenças significativas.
Experimentos demonstrativos - São experimentos conduzidos em trabalhos de extensão,
com o objetivo de comparar um novo tratamento, ou novos tratamentos, com um padrão
(tratamento tradicional ou antigo).
Nos experimentos, é essencial definir a população para a qual as inferências serão
aplicadas, delineá-los de maneira adequada e realizar medições nas variáveis sob estudo.
O experimento é, ainda, um conjunto de regras usadas para retirar amostras da
população.
1.2. Objetivos de um experimento
No delineamento de um experimento, devem-se estabelecer, claramente, os seus
objetivos, tais como: questões a serem respondidas, hipóteses a serem testadas, efeitos a
serem estimados, etc. É aconselhável classificar os objetivos em principais e secundários,
pois alguns delineamentos oferecem maior precisão na comparação de alguns tratamentos
e menor na comparação de outros.
Todo experimento é realizado para fornecer respostas a uma ou mais questões.
Com isso em mente, o investigador decide quais comparações entre tratamentos oferecem
informações relevantes; conduz o experimento para medir ou para testar hipóteses relativas
às diferenças entre tratamentos, sob condições comparáveis; e realiza medições e
observações no material experimental. De posse das informações obtidas do experimento
conduzido com sucesso, responde às questões inicialmente formuladas.
Bons experimentos consistem da formulação de perguntas de interesse, para a área
em estudo, e da correta aplicação dos procedimentos experimentais que responderão a
essas questões.
1.3. Definição de Estatística
Para o cientista, especialmente aquele da área biológica, a Estatística começou por
volta de 1925, quando apareceu a publicação de FISHER intitulada “Statistical Methods
for Research Workers”.
A Estatística foi desenvolvida para resolver problemas cujas leis de causa e efeito
não são aparentes, tornando-se necessário um enfoque objetivo. Nesses problemas, sempre
há alguma incerteza acerca de qualquer inferência, em razão do número limitado de
observações. Portanto, a seguinte definição é razoavelmente satisfatória:
“Estatística é a ciência, pura e aplicada, da criação, do
desenvolvimento e da aplicação de técnicas, que permitem a
avaliação do grau de incerteza das inferências induzidas”
(STEEL e TORRIE, 1960).
3
2. CIÊNCIA, PESQUISA E EXPERIMENTAÇÃO
2.1. O que é ciência?
Conhecimento exato e racional de coisa determinada. Sistema de conhecimentos
com um objeto determinado e método próprio.
Há alguns anos, quando mencionada, ciência se referia aos domínios dos
conhecimentos nas áreas naturais (ciências naturais), como física, química, astronomia,
geologia e biologia.
Atualmente, lê-se sobre ciências sociais, ciências da engenharia, ciência da decisão,
ciência da administração e outras. As ciências naturais, obviamente, como pioneiras,
estabeleceram os padrões do que seja ciência.
Para que realmente seja ciência, deve-se ter:
Um grupo de praticantes em um domínio ou subdomínio do conhecimento, com organizações e publicações relevantes, que seguem o método científico em sua área
de pesquisa e utilizam-se da revisão pelos pares.
No estádio da ação, há acompanhamento das pesquisas pelos pares. Artigos com
base no uso dos métodos científicos são primeiramente examinados pelos pares
quanto à sua acurácia. Após correção e aprovação final, os artigos são publicados
para serem questionados, testados, aprovados, usados etc. pelos pares.
Como um grupo, deve-se procurar a formação de um corpo organizado e confiável
de conhecimentos em sua área de especialização.
2.2. Diagrama do processo de solução de um problema.
Realidade
Extração Aplicação
Solução
Figura 2.1. Diagrama do processo de solução de um problema
O diagrama na Figura 2.1 mostra o modelo geral de como solucionar problemas. O
modelo possui três estádios:
1. Extração – o problema teórico para o qual uma solução é imaginada factível é
extraído do contexto real multilinear;
2. Solução – uma solução é encontrada para o problema teórico extraído;
3. Aplicação – a solução ao problema extraído é aplicada à realidade multilinear.
2.3. Diagrama da evolução da ciência
De acordo com Box (Box, G.E.P. Science and Statistics. Journal of the American
Statistical Association, 71, 791-799, 1976), a ciência é a maneira de se aprender o que é
4
mais que uma especulação teórica e é mais que a acumulação unidirecional de fatos
práticos. Ela progride pela alternância de duas fases: dedução e indução.
Dedução – começa com alguma agregação de teorias, modelos, conjeturas,
hipóteses e idéias. Faz predições e sugere maneiras de se observar o mundo e de se
coletar dados.
Indução – começa com algumas observações, dados, fatos e conhecimentos acerca das práticas. Escolhe entre teorias e modelos com base nessas informações. Pode,
também, construir sobre teorias, modelos e idéias anteriores.
Exemplo ilustrativo do que sejam indução e dedução:
- Suponha que você tome várias maçãs pequenas, duras e verdes. Todas se
apresentaram muito ácidas. Daí, você generaliza que todas as maçãs pequenas,
duras e verdes são, provavelmente, ácidas. Este é o raciocínio indutivo (do
específico para o geral).
- Então, você toma outra maçã pequena, dura e verde. Você conclui que essa maçã
será, também, ácida. Este é o raciocínio dedutivo (do geral para o específico).
Kuhn (Kuhn, T.S. The Structure of Scientific Revolutions, 2nd
ed. The University of
Chicago Press, 1970.) considerou que é útil fazer a distinção entre períodos de ciência
normal, durante o qual os problemas são resolvidos sem questionamentos das coleções
coerentes de teorias aceitas (que ele as referencia como paradigmas) e períodos de crise e
revoluções, quando quantidades substanciais de velhas teorias são descartadas e
substituídas por novas teorias (que ele descreve como a emergência de novos paradigmas).
A Figura 2.2 é uma tentativa de se ilustrar as idéias de Box e de Kuhn em uma
única imagem. Nela, o período de ciência normal, é aquele durante o qual os passos
dedutivos fazem predições que variam apenas levemente, de acordo com as várias
hipóteses, idéias e conjeturas consideradas. Os passos indutivos tomam observações,
dados, fatos e tiram conclusões acerca de quais hipóteses; idéias e conjeturas são
provavelmente acuradas, verdadeiras ou aproximações úteis. Os resultados de
experimentos ou de estudos observacionais geralmente são obtidos sem repetições nesse
período de ciência normal, porque há pouco conflito entre as idéias que continuamente
evolvem das várias pesquisas na área de estudo.
Resultados experimentais com repetições
e estudos de observação com repetições
Observações,
dados e fatos
Predições
(Setas para cima)
Inferências
(Setas para baixo)
Hipóteses, idéias
e conjeturas
Modelos Teorias Paradigmas
Período de ciência normal Período de crise Revolução
Figura 2.2. Diagrama do progresso irregular da ciência
O período de crise ocorre quando os modelos, as teorias e os paradigmas
geralmente aceitos não parecem satisfazer na predição de alguns aspectos do que tem sido
5
observado. Geralmente, duvidam-se dos dados antes que as teorias e os paradigmas sejam
questionados, de tal forma que, no período de crise, os pesquisadores geralmente repetem
os experimentos e os estudos observacionais. Durante o período de crise, predições
dedutivas podem ser feitas considerando modelos, teorias e paradigmas alternativos e as
predições geralmente irão diferir. Os passos indutivos durante o período de crise não são
aceitos por todos os pesquisadores da área de estudo. Eles podem não aceitar que os dados
foram adequadamente repetidos. Alguns pesquisadores farão inferências acerca de
hipóteses e conjeturas menores, sem lançar qualquer dúvida sobre seus modelos, teorias e
paradigmas solidamente arraigados. Outros pesquisadores inferem que modelos, teorias ou
paradigmas devem ser derrubados.
A revolução ocorre quando as deduções derivadas dos vários paradigmas são
diferentes e a indução oriunda de dados reproduzíveis indica que uma mudança dos
paradigmas previamente aceitos é necessária. Formas menos dramáticas de revolução
podem também ocorrer, quando modelos e teorias menos básicas são derrubados.
2.4. Diagrama de uma lista-de-conferência de uma experimentação
Figura 2.3. - Diagrama de uma lista-de-conferência de uma experimentação.
Na Figura 2.3 os números identificam etapas ou recomendações para a
experimentação:
1- Considere a quem consultar;
2- faça perguntas;
3- clarifique os objetivos;
4- decida se há necessidade de experimento;
5- considere ciência e tecnologia relevantes;
6- considere informações de dados existentes;
7- liste variáveis e fatores;
8- sumarie crenças e incertezas;
9- considere possíveis transformações de variáveis de resposta e de fatores;
10- decida sobre a estratégia geral da experimentação;
11- decida sobre quais variáveis de resposta serão mensuradas;
12- decida quais fatores e níveis serão incluídos;
13- procure eficiência;
6
14- decida quando, onde e com que material;
15- precavenha-se dos vícios;
16- selecione um delineamento experimental;
17- conviva com outras fontes de variação;
18- delineie um sistema de coleta de dados;
19- tente antecipar possíveis problemas;
20- execute ensaios e colete os dados;
21- atualize crenças e incertezas;
22- reconsidere objetivo e estratégia planejada;
23- sumarie e comunique os resultados;
24- ajude as mudanças a ocorrerem.
O círculo externo se refere ao programa experimental geral e o círculo interno à
condução de um único ensaio.
No estudo da estatística experimental, não se deve concentrar apenas no
delineamento experimental e na análise dos dados, que correspondem aos pontos do
círculo interno “estratégia geral da experimentação” e “atualize crenças e incertezas”. A
experimentação de sucesso requer que ambos os círculos funcionem muito bem. É
importante que não se perca de vista o objetivo geral da experimentação (círculo externo)
enquanto se lida com grande número de tarefas necessárias ao trabalho de condução de
experimentos (círculo interno).
2.5. O método científico
(Norman W. Edmund – www.scientificmethod.com)
A expressão "métodos científicos", como usada hoje, refere-se aos processos ou às
técnicas criativas, lógicas ou não-lógicas usadas no trabalho de resolver problemas.
Em um sentido estrito, os métodos científicos são técnicas que geralmente
envolvem o uso das ferramentas, dos equipamentos e dos instrumentos.
Estádios do método científico:
1- Observação curiosa;
2- há problema?
3- objetivos e planejamento;
4- procure, explore e acumule evidências;
5- gere soluções, alternativas criativas e lógicas;
6- avalie as evidências;
7- faça adivinhações educadas (hipóteses);
8- desafie as hipóteses;
9- chegue a uma conclusão;
10- suspenda o julgamento;
11- aja;
Ingredientes de suporte ao método científico:
12- métodos criativos, não-lógicos, lógicos e técnicos;
13- princípios e teorias dos procedimentos;
14- atributos e capacidade de raciocínio.
7
3. POPULAÇÃO, VARIÁVEIS E DADOS
R.A. FISHER, um dos fundadores da Estatística, definiu a disciplina Estatística
como o estudo das populações, das variações naturais e da redução de dados.
O uso original da Estatística sugere que era o estudo das populações de pessoas,
vivendo em união política. Atualmente, já não há tal restrição: há uma multiplicidade de
espécies de populações estudadas pelos estatísticos.
Resumidamente, pode-se definir população como a coleção de todos os possíveis
valores de uma variável aleatória. Uma variável aleatória é uma função que associa um
valor a um resultado de um experimento. Se tivermos as alturas de todos os estudantes
matriculados em uma escola, será a população de alturas e não de estudantes que estará em
estudo. A variável aleatória será a altura de um estudante. Se todos os valores da população
forem conhecidos, então conheceremos tudo sobre a variável aleatória.
O conceito de população leva, naturalmente, ao de variação. Uma população de
indivíduos idênticos seria completamente descrita pela descrição de um único indivíduo e
do número de indivíduos. Entretanto, populações sujeitas a estudo estatístico geralmente
mostram variação em um ou mais aspectos. Essa variação é grandemente utilizada pelos
estatísticos.
Além disso, necessita-se reduzir a massa de dados. É difícil abarcar as
implicações contidas em muitas páginas de números. Entretanto, pode ser possível
expressar todas as informações relevantes com apenas algumas quantidades. Se soubermos,
por exemplo, que uma variável aleatória tem distribuição normal, então toda a
distribuição poderá ser especificada apenas pela média e pela variância.
Finalmente, pode-se entender que a estatística, tendo como base os dados
observados, leva à escolha entre dois ou mais cursos de ação. É a área da inferência
estatística.
Enquanto se estuda uma gama de maneiras de reduzir dados, de avaliar a variação
das populações e de fazer inferências, não se pode oferecer uma rotina universal aplicável
a todas as situações. Antes de iniciar qualquer estudo estatístico, o planejamento da
pesquisa deve responder a certos quesitos:
1. Que questões o estudo pretende responder?
2. A que classe de indivíduos as respostas devem ser aplicadas? Àqueles indivíduos
examinados ou a algum grupo maior?
3. Se as respostas devem ter alguma importância geral, além dos casos observados, como
a amostra deve ser tomada? Qual o tamanho da amostra? Há algum elemento viciante
no plano proposto para a seleção da amostra de indivíduos a serem examinados?
4. Que observações deverão ser feitas nesses indivíduos? Como?
5. Como os dados devem ser reunidos para análise?
6. Que medidas sumariantes serão computadas?
7. Como os resultados devem ser apresentados?
Variáveis
As observações são a matéria bruta com a qual o pesquisador trabalha. Para que a
estatística seja aplicável a essas observações, elas devem estar na forma de números. No
melhoramento de plantas, os números podem ser a produção por parcela; na pesquisa
médica, pode ser o tempo de recuperação sob vários tratamentos; na indústria, pode ser o
número de peças defeituosas em um determinado lote produzido por uma linha de
montagem. Tais números constituem dados e sua característica comum é a variabilidade ou
a variação.
8
Sentenças como “Márcia é morena” ou “Ele pesa muito mais que 90 quilos” são
comuns e informativas. Elas se referem a características que não são constantes, mas
variam de indivíduo para indivíduo e, portanto, servem para distingui-los ou para descrevê-
los.
Características que mostram variabilidade ou variação são chamadas variáveis ou
variáveis aleatórias.
Resumidamente, na Figura 3.1 é mostrada a classificação das variáveis, segundo
sua natureza.
VARIÁVEL
Ordenável Não-ordenável
(Nominal)
Com escala Sem escala
Contínua Discreta
(QUANTITATIVA) (QUALITATIVA)
FIGURA 3.1. Classificação das variáveis aleatórias
3.1. Populações e Amostras
Se um único grupo particular de indivíduos, que está sendo estudado (por exemplo,
estudantes matriculados na UFV neste semestre), for de interesse, então os valores da
variável aleatória para esses indivíduos formam a população. Se as observações
particulares serão usadas para fazer inferências sobre indivíduos não observados (por
exemplo, todos os estudantes universitários de Minas Gerais), os valores observados das
variáveis aleatórias formam uma amostra da população maior.
3.2. Médias e desvios padrões
Uma estatística muito comum e muito conhecida é a média (média aritmética). Para
uma variável aleatória x, as observações são escritas como x, e a média, uma medida de
tendência central, é a soma das observações dividida pelo número de observações.
Simbolicamente, n
xx
.
Para medir a dispersão da distribuição, ou para indicar a variabilidade, usa-se o
desvio padrão. Na verdade, inicialmente define-se a variância (s2) de uma amostra como a
média dos quadrados dos desvios em relação à média:
)xx(1n
1s
22
9
A raiz quadrada de s2, representada por s, é o desvio padrão.
Uma relação muito útil é aquela entre o desvio-padrão e a média, denominada de
coeficiente de variação, calculada como: x
s.V.C , ou %100
x
s.V.C .
3.3. Distribuição Normal
A distribuição normal tem função de densidade igual a
e2)
Y(
2
1
2
1)Y(f
, -∞ < y < +∞,
em que e são parâmetros da distribuição normal.
A média e a variância da distribuição normal são, respectivamente, E(Y) = e
2(Y) =
2; isto é, Y ~ N(,
2).
3.3.1. Teorema do Limite Central
Se Y1, ..., Yn são observações aleatórias independentes, provenientes de uma
população com função de probabilidade f(Y), para a qual 2 (Y) é finita, então, quando o
tamanho da amostra n é razoavelmente grande, a média da amostra Y , Y = n
Yn
ii
, tem
distribuição aproximadamente normal, com média E(Y) e variância n
)Y(2.
3.3.2. Teorema da Regra Empírica
Se a distribuição dos dados segue aproximadamente a forma de sino, então,
68 % das observações se encontram no limite de ± um desvio-padrão da média;
95 % das observações se encontram no limite de ± dois desvios-padrões da média; e 99,7 % das observações se encontram no limite de ± três desvios-padrões da média.
3.3.3. Distribuição Normal Padrão
Se Y é uma variável com distribuição normal, com média e variância 2, isto é,
Y ~ N(, 2), então,
YZ é uma variável com distribuição normal padrão, com
média zero e variância igual a um, ou seja: Z ~ N(0, 1).
Algumas tabelas de z dão a área hachurada, até um dado valor de z. A área mais
próxima de z0,75 encontrada em uma dessas tabelas de z é 0,7486, que corresponde ao valor
área = 0,75
z0,75
10
da área de 0,67. Portanto, z0,75=0,67. Ou seja, abaixo do valor 0,67 estão 75% das
observações dessa distribuição.
3.3.4. Distribuição de Qui-Quadrado (2χ )
Sejam z1 + z2 + ... zv, variáveis independentes com distribuição normal padrão.
Então, define-se 2
)v( = 21z + 2
2z + ... + 2vz , em que v é o número de graus de liberdade.
3.3.5. Distribuição t
Sejam z e 2
)v( variáveis independentes, respectivamente normal padrão e 2 .
Definimos t(v) = 2
12
)v(
v
z
em que z e 2
)v( são independentes.
A distribuição t possui um parâmetro, o grau de liberdade v.
3.3.6. Distribuição F
Sejam 2
)v( 1 e 2
)v( 2 duas variáveis aleatórias 2 independentes. Definimos
)v,v( 21F =
2
2
)v(
1
2
)v(
v
v
2
1
, em que 2
)v( 1 e
2
)v( 2 são independentes.
A distribuição F possui dois parâmetros, o grau de liberdade do numerador v1 e o
grau de liberdade do denominador v2.
F é também
2
2
2
2
2
1
2
1
s
s
.
Se H0; 2
1 = 2
2 , F = 2
2
2
1
s
s, com n1 – 1 e n2 – 1 gl.
Um teste F muito frequente é: QME
QMTRF , com os gltr e gle.
4. ANÁLISE DE VARIÂNCIA
4.1. Definições
Análise de variância: processo aritmético da partição da soma de quadrados total
em componentes associados a causas reconhecidas de variação.
11
Experimento: uma inquirição planejada. Respostas a diferentes tratamentos são
comparadas, por meio de observações suficientes para dar segurança razoável na detecção
de diferentes significativas.
Tratamento: procedimento cujo efeito deve ser medido e comparado com outros de
mesma natureza. O tratamento pode ser uma taxa padrão, um plano de pulverização, uma
combinação temperatura x umidade, etc.
Unidade experimental ou parcela experimental: é a unidade de material ao qual é
aplicado um tratamento. Uma unidade experimental pode ser um animal, dez árvores, meia
folha, etc.
Unidade amostral: material em que as medidas dos efeitos dos tratamentos são
realizadas. Pode ser uma fração da unidade experimental, por exemplo, uma planta medida
em uma parcela com várias plantas.
Erro experimental: variação entre observações realizadas em unidades
experimentais que receberam o mesmo tratamento. Essa variação provém de duas fontes
principais: a variabilidade do material experimental e a variação que resulta de qualquer
falha na uniformização da condução física do experimento. Exemplo: Num experimento
em que se estuda a nutrição de ratos, há a variação entre animais, em razão de diferenças
em suas constituições genéticas (variação intrínseca do material experimental) e há
variação entre gaiolas, nas quais são colocados os ratos, que podem estar dispostos em
diferentes temperaturas, iluminação e outros fatores (variação por erro na condução física
do experimento).
O experimento deve diminuir essas fontes de erro. Assim, pode-se manejar o
material experimental para que o efeito da variabilidade inerente seja reduzido e a técnica
experimental seja apropriada.
4.4.1. Controle do erro experimental
O erro experimental pode ser controlado, ou reduzido, pelos seguintes artifícios:
1. Uso de delineamento experimental adequado.
2. Uso de observações concomitantes.
3. Escolha do tamanho e da forma das unidades experimentais.
4.4.2. Refinamento da técnica
Nenhuma análise estatística ou outra pode melhorar os dados obtidos de um
experimento mal conduzido. É de responsabilidade de o pesquisador conduzir
cuidadosamente seu experimento.
Exemplos:
Se possível, utilizar um material experimental mais homogêneo (e.g., linha pura vs
população segregante).
Se um experimento completo de campo não pode ser colhido em um dia, é
desejável fazer a colheita de um ou dois blocos completos em cada dia.
Se um experimento em laboratório será conduzido por vários laboratoristas, é
desejável que cada um deles conduza um ou mais conjuntos completos de tratamentos.
4.4.3. Repetições e suas funções
As repetições permitem a estimação do erro experimental (se2), reduzem a variância
da média da amostra (isto é, aumenta a precisão) e aumentam o escopo do experimento
(pelo uso de ampla gama de unidades experimentais).
12
Um experimento em que cada tratamento aparece apenas uma vez tem apenas uma
repetição. Nesse caso, pode-se dizer, também, que não há repetição; não se pode estimar o
erro experimental; não há meio de se saber se a diferença entre duas observações é causada
pela diferença entre tratamentos ou causada pela variação do material experimental.
Maior número de repetições implica em maior precisão na estimativa da média da
população. Se a diferença de 5 unidades é detectada pelo uso de 4 repetições, um
experimento com 16 repetições detectará diferenças de aproximadamente 2,5 unidades,
porque os desvios padrões das médias têm razão 2:1, ou seja, 4
e
16
,
respectivamente.
O número de repetições a ser empregado em um experimento depende, portanto, da
variabilidade do material experimental e da variabilidade das condições de condução do
experimento (solo, clima, etc.). Repetições do experimento em vários anos e, ou, em vários
locais podem ser consideradas tipos maiores de repetições
Infelizmente, o número de repetições é muito freqüentemente determinado
principalmente pelos recursos financeiros e tempo disponíveis para a condução do
experimento. Não há muito significado em se conduzir experimentos em que a escassez de
recursos não permite a obtenção de dados com a precisão almejada. A solução é postergar
o experimento até que haja recurso suficiente ou reduzir do número de tratamentos, de tal
forma que haja repetições e precisão suficientes para os tratamentos remanescentes. O
número prático de repetições para um experimento é aquele em que o custo adicional em
material, tempo, mão-de-obra, etc. não é mais compensado pelo ganho em informações.
4.4.4. Escolha dos tratamentos
Em certos tipos de experimentos, os tratamentos têm efeito substancial sobre a
precisão do experimento. Esse fato é especialmente verdadeiro no caso de experimentos
fatoriais.
Em alguns experimentos, a quantidade ou nível de certo fator é importante.
Suponha que o pesquisador está medindo o efeito de níveis crescentes de certo nutriente no
crescimento da planta. É importante incluir diversos níveis para determinar se a resposta é
linear ou curvilinear por natureza. Aqui, a escolha do número de níveis e seu intervalo são
importantes para a obtenção de respostas apropriadas para as questões formuladas.
Em geral, quanto maior o conhecimento do investigador acerca dos tratamentos,
melhor será o procedimento do teste estatístico imaginável pelo estatístico. Esse
conhecimento geralmente dita a espécie e a quantidade de um determinado tratamento,
num conjunto de tratamentos. Isso, por sua vez, pode influenciar a precisão do
experimento.
4.4.5. Inferência estatística
Como já mencionado, o objetivo de um experimento é determinar se há diferenças
reais entre as médias dos tratamentos e estimar a magnitude de tais diferenças se elas
existirem. Uma inferência estatística acerca de tais diferenças envolve a alocação de uma
medida de probabilidade à inferência. Para isso, é necessário que a casualização e a
repetição sejam introduzidas no experimento de maneira apropriada.
A repetição assegura os meios de computar o erro experimental.
A casualização assegura uma medida válida do erro experimental.
13
5. EXPERIMENTOS FATORIAIS
Experimentos fatoriais não são delineamentos. Nos experimentos fatoriais, o
investigador compara todos os tratamentos que podem ser formados pela combinação dos
níveis dos diferentes fatores.
O conceito de experimento fatorial pode ser ilustrado por alguns exemplos:
Considere um experimento para avaliar a capacidade produtiva de diversas variedades de
feijão. Suponha que um segundo fator, espaçamento entre fileiras, seja de interesse. Um
experimento fatorial poderia ser planejado, de tal forma que os tratamentos consistissem da
combinação das variedades com os espaçamentos escolhidos, isto é, cada variedade estaria
presente em todos os espaçamentos. (Num experimento com um só fator, todas as
variedades seriam plantadas em um só espaçamento, ou todos os espaçamentos seriam
estudados em uma só variedade.) Em solos, um experimento poderia ser planejado para
comparar todas as combinações de várias doses de fósforo e de potássio. Em experimento
de nutrição animal, poderiam ser estudadas várias quantidades e fontes de proteína.
Um fator, portanto, é um tipo de tratamento (variedade, espaçamento, fósforo,
potássio, fonte de proteína, etc.).
O termo nível se refere aos diversos tratamentos dentro de qualquer fator. Exemplo:
Se o fator for variedade, os níveis serão as variedades A, B, C, etc.; se o fator for fósforo,
os níveis serão as suas doses (0, 50, 100, etc. kg/ha).
Os experimentos fatoriais são usados em praticamente todos os campos de
pesquisa. Eles são de grande valia nos trabalhos exploratórios, em que pouco se tem
conhecimento dos níveis ótimos dos fatores, nem mesmo se sabe quais deles são
importantes. Considere uma nova cultura para a qual diversas variedades promissoras são
disponíveis, mas que pouco se sabe a respeito da melhor época ou densidade de plantio.
Nesse caso, um experimento fatorial com os três fatores seria indicado. Entretanto, se a
opção for pelo estudo de um-fator-por-vez, define-se, por exemplo, a data e a densidade
de plantio e conduz-se um experimento com as variedades a serem avaliadas. Nesse caso, a
variedade que melhor se comporta na data e densidade de plantio escolhidas pode não ser a
melhor em outra época ou outra densidade de plantio. Esse raciocínio também é válido,
quando se deseja testar épocas, fixando-se a variedade e a densidade.
Em outras situações, o pesquisador pode estar principalmente interessado na
interação entre fatores, isto é, ele deseja saber se as diferenças de respostas aos níveis de
um fator são semelhantes ou diferentes nos diferentes níveis de outro fator ou fatores.
Como ilustração do fatorial mais simples, considere um experimento de beterraba,
com dois fatores. O primeiro fator é nitrogênio, aplicado em dois níveis: zero (no) e 300
quilos de sulfato de amônio por hectare (n1); o segundo fator é profundidade de aradura,
também em dois níveis: 17 e 27 cm. Consequentemente, temos um fatorial 2x2. As quatro
combinações são mostradas a seguir, com as respectivas produções médias (médias das
repetições).
Tratamento Produção (kg/ha)
1 - no, 17 cm 4090
2 - n1, 17 cm 4780
3 - no, 27 cm 4240
4 - n1, 27 cm 5020
Esses resultados podem ser colocados no quadro 2x2 seguinte:
14
Profundidade Nitrogênio
Resposta a n1 no n1 Média
17 cm 4090 4780 4440 +690
27 cm 4240 5020 4630 +780
Média 4160 4900 +740
27 cm vs 17 cm +150 +240 +190
Os resultados podem ser sumariados da seguinte maneira:
A aplicação de nitrogênio aumentou a produção em 690 kg, com aradura rasa, e em
780 kg, com aradura profunda. Esses valores são chamados de efeitos simples do
nitrogênio. Analogamente, para os efeitos simples da profundidade de aradura, pode-se
dizer que a aradura a 27 cm foi superior à aradura a 17 cm, em 150 kg, na ausência de
nitrogênio, e em 240 kg, quando o nitrogênio foi aplicado.
Suponhamos, agora, que a análise de variância tenha mostrado os seguintes
resultados:
Fonte de variação F
Nitrogênio ** Profundidade ** Interação N x Profundidade
** F significativo.
Nessa situação, os efeitos de nitrogênio e de profundidade de aradura são aditivos.
Isto é, a diferença entre os efeitos simples do nitrogênio, isto é, de 690 para 780, ocorreu
em razão da simples variação ao acaso. O valor 740, obtido pela diferença de 4900 menos
4160, dá o comportamento geral da beterraba, quando se aplica nitrogênio. Esse valor é
denominado efeito geral do nitrogênio. Analogamente, o efeito geral da profundidade de
aradura seria 4630 - 4440 = 190. Mantendo-se essa pressuposição de que os efeitos dos
fatores são independentes, ao invés de expressarmos os resultados em termos dos efeitos
simples, podemos substituí-los por uma expressão mais concisa e de maior precisão (uma
vez que é média de maior número de observações). Essa expressão seria: “A aplicação de
nitrogênio aumentou a produção em 740 kg, enquanto a aradura a 27 cm aumentou a
produção em 190 kg, quando comparada com a aradura a 17 cm.”
Por outro lado, se considerarmos que os fatores não são independentes, isto é, se
considerarmos que araduras profundas possibilitam às plantas desenvolverem um sistema
radicular mais vigoroso, essas, nesse caso, teriam melhor desenvolvimento com o nutriente
adicionado. A análise de variância teria resultado no seguinte quadro:
Fonte de variação F
Nitrogênio ** Profundidade ** Interação N x Profundidade **
** F significativo
Conseqüentemente, podemos prever que a resposta à aplicação de nitrogênio seria
maior com araduras mais profundas, conquanto, provavelmente, não se esperasse que as
diferenças fossem grandes. O experimento fatorial, então, permite verificar se os fatores
são ou não independentes. No presente caso, se a profundidade de aradura realmente afeta
15
a resposta ao nitrogênio, a diferença entre 780 kg (resposta ao nitrogênio em aradura
profunda) e 690 kg (resposta ao nitrogênio em aradura rasa) é uma estimativa desse efeito.
A diferença (780 – 690 = 90) é chamada de interação entre nitrogênio e profundidade de
aradura.
Analogamente, podemos considerar que a superioridade das araduras profundas
sobre as araduras rasas é afetada pela presença de nitrogênio. Para se medir a interação
nesse caso, subtraímos 150 de 240. A diferença será igual a 90, que é a mesma obtida
anteriormente. Isto será sempre válido para as tabelas 2x2, de dois fatores com dois níveis
cada.
4000
4300
4600
4900
5200
1 2Pro
du
tivid
ad
e (kg
/ha)
Dose de N
Fatorial 2 x 2
17 cm
27 cm
Para melhor exemplificar os efeitos em um experimento fatorial, tomemos o
fatorial 2x2 do quadro seguinte:
Fatorial 2x2 ilustrando os efeitos simples, efeitos gerais e interação.
CASO I
Fator A
Nível a1 a2 Média a2 - a1
b1 30 32 31 2
B b2 36 44 40 8
Média 33 38 35,5 5
b2 - b1 6 12 9
CASO II
Fator A
Nível a1 a2 Média a2 - a1
b1 30 32 31 2
B b2 36 26 31 -10
Média 33 29 31 -4
b2 - b1 6 -6 0
16
CASO III
Fator A
Nível a1 a2 Média a2 - a1
b1 30 32 31 2
B b2 36 38 37 2
Média 33 35 34 2
b2 - b1 6 6 6
Obs.: Os valores apresentados são médias das repetições nos experimentos e todas as
diferenças são consideradas significativas.
As diferenças a2 - a1, em cada nível de B, e as diferenças b2 - b1, em cada nível de
A, são os efeitos simples. No caso I, o efeito simples de A no primeiro nível de B é 2; no
caso II, o efeito simples de B no segundo nível de A é -6.
Quando os efeitos simples de um determinado fator são dados em termos de média
sobre todos os níveis dos outros fatores, temos o efeito geral. O efeito geral do fator A, no
caso I, é 5, isto é, (2+8)/2 = 5. Como se pode notar, os efeitos gerais num fatorial são
medidos com o uso de mais observações que os efeitos simples, isto é, mede-se o efeito de
A em todos os níveis de B e tira-se uma média. A utilização de mais observações para se
avaliar o efeito geral é denominada de efeito das repetições ocultas, o que dá maior
precisão na avaliação do efeito geral, quando a interação é ausente.
Os efeitos simples, nos casos I e II, diferem entre si, tanto para o fator A, quanto
para o fator B. Se considerarmos que essas diferenças são maiores que as causadas por
chance (erro experimental), a resposta diferencial é denominada interação entre os dois
fatores. No caso III, os efeitos simples de A e de B são iguais aos efeitos gerais
respectivos. Portanto, quando há interação, os efeitos gerais devem ser considerados com
bastante cautela, observando-se com bastante atenção os efeitos simples. Quando não há
interação, podemos facilmente generalizar o efeito de um determinado fator.
No caso I, a resposta de A, ou aumento de a1 para a2 é maior no nível b2 do que no
b1, isto é, há mudança na magnitude da resposta.
No caso II, a resposta de A corresponde a aumento na presença de b1 e diminuição
na presença de b2, isto é, há mudança na direção da resposta.
No caso III, não há interação. Os efeitos apenas se somam, isto é, para se obter o
valor 38 em a2b2, simplesmente somamos o efeito geral de A = 6 e o efeito geral de b = 2
ao valor a1b1 = 30. Ou seja, 38 = 30 + 6 + 2.
Graficamente, podemos representar os três casos como seguem:
17
OBS.: A presença ou ausência dos efeitos gerais nada informa sobre a presença ou a
ausência de interação. A presença ou a ausência de interação nada informa sobre a
presença ou a ausência dos efeitos gerais, mas informa sobre a homogeneidade dos efeitos
simples.
Relembrando, quando se podem combinar os níveis de todos os fatores em um
único experimento, este é chamado fatorial.
5.1. Exemplo de um Fatorial 3x3x2
Os dados do quadro seguinte são os resultados de um experimento conduzido em
casa de vegetação, com a finalidade de determinar a taxa de emergência de sementes de
três leguminosas, tratadas e não tratadas com um fungicida e plantadas em três tipos de
solos. O delineamento utilizado foi o de blocos casualizados.
Os tratamentos formam um fatorial 3x3x2, e cada dado no quadro apresentado é a
soma de três repetições de 100 sementes cada.
18
Espécies Fungicidas Tipo de solo (B) Total
(A) (C) Argila siltosa Areia(b2) Argila (b3) b1+b2+b3
(b1)
Alfafa (a1) não c1 266 286 66 618
sim c2 276 271 215 762
c1+c2 542 557 281 1.380
Trevo não c1 252 289 167 708
vermelho sim c2 275 292 203 770
(a2) c1+c2 527 581 370 1.478
Trevo não c1 152 197 52 401
doce sim c2 178 219 121 518
(a3) c1+c2 330 416 173 919
Total não c1 670 772 285 1.727
a1+a2+a3 sim c2 729 782 539 2.050
c1+c2 1.399 1.554 824 3.777
Esses dados inicialmente foram tabulados da seguinte maneira:
Tratamentos Blocos Totais de
I II III tratamentos
1 a1b1c1 266
2 a1b1c2 276
3 a1b2c1 286
. . .
. . .
18 a3b3c2 121
Totais de blocos 3.777
A análise de variância desse experimento em blocos casualizados resultou em:
F.V. G.l. SQ QM F
Blocos 2 356,77 178,39 1,895 ns
Tratamentos 17 32041,50 1884,79 20,029**
Erro 34 3199,40 94,10
Total 53 35597,67
Como o F foi significativo para tratamentos, a SQ para tratamentos foi desdobrado
nos componentes do fatorial:
F.V. G.L. SQ QM F
Blocos 2 356,77 178,39 ns
(Tratamentos) (17) (32041,50) (188,79) **
A 2 9900,11 4500,06 47,82**
B 2 16436,11 8218,06 87,33**
C 1 1932,02 1932,02 20,53**
AB 4 658,44 164,61 1,75 ns.
AC 2 194,03 97,02 1,03 ns.
BC 2 1851,14 925,57 9,84**
ABC 4 1069,65 267,41 2,84*
Erro 34 3199,40 94,10
Total 53 35597,67
19
Como a interação BC foi significativa, podemos fazer o seguinte desdobramento:
Interação BC
Tipo de solo Fungicida (c)
(B) c1 c2 c1 + c2
b1 670 729 1399
b2 772 782 1554
b3 285 539 824
b1 + b2 + b3 1727 2050 3777 = G
O quadro da análise de variância do desdobramento é:
F.V. G.L. SQ QM F
Erro 34 3199,40 94,10 C dentro b1 1 193,39 193,39 2,05 ns.
C dentro b2 1 5,56 5,56 0,06 ns
C dentro b3 1 3584,22 3584,22 38,09**
em que
39,193332
1399
3.3
729670c/SQC
)arc(
2
)a.r(
22
1
etc.
A interação ABC foi significativa, implicando que a interação BC difere com o
nível de A. A interação ABC está sendo examinada por esse ângulo, porque a interação
BC foi significativa.
Pela observação da interação BC, pode-se concluir que a dificuldade está ligada ao
C, no solo argila. Procedemos, então, ao exame dos efeitos simples de C, no solo argila
(b3) nos vários níveis de A.
A tabela dos três tipos de solos x fungicidas parece justificar esta aproximação.
Solo argila = (b3)
c1 c2
a1 66 215 281
a2 167 203 370
a3 52 121 173
Com base nessa tabela, podem-se calcular as seguintes somas de quadrados:
SQC dentro de a1 em b3 = 66 215
3
281
2 33700 17
2 2 2
, **
SQC dentro de a2 em b3 = 167 203
3
370
2 3216 00
2 2 2
, . .n s
SQC dentro de a3 em b3 = 52 121
3
173
2 3793 50
2 2 2
, **
20
Algumas conclusões importantes podem ser tiradas desse experimento:
1. Não foi encontrada diferença entre as taxas de emergência das sementes tratadas (c2) e
não-tratadas (c1), quando tomada na média das espécies, no solo argila-siltosa (b1) e no
solo arenoso (b2); entretanto, a diferença foi significativa, em favor de sementes
tratadas, no solo argila (b3).
2. Desde que a interação dos três fatores foi significativa, mais análises foram feitas, e
estas indicaram que, no solo argila, as sementes tratadas de alfafa (a1) e trevo doce (a3)
emergiram melhor que as não tratadas, enquanto no trevo vermelho (a2) não foi
encontrada diferença.
3. As diferenças entre as taxas de emergência das sementes tratadas e não-tratadas, em
cada uma das três espécies, não foram significativas nos solos argila-siltosa e arenoso.
5.2. Análise de uma série de experimentos de mesmo delineamento
(Análise conjunta de experimentos)
Suponhamos que foram conduzidos experimentos de competição de variedades de uma
espécie anual, em cinco locais, durante três anos seguidos. Cada experimento era constituído de 12 variedades e foi instalado em blocos casualizados, com quatro repetições. Dentre os doze tratamentos, dois eram as testemunhas (1 – a variedade mais cultivada e 2 – a variedade mais produtiva).
O quadro da análise de variância, com as fontes de variação e os graus de liberdade, desse conjunto de experimentos será:
Fonte de variação gl
Blocos/(Locais x Anos) (B/LxA) 45 Locais (L) 4 Anos (A) 2 Anos x Locais (AxL) 8 Variedades (V) 11 Varriedades x Locais (VxL) 44 Variedades x Anos (VxA) 22 Variedades x Locais x Anos (VxLxA) 88 Erro 495 Total 719
O modelo matemático correspondente é:
Yijmn = μ + B/LxAj(mn) + Lm + An + AxLmn + Vi + VxLim VxAin + VxLxAimn + Eijmn.
O objetivo desse experimento foi avaliar dez novas variedades, comparando-as com a variedade mais cultivada e com a mais produtiva da região, bem como entre si. Portanto, as inferências serão aplicadas ao conjunto das doze variedades. Nesse caso, o efeito de variedades é fixo. A eventual nova variedade a ser escolhida e recomendada será para toda a região de onde foram escolhidos os locais dos experimentos. Portanto, os locais são amostras da região de plantio. Nesse caso, locais é de efeito aleatório. Quanto aos anos em que os ensaios foram conduzidos, são amostras dos futuros anos em que as variedades serão plantadas. Portanto, ano e de efeito aleatório. Naturalmente, as repetições, ou os blocos, são amostras das áreas, sendo de efeito aleatório. Então, os quadrados médios esperados da análise de variância, considerando o efeito de variedades fixo e os demais aleatórios, será:
21
F.V. Quadrado médio esperado
B/LxA 2
B/LxA
2
e vσσ
L 2
L
2
LxA
2
B/LxA
2
e avrσvrσvσσ
A 2
A
2
LxA
2
B/LxA
2
e rσvrσvσσ
AxL 2
LxA
2
B/LxA
2
e vrσvσσ
V 2
V
2
VL
2
VA
2
VLA
2
e rσaarσrσrσσ
VxL 2
VL
2
VLA
2
e arσrσσ
VxA 2
VA
2
VLA
2
e rσrσσ
VxLxA 2
VLA
2
e rσσ
Erro 2
eσ
Na aplicação dos testes estatísticos, os termos a serem utilizados como erro são:
1. Para testar os efeitos de locais ou de anos, utilizar o quadrado médio da interação LxA.
2. Para testar a interação LxA, utilizar o quadrado médio de blocos dentro de locias e anos (B/LxA).
3. Para testar as interações VxL ou VxA, utilizar o quadrado médio da interação VxLxA.
4. Para testar a interação VxLxA, utilizar o quadrado médio do erro.
5. Para testar o quadrado médio de variedades, há necessidade de se compor a seguinte expressão:
QMV + QMVLA = QMVL + QMVA, sob a hipótese de que .0σ2
V
Portanto,
QMVAQMVL
QMVLAQMVF q)(p,
Conforme SATTERTHWAITE, 1946, os novos graus de liberdade serão
aproximadamente:
VLA
2
V
2
2
gl
QMVLA
gl
QMV
QMVLAQMVp
e
VA
2
VL
2
2
gl
QMVA
gl
QMVL
QMVAQMVLq
.
Observação:
Uma vez compreendidos os modelos matemáticos dos experimentos, algumas perguntas importantes podem ser respondidas. Dentre elas, a seguinte:
Quais efeitos estariam confundidos se o experimento fosse instalado em apenas um local, durante os três anos?
22
O modelo matemático para essa situação, envolvendo apenas anos, seria:
Yijn = μ + B/Aj(n) + An + Vi + VxAin + Eijn.
Comparando-o com o modelo completo, envolvento anos e locais:
Yijmn = μ + B/LxAj(mn) + Lm + An + LxAmn + Vi + VxLim + VxAin + VxLxAimn + Eijmn
percebe-se que o efeito de anos (A) estará confundido com o efeito da interação A x L, o efeito de variedades (V) estará confundido com o efeito da interação VxL e o efeito da interação VxA com a interação VxLxA. Ou seja, não há informação de como os anos afetariam os dados nos diferentes locais; do que ocorreria com as variedades em outros locias; ou como seria a interação VxA se os plantios fossem realizados em outros locais.
A tabela seguinte ilustra melhor essa interpretação:
Efeito ou efeitos
Experimento em apenas um local Experimento em vários locais
An An + AxLnm
Vi Vi + VxLim
VxAin VxAin + VxAxLimn
6. COMPARAÇÕES MÚLTIPLAS
6.1. Noções básicas e filosofia das comparações múltiplas
6.1.1. Famílias de inferências
Qualquer coleção de inferências para as quais se reconhece que se deve considerar
alguma medida de erros combinada é denominada família. Por conveniência, também
nos referimos à correspondente coleção de inferências, como uma família.
Há diferentes tipos de famílias. A coleção das comparações pareadas é um
exemplo de uma família finita. Em alguns problemas, o investigador pode desejar
examinar qualquer contraste entre as médias dos grupos (isto é, uma combinação linear das
médias dos grupos, em que os coeficientes da combinação linear somam a zero). Então, a
família de inferências potenciais é infinita, consistindo em todos os contrastes.
Em resumo, são as seguintes as duas razões-chave para considerar um conjunto de
inferências como uma família (Cox 1965):
i) Considerar o efeito da escolha do contraste em razão da “olhada-nos-
dados”.
ii) Assegurar a correção simultânea de um conjunto de inferências, para
garantir uma decisão geral correta.
6.1.2. Taxas de erro
Seja uma família de inferências e seja um Procedimento de Comparação
Múltipla-PCM para essa família. Pressupomos que cada inferência que faz (ou pode
23
potencialmente fazer) seja ou correta ou errada. Seja M( , ) o número aleatório de
inferências erradas. Podemos definir as três taxas de erro:
Taxa de Erro Familiar ou conjunto de famílias (EF):
EF( , ) = Pr{M( , ) > 0} .
Taxa de Erro por Família (EPF):
EPF( , ) = E{M( , ) }.
Taxa de Erro por Comparação (EPC):
EPC( , ) = E{M( , )}/ N().
Em muitos problemas, somente determinados tipos de erros são considerados e
controlados. Por exemplo, em problemas de teste de hipóteses é comum considerar apenas
os erros do tipo I, ou seja, M'( , ), em que M'( , ) < M( , ). Na seqüência, a
menos que se especifique ao contrário, assumir-se-á que as taxas de erro serão do tipo I.
6.1.3. Controle das taxas de erro.
A pergunta “qual taxa de erro se deve controlar em um problema de comparações
múltiplas” tem gerado muita discussão na literatura.
O enfoque do controle da taxa de erro envolve uma consideração cuidadosa da
natureza e da finalidade da pesquisa. Os erros do tipo I são preocupantes em uma pesquisa,
quando uma seleção eficaz de falsos positivos é necessária. Se esta premissa não for
estritamente verdadeira, então os erros do tipo II (perder diferenças verdadeiras) podem ser
mais preocupantes.
As medidas probabilísticas de erros do tipo I são mais freqüentemente escolhidas,
porque são mais fáceis de analisar e controlar. A probabilidade de erros do tipo II é
reduzida, quando se permite probabilidade mais elevada de erros do tipo I (Em geral,
emprega-se uma aproximação teórica de decisão que considera os custos relativos dos
erros do tipo I e do tipo II). Pode-se também delinear o experimento com o objetivo de
controlar a probabilidade de erro do tipo II.
Em resumo, a taxa particular de erro a ser controlada deve ser determinada por
detalhada consideração da natureza do estudo e de sua importância no plano geral da
pesquisa. Em situações de análise de dados de complexidade variada, é difícil justificar a
escolha de uma única taxa de erro para todas as situações.
6.1.4. Testes de médias protegidos e não-protegidos
Expondo de maneira grandemente simplificada, na aplicação de um teste de
comparação múltipla, podem-se considerar dois caminhos: a) Testar diretamente todas as
possíveis comparações entre os m tratamentos dois-a-dois )C( 2
m ; ou b) Testar todas as
possíveis comparações, após ter sido verificado que o teste F foi significativo (alguns
testes envolvem apenas o erro por comparação). Como o teste F avalia a probabilidade
de todas as comparações simultaneamente, controla-se o erro em nível de experimento,
ou seja, de todas as famílias de hipóteses envolvidas no experimento. Então, no caso b
temos o teste dito “protegido”, quando aplicamos previamente o teste F; e no caso a, o
teste “não-protegido”, quando aplicamos o teste de comparação múltipla sem previamente termos verificado a signficância do teste F.
24
7. REGRESSÃO LINEAR
7.1. Introdução
Nos capítulos anteriores, analisamos apenas a característica da planta como
produção, ou germinação, ou peso da matéria seca, etc. e as diferenças impostas pelos
tratamentos nessas características.
No presente caso, vamos estudar melhor a dependência da característica da planta,
como a produção, para com os tratamentos. Se chamarmos a produção de Y e os
tratamentos de X (tratamentos neste caso são valores quantitativos), essa dependência da
variável Y para com outra variável X recebe o nome de função.
Em Estatística, esta dependência é chamada de Regressão.
Além disso, o Y é chamado de variável dependente e o X de variável independente.
Numa regressão linear, temos:
XbaY x.y
O x.yb é a declividade da reta e implica na variação de Y quando X varia em uma
unidade.
O x.yb é lido como o coeficiente da regressão linear de Y sobre X.
Nesse caso, o valor desse coeficiente é estimado por .VarX
)Y,X(Cov
SQ
SPb
X
XYx.y
7.2. Usos da regressão ( ou Objetivos)
a) Verificar se Y depende de X.
b) Predição de Y através de X.
c) Determinar a forma da curva.
d) Ajuste da análise de Y, em um experimento, depois de retirados os efeitos de uma
variável X (covariância).
8. CORRELAÇÃO
O coeficiente de correlação é outra medida do relacionamento mútuo entre duas
variáveis. A figura abaixo mostra as alturas de 11 irmãos e respectivas irmãs. Como não há
razão de se pensar que uma altura é a variável dependente e a outra é a variável
independente, as alturas são denominadas, X1 e X2, ao invés de Y e X.
25
Podemos imaginar então que temos possibilidade de ajustar a equação
12x.1x2 XbaX ou a equação 21x.2x1 XbaX . Para não permanecermos na dúvida,
podemos tomar a média geométrica dos dois coeficientes de regressão e obtemos.
2
21
1
212x.1x1x.2x2X1X
VarX
)X,X(Cov
VarX
)X,X(Covb.br , então,
)n
)X(X)(
n
)X(X(
)XX)(XX(r
2
22
2
12
1
22112X1X
O valor de r, que é o coeficiente de correlação da amostra.
De maneira grosseira, podemos dizer que r é a expressão quantitativa das
similaridades comumente observadas entre filhos dos mesmos pais - a tendência de irmãs
altas terem irmãos altos.
9. REGRESSÃO LINEAR MÚLTIPLA
Muitas vezes a regressão de Y sobre uma única variável independente é
inadequada. Duas ou mais variáveis independentes podem fornecer informações adicionais
acerca de Y, por meio da regressão múltipla sobre os diversos X.
A forma geral de uma regressão múltipla é a seguinte:
Y = b0 + b1X1 + b2X2 + b3X3 + ... + bkXk,
em que
Y é a produção estimada,
bi, i = 0, 1, ... , k, são os coeficientes de regressão
Xi, i = 1, ... , k, são as variáveis independentes.
Como vimos, o modelo básico de regressão linear é
Y = b0 + b1X + e,
em que as estimativas de b0 e b1 são dadas pelas equações normais
nb b X Yi i0 1
b X b X X Yi i i i0 1
2
Estendendo o modelo para mais de uma variável independente, teremos o seguinte
exemplo:
A venda Y de um determinado produto depende de:
X1 = quantidade de dólares empregados na propaganda por meio do rádio.
X2 = quantidade de dólares empregados na propaganda nos jornais.
Portanto,
Yi = b0 + b1X1i + b2X2i + ei.
Os coeficiente da população 0, 1 e 2 devem ser estimados de modo que
e Y b b X b X2
0 1 1 2 2
2 ( )
seja mínima.
26
As equações normais obtidas serão:
nb b X b X Y0 1 1 2 2
b X b X b X X X Y0 1 1 1
2
2 1 2 1
b X b X X b X X Y0 2 1 1 2 2 2
2
2
Resolvendo esse sistema de equações lineares, teremos b0, b1 e b2, que são as
estimativa de 0, 1 e 2.
Quando o número de variáveis independente é igual a k, teremos:
Y = b0 + b1X1 + b2X2 + b3X3 + ... + bkXk.
As equações normais serão:
nb b X b X b X Yk k0 1 1 2 2 ...
b X b X b X X b X X X Yk k0 1 1 1
2
2 1 2 1 1 ...
. . .
. . .
. . .
b X b X X b X X b X X Yk k k k k k0 1 1 2 2
2 ...
cujas soluções serão as estimativas b0, b1, ... , bk.
A soma de quadrados dos desvios da regressão será sempre
SQD e Y Y 2 2( ) ,
em que Y corresponde aos valores observados e Y corresponde aos valores estimados por meio da equação obtida.
Consequentemente, podemos ter a seguinte análise de variância:
Fonte de variação gl SQ QM F
Regressão k SQR QMR
Desvio da regressão n-k-1 SQD QMD
Total n-1 SQTO
O teste F, nesse caso, obtido pela divisão QMR/QMD, verifica a hipótese nula
H0: 1 = 2 = 3 = ... = k = 0
contra a hipótese alternativa
Ha: i 0, i = 1, 2, ... , k.
Para verificar se alguma variável contribui significativamente para o modelo de
regressão, procede-se da seguinte maneira:
1) Ajustar o modelo de regressão completo, C, isto é, ajustar o modelo com todas as
variáveis de interesse, e calcular a Soma de Quadrados dos Desvios, SQDC.
2) Ajustar o modelo de regressão reduzido, R, isto é, ajustar o modelo sem as variáveis que
se deseja testar, e calcular a Soma de Quadrados dos Desvios, SQDR.
3) Aplicar o seguinte teste F:
27
F
SQD SQD
gld gld
SQD
gld
R C
R C
C
C
( )
( ),
em que gldR e gldC são os graus de liberdade associados às somas de quadrados dos desvios
dos modelos R e C, respectivamente.
O F assim obtido é comparado com o valor tabelado, com os graus de liberdade
{(gldR - gldC), gldC)} e o nível de significância desejado.
10. REGRESSÕES POLINOMIAIS
As regressões polinomiais podem, em alguns casos, ser bons substitutos das
regressões não-lineares. Como exemplo de regressão polinomial, veremos o caso da
regressão quadrática, cujo modelo é
Y = a + bX + cX2 + e.
A obtenção das estimativas a, b e c é feita minimizando-se a soma de quadrados
dos desvios, de maneira análoga à regressão linear vista anteriormente (também aplicável a
outros tipos de regressão).
Então, a seguinte expressão é minimizada:
222 )cXbXaY(e .
Para tanto, tomamos as derivadas parciais em relação a a, b e c e as igualamos a
zero:
0a
2
0b
2
0c
2
Resolvendo esse sistema de três equações e três incógnitas, que são as equações
normais da regressão quadrática, obtemos as estimativas a, b e c.
Obtida a equação de regressão, podemos calcular os valores esperados .Y
Lembrando que
YYei , podemos calcular a SQE.
A análise de variância será:
F.V. G.L. SQ QM F
Regressão quadrática 2 SQR QMR
Desvio da regressão n-3 SQE QME
Total n-1 SQTO
O teste F nos dirá se b e/ou c são diferentes de zero ou não.
Para verificarmos se a equação é quadrática, e não simplesmente linear,
procedemos à seguinte análise, ajustando as regressões linear e quadrática e usando os
dados de ambas as análises de variâncias:
28
Regressão linear Regressão quadrática
F.V. G.L. SQ G.L. SQ
Regressão 1 SQRL 2 SQRQ
Desvio n-2 SQEL n-3 SQEQ
Total n-1 SQTO n-1 SQTO
Para verificar se a regressão é quadrática, usa-se o teste F.
)3n(SQEQ
])3n()2n[(]SQEQSQEL[F
, com [(n-2)-(n-3)] e (n-3) graus de
liberdade.
Se o componente quadrático não for significativo, a regressão será linear (se esta tiver sido significativa).
Se o componente quadrático for significativo, a regressão será quadrática. Neste
caso, deve-se incluir sempre o componente linear no modelo, independentemente de o
componente linear ser significativo ou não.
Esse mesmo procedimento pode ser usado para o ajuste de equações cúbicas,
quárticas, etc.
29
11. CURVAS DE CRESCIMENTO
11.1. Curvas de crescimento exponencial
Os organismos mais simples iniciam seu crescimento pela divisão binária de suas
células.
Considere o crescimento de uma colônia de bactérias mantida sob condições
nutricionais e ambientais constantes, de tal forma que haja uma taxa constante de divisão
celular. Assuma, também, que as células se dividam de maneira sincronizada, isto é, todas
as células na colônia se dividem simultaneamente (algumas espécies de microrganismos
têm esse comportamento).
Se o número inicial de células na colônia é n0, e n é o número de células após um
dado número de divisões, então,
ao final da primeira geração n = n0 . 2
“ segunda “ n = n0 . 2 . 2
“ x-ésima “ n = n0 . 2x
Essa última relação indica que o número de células numa colônia está crescendo
numa progressão geométrica ou “exponencialmente”, isto é, em uma taxa sempre
crescente.
Podemos reescrever a equação n = n0 . 2x da seguinte forma:
log n = log n0 + x log 2.
Essa equação expressa a relação entre o número de células na colônia, n, e o
número de gerações ocorridas, x, porém, normalmente, é desejável obter-se a relação entre
n e o tempo t. Portanto, se t é o tempo em que x gerações ocorrem e o tempo para uma
geração é g, então:
x = t/g.
Substituindo essa variável na equação acima, temos:
log n = log n0 + (t/g) log 2.
Considerando constante o tempo de uma geração, (log 2)/g será, também, constante
e poderá ser representado por k.
Portanto, pode-se escrever
log n = log n0 + kt
que é uma equação linear da forma y = a + bx, em que log n0 está representado por a e k
por b.
A taxa de crescimento de uma colônia com esse tipo de crescimento é dada pelo
incremento, dn, do número de células em um curto intervalo de tempo, dt; ou seja,
podemos dizer que a taxa de crescimento é igual a dn/dt.
O valor dn/dt representa a declividade da curva em um dado tempo t e pode ser
observado que, no caso do crescimento exponencial, essa declividade aumenta
progressivamente com o tempo. Se todas as células estiverem se dividindo à mesma taxa r,
claramente, a qualquer tempo t, a taxa de crescimento da colônia será proporcional ao
número de células presente, isto é, dn/dt será proporcional a n.
Assim, apesar de a taxa de divisão celular, r, permanecer constante, a taxa absoluta
de crescimento da colônia como um todo não é constante, pois com o correr do tempo, o
número de células presentes na colônia aumenta. O valor de r é dado por dn/dt (o
30
incremento no número de células na colônia em um curto intervalo de tempo), dividido
pelo número de células em reprodução, isto é,
r = n
1
dt
dn
Esse valor é conhecido como a taxa de crescimento relativo da colônia. Assim, para
uma colônia mostrando esse tipo de crescimento, a taxa de crescimento absoluto aumenta
com o tempo, porém a taxa de crescimento relativo permanece constante.
Observe que a equação log n = log n0+ kt pode ser destransformada (antilogaritmo)
em: n = n0ekt
, em que e é a base do logaritmo natural (número neperiano = 2,7182).
Generalizando esse tipo de crescimento, com x denotando o tempo e f o tamanho,
tem-se o crescimento exponencial da seguinte forma:
kfdx
df , ou f(x) = )x(ke .
Assim, a taxa de crescimento é proporcional ao tamanho corrente f, sendo que para
k > 0, o crescimento é ilimitado. O crescimento exponencial para x pequeno é uma
característica de muitos modelos de crescimento.
O modelo potência-de-tempo,
f(x)= x
é, algumas vezes, útil. Porém, tanto no caso do modelo potência-de-tempo, quanto no
modelo exponencial, o crescimento é ilimitado, enquanto que o crescimento biológico,
quase que invariavelmente, estabiliza com o tempo, tal que o tamanho final
)x(flimx
existe e é finito.
Como resultado, 0dx
df , quando x .
Talvez, a pressuposição mais simples do crescimento limitado é a de que a taxa de
crescimento é proporcional ao tamanho restante, isto é,
)f(kdx
df ,
para algum k > 0. A solução geral dessa última expressão pode ser parametrizada como:
kxe)()x(f ,
em que x > 0 e k > 0.
Se a curva tem por objetivo descrever o crescimento (isto é, aumento), necessita-se
> > 0. Com essa parametrização, é o tamanho final, [= f(0)] é o tamanho inicial e k atua como um parâmetro de escala de x, governando, assim, a taxa de crescimento. Uma
parametrização mais comum é dada por
f(x) = kxe
com substituindo - .
Pode-se, também, escrever
)e1()x(f )x(k .
Esse modelo é usualmente denominado de modelo de crescimento
monomolecular
Substituindo, ainda, - por - e e-k
por , em que 0 < < 1, obtemos:
x)x(f , 0 < < 1 ,
31
que é denominado modelo de regressão assintótica. Em estudos de resposta de aplicação de
fertilizantes, esta equação é denominada Lei de Mitscherlich.
Outro exemplo que pode ser de interesse é o do crescimento exponencial
relacionado à fotossíntese.
Se P é o peso da matéria seca do aparato fotossintético de uma planta, com seu
sistema de suporte completo, representado por raízes, caules e ramos; R é a taxa de
fotossíntese expressa como a proporção de P em unidade de tempo; e se α é a proporção
dos produtos da fotossíntese reinvestida na produção de mais P, então a taxa de incremento
do total do aparato fotossintético, dP/dt, é αRP. Como em todos os casos em que a taxa de
formação de uma substância é proporcional à quantidade já presente, o resultado é um
incremento exponencial (isto é, logarítmico) típico de P. Assim, por integração, obtém-se a
expressão
P = P0eαRt
em que P0 é o tamanho do aparato fotossintético quando as observações iniciaram, ou seja,
t = 0. Além disso, qualquer incremento em matéria seca em razão da fotossíntese é
particionada entre a formação de novo P e a formação de material armazenado S (nos
tubérculos, por exemplo). Segue-se que a razão de S em relação ao acréscimo em P é igual
à razão de 1 – α para α, ou seja:
)1(
)PP(
S
0
,
ou seja, o peso total da planta será
P + S = P + (P – P0) [(1 – α )/α]
0P)1(
P1
SP
que, substituindo P por P0eαRt
nessa equação, obtém-se
0Rt
0 P)1(
eP1
SP
.
Pela análise dessa equação, pode-se verificar que o crescimento total de uma planta
(P + S) depende quase igualmente da taxa de fotossíntese, R, e da proporção dos produtos
fotossintéticos dedicados a produzir novas partes fotossinteticamente úteis da planta, α,
pois a taxa de “juros compostos”, que determina a taxa de crescimento, não depende de R
porém do produto de R com α. Na ausência de um órgão especializado de armazenamento
(por exemplo, plantas no estádio vegetativo), o reinvestimento fornece um dreno para os
produtos fotossintetizados e, isso ocorrendo, pode aumentar R.
11.2. Modelos de crescimento sigmoidal
Em muitos tipos de crescimento, a taxa de crescimento não diminui de modo
constante. Ao invés disso, a taxa cresce por determinado período, atinge um máximo e
depois decresce de modo consistente até tornar-se zero. Esse comportamento toma, em um
gráfico, a forma de um S ou sigmóide.
Nessa curva, um ponto a ser notado é o de inflexão, que é o tempo de máxima taxa
de crescimento (ponto que chamaremos de wM).
Os modelos sigmoidais são produzidos pela modelagem da taxa de crescimento
corrente como o produto das funções do tamanho corrente e o crescimento remanescente.
)]f(h)(h)[f(gdx
df , ( leia-se proporcional a)
32
em que g e h são funções crescentes com g(0) = h(0) = 0. Muitas das curvas de crescimento
são monomoleculares pela simples transformação do tamanho f (Curva de Richards) ou do
tempo x (Modelo de Weibull).
11.2.1. Modelo logístico (autocatalítico)
A forma mais simples da equação anterior é com g(f) = h(f) = f, tal que
)f(fk
dx
df
em que k > 0 e 0 < f < . A equação logística foi derivada de forma puramente empírica por Verhulst, em
1838, para descrever o crescimento em tamanho de uma população ou de um órgão.
Entretanto, a equação também descreve a taxa de consumo de uma substância química
monomolecular que se degrada em uma reação autocatalítica e houve sugestões de
Robertson (1908) de que a natureza bioquímica do processo de crescimento era semelhante
a isso.
A expressão α
k é a constante de proporcionalidade, tal que os parâmetros são
separadamente interpretáveis. Assim, de (24.9), a taxa relativa de crescimento decresce
linearmente em f até f aproximar-se de . A equação 24.9 tem uma solução geral que pode
ser escrita da seguinte maneira:
)x(ke1
)x(f
, - < x < ,
denominado de modelo logístico.
A curva tem assíntotas f = 0 para x - e f = para x , que são, obviamente, jamais atingidas. Isso causa pouca dificuldade na prática, pois, quando se iniciam as
coletas dos dados, tem-se f > 0. Percebe-se que a taxa de crescimento atinge o máximo
quando 2
f
, que ocorre quando x = .
Assim, se > 0, o ponto de inflexão de f(x) é visível. A taxa máxima de
crescimento é wM = 4
k, e a taxa de crescimento é agora simétrica em x = , levando a
uma curva de crescimento sigmoidal simétrica. Novamente, k atua como um parâmetro de
escala de x, influenciando a taxa de crescimento. O tamanho inicial é )e1(
)0(fk
.
Uma parametrização comum é:
kxe1
)x(f
,
em que kxe , na equação (10).
Entretanto, uma das formas mais conhecidas da equação logística é
f(x) = )xexp(1
)xexp(
em que f(x) é a probabilidade de uma resposta a
uma quantidade x de uma droga ou de tempo.
Essa equação pode ser transformada em
33
f(x) = )]x(exp[1
1
, obtida pela divisão do numerador e do
denominador por exp(α+βx).
11.2.2. Curvas de crescimento de Gompertz, de von Bertalanffy, de
Richards, de Weibull e outras.
(Lembrar da existência dessas curvas).
12. AJUSTE DE REGRESSÕES NÃO-LINEARES
12.1. Um método geral de ajuste
Suponha que a relação populacional entre Y e X seja da forma
Yi = f(α, β, γ, Xi) + εi (i = 1, 2, ... n)
em que f é uma função de regressão contendo Xi e os parâmetros α, β e γ. (Poderá haver
mais de uma variável X). Se o resíduo εi tem média zero e variância constante, o método
dos quadrados mínimos de ajuste de regressões estima os parâmetros α, β e γ pela
minimização de
n
1i
2
ii)]X,,,(fY[
O primeiro passo no método geral é obter boas estimativas iniciais, a1, b1, c1, das
estimativas finais ˆ,ˆ,ˆ . Para os tipos comuns de funções não-lineares, várias técnicas
têm sido desenvolvidas, algumas delas gráficas, outras por estudos especiais do problema.
O segundo passo é usar o teorema de Taylor. Esse teorema enuncia que, se f(α, β, γ,
X) é contínua em α, β e γ e se (α – a1), (β – b1) e (γ – c1) são pequenas,
f(α, β, γ, Xi) f(a1, b1, c1, Xi) +(α – a1)fa +(β - b1)fb + (γ - c1)fc
em que fa, fb e fc denotam as derivadas parciais de f com respeito a α, β e γ,
respectivamente avaliadas nos pontos a1, b1, e c1.
Por exemplo, na regressão assintótica
f(α, β, γ, Xi) = α – β(γXi
)
temos
fa = 1; fb = iX
1c ; fc = )c(Xb1iX
1i1
.
Como a1, b1 e c1 são conhecidos, os valores de f, fa, fb, e fc podem ser calculados
para cada membro da amostra, em que escrevemos f no lugar de f(a1, b1, c1, Xi).
Do teorema de Taylor, a relação de regressão original Yi = f(α, β, γ, Xi) + εi
pode ser escrita, aproximadamente, como:
Yi f + (α – a1)fa + (β – b1)fb + (γ – c1)fc + εi . (12.1)
Agora, escrevemos:
Yres = Y – f; X1 = fa; X2 = fb; X3 = fc.
Da equação (12.1),
Yres (α – a1)X1 + (β – b1)X2 + (γ – c1)X3 + εi (12.2)
A variável Yres é o resíduo de Y da primeira aproximação. A relação (12.2)
representa uma equação linear ordinária de Yres sobre as variáveis X1, X2 e X3, com os
coeficientes de regressão (α – a1), (β – b1) e (γ – c1).
34
Se a relação 12.2 fosse exata ao invés de aproximada, a computação da regressão
da amostra de Yres sobre X1, X2 e X3 forneceria os coeficientes de regressão )aˆ(1
,
)bˆ(1
e )cˆ(1
, dos quais as estimativas corretas de , e poderiam ser
imediatamente obtidas.
Como a relação (12.2) é aproximada, o ajuste dessa regressão produz segundas
aproximações a2, b2 e c2 de , e , respectivamente. Então recalculamos f, fa, fb, e fc
nos pontos a2, b2 e c2, encontrando um novo Yres e novas variáveis X1, X2 e X3. A regressão
da amostra desse Yres sobre X1, X2 e X3 fornece os coeficientes de regressão (a3 – a2), (b3 –
b2) e (c3 – c2) dos quais uma terceira aproximação a3, b3 e c3 de , e é encontrada, e
assim por diante.
Se o processo é efetivo, a soma de quadrados dos resíduos, 2
resY , deveria
decrescer consistentemente em qualquer estádio, com o decréscimo tornando-se menor
com a aproximação da solução de mínimos quadrados. Na prática, os cálculos são
paralisados quando o decréscimo em 2
resY e as mudanças em a, b e c são consideradas
pequenas o bastante para serem negligenciadas. O quadrado médio do resíduo
)kn/(Ys 2
res
2,
em que k é o número de parâmetros estimados (no exemplo k = 3). Em regressões não-
lineares, s2 não é um estimador não-viesado de
2 , apesar de que ele tende a ser não-
viesado para n grande.
Erros padrões aproximados das estimativas , e são obtidos pelo processo
usual, pelos multiplicadores de Gauss na regressão múltipla final computada. Assim,
11cs)ˆ(s ; 22cs)ˆ(s ; e 33cs)ˆ(s .
Limites de confiança aproximados para α são dados por 11
ctsˆ em que t tem (n
– k) gl.
13. ESTIMAÇÃO EM FATORIAIS NÃO BALANCEADOS
Num fatorial envolvendo dois fatores, no delineamento inteiramente casualizado, o
modelo é:
yijk = μ + αi + βj + αβij + εijk
em que
yijk é o k-ésimo dado da célula (i,j).
αi é o efeito do i-ésimo nível do fator A.
βj é o efeito do j-ésimo nível do fator B.
αβij é o efeito da interação do i-ésimo nível do fator A e o j-ésimo nível do fator
B.
εijk é o erro aleatório associado a cada observação.
Faça ηij denotar o número de observações na célula do nível i de A e nível j de B.
Se μij denota a média populacional da célula do nível i de A e j de B, então, μij = μ + αi + βj
+ αβij .
As fórmulas computacionais do procedimento ANOVA do SAS, que usa as várias
médias de tratamentos, fornece as estatísticas corretas no caso de dados balanceados,
35
isto é, dados com números iguais de observações (ηij = η para todo i, j), para cada
combinação de tratamento.
Quando os dados não são balanceados, as somas de quadrados computadas pelo
procedimento ANOVA pode conter funções dos outros parâmetros do modelo e,
conseqüentemente, produzir resultados viesados.
Para ilustrar o efeito de dados não-balanceados na estimação de diferenças entre
médias e na computação das somas de quadrados, consideremos os dados na seguinte
tabela de duas entradas:
B
1 2
1 7 9 5
A
2 8 4 6
Dentro do nível 1 de B, a média da célula para cada nível de A é 8; isto é,
82/)97(y .11 e 8y .21 . Então, não há evidência de diferença entre os níveis de A
dentro do nível 1 de B. Semelhantemente, não há evidência de diferença entre os níveis de
A no nível 2 de B, porque 5y .12 e 52/)64(y .22 . Portanto, poder-se-ia concluir
que, na tabela, não há evidência de diferença entre os níveis de A. Entretanto, as médias
marginais de A são:
73/)597(y ..1 e
63/)648(y ..2 .
A diferença de 7 – 6 = 1 entre essas médias marginais pode ser erroneamente
interpretada como medindo um efeito geral do fator A. Na realidade, as diferenças observadas entre as médias marginais dos dois níveis de A mede o efeito do fator B em
acréscimo ao efeito do fator A. Isso pode ser verificado expressando-se as observações em
termos do modelo da análise de variância yijk = μ + αi + βj . (Para simplificar, o termo da
interação foi deixada fora do modelo).
B
1 2
1 7 = μ + α1 + β1
9 = μ + α1 + β1
5 = μ + α1 + β2
A
2 8 = μ + α2 + β1 4 = μ + α2 + β2
6 = μ + α2 + β2
A diferença entre as médias marginais de A1 e A2 seria a seguinte:
)]()())[(3/1(yy 211111..2..1
)]()())[(3/1( 222212
))(3/1()( 2121 .
Assim, ao invés de estimar (α1 – α2), a diferença entre as médias marginais de A
estima (α1 – α2) mais uma função dos parâmetros do fator B, (β1 – β2)/3. Em outras
palavras, a diferença entre as médias marginais de A são viesadas pelos efeitos do fator B.
A hipótese nula acerca de A normalmente testada é:
H0: α1 – α2 = 0.
36
Entretanto, no presente exemplo, a soma de quadrados de A, computada pelo
procedimento ANOVA, pode ser mostrada como sendo igual a 2/)yy(3 2..2..1 . Então, o
teste F do procedimento ANOVA para A na realidade testa a hipótese
H0: (α1 – α2) + (β1 – β2)/3 = 0,
que envolve a diferença (β1 – β2) do fator B, em acréscimo à diferença (α1 – α2) do fator A.
Em termos do modelo yijk = μij + εijk , geralmente se deseja estimar (μ11 + μ12)/2 e
(μ21 + μ22)/2 ou a diferença entre essas quantidades. Entretanto, as médias marginais de A
do exemplo são:
..11211..1 3/)2(y e
..22221..2 3/)2(y .
Essas médias estimam (2μ11 + μ22)/3 e (μ21 + 2μ22)/3, que são funções das
freqüências das células e podem não ter significado.
Resumindo, o maior problema na análise de dados não-balanceados é a
contaminação das diferenças entre as médias dos fatores pelos efeitos dos outros fatores. A
solução para esse problema é ajustar convenientemente as médias de modo a remover os
efeitos contaminantes.
14. COMPARAÇÃO DE MÉDIAS MULTIVARIADAS
14.1. Observações repetidas no tempo ou no espaço - Análise de perfil
A análise de perfil se aplica a situações em que uma série de tratamentos é
administrada a dois ou mais grupos de parcelas. Assume-se que as respostas dos diferentes
grupos são independentes entre si, porém todas as respostas devem ser expressas em
unidades semelhantes. Ordinariamente, pode-se formular a seguinte questão: Os vetores
de médias das populações são iguais? Na análise de perfil, a questão de igualdade dos
vetores de médias é dividida em várias possibilidades específicas.
Consideremos as médias da população 1, 141312111 ,,,' , que representam
as respostas médias do primeiro grupo a quatro tratamentos. Um gráfico dessas médias
ligadas por linhas retas é mostrado na Figura 14.1. Esse gráfico de linha quebrada é o
perfil da população 1.
1 2 3 4
Re
sp
osta
mé
dia
Tratamento (p = 4)
Figura 14.1. Perfil da população 1 (p = 4)
Os perfis podem ser construídos para cada população (grupo). Vejamos o caso de
dois grupos.
37
Consideremos uma segunda população, cujo vetor das respostas médias aos
mesmos quatro tratamentos aplicados na população 1 é 242322212 ,,,' . A
hipótese H0: 21 implica que os tratamentos têm o mesmo efeito (mesmas médias) nas
duas populações. Em termos de perfis populacionais, podemos formular a questão de
igualdade por etapas.
1. Os perfis são paralelos?
Equivalentemente: É H01: 1i2i21i1i1 , i = 2, 3, . . . , p, aceitável?
2. Assumindo que os perfis são paralelos, são eles coincidentes?
Equivalentemente: É H02: i2i1 , i = 2, 3, . . . , p, aceitável?
3. Assumindo que os perfis são coincidentes, são eles nivelados (horizontais)? Isto é,
todas as médias são iguais a uma mesma constante?
Equivalentemente: É H03: p22221p11211 aceitável?
Teste para verificar se os perfis de duas populações normais são paralelos
A hipótese nula no estágio 1 pode ser escrita
H01: 21 CC
em que C é a matriz contraste
1100000
000110
000011
C)xp)1p((
(14.1)
Para amostras independentes de tamanho n1 e n2, retiradas das duas populações, a
hipótese nula pode ser testada construindo-se as observações transformadas
,Cx j1 j = 1, 2, . . . , n1 e
,Cx j2 j = 1, 2, . . . , n2.
Essas observações transformadas têm vetores de médias 1xC e 2xC ,
respectivamente, e matriz de covariância combinada, CScombC’.
Como os dois conjuntos de observações transformadas têm distribuição
)'CC,C(N 11p e )'CC,C(N 21p , respectivamente, pode-se aplicar um teste para
verificar se os perfis são paralelos.
Rejeitar H01: 21 CC (perfis paralelos) no nível α se
221
1
comb21
212 c)xx(C'CCS
n
1
n
1'C)'xx(T
em que
)(p2n1n,1p21
212 ,Fpnn
)1p)(2nn(c
Quando os perfis são paralelos, o primeiro estará acima do segundo, i2i1 , para
todo i, ou vice-versa. Sob essa condição, os perfis serão coincidentes apenas se os totais
das alturas, 11p1211 μ1'μμμ e 22p2221 μ1'μμμ , forem iguais.
Teste de coincidência de perfis, dado que os perfis são paralelos
38
A hipótese nula do estágio 2 pode ser expressa em forma equivalente:
H02: 21 '1'1
Podemos testar H02 com a estatística t da comparação de duas amostras, com base
nas observações multivariadas j1x'1 , j = 1, 2, . . ., n1 e j2x'1 , j = 1, 2, . . ., n2.
Para duas populações normais: Rejeitar H02: 21 '1'1 (perfis coincidentes) no
nível α se
)xx('11S'1n
1
n
1)xx('1T 21
1
comb21
212
= )(,2,1
2
22
2
comb
21
21
2121
11´Sn
1
n
1
)xx(1'
nn
nnFt
Para perfis coincidentes, 1n11211 x,,x,x e
2n22221 x,,x,x são observações da
mesma população normal.
Teste para perfis planos, dado que os perfis são coincidentes
O passo seguinte é verificar se todas as variáveis têm a mesma média, tal que o
perfil comum seja plano (ou uma reta horizontal).
A hipótese nula no estágio 3 pode ser escrita
H03: C(μ1 + μ2) = 0
em que C é dado pela Equação 14.1. Quando H01 e H02 são aceitáveis, o vetor de médias
comum é estimado por
221
2
121
1
21
1n
1j
2n
1jj2j1
x)nn(
n
x)nn(
n
nn
xx
x
Consequentemente, temos o seguinte teste:
Para duas populações normais: Rejeitar H03: C(μ1 + μ2) = 0 (perfis planos) no nível
α se
)(,p2n1n,1p1
comb21 FxC'CCS'C'x)nn(
==================
Quando os tamanhos das amostras são pequenos, a análise de perfil dependerá da
pressuposição de normalidade. Essa pressuposição pode ser conferida com os métodos
disponíveis, usando-se as observações originais, xℓj, ou as observações contrastes, Cxℓj. A
análise de perfil para várias populações acompanha o mesmo método de duas populações.
15. ESTATÍSTICA NÃO PARAMÉTRICA
Os testes não paramétricos são utilizados na maioria dos campos de investigação,
existindo mesmo situações em que é preferível a utilização de testes não paramétricos no
39
lugar dos testes paramétricos. Para optarmos pela aplicação de um determinado teste
estatístico devemos ter atenção:
No objetivo do teste;
Quantas variáveis temos e de que tipo são;
Qual a dimensão da amostra;
Como as variáveis se distribuem.
15.1. Principais diferenças entre Testes Paramétricos e Testes Não
Paramétricos
Testes Paramétricos:
A distribuição da população é conhecida à priori;
Especificam condições sobre os parâmetros da população;
Testam-se parâmetros em números finitos;
Os dados são medidos, normalmente, em escala de intervalo;
Trabalham diretamente com as observações recolhidas;
São mais potentes desde que sejam satisfeitas as suposições associadas aos testes paramétricos;
Testes Não Paramétricos:
Não é necessário o conhecimento da distribuição da população;
Especifica condições, mas em menor número do que os testes paramétricos;
Os dados são, geralmente, medidos numa escala ordinal, embora em alguns casos numa escala nominal;
Trabalham com a ordem das observações;
São testes freqüentemente utilizados no caso de pequenas amostras;
15.2. Vantagens e Desvantagens dos Testes Não Paramétricos
A aplicação de testes não paramétricos não exige requisitos tão fortes, como a
aplicação de testes paramétricos. São úteis em situações em que as amostras são pequenas
ou não se verificam os pressupostos associadas aos testes paramétricos.
Os testes paramétricos são mais potentes para uma pequena dimensão da amostra e
um mesmo , ou seja, conduzem com maior freqüência à rejeição de hipótese nula quando
ela é, de fato, falsa.
15.3. O Caso de uma Amostra
Um tipo de teste não paramétrico de uma amostra é o teste de aderência. Extrai-se
uma amostra aleatória e comprova-se a hipótese de que a amostra tenha sido extraída de
uma população com uma distribuição especificada. Poderemos, então, responder às
seguintes perguntas:
Há diferenças significativas entre as freqüências observadas e as freqüências que
deveríamos esperar?
Há diferenças significativas entre as proporções observadas e as proporções
esperadas?
É razoável admitir que a amostra seja uma amostra aleatória de alguma população
conhecida?
40
15.3.1. Teste de χ2 no teste de aderência de uma amostra
Algumas vezes, deseja-se conhecer a forma da distribuição dos dados e não os
parâmetros de distribuição. Em outras palavras: deseja-se testar a hipótese de que os dados
da amostra vieram de uma determinada distribuição.
O teste 2 deve ser empregado quando os dados se dispõem em categorias discretas
e quando as freqüências esperadas são suficientemente grandes.
Na hipótese nula, pode-se testar a igualdade das proporções entre todas as
categorias da variável de nível nominal (distribuição uniforme), ou pode-se testar outras
proporções especificadas a priori.
As hipóteses são as seguintes:
H0 : A amostra segue uma distribuição especificada.
Ha : A amostra não segue essa distribuição especificada.
A estatística do teste é dada por:
k
1i i
2ii2
E
)EO(
em que
Oi = número de casos observados classificados na categoria i
Ei = número de casos esperados na categoria i sob H0
K = número de categorias na classificação
K
NEi
15.3.2. Teste de Kolmogorov-Smirnov
O Teste de Kolmogorov-Smirnov é um teste de aderência, desenvolvido por
Kolmogorov (1933), para testar a hipótese de uma distribuição contínua, com parâmetros
especificados, isto é, verifica se os valores da amostra podem ser considerados como
provenientes de uma população, com uma determinada distribuição teórica. O teste procura
descrever a distribuição de freqüência acumulada, que ocorreria sob a distribuição teórica
(o que se poderia esperar sob H0), e a compara com a distribuição de freqüência acumulada
observada. O teste aplicado a duas amostras foi desenvolvido por Smirnov (1939),
resultando no nome atual do teste.
A opção por este teste tem subjacente a suposição de que a variável em estudo
tenha distribuição contínua. Nos casos em que é aplicável, este teste é o mais poderoso dos
testes de aderência.
Pretende-se observar o "grau de concordância" entre a função de distribuição
teórica (F0(.)), especificada na hipótese nula, e a distribuição de freqüências relativas
acumuladas observadas de valores amostrais (Sn(.)). Considera-se o ponto em que as duas
distribuições acusam maior divergência, sendo, então, a estatística do teste:
D=máx| F0(x)-Sn(x) |.
15.3.3. Teste de Iterações ou de Aleatoriedade
É usado no caso de pretendermos inferir sobre determinada população, através das
informações proporcionadas por uma amostra da mesma, que deverá ser aleatória.
O método baseia-se no número de iterações que uma amostra apresenta. Uma
iteração é definida como uma seqüência de símbolos idênticos que aparecem seguidos e
precedidos por símbolos diferentes, ou por nenhum símbolo.
41
Suponhamos o seguinte caso: Dada uma série de sinais "mais" e "menos" na
seguinte ordem :
+ + - - - + - - - - + + - +
Número de iterações (“runs”) = r = 7
O número total de iterações em uma amostra de qualquer dimensão dá uma
indicação sobre se a amostra é aleatória ou não.
Conhece-se a distribuição normal dos valores de r que podemos esperar de
amostras aleatórias repetidas. Utilizando essa distribuição amostral, poderemos decidir se
determinada amostra observada apresenta mais ou menos iterações do que provavelmente
ocorreriam numa amostra aleatória.
Poderemos, então, testar as seguintes hipóteses:
H0 : A amostra é aleatória.
Ha : A amostra não é aleatória.
No caso de amostras de maior dimensão (n1>20 ou n2>20) utiliza-se a seguinte
formula:
r
rrZ
em que:
Média = 1nn
nn2
21
21r
Desvio-padrão = )1nn()nn(
)nnnn2(nn2
212
21
212121r
15.4. O Caso de duas Amostras Relacionadas
Empregam-se os testes estatísticos de duas amostras, quando pretendermos
determinar se os dois tratamentos são diferentes, ou se um tratamento é "melhor" que o
outro. O tratamento pode consistir numa diversidade de situações ou condições.
Em cada caso, compara-se o grupo em que se aplicou o tratamento, com outro que
não sofreu nenhum tratamento, ou sofreu tratamento diferente.
Estes testes relacionam, de alguma forma, as duas amostras estudadas e têm a
vantagem de não exigir que todos os pares sejam extraídos da mesma população.
15.4.1. Teste de McNemar
O Teste de McNemar é aplicável aos experimentos do tipo antes/depois, em que
cada indivíduo é utilizado como seu próprio controle.
Para comprovar a significância de qualquer mudança observada, constrói-se uma
tabela de freqüências de quatro células, para representar o primeiro e o segundo conjunto
de reações dos mesmos indivíduos.
Depois
Antes - +
- A B
+ C D
As células B e C são consideradas células de mudança e são as únicas utilizadas no
teste. O total de indivíduos que acusam mudança é m=B+C. Teremos, então, a formula:
42
2
)1(
22
CB
)CB(Y
utilizando um fator de correção temos:
2
)1(
22
CB
)1CB(Y
As hipóteses serão:
H0 : O tratamento não tem qualquer influência.
Ha : O tratamento tem influência.
15.4.2. Teste dos Sinais
O teste dos sinais utiliza como dados os sinais da diferença de cada par de valores
emparelhados, em vez de medidas quantitativas, ignorando as diferenças nulas. O uso deste
teste é útil nos casos de duas amostras relacionadas, quando pretendemos determinar se
duas condições são diferentes. O teste dos sinais exige que a variável em estudo tenha
distribuição básica contínua, no entanto, não supõe que todos os indivíduos tenham sido
extraídos da mesma população.
No caso de amostras de maior dimensão (N>25) utiliza-se a seguinte formula:
N2
1
N2
1x
xZ
x
x
em que:
Média = x = NP = N2
1
Desvio-Padrão = r = N2
1NPQ
Utilizando um fator de correção, temos:
N2
1
N2
1)5,0x(
Z
.
15.4.3. Teste de Wilcoxon (Wilcoxon’s signed-rank test)
O teste de Wilcoxon não utiliza apenas as informações sobre o sentido da diferença
dentro de cada par mas também o valor das diferenças, sendo, por isso, mais potente do
que o dos sinais. É extremamente útil nas pesquisas em que o pesquisador pode fazer o
julgamento do tipo maior que, entre os resultados de qualquer par, ou em relação às
diferenças relativas entre os pares de observações.
O teste de Wilcoxon permite comprovar se não existem diferenças entre os valores
dos pares da amostra; considera o valor das diferenças de cada par e atribui maior peso a
um par cuja diferença entre as condições seja elevada do que a um par cuja diferença seja
pequena.
No caso de amostras de maior dimensão (N>25) utiliza-se a seguinte fórmula:
T
TTZ
em que:
43
T = Soma dos Postos.
Média = 4
)1N(NT
Desvio-Padrão = 24
)1N2)(1N(NT
15.5. O Caso de duas Amostras Independentes
Quando a utilização de duas amostras relacionadas não é prática ou apropriada,
podemos utilizar duas amostras independentes. Em tais projetos, as duas amostras podem
ser obtidas por um dos dois métodos: (a) podem ser extraídas aleatoriamente de duas
populações ou (b) podem decorrer da atribuição aleatória de dois tratamentos aos membros
de uma amostra de origem arbitrária. Em nenhum destes casos se exige que as amostras
tenham a mesma dimensão.
15.5.1. Teste U de Mann-Whitney
O teste U de Mann-Whitney é aplicado para comprovar se dois grupos
independentes foram ou não extraídos da mesma população. Trata-se de um dos mais
poderosos testes não paramétricos.
Consideremos duas amostras de populações: da população A e da população B. A
hipótese nula H0 é que A e B têm a mesma distribuição, enquanto que a hipótese
alternativa, Ha, é que A e B têm distribuições diferentes.
Sejam:
n1= número de casos no grupo de menor dimensão.
n2= número de casos no grupo de maior dimensão.
R1= soma dos postos atribuídos aos valores da primeira amostra.
R2= soma dos postos atribuídos aos valores da segunda amostra.
222
212111
211 R2
)1n(nn.nUR
2
)1n(nn.nU
1212 Un.nU
)U;Umin(U 21 , que é comparado a valores tabulados.
No caso de amostras de maior dimensão (n2>20) utiliza-se a seguinte formula:
U
UUZ
em que:
2
)1nn(nMédia 211
U
Desvio-Padrão = 12
)1nn(nn 2121U
e aplica-se o teste da distribuição normal.
15.6. O caso de K amostras relacionadas
Quando se trata de comparar três ou mais amostras ou condições num experimento,
é necessário aplicar um teste estatístico que indique se há uma diferença global entre as k
amostras ou condições, antes que possamos analisar a significância da diferença entre duas
amostras.
44
15.6.1. Teste Q de Cochran
O teste de McNemar para duas amostras pode ser generalizado para o caso de mais
do duas amostras através do teste Q de Cochran para K amostras relacionadas, o qual
permite comprovar se três ou mais conjuntos correspondentes de freqüência ou proporções
diferem significativamente entre si.
O teste Q de Cochran adapta-se especialmente ao caso em que os dados se
apresentam numa escala nominal ou sob forma de informação ordinal dicotomizada (1 e 0),
os dados são dispostos numa tabela N*K, onde a fórmula usada é:
N
1i
N
1i
2
ii
2k
1j
j
k
1j
2
j
LLk
GGk1)(k
Q , em que:
K - número de amostras
Gj – número de sucessos na coluna j
Li – número de sucessos na linha i
15.6.2. Teste de Friedman
Quando os dados de k amostras correspondentes se apresentam pelo menos em
escala ordinal, o teste de Friedman é útil para comprovar a hipótese nula, de que k amostras
tenham sido extraídas da mesma população.
Como as k amostras estão em correspondência, o número de casos é o mesmo em
cada uma delas. A correspondência pode ser estabelecida, estudando-se o mesmo grupo de
indivíduos sob cada uma das k condições.
Para o teste de Friedman, os dados se dispõem em uma tabela de dupla entrada com
N linhas e k colunas. As linhas representam os vários indivíduos ou conjuntos
correspondentes de indivíduos e as colunas representam as diversas condições.
A fórmula usada pelo teste de Friedman é a seguinte
K
1j
2j
2 )1K(N3)R()1K(NK
12X
em que:
N – número de linhas
K – número de colunas
Rj – soma de ordens na coluna j
K
1j
2j)R( - somatório dos quadrados das somas das ordens sob todas as K condições.
15.7. O caso de k Amostras Independentes
É freqüente a necessidade de decidir se diversas variáveis independentes devem ser
consideradas como provenientes da mesma população. A dificuldade consiste em
determinar se as diferenças amostrais observadas sugerem realmente diferenças entre as
45
populações ou se são apenas variações casuais, que podem ser esperadas entre amostras
aleatórias da mesma população.
A técnica paramétrica usual para comprovar se diversas amostras independentes
provêm da mesma população é a análise de variância. A mensuração da variável em estudo
tem de ser feita, no mínimo, em escala intervalar. Os testes não paramétricos têm, ainda, a
vantagem de permitir estudar dados em escala nominal ou ordinal.
15.7.1. Teste de Kruskal-Wallis
O teste de Kruskal-Wallis é extremamente útil para decidir se k amostras
independentes provêm de populações diferentes. Os valores amostrais quase que
invariavelmente diferem entre si, consistindo o problema em decidir se essas diferenças
entre as amostras significam diferenças efetivas entre as populações ou, se apenas
representam variações casuais, que podem ser esperadas entre amostras aleatórias de uma
mesma população.
O teste de Kruskal-Wallis comprova a hipótese nula de que k amostras provenham
da mesma população ou de populações idênticas, em relação às médias. O teste supõe que
a variável em estudo tenha distribuição inerente contínua e exige mensuração no mínimo
ao nível ordinal.
Se as K amostras provêm efetivamente da mesma população, ou de populações
idênticas, então a estatística H, utilizada neste teste, tem distribuição qui-quadrado com
K-1 graus de liberdade, desde que as dimensões das amostras não sejam muito pequenas,
isto é:
K
1j j
2j
)1N(3n
R
)1N(N
12H
em que:
K – número de amostras;
nj – número de casos na amostra j;
N – número de casos em todas as amostras combinadas;
Rj – soma de ordens na amostra j (coluna); e
K
1jj
2
j
n
R - indica o somatório sobre todas as amostras(coluna)
15.7.2. Coeficiente de correlação de Spearman ou de Postos (Rank
Correlation)
O coeficiente de correlação, r, é aplicável à distribuição normal bivariada. Diversos
coeficientes que não necessitam da pressuposição de que a distribuição seja normal
bivariada, têm sido propostos.
O coeficiente de correlação de Spearman se aplica a dados na forma de
classificação em posições (postos). Os dados podem ser coletados em postos ou podem ser
classificados após o exame em alguma escala. Mede a correspondência entre as ordens de
tal forma que não é necessariamente uma medida de correlação linear.
O procedimento é o seguinte:
a) Ordenar as observações de cada variável;
b) Obter a diferença no posto dos pares de dados (di);
c) Estimar pela equação dada a seguir (rS);
d) Se o número de pares for grande, pode-se utilizar o teste t.
46
)1n(n)1n(
d6
1r i
2i
S
.
2S
Sr1
2nrt
, distribuído como o t de Student, com n-2 gl.
16. LITERATURA RECOMENDADA
01. BANCROFT, T. A. Topics in Intermediate Statistical Methods. Ames: The Iowa State
University Press, 1968. 129p. v. 1.
02. BOX, G.E.P. & DRAPER, N.R. Empirical Model-Building and Response Surfaces.
New York: John Wiley, 1987. 688p.
03. BRUNNER, E., DOMHOF, S. & LANGER, F. Nonparametric Analysis of
Longitudinal Data in Factorial Experiments. New York: John Wiley, 2002. 261p.
04. COCHRAN, W.G. & COX, G.M. Experimental Designs. New York, John Wiley,
1992. 640p.
05. COX, D. Planning of Experiments. New York: John Wiley, 1992. 320 p.
06. DARLINGTON, R.B. Regression and Linear Models. New York: McGraw-Hill, 1990.
542p.
07. DEY, A. & MUKERJEE, R. Fractional Factorial Plans. New York: John Wiley, 1999.
288p.
08. DRAPER, N.R. & SMITH, H. Applied Regression Analysis. New York: John Wiley,
1998. 706p.
09. FISHER, R.A. & BENNETT, J.H. Statistical Methods, Experimental Design, and
Scientific Inference. New York: Oxford Univ. Press, 1990. 832p.
10. GOMEZ, K.A. & GOMEZ, A.A. Statistical Procedures for Agricultural Research.
New York: John Wiley, 1984. 704 p.
11. HOCHBERG, Y. & TAMHANE, A.C. Multiple Comparison Procedures. New York:
John Wiley, 1987. 480p.
12. HOFFMANN, R. & VIEIRA, S. Análise de Regressão. São Paulo: Hucitec, 1987. 379
p.
13. HOSME, D.W. & LEMESHOW, S. Applied Logistic Regression. New York: John
Wiley, 1989. 307p.
14. JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis.
Englewood Cliffs: Prentice-Hall, 1982. 594p.
15. KLEINBAUNN, D.G. & KLEIN, M. Survival Analysis: A Self-Learning Text. New
York: Springer, 2005. 590p.
16. LEE, E.T. Statistical Methods for Survival Data Analysis. New York: Wiley-
Interscience, 1992. 496p.
47
17. MICKEY, R.M.; DUNN, O.J.; CLARK, V.A. Analysis of Variance and Regression.
New York, John Wiley, 2004. 448p.
18. MONTGOMERY, D.C. & MYERS, R.H. Response Surface Methodology: Process
and Product in Optimization Using Designed Experiments. New York: John Wiley,
1995. 700 p.
19. MONTGOMERY, D.C. & PECK, E.A. Introduction to Linear Regression Analysis.
New York: John Wiley, 1992. 544 p.
20. MONTGOMERY, D.C. Design and Analysis of Experiments. New York: John Wiley,
1996. 704 p.
21. NELSON, W. Accelerated Testing: Statistical Models, Test Plans, and Data Analyses.
New York: John Wiley, 1990. 616p.
22. NETER, J.; WASSERMAN, W. & KUTNER, M.H. Applied Linear Statistical
Models. Boca Raton: CRC Press, 1990. 1184p.
23. ROBINSON, G.K. Practical Strategies for Experimenting. New York: John Wiley,
2000. 232p.
24. RYAN, T. Modern Experimental Design. New York: John Wiley, 2007. 593p.
25. RYAN, T.P. Modern Regression Methods. New York: John Wiley, 1996. 515 p.
26. SCHABENBERGER, O. & PIERCE, F.J. Contemporary Statistical Models for the
Plant and Soil Sciences. Boca Raton: CRC Press, 2002. 738p.
27. SCHEINER, S.M. & GUREVITCH, J. Design and Analysis of Ecological
Experiments. New York: Osford University Press, 2001. 415p.
28. SEARLE, S.R. Linear Models. Nova York: John Wiley, 1997. 532 p.
29. SEBER, G.A. & WILD, C.J. Nonlinear Regression. New York: John Wiley, 1989.
800p.
30. SNEDECOR, G.W. & COCHRAN, W.G. Statistical Methods. Iowa: Iowa State
University, 1989.
31. STEEL, R.G.D.; TORRIE, J.H. & DICKEY, D.A. Principles and Procedures of
Statistics: A Biometrical Approach. New York: McGraw-Hill.1997. 666 p.
Top Related