UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E...

22
548 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E DO TESTE SCOTT-KNOTT PARA MODELOS LINEARES GENERALIZADOS USANDO REAMOSTRAGEM BOOTSTRAP Cátia Valéria PRESOTTI 1 Maria Cecília Mendes BARRETO 1 RESUMO: A análise de agrupamento é um conjunto de técnicas estatísticas que identificam subgrupos ou classes distintas de indivíduos mutuamente excludentes com base nas similaridades existentes entre os indivíduos, ou seja, os mais semelhantes pertencem ao mesmo grupo. No caso específico de uma única variável resposta e diversas explicativas, utilizam-se os procedimentos de contrastes de médias, comparações múltiplas ou técnicas aglomerativas e quando os dados têm distribuição diferente da normal, pode ser utilizada uma extensão da técnica aglomerativa Automatic Interaction Detection (AID) na qual se baseia o teste de Scott-Knott. Essa extensão é usada em modelos lineares generalizados e adota uma estatística baseada na função desvio como medida de homogeneidade de grupos. Neste trabalho, apresentam-se o método de reamostragem bootstrap adaptado para a extensão do algoritmo AID, sua curva poder simulada e a curva poder simulada do teste assintótico, considerando um delineamento inteiramente ao acaso, considerando tamanho da amostra binomial n b , com r tratamentos e n r repetições por tratamento. Os resultados do estudo por simulação indicam que, conforme aumenta-se o tamanho da amostra binomial, o poder simulado dos dois testes aumenta rapidamente. Esse comportamento é mais acentuado conforme aumenta-se o número de tratamentos. Vale ressaltar que, para o caso extremo em que o tamanho da binomial é igual a 1 e o número de tratamentos igual a 8 e 12, a curva poder simulada do teste bootstrap é destacadamente superior à curva poder do teste assintótico para o número de repetições por tratamento estudado. PALAVRAS-CHAVE: Algoritmo AID; reamostragem bootstrap; modelos lineares generalizados; teste de Scott-Knott. 1 Introdução Uma das situações mais freqüentes encontradas por pesquisadores de diversas áreas do conhecimento é formar grupos de indivíduos que sejam de alguma maneira, similares entre si. A análise de agrupamento é um conjunto de técnicas estatísticas que identificam subgrupos ou classes distintas de indivíduos mutuamente excludentes com base nas similaridades existentes ou dissimilaridades entre os indivíduos, ou seja, os mais semelhantes pertencem ao mesmo grupo e grupos são heterogêneos entre si. Em particular, no teste de Scott-Knott esses conceitos são aplicados após a análise de variância (ANOVA), quando existe rejeição da hipótese nula, isto é, existe diferença entre 1 Departamento de Estatística, Universidade Federal de São Carlos – UFSCar, São Carlos, SP, Brasil. E-mail: [email protected] / [email protected]

Transcript of UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E...

Page 1: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

548 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E DO TESTE SCOTT-KNOTT PARA MODELOS LINEARES

GENERALIZADOS USANDO REAMOSTRAGEM BOOTSTRAP

Cátia Valéria PRESOTTI1 Maria Cecília Mendes BARRETO1

� RESUMO: A análise de agrupamento é um conjunto de técnicas estatísticas que identificam subgrupos ou classes distintas de indivíduos mutuamente excludentes com base nas similaridades existentes entre os indivíduos, ou seja, os mais semelhantes pertencem ao mesmo grupo. No caso específico de uma única variável resposta e diversas explicativas, utilizam-se os procedimentos de contrastes de médias, comparações múltiplas ou técnicas aglomerativas e quando os dados têm distribuição diferente da normal, pode ser utilizada uma extensão da técnica aglomerativa Automatic Interaction Detection (AID) na qual se baseia o teste de Scott-Knott. Essa extensão é usada em modelos lineares generalizados e adota uma estatística baseada na função desvio como medida de homogeneidade de grupos. Neste trabalho, apresentam-se o método de reamostragem bootstrap adaptado para a extensão do algoritmo AID, sua curva poder simulada e a curva poder simulada do teste assintótico, considerando um delineamento inteiramente ao acaso, considerando tamanho da amostra binomial nb, com r tratamentos e nr repetições por tratamento. Os resultados do estudo por simulação indicam que, conforme aumenta-se o tamanho da amostra binomial, o poder simulado dos dois testes aumenta rapidamente. Esse comportamento é mais acentuado conforme aumenta-se o número de tratamentos. Vale ressaltar que, para o caso extremo em que o tamanho da binomial é igual a 1 e o número de tratamentos igual a 8 e 12, a curva poder simulada do teste bootstrap é destacadamente superior à curva poder do teste assintótico para o número de repetições por tratamento estudado.

� PALAVRAS-CHAVE: Algoritmo AID; reamostragem bootstrap; modelos lineares generalizados; teste de Scott-Knott.

1 Introdução

Uma das situações mais freqüentes encontradas por pesquisadores de diversas áreas do conhecimento é formar grupos de indivíduos que sejam de alguma maneira, similares entre si. A análise de agrupamento é um conjunto de técnicas estatísticas que identificam subgrupos ou classes distintas de indivíduos mutuamente excludentes com base nas similaridades existentes ou dissimilaridades entre os indivíduos, ou seja, os mais semelhantes pertencem ao mesmo grupo e grupos são heterogêneos entre si. Em particular, no teste de Scott-Knott esses conceitos são aplicados após a análise de variância (ANOVA), quando existe rejeição da hipótese nula, isto é, existe diferença entre

1 Departamento de Estatística, Universidade Federal de São Carlos – UFSCar, São Carlos, SP, Brasil. E-mail:

[email protected] / [email protected]

Page 2: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 549

médias. Feita a análise, buscam-se métodos que explicam a variável resposta desses tratamentos de maneira mais detalhada. Vários procedimentos podem ser utilizados, dentre eles: contrastes de médias, comparações múltiplas ou técnicas aglomerativas como teste de Scott-Knott e a técnica AID - (Automatic Interaction Detector).

Os testes de comparações múltiplas apresentam, algumas vezes, resultados de difícil interpretação, por exemplo, os tratamentos A e B são iguais entre si, bem como os tratamentos B e C são iguais entre si. Entretanto, os tratamentos A e C são diferentes. Segundo Morgan e Sonquist (1963), a técnica AID é uma técnica de agrupamento de médias que se baseia na análise de variância para segmentar as observações em grupos distintos, para os quais podem ser desenvolvidos modelos de previsão causais. O teste proposto por Scott e Knott (1974) tem a finalidade de separar as médias em grupos distintos, por meio da minimização da variação dentro dos grupos e maximização da variação entre grupos.

A extensão do algoritmo AID para modelos lineares generalizados (Barreto, 1993) adota como medida de homogeneidade de grupos uma estatística baseada na função desvio e apresenta o melhor poder.

Entretanto, usando métodos de computação intensiva, tem sido possível apresentar soluções mais satisfatórias, principalmente quando as estatísticas envolvidas não têm forma fechada para sua distribuição. Em particular, o método bootstrap tem como idéia principal fazer reamostragens a partir da amostra original. Essa técnica é especialmente útil para lidar com problemas estatísticos que envolvem amostras de tamanho pequeno e/ou estimadores cuja distribuição (exata ou assintótica) ainda não foi obtida. A reamostragem é feita com reposição do conjunto de dados original, como se estivesse amostrando da população. Repete-se esse procedimento um número B grande de vezes e, para cada reamostra, calculam-se as quantidades de interesse. Os B valores calculados são utilizados para estimar a distribuição desconhecida dessa quantidade.

Por outro lado, a função poder indica a probabilidade de se rejeitar a hipótese nula, H0, quando ela é falsa. Pode-se interpretar como a chance de detectar uma real diferença entre as médias, ou seja, detectar a diferença, caso ela realmente exista.

Usando esses conceitos, Presotti (2006) usou a reamostragem bootstrap a partir de um algoritmo desenvolvido especialmente para a situação e obteve curvas poder simuladas do teste bootstrap na análise de um experimento envolvendo a presença/ausência dos sintomas visuais de deficiência de potássio nas folhas de couve chinesa (Brassic pekinensis), num esquema fatorial com 4 doses de potássio e 3 híbridos.

O presente artigo tem por objetivo apresentar: os principais resultados de Presotti (2006) referentes à análise de agrupamentos dos níveis dos fatores doses de potássio e tipos de híbridos, e também os resultados de estudo mais acurado de novas curvas poder simuladas para o teste bootstrap e para o teste assintótico, considerando à distribuição binomial.

Na seção 2 é apresentada metodologia de testes de agrupamentos, enquanto que na seção 3 é introduzida uma extensão quando da adoção de um modelo linear generalizado. O teste computacionalmente intensivo bootstrap é descrito na seção 4.

O experimento de couve chinesa (Brassic pekinensis) é analisado na seção 5. Na seção 6 são apresentados os resultados do estudo por simulação da curva poder dos testes bootstrap e do teste assintótico considerando distribuição binomial. Por fim as conclusões estão resumidas na seção 7.

Page 3: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

550 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

2 Metodologia de testes de agrupamentos.

A análise de agrupamento é um conjunto de técnicas estatísticas que identificam classes ou subgrupos distintos e mutuamente excludentes de indivíduos com base nas suas similaridades existentes, ou seja, de maneira que os indivíduos mais semelhantes pertençam ao mesmo grupo. Quando o conjunto de dados é composto por uma variável resposta e diversas variáveis explicativas categorizadas ou tratamentos, essas técnicas podem ser aplicadas após a análise de variância (ANOVA), quando da rejeição da hipótese nula, ou seja, quando existem efeito de um fator. Feita a análise, buscam-se métodos que expliquem a variável resposta desses tratamentos de maneira mais detalhada. Vários procedimentos podem ser utilizados, entre eles: contrastes de médias, comparações múltiplas ou técnicas aglomerativas, como o teste de Scott-Knott e a técnica AID.

O teste proposto por Scott e Knott (1974) é utilizado após a rejeição da igualdade de médias em uma análise de variância e tem a finalidade de separar as médias em grupos distintos, por meio da minimização da variação dentro dos grupos e maximização da variação entre grupos. Os testes de comparações múltiplas apresentam, algumas vezes, resultados de difícil interpretação, por exemplo, os tratamentos A e B são iguais entre si, bem como os tratamentos B e C são iguais entre si. Entretanto, os tratamentos A e C são diferentes. A questão que pode ser colocada é a que grupo pertence ao tratamento B.

O teste de Scott-Knott corresponde a um método de agrupamento divisivo hierárquico como, a técnica AID, no qual os grupos em qualquer estágio são relacionados com aqueles dos estágios prévios. A escolha do nível de significância individual, �, apropriado deve levar em conta o número de divisões que serão feitas. Segundo Scott e Knott (1974), de uma maneira geral, para j grupos homogêneos em algum estágio, a probabilidade de se ter pelo menos uma divisão significante é de, no máximo,

( ) jαα −−= 11* . As principais diferenças entre os testes de comparações múltiplas com relação ao

Scott-Knott é que o método de comparação múltipla é uma das estratégias mais utilizadas pelos pesquisadores por estar disponível na maioria dos softwares estatísticos. Entretanto, muitas vezes, os pesquisadores têm muitas dificuldades ao aplicar os testes, para interpretar os resultados, principalmente quando há um número grande de tratamentos e seu interesse está em uma separação real de grupos de médias, sem ambigüidade nos resultados (Ferreira et. al, 1999). Com o objetivo de eliminar essas ambigüidades, utiliza-se o método aglomerativo de Scott-Knott, que possui poder elevado e taxas de erro tipo I quase sempre de acordo com os níveis nominais, segundo Silva (1998).

Alguns cuidados devem ser tomados ao selecionar um procedimento estatístico, para que o mesmo seja apropriado para os dados que estão sendo analisados. O uso incorreto dos testes de comparações múltiplas pode resultar em perda de informação e em redução da eficiência, quando procedimentos mais apropriados são avaliados (Borges, 2002). A principal diferença entre os testes de comparações múltiplas e o teste de Scott–Knott é que este último não faz comparações entre grupos de médias.

Segundo Morgan e Sonquist (1963), a técnica de análise de agrupamentos AID consiste em dividir o conjunto de dados sucessivamente em grupos, combinando as classes das variáveis preditoras ou níveis dos fatores, de modo a produzir grupos que se diferenciem ao máximo com respeito à média da variável resposta. O processo de subdivisão é aplicado enquanto as divisões obtidas contribuem para explicar a variação

Page 4: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 551

dos dados e, ao final, tem-se um conjunto de grupos que podem ser identificados por alguns níveis dos fatores ou variáveis preditoras e suas interações mais importantes.

Segundo Bussab (1979), ao se procurar grupos em um conjunto de dados, uma solução seria examinar todas as partições possíveis do conjunto de dados e escolher aquela que é ótima segundo algum critério. Na prática, esse procedimento de busca pode se reduzir a um número limitado de grupos diminuindo o grande número de alternativas que deveriam ser examinadas. Por esse motivo, podemos adotar o método hierárquico divisivo.

Em geral, têm-se um conjunto de regras que determinam as partições. Pode-se dizer que a regra de parada pode ser classificada como livre se nenhuma condição é imposta às partições, ou então como restrita, caso certas condições sejam levadas em consideração. Dentre as restrições, se os grupos formados tiverem elementos consecutivos com relação a alguma ordem fixada no conjunto 1, 2,..., R de índices das observações, a regra é monotônica. Se, por outro lado, os grupos são formados por outro tipo de restrição, então a regra é complexa.

Uma vez estabelecido o objetivo de obter-se grupos homogêneos internamente, é de interesse imediato saber que partições levam ao agrupamento mais homogêneo. Podemos dizer que o problema é semelhante à classificação cruzada múltipla em análise de variância, uma vez que a técnica aglomerativa tenta agrupar tratamentos que têm médias muito próximas. Como cada tratamento é determinado de maneira única pelos níveis dos fatores, os grupos são estabelecidos por meio das relações entre a variável resposta e os fatores. No caso específico de análise de variância com um fator, quando as n observações estão em um único grupo, a soma de quadrados total, SQT, é considerada como medida de homogeneidade, ou mesmo como medida de dispersão, uma vez que representa a variabilidade de todas as observações em relação à média geral −

y . A SQT pode ser decomposta em duas somas de quadrados, SQE e SQTrat, que são denominadas, respectivamente, variação entre tratamentos e variação dentro de tratamentos. Esta última representa uma medida de ajuste do modelo de médias através da medida de distância ou discrepância entre os valores observados e os valores ajustados. Ela é usada como medida de homogeneidade na técnica AID e é uma das opções para se construir o critério de partição ótima.

3 Extenção de métodos de agrupamentos em modelos lineares generalizados.

Sob a suposição de um modelo linear generalizado, Barreto (1993) e Barreto e Demétrio (1995, 1998) estenderam o algoritmo AID adotando, como medida de homogeneidade de grupos, uma estatística baseada na função desvio que tem assintóticamente distribuição qui-quadrado.

A extensão da técnica AID em modelos lineares generalizados possibilita uma nova versão do teste de SCOTT-KNOTT para agrupamentos de níveis de fatores, quando da rejeição de sua igualdade. Ao se procurar grupos homogêneos em um conjunto de dados, uma alternativa seria examinar todas as partições possíveis do conjunto de dados e escolher aquela que é ótima segundo algum critério. O algoritmo AID reduz o número de partições a serem examinadas, calculando a estatística de teste em todas as partições quando os tratamentos estão ordenados por seu valor esperado. O valor máximo dessa estatística é usado no teste assintótico, para verificar se os dois grupos da partição são

Page 5: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

552 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

estatisticamente diferentes. Considerando o modelo de um ensaio completamente ao acaso de K caselas ou

tratamentos com nk repetições por casela, seja ���

����

�+~

1~

ˆ, KyD µ a deviance ou desvio do modelo

associado. O desvio do mesmo ensaio, considerando todas as médias iguais entre si, é dado por

��

���

~1

~ˆ, µyD

.

Seja ��

���

~~ˆ, dyD µ

o desvio do modelo de dois grupos definidos pela partição d no

conjunto de K tratamentos. Barreto (1993) e Barreto e Demétrio (1995) propõem usar a diferença

��

���

�−��

���

�=��

���

�∆~~~

1~

^

~

ˆ,ˆ, dd yDyD µµµ , como uma medida de homogeneidade de dois grupos, indexados pela

partição d uma vez que ��

���

~~ˆ, dyD µ

é uma medida de discrepância do modelo de dois grupos.

Quanto menor o desvio ��

���

~~ˆ, dyD µ

, mais heterogêneos serão os dois grupos. Desse modo,

quanto maior ��

���

�∆^

~dµ , mais heterogêneos serão os grupos formados pela partição d.

Para a escolha da divisão mais promissora, a extensão do algoritmo AID (Barreto,1993; Barreto e Demétrio,1995) usa a estatística

��

���

�∆^

~dµ . Assim, no conjunto de

todas as partições possíveis, escolhe-se aquela que produz a maior redução:

��

��

��

���

�∆=���

����

�∆ possíveispartiçõesasentredmáx d

dd :

^

~

^

~0

µµ (1)

Mostra-se que o desvio do modelo de G grupos, ��

���

�+

^

~1

~; GyD µ varia entre o desvio do

modelo que corresponde à participação mais fina com K grupos, ��

���

�+

^

~1

~; KuyD , e o desvio do

modelo que corresponde à partição mais rudimentar com um único grupo, ��

���

� ^

~1

~; µyD

.

Uma generalização da estatística R2 para modelos com G grupos é dada por:

( )��

���

�−��

���

��

���

�−��

���

=

+

+

^

~1

~

^

~1

~

^

~1

~

^

~1

~2*

;;

;;

K

G

yDyD

yDyDGR

µµ

µµ

que pode ser interpretada como a proporção padronizada do desvio explicada na forma de tais modelos.

Assim a extensão do algoritmo AID em modelos lineares generalizados é dada por: a) Critérios de seleção:

a1) Escolher como grupo a ser dividido aquele que produz a maior redução ��

���

�∆^

~dµ .

Page 6: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 553

a2) Escolher como grupo a ser dividido aquele que produz no passo seguinte a maior

redução ��

���

�∆^

~dµ .

b) Critérios de partição ótima:

b1) Aquela que produz a maior redução de ��

���

�∆^

~dµ .

b2) Aquela que produz a redução ��

���

�∆^

~dµ com o menor nível descritivo.

c) Regras de parada:

c1) O número de elementos nos grupos resultantes é menor que algum número pré-

fixado.

c2) O número total de divisões não alcança certo máximo.

c3) O nível descritivo do máximo da redução ��

���

�∆^

~dµ não é maior que um valor pré-

fixado.

c4) O valor de ( )GR 2* se alterou menos do que um valor pré-fixado em relação à

divisão imediatamente anterior.

Tanto na adoção do critério de partição ótima (b2) como na adoção da regra de parada (c3), é importante o conhecimento da distribuição da estatística

���

����

�∆

^

~0dµ

, que é o

máximo entre as reduções ��

���

�∆^

~dµ possíveis.

Para dados com distribuição binomial, Barreto (1993) e Barreto e Demétrio (1995) verificaram, por simulação, que o máximo da redução

��

���

�∆^

~dµ também apresenta

distribuição aproximadamente proporcional a uma distribuição �2 com K/(π - 2) graus de liberdade e parâmetro de proporcionalidade igual a π/2(π - 2). Esses resultados foram verificados para K, (número de tratamentos), variando de 3 a 10, sendo que a qualidade da aproximação é maior conforme K aumenta.

4 Testes computacionalmente intensivos

O método computacionalmente intensivo de reamostragem bootstrap (Efron, 1979) foi inicialmente utilizado para encontrar o erro padrão de um estimador de um parâmetro. Sendo um método de computação intensiva, apresenta-se como uma técnica muito útil para lidar com problemas estatísticos envolvendo amostras de tamanho pequeno ou moderado, além daqueles que envolvem estimadores cuja distribuição (exata ou assintótica) ainda não foi obtida. O bootstrap tem como idéia principal fazer reamostragem com reposição a partir da amostra aleatória simples original.

O teste de hipótese via método reamostragem bootstrap pode ser utilizado para o

Page 7: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

554 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

caso de uma ou duas amostras. Neste estudo, utiliza-se a situação de duas amostras, z e y, que pertencem às distribuições F e G, respectivamente, independentes entre si, e deseja–se testar a hipótese de nulidade H0 : F=G. O teste de hipótese bootstrap inicia-se com a

estatística teste GF µµθ ˆˆˆ −= , a diferença das médias amostrais. Por conveniência, assume-se que se a hipótese nula H0 não é verdadeira, temos valores maiores que

GF µµθ ˆˆˆ −= , do que quando H0 é falsa.

A função poder indica a probabilidade de se rejeitar a hipótese nula H0, dado possíveis valores do parâmetro de interesse, ou seja P[rejeitar H0| θ]. Pode-se interpretar como a chance de detectar uma real diferença entre as médias, ou seja, detectar a diferença, caso ela realmente exista.

Por outro lado, a função poder indica a probabilidade de rejeitar a hipótese nula H0, quando ela é falsa. Pode-se interpretar como a chance de detectar uma real diferença entre as médias, ou seja, detectar a diferença caso ela realmente exista.

As curvas poder simuladas foram obtidas para as seguintes configurações: o número de tratamentos iguais a R, com nr repetições por tratamentos, sendo os tamanhos de amostras binomiais nb iguais a 1, 10, 100, o parâmetro de interesse indicado por

21 pp −=θ , onde p1 corresponde à probabilidade da binomial dos tratamentos que estão no primeiro subgrupo da partição, e p2, no segundo subgrupo e o erro do tipo I foi fixado em 5%. Para o teste assintótico e o teste bootstrap foram simuladas para os valores �=0,00; 0,05; 0,10; 0,15; 0,20; 0,25; 0,30; 0,35; 0.40 e 0.45, correspondendo a, por exemplo, p1=0,50 e p2=0,50; 0,45; 0,40; 0,35; 0,30; 0,25; 0,10 e 0,05.

Utilizando o método de reamostragem bootstrap, foi elaborado um algoritmo para se obter o teste bootstrap. Considerando um experimento com um fator de classificação com r tratamentos, nr repetições por tratamento e tamanho da amostra binomial igual nb, em um modelo inteiramente ao acaso, à análise deve ser iniciada com o teste para verificar se os tratamentos são diferentes ou não entre si. Dado que são diferentes, podemos iniciar o processo para a obtenção da primeira partição mais promissora.

O algoritmo para o teste bootstrap tem início com a ordenação dos dados pelo seu valor esperado e, em seguida, obtém-se a maior deviance entre as partições do modelo original. Cada reamostra bootstrap é comparada com a deviance do modelo original. No total, são obtidas B amostras bootstrap, o valor-p bootstrap corresponde à diferença entre o número de vezes em que a maior deviance bootstrap é maior que a deviance do modelo original, dividido por B. A seguir, detalha-se o algoritmo bootstrap.

Algoritmo do teste bootstrap

(i) Ordenam-se os tratamentos por seu valor esperado;

(ii) Após a ordenação, calcula-se a deviance dos r-1 modelos correspondentes às partições dicotômicas;

(iii) Seja ∆b a maior deviance do modelo original;

(iv) Faz-se uma reamostragem bootstrap nos dados originais;

(v) Ordenam-se novamente os dados reamostrados, por seu valor esperado;

Page 8: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 555

(vi) Calcula-se a deviance novamente dos r-1 modelos correspondentes às partições dicotômicas;

(vii) Obtém-se a maior deviance ( )10∆ da reamostra bootstrap;

(viii) Repetem-se os passos (iv) a (vii) um número de B-1 vezes, obtendo B valores para ( )•∆ 0 correspondendo à maior deviance;

(ix) Conta-se o número de vezes em que a maior deviance de cada um dos modelos

reamostrados, ( )•∆ 0 , é maior ou igual a deviance do modelo da amostra original,

0∆;

(x) Obtém-se o valor-p dividindo o número obtido em (ix) por B. A partir deste algoritmo, foi realizado o estudo sobre o tamanho da simulação para a

obtenção das curvas poder, considerando nb o tamanho da amostra binomial, r o número de tratamentos e nr o número de repetições por tratamentos, seja θ a diferença entre p1 e p2, onde p1 corresponde à probabilidade da binomial dos tratamentos que estão no primeiro subgrupo da partição e, p2, no segundo subgrupo.

O estudo inicial sobre o tamanho da simulação para a construção da curva poder do teste assintótico consistiu em calcular a probabilidade de rejeitar H0, dado que 10,0=θ , considerando o tamanho da simulação SA = 2,3,4,...,1500. Verificou-se que a partir de 1000 replicações o processo já estava estabilizado nas 4 simulações. Assim, o tamanho da simulação adotado no estudo foi de SA = 1000 replicações.

Para determinar o número necessário de reamostragens bootstrap, calculou-se a probabilidade de rejeitar H0, dado que 10,0=θ , considerando o tamanho da simulação B=2, 3, 4,..., 500. De maneira análoga ao teste assintótico, este procedimento repetiu-se 4 vezes com sementes distintas: 515, 525, 540 e 550. Adotou-se B igual a 250.

A partir dos resultados obtidos na reamostragem bootstrap, calculou-se o ponto de equilíbrio da simulação do teste bootstrap. De maneira análoga ao teste assintótico, a curva poder simulada foi repetida 4 vezes com sementes distintas: 515, 525, 540 e 550, considerando o tamanho da simulação SB=2, 3, 4,..., 1500.

O programa desenvolvido especialmente para a determinação do tamanho do algoritmo do teste bootstrap, foi programado no software R 2.2.0 project -CRAN. Em todas as curvas adotou-se SB igual a 1000. Tem-se que a notação a partir de agora será S = SA = SB = máximo, ou seja, S é o valor máximo obtido para a simulação S=1000.

5 O experimento com couve chinesa (Brassic pekinensis).

Apresenta-se um exemplo da aplicação da extensão do algoritmo AID em um experimento com couve chinesa (Brassic pekinensis). O experimento foi instalado e conduzido em casa de vegetação, em vasos de 8 dm³, com uma planta por vaso, no Setor de Olericultura e Plantas Aromático-Medicinais, que pertence ao Departamento de Produção Vegetal de FCAV – UNESP, Jaboticabal – SP, no período de novembro de 2001 a fevereiro de 2002, conforme relatado por Presotti (2002). Com o objetivo de avaliar quatro doses de potássio (100, 150, 200 e 250 mg de potássio por dm³ de solo) e

Page 9: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

556 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

três híbridos (Komachi (K), Taibyo (T) e Nangoku (N)) de couve-chinesa, num esquema fatorial, que aqui é considerado como 12 tratamentos com 6 repetições cada, os sintomas visuais de deficiência de potássio nas folhas foram observadas e anotadas quanto a sua presença (1) ou ausência (0). Os dados e as médias por tratamentos estão descritos na Tabela 1.

Tabela 1 - Resultados da presença (1) ou ausência (0) do sintoma visual de deficiência de potássio nas folhas de couve chinesa (Brassic pekinensis) e as médias dos tratamentos

Tratamentos (Doses; híbridos)

Repetições I II III IV V VI

Médias

1 (100,K) 1 1 1 1 1 1 6/6 2 (100,T) 0 1 1 1 1 1 5/6 3 (100,N) 0 1 0 0 0 0 1/6 4 (150,K) 1 1 1 1 1 1 6/6 5 (150,T) 1 0 1 0 0 0 2/6 6 (150,N) 0 0 0 0 0 0 0/6 7 (200,K) 1 1 1 1 1 1 6/6 8 (200,N) 0 0 0 1 1 0 2/6 9 (200,T) 0 0 0 0 0 0 0/6

10 (250,K) 0 1 1 1 0 1 4/6 11 (250,T) 0 0 0 1 0 0 1/6 12 (250,N) 0 0 0 0 0 0 0/6

A análise do desvio correspondente ao modelo que supõe distribuição binomial para

a variável resposta, presença/ausência de deficiência de potássio, e a função de ligação logística encontram-se na Tabela 2.

Tabela 2 - Análise do desvio da deficiência de potássio em um delineamento com 12 tratamentos e 6 repetições

Fonte de variação DF Deviance p-valor Tratamento 11 60.18 <.0,001 Resíduos 60 39.13

Como existe diferença entre tratamentos (valor-p inferior a 0,05), utilizou-se a

extensão do algoritmo AID em modelos lineares generalizados para se fazer o agrupamento de médias, considerando como critério de seleção a maior redução de

��

���

�∆^

~dµ ,

como critério de partição ótima a que produz a partição com o menor nível descritivo e, como regra de parada, o nível descritivo do máximo da redução

��

���

�∆^

~dµ não é maior que

1%. A Tabela 3 apresenta os resultados do teste assintótico e a Tabela 4, do teste bootstrap.

A formação da árvore começou pelo nó (1) da Tabela 3, com o cálculo da estatística

0∆ cujo valor foi de 4,53 e o número de graus de liberdade associado é ( )2−πR igual a

Page 10: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 557

10,51, e o nível descritivo é %003,0=α . Para a escolha da próxima partição dicotômica, calculou-se o valor da estatística 0∆ no passo seguinte: para o nó (2), seu valor foi de 7,45 com ( )2−πR igual a 6,13 graus de liberdade e nível descritivo de 50,73%, e para o

nó (3), 0∆ igual a 6,01 com ( )2−πR igual a 4,38 graus de liberdade e nível descritivo de 41,18%. Com esses resultados, os nós (2) e (3) não devem ser divididos. Ao final do algoritmo, obtiveram-se os grupos: {6,9,12,3,11,5,8} e {10,2,1,4,7}. Adotando-se o nível de significância individual de 1% de probabilidade, o nível geral é de l - (l - 0,01)2 = 1,99%.

Tabela 3 - Resumo dos resultados do algoritmo de divisão dicotômica usando o teste assintótico, considerando como critério de seleção (a1), como critério de partição ótima (b2) e, como regra de parada, o nível descritivo do máximo da redução não é maior que 1% (c3)

NÓ 0∆ ( )2−πR

Valor-p Grupos

1 4,53 10,51 0,003% (6,9,12,3,11,5,8) e (10,2,1,4,7) 2 7,45 6,13 50,73% (6,9,12) e (3,11,5,8) 3 6,01 4,38 41,18% (10,2) e (1,4,7) Na Tabela 4, estão os resultados da construção da árvore de divisão dicotômica

usando o teste bootstrap no cálculo do nível descritivo do máximo da redução ��

���

�∆^

~dµ como

regra de parada.

Tabela 4 - Resumo dos resultados do algoritmo de divisão dicotômica usando o teste bootstrap, considerando como critério de seleção (a1), como critério de partição ótima (b2), e como regra de parada, o nível descritivo do máximo da redução não é maior que 1% (c3)

NÓ 0∆ ( )2−πR

valor-p Grupos

1 45,35 10,51 0,004% (6,9,12,3,11,5,8) e (10,2,1,4,7) 2 31,28 6,13 0,004% (11,6,9) e (5,3,8,12) 3 6,01 4,37 20,32% (10,2) e (1,4,7) 4 2,32 2,62 48,21% (11) e (6,9) 5 3,29 3,50 0,004% (12) e (3,5,8) 6 0,58 2,62 85,65% (3) e (5,8) A formação da árvore começou pelo nó (1) da Tabela 4, com o cálculo da estatística

0∆ , cujo valor foi de 45,35 e o número de graus de liberdade associado é ( )2−πR igual a 10,51, e o nível descritivo é %004,0=α . Para a escolha da próxima partição dicotômica, calculou-se o valor da estatística 0∆ no passo seguinte: para o nó (2), seu valor foi de 31,28 com ( )2−πR igual a 6,13 graus de liberdade e nível descritivo de %004,0=α e,

Page 11: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

558 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

para o nó (3), 0∆ igual a 2,32 com ( )2−πR igual a 2,62 graus de liberdade e nível descritivo de 48,21%. Desse modo, a segunda divisão escolhida deve ser feita no nó (2). Como o nível descritivo é inferior a 1% de probabilidade, examinam-se as partições no passo seguinte: para o nó (4), 0∆ é igual a 3,39 com ( )2−πR igual a 3,50 graus de liberdade e nível descritivo de 0,004% e, para o nó (5), 0∆ é igual a 0,58 com ( )2−πR igual a 2,62 graus de liberdade e nível descritivo de 85,65%. Com esses resultados, chegou-se à conclusão de que esse nó não deve ser dividido. Ao examinar o nó (4), deve-se aceitar a divisão em dois grupos e passa-se a examinar o nó (6). O valor de 0∆ é igual

a 4,37 com ( )2−πR igual a 4,37 graus de liberdade e nível descritivo de 20,32%. Portanto, o nó (6) não deve ser mais dividido.

Ao final do algoritmo obtiveram-se os grupos: {12}, {3,5,8} e {10,2,1,4,7}. Adotando-se o nível de significância individual de 1% de probabilidade, o nível geral é de l - (l - 0,01)3 = 2,97%.

Ao comparar os dois testes, verifica-se que os grupos formados pelo teste bootstrap e o teste assintótico são distintos, ou seja, o teste bootstrap possui 4 grupos: {10,2,1,4,7}, {6,9,11}, {12} e {3,5,8}, onde os grupos representam as seguintes combinações: {(250,K), (100,T), (100,K), (150,K), (200,K)}, {(150,N), (200,N), (250,T)}, {(250,N)} e {(100,N), (150,T), (200,T)}; e o teste assintótico, dois grupos: {6,9,12,3,11,5,8} e {10,2,1,4,7}, onde os grupos representam os seguintes híbridos:, {(150,N), (200,N), (250,T), (250,N), (100,N), (150,T), (200,T)} e {(250,K), (100,T), (100,K), (150,K), (200,K)}.

6 Resultados

Conforme foi visto, os pontos de equilíbrio para o tamanho da reamostragem bootstrap e o tamanho da simulação para obtenção da curva poder foram, respectivamente, SB=250 e S=1000. Usando esses parâmetros, apresenta-se o estudo via simulação para as curvas poder do teste bootstrap e do teste assintótico, na situação específica de delineamentos inteiramente ao acaso, com R=3, 5, 8 e 12 tratamentos, n=nr=5 e 10 repetições por tratamento e o valor da amostra binomial nb=1, 10 e 100.

Apresentam-se os resultados obtidos, via simulação, para o teste assintótico e o teste bootstrap quando o tamanho da amostra binomial é igual a 1. As Figuras 1 e 2 contêm algumas características obtidas por meio da simulação, referentes ao desempenho das curvas poder considerando o tamanho da amostra binomial igual nb=1, R=3, 5, 8 e 12 tratamentos, com n=5 e 10 repetições por tratamento. As curvas poder bootstrap e assintótica foram colocadas na mesma figura com o objetivo de verificar qual dos testes é mais poderoso.

Por outro lado, ao se comparar as curvas poder simuladas bootstrap pode-se verificar, por meio da Figura 1, que o poder aumenta à medida que se aumenta o número de tratamentos. Esse comportamento, entretanto, é mais moderado entre as curvas poder simuladas assintóticas.

Considerando o tamanho da amostra binomial igual a 10, as Figuras 3 e 4 apresentam alguns resultados referentes ao desempenho das curvas poder, em que são considerados os tamanhos das amostras binomiais nb=10, para delineamentos inteiramente ao acaso com R=3, 5, 8 e 12 tratamentos, n=5 e 10 repetições por tratamento.

Page 12: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 559

Pode-se notar, por meio da Figura 3, que quando o número de repetições por tratamento é igual n=5 e os valores de θ estão entre 0,0 ≤ θ ≤ 0,15, a curva poder simulada do teste bootstrap sempre domina a curva poder simulada do teste assintótico, sendo, entretanto, o poder pequeno em ambos os casos. Já para valores de θ acima 0,20 o poder dos dois testes aumenta rapidamente, apresentando uma discreta diferença do aumento do poder, conforme o número de tratamentos aumenta. Observa-se, também, por meio da Figura 3, uma melhora no poder do teste bootstrap e do teste assintótico quando o número de tratamentos aumenta, ou seja, quando R=5, 8 e 12, mas neste caso, os dois são praticamente iguais.

A Figura 4 apresenta as curvas poder simuladas dos testes bootstrap e assintótico quando o número de repetições por tratamento é igual n=10. De uma maneira geral, o comportamento das curvas poder simuladas é análogo ao obtido na Figura 4, sendo que existe um domínio acentuado da curva poder bootstrap para valores de θ entre 0,0 e 0,10. Por outro lado, o poder já está próximo de 1 para valores de θ acima de 0,25, considerando R=3 e 5. Para valores de R=8 e 12, o poder aproxima- se de 1 para valores de θ superiores ou iguais a 0,20.

Por fim tendo o tamanho da amostra binomial igual a 100, as curvas poder simuladas apresentadas nas Figuras 5 e 6 referem-se a delineamentos em que o tamanho da binomial é igual a 100.

A análise detalhada desses elementos revela que o poder dos dois testes é alto e que são praticamente semelhantes, não havendo distinção entre eles em relação ao número de tratamentos e número de repetições por tratamento.

Fazendo uma analogia geral sobre os testes, temos para o teste assintótico e o teste bootstrap. As Figuras 7 e 8 procuram reunir as curvas poder simuladas dos testes bootstrap e assintótico, considerando, respectivamente, o número de repetições por tratamento igual a 5 e 10.

A análise conjunta evidencia que, conforme aumenta o tamanho da amostra binomial, o poder simulado dos dois testes aumenta rapidamente. Por outro lado, esse comportamento é mais acentuado conforme aumenta-se o número de tratamentos.

Vale ressaltar que, para o caso extremo em que o tamanho da binomial é igual a 1 e o número de tratamentos igual a 8 e 12, a curva poder simulada bootstrap é destacadamente superior à curva poder simulada assintótica para o número de repetições por tratamentos estudados.

Conclusões

Realizou-se, neste trabalho, um amplo estudo via simulação, buscando avaliar o comportamento das curvas poder do teste assintótico e do teste bootstrap, quando da utilização da extensão do algoritmo AID em modelos lineares generalizados para delineamentos inteiramente ao acaso. Foram levados em consideração 4 diferentes números de tratamentos (R), 3 diferentes tamanhos das amostras binomiais (nb) e 2 números de repetições por tratamento (nr), ou seja, R=3,5,8, e 12, nb=1,10 e10 e n=5 e 10.

Verificou-se que, quando o tamanho da amostra binomial é igual a 1 e o número de repetições por tratamento n=5, o poder aumenta na medida em que se aumenta o número de tratamentos. Esse comportamento, entretanto, é mais moderado entre as curvas poder simuladas assintóticas. Ressalta-se, também, que as curvas poder para n=10 dominam as

Page 13: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

560 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

curvas poder para n=5. Ao considerar o tamanho da amostra binomial igual a 10, o número de repetições por

tratamento igual n=5 e valores de θ entre 0,0 e 0,15, a curva poder simulada do teste bootstrap sempre domina a curva poder simulada do teste assintótico, sendo o poder pequeno em ambos os casos. Já para valores de θ acima de 0,20, o poder dos dois testes aumenta rapidamente, apresentando uma discreta diferença do aumento do poder conforme o número de tratamentos aumenta. Com relação ao tamanho da binomial igual nb=10, as curvas poder dos testes bootstrap e assintótico possuem, de uma maneira geral, um comportamento análogo ao obtido para n=5, sendo que existe um domínio acentuado da curva poder bootstrap para valores de θ entre 0,0 e 0,10. Por outro lado, o poder já está próximo de 1 para valores de θ acima de 0,25, considerando R=3 e 5, e, para valores de R=8 e 12, o poder aproxima-se de 1 para valores de θ superiores ou iguais a 0,20.

Finalmente, quando o tamanho da amostra binomial é igual a 100, observa-se que as curvas poder dos testes assintóticos e bootstrap possuem um poder alto e são praticamente semelhantes, não havendo distinção entre eles em relação ao número de tratamentos e número de repetições por tratamento.

Desse modo, de uma maneira geral, os dois testes têm o mesmo poder simulado. O teste bootstrap é mais poderoso que o teste assintótico quando o tamanho da binomial é pequeno (nb=1) em todas as situações, inclusive considerando o número de tratamentos (R) estudados. Além disso à medida que o número de repetições por tratamento aumenta, mais poderoso é o teste bootstrap.

O experimento com couve chinesa foi analisado e as árvores de divisão dicotômica foram apresentadas utilizando o teste assintótico e o teste bootstrap. Os grupos formados foram distintos apesar de se usar o mesmo critério de seleção, o mesmo critério de partição ótima e a mesma regra de parada. Como o teste bootstrap para essa situação é mais poderoso, podemos assegurar que os grupos formados pelo teste bootstrap realmente apresentam diferença significativa.

PRESOTTI, C. V.; BARRETO , M. C. M. A modified extension of the AID algorithm for generalized linear models using bootstrap resampling. Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009.

� ABSTRACT: Cluster analysis is a set of statistical techniques that identified distinct subsets or classes of individuals mutually excluding based on their similarities. For the case of only one respondent variable and several explanatory variables, some procedures can be used like multiple comparisons of means and cluster techniques. Under the assumption of a distribution different from the Gaussian for the response variable, an extension of the Automatic Interaction Detection (AID) technique may be used. This extension for generalized linear models has adopted a function of the deviance as measure of homogeneity of groups. In this work, we present the extension of AID technique using the bootstrap resampling method and its application in a completely randomized design. The performance of the bootstrap resample and the asymptotic test are compared in a simulation study of their power function for binomial sample of size nb, with r treatments and nr replications for treatment. The simulation results have showed that the power of both tests increase with the size of binomial sampling. For the other hand, this behavior is more intensive when the number of treatments increases. For the extreme situation of the size of binomial sample is equal to 1 and the number of treatments is between 8 to 12, the simulated power function of bootstrap resample domains the asymptotic power function.

� KEYWORDS: AID technique; bootstrap resample; generalized linear models; SCOTT-KNOTT test.

Page 14: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 561

Referências

BARRETO, M. C. M; DEMÉTRIO, C. G. B. Um estudo da distribuição assintótica da medida de homogeneidade entre grupos da extensão da técnica de agrupamento AID considerando a distribuição de Poisson. Rev. Mat. Estat., São Paulo, v.16, p.191-207, 1998.

BARRETO, M. C. M; DEMÉTRIO, C. G. B. Uma extensão da técnica AID em modelos lineares generalizados. Rev. Mat. Estat., São Paulo, v.30, p.141-154, 1995.

BARRETO, M. C. M. Uma extensão da técnica AID em modelos lineares generalizados, 1993, 200f. Tese (Doutorado em Estatística e Experimentação Agronômica) - Escola Superior de Agronomia Luiz de Queiroz, Universidade de São Paulo, Piracicaba, 1993.

BORGES, L. C.; Poder e taxas de erro I dos testes Scott-Knott sob distribuições normais e não normais dos resíduos. 2002. 96f. Dissertação (Mestrado em Agronomia) – Centro de Estatística e Experimentação Agropecuária, Universidade Federal de Lavras, Lavras, 2002.

BUSSAB.W.O.; MORETTIN. P.A.: Estatística básica. 5 ed. São Paulo: Editora Saraiva. 2004. 526p

EFRON, B. Bootstrap methods: another look at the Jackknife. Ann. Stat., Rockville, v.7, p.126, 1979.

FERREIRA. D F; MUNIZ, J. A, AQUINO, L. H. Comparações múltiplas em experimentos com grande número de tratamentos – utilização do teste de SCOTT-KNOTT. Ciênc. Agrotecn., Lavras, v.23, n.3, p.745-742, 1999.

MORGAN, J. N.; SONQUIST, J. A. Problems in the analysis of survey data. J. Am. Stat. Assoc., New York, v.58, p.415-434, 1963.

PRESOTTI, C. V. Uma modificação da extensão do algoritmo AID para modelos lineares generalizados usando reamostragem Bootstrap. 2006, 93p. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2006.

PRESOTTI, L. E. Adubação potássica na cultura da couve-chinesa (Brassica pekinensis). 34f. Monografia (Graduação em Agronomia) – Faculdade de Ciências Agrárias e Veterinárias, Universidade Estadual Paulista, Jaboticabal, 2002.

SANTOS. C. Novas alternativas de testes de agrupamento avaliadas por meio de simulação Monte Carlo. 2000 85f. Dissertação (Mestrado em Agronomia) – Centro de Estatística e Experimentação Agropecuária, Universidade Federal de Lavras, Lavras, 2000.

SCOTT, A. J.; KNOTT, M. A cluster analysis method for grouping means in the analysis of variance. Biometrics, Washington, v. 30, n.2 p.507-512, 1974.

SILVA. E. C. Avaliação do poder e taxas de erro tipo I do teste de Scott-Knott por meio do método de Monte Carlo. 1998. 54p. Dissertação (Mestrado em Agronomia) – Centro de Estatística e Experimentação Agropecuária, Universidade Federal de Lavras, Lavras, 1998.

Recebido em 00.00.2009.

Aprovado após revisão 00.00.2009.

Page 15: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

478 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.1.3.5

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.1.5.5

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.1.8.5

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.1.12.5

tetha

Cur

va P

oder

PoderBootPoderAssint

Figura 1 - Curva Poder do Teste Assintótico e do Teste Bootstrap para o tamanho da binomial nb=1, R=3,5,8,12 tratamentos e n=5 por tratamento.

Page 16: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 479

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.1.3.10

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.1.5.10

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.1.8.10

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.1.12.10

tetha

Cur

va P

oder

PoderBootPoderAssint

Figura 2 - Curva Poder do Teste Assintótico e do Teste Bootstrap para o tamanho da binomial nb=1, R=3,5,8,12 tratamentos e n=10 por tratamento.

Page 17: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

480 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.10.3.5

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.10.5.5

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.10.8.5

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.10.12.5

tetha

Cur

va P

oder

PoderBootPoderAssint

Figura 3 - Curva Poder do Teste Assintótico e do Teste Bootstrap para o tamanho da binomial nb=10, R=3,5,8,12 tratamentos e n=5 por tratamento.

Page 18: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 481

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.10.3.10

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.10.5.10

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.10.8.10

tetha

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.10.12.10

tetha

Cur

va P

oder

PoderBootPoderAssint

Figura 4 - Curva Poder do Teste Assintótico e do Teste Bootstrap para o tamanho da binomial nb=10, R=3,5,8,12 tratamentos e n=10 por

tratamento.

Page 19: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

482 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.100.3.5

tetha1

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.100.5.5

tetha1

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.100.8.5

tetha1

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.100.12.5

tetha1

Cur

va P

oder

PoderBootPoderAssint

Figura 5 - Curva Poder do Teste Assintótico e do Teste Bootstrap para o tamanho da binomial nb=10, R=3,5,8,12 tratamentos e n=5 por tratamento.

Page 20: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 483

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.100.3.10

tetha1

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.100.5.10

tetha1

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.100.8.10

tetha1

Cur

va P

oder

PoderBootPoderAssint

0.0 0.1 0.2 0.3 0.4

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Boot.Assint.100.12.10

tetha1

Cur

va P

oder

PoderBootPoderAssint

Figura 6 - Curva Poder do Teste Assintótico e do Teste Bootstrap para o tamanho da binomial nb=10, R=3,5,8,12 tratamentos e n=10 por

tratamento.

Page 21: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

484 Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009

0.0 0.1 0.2 0.3 0.40.

00.

40.

81.

2

Boot.Assint.1.3.5

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.1.5.5

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.1.8.5

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.1.12.5

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.10.3.5

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.10.5.5

tethaC

urva

Pod

er

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.10.8.5

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.10.12.5

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.100.3.5

tetha1

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.100.5.5

tetha1

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.100.8.5

tetha1

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.100.12.5

tetha1

Cur

va P

oder

Figura 7 - Curva Poder do Teste Assintótico e do Teste Bootstrap para o tamanho da binomial nb=1,10,100, R=3,5,8,12 tratamentos e n=5 por

tratamento e -•- PoderBoot e -�- PoderAssint.

Page 22: UMA MODIFICAÇÃO DA EXTENSÃO DO ALGORITMO AID E …jaguar.fcav.unesp.br/RME/fasciculos/v27/v27_n4/A4_Catia.pdf · A análise de agrupamento é um conjunto de técnicas estatísticas

Rev. Bras. Biom., São Paulo, v.27, n.4, p.548-585, 2009 485

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.1.3.10

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.1.5.10

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.1.8.10

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.1.12.10

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.10.3.10

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.10.5.10

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.10.8.10

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.10.12.10

tetha

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.100.3.10

tetha1

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.100.5.10

tetha1

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.100.8.10

tetha1

Cur

va P

oder

0.0 0.1 0.2 0.3 0.4

0.0

0.4

0.8

1.2

Boot.Assint.100.12.10

tetha1

Cur

va P

oder

Figura 8 - Curva Poder do Teste Assintótico e do Teste Bootstrap para o tamanho da binomial nb=1,10, 100, R=3,5,8,12 tratamentos e n=10 por

tratamento e -•- PoderBoot e -�- PoderAssint.