Comparação de rotas de coleta de leite usando métodos não ...ingepro.com.br/Publ_2011/Marc/417...

8
INGEPRO Inovação, Gestão e Produção Março de 2011, vol. 03, n o . 03 ISSN 1984-6193 www.ingepro.com.br 53 Comparação de rotas de coleta de leite usando métodos não-paramétricos Enio Júnior Seidel <[email protected]> Luis Felipe Dias Lopes <[email protected]> Angela Pellegrin Ansuj <[email protected]> Resumo: O objetivo deste trabalho é desenvolver um estudo utilizando abordagens não- paramétricas univariada e multivariada para comparação entre grupos, que serão aplicadas em rotas de coleta de leite, com base nas variáveis físico-químicas do produto. Foram consideradas 81 observações coletadas no período de outubro a dezembro de 2007, em três rotas de coleta do leite denominadas de rota 1, rota 2 e rota 3, realizadas por uma usina de laticínios. As variáveis consideradas na análise foram: Água Excedente (%); Acidez (ºD); Gordura (%); Densidade (g/mL); Lactose (%) e Proteínas (%). Inicialmente, compararam-se as rotas utilizando o método não-paramétrico univariado. Por esse método, verificou-se diferença significativa entre as rotas apenas para a variável água excedente. Após, realizou- se a comparação pelo método multivariado, onde, verificou-se que não ocorreram diferenças significativas entre as rotas. Palavras-chave: Comparação de rotas; Variáveis físico-químicas; Análise de variância univariada não-paramétrica; Análise de variância multivariada não-paramétrica. Comparison of milk collection routes using nonparametric methods Abstract: The objective of this work is to develop a study utilizing non-parametric univariate and multivariate approaches for comparison between milk collection routes, on the basis of physico-chemical variables of the product. 81 observations were collected in the period of October to December of 2007, in three milk collection routes named as route 1, route 2 and route 3, carried out by a dairy products factory. The variables considered in the analysis were: Excess Water (%); Acidity (ºD); Fat (%); Density (g/ml); Lactose (%) and Proteins (%). Initially, the routes were compared utilizing the non-parametric univariate approach. From the analysis, it is verified that there were significant differences between the routes only for the variable excess water. After, the routes were compared using multivariate approach, from which, it is verified that there were no significant differences occurred between the routes. Keywords: Comparison of routes; Physico-chemical variables; Non-parametric univariate analysis of variance; Non-parametric multivariate analysis of variance. 1. Introdução A comparação entre grupos, considerando uma única variável resposta, pode ser efetuada utilizando-se o procedimento não-paramétrico de análise de variância de Kruskal-

Transcript of Comparação de rotas de coleta de leite usando métodos não ...ingepro.com.br/Publ_2011/Marc/417...

INGEPRO – Inovação, Gestão e Produção

Março de 2011, vol. 03, no. 03

ISSN 1984-6193 www.ingepro.com.br

53

Comparação de rotas de coleta de leite usando métodos

não-paramétricos

Enio Júnior Seidel <[email protected]> Luis Felipe Dias Lopes <[email protected]>

Angela Pellegrin Ansuj <[email protected]>

Resumo: O objetivo deste trabalho é desenvolver um estudo utilizando abordagens não-

paramétricas univariada e multivariada para comparação entre grupos, que serão aplicadas

em rotas de coleta de leite, com base nas variáveis físico-químicas do produto. Foram

consideradas 81 observações coletadas no período de outubro a dezembro de 2007, em três

rotas de coleta do leite denominadas de rota 1, rota 2 e rota 3, realizadas por uma usina de

laticínios. As variáveis consideradas na análise foram: Água Excedente (%); Acidez (ºD);

Gordura (%); Densidade (g/mL); Lactose (%) e Proteínas (%). Inicialmente, compararam-se

as rotas utilizando o método não-paramétrico univariado. Por esse método, verificou-se

diferença significativa entre as rotas apenas para a variável água excedente. Após, realizou-

se a comparação pelo método multivariado, onde, verificou-se que não ocorreram diferenças

significativas entre as rotas.

Palavras-chave: Comparação de rotas; Variáveis físico-químicas; Análise de variância

univariada não-paramétrica; Análise de variância multivariada não-paramétrica.

Comparison of milk collection routes using nonparametric methods

Abstract: The objective of this work is to develop a study utilizing non-parametric univariate

and multivariate approaches for comparison between milk collection routes, on the basis of

physico-chemical variables of the product. 81 observations were collected in the period of

October to December of 2007, in three milk collection routes named as route 1, route 2 and

route 3, carried out by a dairy products factory. The variables considered in the analysis

were: Excess Water (%); Acidity (ºD); Fat (%); Density (g/ml); Lactose (%) and Proteins

(%). Initially, the routes were compared utilizing the non-parametric univariate approach.

From the analysis, it is verified that there were significant differences between the routes only

for the variable excess water. After, the routes were compared using multivariate approach,

from which, it is verified that there were no significant differences occurred between the

routes.

Keywords: Comparison of routes; Physico-chemical variables; Non-parametric univariate

analysis of variance; Non-parametric multivariate analysis of variance.

1. Introdução

A comparação entre grupos, considerando uma única variável resposta, pode ser efetuada utilizando-se o procedimento não-paramétrico de análise de variância de Kruskal-

INGEPRO – Inovação, Gestão e Produção

Março de 2011, vol. 03, no. 03

ISSN 1984-6193 www.ingepro.com.br

54

Wallis (GIBBONS; CHAKRABORTI, 1992) e o teste Wilcoxon-Mann-Whitney (SIEGEL; CASTELLAN JR, 2006) quando as pressuposições associadas ao procedimento paramétrico não são satisfeitas.

Contudo, quando múltiplas variáveis estão sendo medidas, utilizar uma abordagem univariada para comparar grupos exige a realização de vários testes univariados, o que dificulta a interpretação dos resultados, pois pode haver diferenças em relação a uma variável, mas não em relação à outra variável.

Desse modo, a incorporação de várias variáveis deve levar em conta o inter-relacionamento entre elas e melhorar a eficiência da análise dos dados. Segundo Pontes (2005), em geral, as diferenças entre grupos ou populações não dependem somente de uma variável, mas do conjunto delas.

Assim, a abordagem multivariada é a mais aconselhada quando se têm 1p variáveis respostas a serem consideradas para avaliar diferenças entre grupos. Neste caso, pode-se utilizar um procedimento multivariado não-paramétrico, se as pressuposições para a utilização de um procedimento paramétrico não forem satisfeitas.

Alguns trabalhos podem ser destacados no que tange a busca por um procedimento não-paramétrico para a análise de variância multivariada como: os trabalhos de Katz e Mcsweeney (1980), Zwick (1985) e Anderson (2001).

Nesta pesquisa, o procedimento utilizado baseia-se no estudo realizado por Anderson (2001), onde se apresenta uma proposta de utilização de análise de variância multivariada permutacional.

O objetivo deste trabalho é desenvolver um estudo utilizando abordagens não-paramétricas univariada e multivariada para comparação de rotas de coleta de leite, com base nas variáveis físico-químicas do produto. Este trabalho se justifica pela busca em contribuir para uma maior difusão dos procedimentos multivariados não-paramétricos.

2. Metodologia da pesquisa

A presente pesquisa constitui-se de um estudo comparativo entre grupos de fornecedores de leite, caracterizados pelas rotas de coleta utilizadas por uma usina de laticínios, através das análises de variância não-paramétricas univariada e multivariada.

Foram consideradas 81 observações coletadas no período de outubro a dezembro de 2007, em três rotas de coleta de leite, denominadas de rota 1, rota 2 e rota 3, sendo 13 fornecedores da rota 1; 34 da rota 2 e; 34 da rota 3.

As variáveis consideradas foram: água excedente (%); acidez (ºD); gordura (%); densidade (g/mL); lactose (%) e proteínas (%).

Para testar a normalidade dos dados foram utilizados o teste de Shapiro Wilk (no caso univariado) e uma extensão do teste de Shapiro Wilk (no caso multivariado).

Inicialmente, foram comparadas as rotas de coleta do leite utilizando métodos não-paramétricos univariados. Foram utilizados os procedimentos de análise de variância de Kruskal-Wallis e o teste Wilcoxon-Mann-Whitney.

Após, foi utilizado o procedimento não-paramétrico multivariado, com a abordagem proposta por Anderson (2001), por meio da análise de variância multivariada permutacional.

INGEPRO – Inovação, Gestão e Produção

Março de 2011, vol. 03, no. 03

ISSN 1984-6193 www.ingepro.com.br

55

Para a aplicação das técnicas e desenvolvimento do estudo utilizou-se o software R (R DEVELOPMENT CORE TEAM, 2007).

3. Análise de Variância Univariada Não-Paramétrica

O teste de Shapiro Wilk, ou teste W, é utilizado para verificar se os dados seguem uma distribuição normal. As hipóteses a serem testadas são:

H0: os dados seguem distribuição normal; H1: os dados não seguem distribuição normal.

Rejeita-se a hipótese H0 se o valor de W do teste for demasiadamente pequeno (SCHNEIDER; SCHNEIDER; SOUZA, 2009).

A técnica de Kruskal-Wallis testa a hipótese de que as k amostras provêm da mesma população ou de populações idênticas com a mesma mediana. As hipóteses a serem testadas são: H0: k ...21 ;

H1: ji para alguns grupos i e j .

onde: j representa a mediana para o j - ésimo grupo.

Se a hipótese alternativa for verdadeira, pelo menos dois grupos têm medianas diferentes entre si.

No cálculo do teste de Kruskal-Wallis, as n observações são substituídas por postos, isto é, todos os escores de todas as k amostras são colocados juntos e organizados através de postos em uma única série. Ao menor valor é atribuído o posto 1, ao seguinte menor valor é atribuído o posto 2 e ao maior valor é atribuído o posto n , onde o n é o número total de observações independentes nas k amostras (SIEGEL; CASTELLAN JR, 2006). Caso haja empate entre escores, atribui-se o posto médio para esses escores (GONÇALVES, 2002).

Após a distribuição dos postos entre os valores, somam-se estes valores para cada amostra. Com as somas é possível encontrar o posto médio para cada amostra. De acordo com Siegel e Castellan Jr (2006), se as amostras são da mesma população ou de populações idênticas, os postos médios devem ser quase os mesmos.

A estatística do teste é denominada de H , tendo distribuição igual à do 2 , com graus de liberdade iguais ao número de tratamentos menos 1 (RODRIGUES, 1976).

A estatística H é calculada pela expressão (GIBBONS; CHAKRABORTI, 1992):

13

1

12

1

2

nRnnn

Hk

j

jj

onde: k é o número de amostras; jn é o número de casos na j -ésima amostra; n é o

número de casos na amostra combinada (soma dos jn ’s) e; jR é a média dos postos na j -ésima amostra.

Quando ocorrem empates entre dois ou mais escores, deve-se ter cuidado, pois a variância da distribuição amostral de H é influenciada por empates. Para corrigir o efeito dos empates, a nova expressão para H é (GIBBONS; CHAKRABORTI, 1992):

INGEPRO – Inovação, Gestão e Produção

Março de 2011, vol. 03, no. 03

ISSN 1984-6193 www.ingepro.com.br

56

nn

tt

nRnnn

Hg

i

ii

k

j

jj

3

1

3

1

2

1

131

12

Se a probabilidade associada com o valor observado para H é igual ou menor do que o nível de significância preestabelecido, rejeita-se a hipótese H0.

Desde que se verifiquem diferenças significativas entre k grupos através da análise de variância de Kruskal-Wallis, é interessante verificar quais desses k grupos diferem significativamente entre si. Para isso pode-se utilizar o teste de Wilcoxon-Mann-Whitney (SIEGEL; CASTELLAN JR, 2006).

4. Análise de Variância Multivariada Não-Paramétrica

Considerando o caso univariado, se o interesse for testar a normalidade dos dados, um dos testes mais utilizados é o teste de Shapiro-Wilk.

No caso multivariado, uma possibilidade para testar a normalidade é a utilização da extensão multivariada do teste de Shapiro-Wilk. Esta extensão é baseada na generalização multivariada do teste proposto por Domanski em 1998 (CANTELMO; FERREIRA, 2007). Ainda, segundo os autores, esta generalização busca uma combinação linear das p variáveis originais e aplica-se o teste de Shapiro-Wilk nesta nova variável.

Para comparar as rotas no caso multivariado toma-se uso da análise de variância multivariada permutacional. Este procedimento não-paramétrico leva em consideração medidas de distâncias entre pares de observações, que são comparadas dentro do mesmo grupo contra as distâncias em diferentes grupos. Além disso, usam-se permutações de observações para obter a probabilidade associada com a hipótese nula de igualdade entre grupos (ANDERSON, 2001). Segundo Anderson (2001), a soma de quadrados total pode ser definida como:

1

1 1

21 N

i

N

ij

ijT dN

SS

A soma de quadrados dentro de grupo é dada por:

1

1 1

21 N

i

N

ij

ijijW dn

SS

Em que ij vale 1 (um) se as observações i e j são do mesmo grupo, e vale 0 (zero) se i e j não pertencem ao mesmo grupo.

Desse modo, a soma de quadrados entre grupos é:

WTA SSSSSS

E a pseudo estatística F para testar a hipótese multivariada é:

INGEPRO – Inovação, Gestão e Produção

Março de 2011, vol. 03, no. 03

ISSN 1984-6193 www.ingepro.com.br

57

kN

SS

k

SS

FW

A

1

As somas de quadrados, quadrados médios e o pseudo F obtidas no caso multivariado podem ser interpretados da mesma maneira que na ANOVA (ANDERSON, 2001).

Fazendo as permutações nos dados originais podemos encontrar o valor F para todas estas reorganizações dos dados. Assim, o p -valor é definido por:

) de (Total

) de (Nº

F

FFp

Com k grupos e n repetições por grupo, o número de permutações (re-organizações) dos dados é dado por (CLARKE, 1993, apud, ANDERSON, 2001):

)!!...!(!

!

21 knnnk

NP

Em geral, até 1000 permutações são suficientes para o teste considerando 05,0 (MANLY, 1997, apud, ANDERSON, 2001).

5. Resultados e Discussões

Nesta etapa, realizou-se a comparação entre as rotas de coleta por meio da análise de variância univariada não-paramétrica, pois ocorreu violação na pressuposição de normalidade dos dados. Os resultados do teste de normalidade se encontram na Tabela 1.

Tabela 1 – Teste de Shapiro Wilk aplicado aos dados. Variável Teste de Shapiro-Wilk (W) p-valor Água 0,8762 <0,0001 Acidez 0,9508 0,0036 Gordura 0,9707 0,0597 Densidade 0,9816 0,2984 Lactose 0,9823 0,3257 Proteína 0,9856 0,5027

Analisando a Tabela 1, verifica-se que a variável água excedente e acidez não seguem uma distribuição normal. Por isso, utilizou-se a análise de variância de Kruskal-Wallis para comparar as rotas. Os resultados estão na Tabela 2.

Tabela 2 – Análise de Variância de Kruskal-Wallis aplicado aos dados.

Variável Anova Kruskal-Wallis p-valor Água 6,9511 0,0309 Acidez 5,1001 0,0781 Gordura 2,1898 0,3346 Densidade 2,2987 0,3168 Lactose 0,7226 0,6968 Proteína 0,5784 0,7488

De acordo com a Tabela 2, é possível observar que ocorreu diferença significativa entre as rotas somente em relação a variável água excedente. Desse modo, passa-se à

INGEPRO – Inovação, Gestão e Produção

Março de 2011, vol. 03, no. 03

ISSN 1984-6193 www.ingepro.com.br

58

comparação das rotas duas a duas para verificar quais rotas diferiram entre si. Para este procedimento, utilizou-se o teste Wilcoxon-Mann-Whitney. Os resultados estão na Tabela 3.

Tabela 3 – Teste de Wilcoxon-Mann-Whitney aplicado as rotas. Rotas Teste Wilcoxon-Mann-Whitney (W) p-valor Rota1 x Rota2 303 0,0526 Rota1 x Rota3 240 0,6599 Rota2 x Rota3 387 0,0195

Observando a Tabela 3 verifica-se que as rotas 2 e 3 diferiram significativamente quanto à variável água excedente. Desse modo, verifica-se que as rotas não apresentaram heterogeneidade. Pois ocorreram diferenças somente para uma das variáveis, enquanto que para as demais variáveis, não ocorreram diferenças significativas.

Neste segundo momento, passa-se a analisar as variáveis de forma conjunta. A idéia é verificar se analisando conjuntamente as variáveis, haverá diferenças entre as rotas.

Utilizou-se a análise de variância multivariada não-paramétrica, pois a pressuposição de normalidade multivariada dos dados foi violada, conforme mostra a Tabela 4.

Tabela 4 – Teste de Shapiro Wilk para a normalidade multivariada dos dados. Variáveis Teste MShapiro (W) p-valor Água, Acidez, Gordura, Densidade, Lactose e Proteína

0,8002 p<0,0001

Verifica-se que o fato das variáveis água excedente e acidez não apresentarem normalidade individualmente, afetou a combinação linear construída, que também não apresenta normalidade.

Nesta etapa, foi utilizada a análise de variância multivariada permutacional, onde foi considerada a distância euclidiana entre as observações. Primeiramente foram consideradas 1000 permutações. Os resultados da análise estão na Tabela 5. Tabela 5 – Análise de variância multivariada não-paramétrica, com base no estudo de Anderson (2001), aplicada

aos dados, considerando 1000 permutações. CV GL SQ QM F R2 p-valor Rota 1 5,5105 5,5105 1,2475 0,0155 0,2597 Resíduos 79 348,9654 4,4173 0,9845 Total 80 354,4759 1,0000

Pela Tabela 5, percebesse que não ocorreram diferenças significativas entre as rotas de coleta considerando o conjunto de variáveis simultaneamente. Para uma maior investigação foram utilizadas também 5000 permutações.

Considerando 5000 permutações têm-se os resultados apresentados na Tabela 6. Tabela 6 – Análise de variância multivariada não-paramétrica, com base no estudo de Anderson (2001), aplicada

aos dados, considerando 5000 permutações. CV GL SQ QM F R2 p-valor Rota 1 5,5105 5,5105 1,2475 0,0155 0,2843 Resíduos 79 348,9654 4,4173 0,9845 Total 80 354,4759 1,0000

De acordo com a Tabela 6, verifica-se que também não ocorreram diferenças significativas entre as rotas de coleta considerando 5000 permutações. Com isso, mais uma vez, se confirma que as rotas apresentam semelhança em relação as variáveis físico-químicas do produto, se consideradas em conjunto.

INGEPRO – Inovação, Gestão e Produção

Março de 2011, vol. 03, no. 03

ISSN 1984-6193 www.ingepro.com.br

59

Para verificar o comportamento interno dos grupos de fornecedores, utilizou-se a análise descritiva das variáveis através da média e do desvio padrão. Verificou-se que a rota 1 teve, em média, 7,29% de água excedente, acidez de 17,14ºD, 3,45% de gordura, densidade de 1027,79g/mL, 4,41% de lactose e 3,28% de proteína nas amostras analisadas. Na rota 2 observou-se, em média, 6,56% de água excedente, acidez de 17,56ºD, 3,39% de gordura, densidade de 1028,05g/mL, 4,44% de lactose e 3,30% de proteína. Já na rota 3, em média, as amostras apresentaram 7,33% de água excedente, acidez de 16,96%, 3,52% de gordura, densidade de 1028,28g/mL, 4,44% de lactose e 3,30% de proteína.

Tabela 7 – Especificações de qualidade para as variáveis físico-químicas.

Variável Especificações Acidez 13 a 18ºD * Água 0 a 3% **

Gordura Mínimo de 3% *** Densidade 1028 a 1034g/mL ***

Lactose Mínimo de 4,3% *** Proteína Mínimo de 2,9% ***

* Neste caso optou-se por considerar adequado o leite que apresentou acidez entre 13 e 18ºD. ** Para a água excedente tomaram-se por base os limites de especificação entre 0 e 3% (ANSUJ, 2000). *** Especificações definidas pela IN 51 (BRASIL, 2002).

Considerando os padrões especificados para o leite (Tabela 7), é possível verificar que todas as rotas apresentaram acidez média e teores de gordura, lactose e proteínas médios dentro dos padrões. Porém, todas as rotas apresentaram percentual médio de água excedente fora das especificações. Além disso, apenas a rota 1 apresentou densidade média abaixo do padrão especificado.

6. Conclusões

Na análise dos dados pela abordagem univariada, utilizando a análise de variância de Kruskal-Wallis, somente a variável água excedente apresentou diferença significativa entre as rotas. Porém, pela abordagem multivariada, através da aplicação da análise de variância multivariada permutacional, se verificou que não ocorreu diferença significativa entre as rotas quanto ao conjunto de variáveis físico-químicas.

Considerando os procedimentos adotados, acredita-se que a abordagem multivariada seja mais adequada no sentido de que envolve todas as variáveis simultaneamente em um único teste de hipótese.

Referências bibliográficas

ANDERSON, M. J. A new method for non-parametric multivariate analysis of variance. Austral Ecology, 26, p. 32-46, 2001.

ANSUJ, A. P. Melhoramento da qualidade de um processo de produção contínua utilizando técnicas

estatísticas e os métodos de Taguchi. 2000, 128f. Tese (Doutorado em Engenharia de Produção) – Universidade Federal de Santa Maria, Santa Maria, 2000.

BRASIL. Instrução Normativa n°51. Brasília: MINISTÉRIO DA AGRICULTURA E ABASTECIMENTO, 2002. Disponível em: http://extranet.agricultura.gov.br/sislegis-consulta/consultarLegislacao.do?operacao=visualizar&id=8932. Acesso em: 04 ago. de 2008.

CANTELMO, N. F.; FERREIRA, D. F. Desempenho de testes de normalidade multivariados avaliado por simulação monte carlo. Ciênc. Agrotec., v. 31, n. 6, p. 1630-1636, 2007.

INGEPRO – Inovação, Gestão e Produção

Março de 2011, vol. 03, no. 03

ISSN 1984-6193 www.ingepro.com.br

60

GIBBONS, J. D.; CHAKRABORTI, S. Nonparametric statistical inference. 3 ed. New York: Marcel Dekker, 1992. 544p.

GONÇALVES, C. F. F. Estatística. Londrina: Ed. UEL, 2002. 304 p.

KATZ, B. M.; MCSWEENEY, M. A multivariate Kruskal-Wallis test with post hoc procedures. Multivariate

Behavioral Research, 15, p. 281-297, 1980.

PONTES, A. C. F. Análise de variância multivariada com a utilização de testes não-paramétricos e

componentes principais baseados em matrizes de postos. 2005. Tese (Doutorado em Agronomia) – USP, Piracicaba, 2005.

R DEVELOPMENT CORE TEAM. R: a language and environment for statistical computing. Vienna: R Foundation for Statistical Computing. www.r-project.org. Version 2.6.1., 2007.

RODRIGUES, A. A pesquisa experimental em psicologia e educação. 2 ed. Petrópolis: Editora Vozes, 1976.

SCHNEIDER, P. R.; SCHNEIDER, P. S. P.; SOUZA, C. A. M. Análise de regressão aplicada à Engenharia

Florestal. 2 ed. Santa Maria: FACOS, 2009.

SIEGEL, S.; CASTELLAN JR, N. J. Estatística não-paramétrica para ciências do comportamento. 2 ed. Porto Alegre: Artmed, 2006. 448 p.

ZWICK, R. Nonparametric one-way multivariate analysis of variance: a computational approach based on the Pillai-Bartlett trace. Psychological Bulletin, v. 97, n. 1, p. 148-152, 1985.