Análise de agrupamentos

17
ANÁLISE DE AGRUPAMENTOS 23 3. ANÁLISE DE AGRUPAMENTOS 3.1. Introdução Análise de agrupamentos (cluster analysis) é um termo usado para descrever diversas técnicas numéricas cujo propósito fundamental é classificar os valores de uma matriz de dados sob estudo em grupos discretos. A técnica classificatória multivariada da análise de agrupamentos pode ser utilizada quando se deseja explorar as similaridades entre indivíduos (modo Q) ou entre variáveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso, todas as variáveis medidas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram feitas as mesmas mensurações. Segundo esse método, desenvolvido, inicialmente em Zoologia por taxonomistas numéricos, procura-se por agrupamentos homogêneos de itens representados por pontos num espaço n-dimensional em um número conveniente de grupos relacionando-os através de coeficientes de similaridades ou de correspondências. A aplicação desta análise é controversa entre os pesquisadores, pois pouco se sabe a respeito dos pressupostos estatísticos dos seu vários métodos e apenas testes limitados são conhecidos para verificar a significância dos resultados. Na análise introdutória de matrizes de dados tornam-se, porem, bastante eficientes para auxiliar na formulação de hipóteses a respeito da homogeneidade ou não desses dados. 3.2. Métodos de classificação Segundo Davis (1986) os diversos métodos para a análise de agrupamentos podem ser enquadrados em quatro tipos gerais: a) Métodos de partição: procuram classificar regiões no espaço, definido em função de variáveis, que sejam densamente ocupados em termos de observações daqueles com ocupação mais esparsa. b) Métodos com origem arbitrária: procuram classificar as observações segundo “k” conjuntos previamente definidos; neste caso “k” pontos arbitrários servirão como centróides iniciais e as observações irão se agrupando, por similaridade, em torno desses centróides para formar agrupamentos. c) Métodos por similaridade mútua: procuram agrupar observações que tenham uma similaridade comum com outras observações; inicialmente uma matriz n x n de similaridades entre todos os pares da observação é calculada; em seguida, as similaridades entre colunas são repetidamente recalculadas; colunas representando membros de um único agrupamento tenderão apresentar intercorrelações próximas a 1 e valores menores com não membros. d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente usadas em Geologia; a partir da matriz inicial de dados obtém-se uma matriz simétrica de similaridades e incia-se a detecção de pares de casos com a mais alta similaridade, ou a mais baixa distância; para essa combinação, segundo níveis hierárquicos de similaridade, escolhe-se entre os

Transcript of Análise de agrupamentos

Page 1: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

23

3. ANÁLISE DE AGRUPAMENTOS 3.1. Introdução Análise de agrupamentos (cluster analysis) é um termo usado para descrever diversas

técnicas numéricas cujo propósito fundamental é classificar os valores de uma matriz de dados

sob estudo em grupos discretos. A técnica classificatória multivariada da análise de agrupamentos

pode ser utilizada quando se deseja explorar as similaridades entre indivíduos (modo Q) ou entre

variáveis (modo R) definindo-os em grupos, considerando simultaneamente, no primeiro caso,

todas as variáveis medidas em cada indivíduo e, no segundo, todos os indivíduos nos quais foram

feitas as mesmas mensurações. Segundo esse método, desenvolvido, inicialmente em Zoologia

por taxonomistas numéricos, procura-se por agrupamentos homogêneos de itens representados

por pontos num espaço n-dimensional em um número conveniente de grupos relacionando-os

através de coeficientes de similaridades ou de correspondências.

A aplicação desta análise é controversa entre os pesquisadores, pois pouco se sabe a

respeito dos pressupostos estatísticos dos seu vários métodos e apenas testes limitados são

conhecidos para verificar a significância dos resultados. Na análise introdutória de matrizes de

dados tornam-se, porem, bastante eficientes para auxiliar na formulação de hipóteses a respeito

da homogeneidade ou não desses dados.

3.2. Métodos de classificação

Segundo Davis (1986) os diversos métodos para a análise de agrupamentos podem ser

enquadrados em quatro tipos gerais:

a) Métodos de partição: procuram classificar regiões no espaço, definido em função de variáveis,

que sejam densamente ocupados em termos de observações daqueles com ocupação mais

esparsa.

b) Métodos com origem arbitrária: procuram classificar as observações segundo “k” conjuntos

previamente definidos; neste caso “k” pontos arbitrários servirão como centróides iniciais e as

observações irão se agrupando, por similaridade, em torno desses centróides para formar

agrupamentos.

c) Métodos por similaridade mútua: procuram agrupar observações que tenham uma similaridade

comum com outras observações; inicialmente uma matriz n x n de similaridades entre todos os

pares da observação é calculada; em seguida, as similaridades entre colunas são

repetidamente recalculadas; colunas representando membros de um único agrupamento

tenderão apresentar intercorrelações próximas a 1 e valores menores com não membros.

d) Métodos por agrupamentos hierárquicos: são as técnicas mais comumente usadas em

Geologia; a partir da matriz inicial de dados obtém-se uma matriz simétrica de similaridades e

incia-se a detecção de pares de casos com a mais alta similaridade, ou a mais baixa distância;

para essa combinação, segundo níveis hierárquicos de similaridade, escolhe-se entre os

Page 2: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

24

diversos procedimentos aglomerativo de tal modo que cada ciclo de agrupamento obedeça a

uma ordem sucessiva no sentido do decréscimo de similaridade.

3.2.1. Metodologia para agrupamentos hierárquicos Partindo de uma matriz inicial de dados [n*p], onde "n" linhas representam casos ou

espécimes ou amostras, no sentido geológico, e as "p" colunas as variáveis, feitas as

comparações, usando um coeficiente de similaridade qualquer entre linhas, obtém-se uma matriz

inicial de coeficiente de similaridade de tamanho [ ]n n* , que será utilizada no modo Q. Se a

comparação for entre colunas, obter-se-á uma matriz inicial de coeficientes de similaridade inicial

[ ]p p* , que será utilizada no modo R. Embora diversas medidas de similaridade tenham sido

propostas, somente duas são geralmente usadas: o coeficiente de correlação de Pearson e a

medida de distância euclideana. Se as variáveis forem padronizadas a partir da matriz inicial de

dados, dando o mesmo peso a cada uma delas, qualquer um desses coeficientes poderá ser

diretamente transformado no outro.

Na matriz inicial de coeficientes de similaridade estes representam o grau de semelhança

entre pares de objetos e os mesmos deverão ser arranjados de acordo com os respectivos graus

de similaridade de modo a ficarem agrupados segundo uma disposição hierárquica. Os resultados

quando organizados em gráfico, do tipo dendrograma, mostrarão as relações das amostras

agrupadas.

Várias técnicas de agrupamentos tem sido propostas, e os métodos mais comumente

usados são: “ligação simples” (single linkage method ou nearest neighbor); “ligação completa”

(complete linkage method ou farthest neighbor); ”agrupamento pareado proporcionalmente

ponderado" (weighted pair-group method, WPGM); “agrupamento pareado igualmente ponderado”

(unweighted pair-group method”, UPGM); “variância mínima” (minimum variance clustering ou

Ward’s method of sum-of-squares method).

No método de ligação simples os grupos iniciais são determinados pelos mais altos

coeficientes de associação mútua. Para admissão de novos membros aos grupos é suficiente

encontrar quais os que representam os maiores coeficientes de associação com um dos

elementos de determinado grupo. A ligação será estabelecida a esse nível de associação com

todo o grupo. No método de ligação completa os gupos são determinados pelos mais baixos

coeficientes de associação mútua. Ambos são os métodos mais simples, mas tambem os que

apresentam os resultados mais distorcidos. Com o uso dos métodos de ligações completas

espera-se obter resultados mais rigorosos.

No método de agrupamento pareado procura-se também inicialmente pelos mais altos

coeficientes de associação mútua. Em seguida esses pares de casos fornecerão valores médios

originando um novo elemento singular. No "método de agrupamento pareado igualmente

ponderado" para o cálculo dos valores médios atribui-se sempre o mesmo peso aos dois

elementos que estão sendo integrados. No método de agrupamento pareado proporcionalmente

ponderado para cada agrupamento é dado um peso proporcional ao número de objetos que o

Page 3: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

25

constitui, de tal modo que a incorporação e um novo elemento a um grupo baseia-se no nível

médio de similaridade desse elemento com todos os que fazem parte do grupo. Tanto num caso

como no outro, alternativamente, em vez de obter valores medios entre os casos podem ser

utilizados centroides e verificados as distâncias entre os mesmos.

No método de agrupamento pela variância mínima o enfoque é sobre a variabilidade que

existe dentro de cada caso e os agrupamentos são efetuados ao se determinar que pares de

casos, quando tomados em conjunto, apresentam o menor acrescimo de variabilidade.

No método de ligações singulares as ligações tendem a ocorrer a níveis mais altos do que

nos métodos de agrupamento pareado. No método de agrupamento pareado igualmente

ponderado como cada membro adicionado ao agrupamento tem sempre o mesmo peso, isso traz

como efeito que os últimos elementos a se integrarem tem maior influência que os primeiros. No

caso do método de agrupamento pareado proporcionalmente ponderado, tal não acontece.

Existindo à disposição diversas técnicas para a análise de agrupamentos e não havendo

testes estatísticos válidos para os resultados obtidos, o pesquisador geralmente fica em dúvida

sobre qual método aplicar. Entendendo que esta análise sempre deve ser aplicada com caráter

introdutório, e nesse sentido tem o seu mérito, a consideração de ordem pragmática a ser adotada

é que o melhor método é aquele que fornece os resultados mais coerentes com a realidade

geológica em estudo. Eventualmente, testes, como o de Hotteling ou a análise generalizada de

variâncias, podem ser aplicados aos agrupamentos encontrados para a verificação da sua

validade estatística.

Aplicações desta metodologia tem mostrado que os métodos pareados igualmente

ponderado são superiores aos demais e que o coeficiente distância usualmente agrupa melhor

espécimes ou amostras, no sentido geológico, enquanto o coeficiente de correlação é

recomentado para o agrupamento entre variáveis. Essas afirmações são baseadas na correlação

cofenética que ao apresenrar valores abaixo de 0,8 indicam distorções significativas no

dendrograma obtido.

O método hierárquico tem sido preferido em relação ao que utilisa centróides. Este porém

mostra-se, em termos computacionais, mais útil quando se tem que manipular grandes matrizes

de dados, por exemplo com mais de 1.000 casos. Como “k” geralmente é pequeno, da ordem de 5

por exemplo, é mais rápido o manuseio de uma matriz de similaridade “k x n” do que uma com

dimensões “n x n”.

3.2.2. Dendrograma A forma gráfica mais usada para representar o resultado final dos diversos agrupamentos

é o dendrograma (Figura 3.1.) Nele estão dispostos linhas ligadas segundo os níveis de

similaridade que agruparam pares de espécimes ou de variáveis. Como este gráfico é uma

simplificação em duas dimensões de uma relação n-dimensional é inevitável que algumas

distorções quanto à similaridade apareçam. A medida de tal distorção pode ser obtida por um

coeficiente de correlação, dito "cofenético", entre os valores da matriz inicial de similaridade e

aqueles derivados do dendrograma.

Page 4: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

26

Visualmente isso pode ser também verificado por meio da construção de um sistema de

eixos ortogonais. Nele os valores dos coeficientes de similaridade originais estarão na abcissa e

os coeficientes de similaridade a partir do dendrograma em ordenada. Se ambas as matrizes

forem idênticas os pontos cairão sobre uma linha reta que passa pela origem do sistema. Desvios

dos pontos em relação a essa reta indicarão as distorções. Se situadas acima da reta indicarão

coeficientes de similaridade apontados pelo dendrograma mais altos que os originais e vice-versa.

Figura 3.1. Formatos de dendrogramas

DendrogramaMétodo: UPGM

Distância euclidiana

Valo

res

para

agr

upam

ento

0

50

100

150

200

250

C_9 C_13

C_6 C_5

C_8 C_12

C_4 C_3

C_2 C_15

C_14 C_11

C_10 C_7

C_1

DendrogramaMétodo: UPGM

Distância euclidiana

Valo

res

para

agr

upam

ento

0

50

100

150

200

250

C_9 C_13

C_6 C_5

C_8 C_12

C_4 C_3

C_2 C_15

C_14 C_11

C_10 C_7

C_1

Page 5: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

27

A construção de um dendrograma pode ser esquematizada, de acordo com o exposto na

Figura 3.2. Nessa Figura, inicialmente, os mais altos índices de correlação ocorrem entre as

amostras D e E (0,66) e entre as amostras A e B (0,57) que irão constituir novos casos na matriz

de correlações já pareadas. Nessa matriz os mais altos coeficientes de correlação ocorrem entre

DE e F (0,41) e AB e C(0,29). Finalmente a correlação final ocorre ao nível de –0,59 entre ABC e

DEF.

Figura 3.2. Esquema de construção de um dendrograma pelo método de agrupamentos

pareados igualmente ponderados (adaptado de Davis, 1986)

3.2.3. Coeficientes de Similaridade Os coeficientes de similaridade mais usuais, obtidos num espaço multidimensional, podem

ser subdivididos em três categorias:

a) os que medem a distância, ou a separação angular, entre pares de pontos;

b) os que medem a correlação entre pares de valores;

c) os que medem a associação entre pares de caracteres qualitativos.

Existem diversas publicações que discutem esses diversos tipos de medidas como, por

exemplo, Sneath & Sokal (1973), Everitt (1980), Prentice (1980), Gordon (1981), Greig-Smith

(1983), Pielou (1984), alem do resumo, sobre 23 coeficientes de similaridades, constante no

pacote MVSP, versão 3.1.

3.2.3.1. Medidas de distância

Expressam o grau de similaridade como distância em um espaço multi-dimensional.

Quanto maior a distância, maior o grau de similaridade e vice-versa. A distância D entre dois

Page 6: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

28

pontos, cuja localização é especificada num sistema de coordenadas cartesianas, é fornecida,

segundo o teorema de Pitágoras, por:

D x x y y1 2 1 22

1 22

. ( ) ( )= − + −

onde x x y e y1 2 1 2, , são valores das coordenadas dos dois pontos.

Para a distância entre k pontos, num espaço n-dimensional, a fórmula generalizada é:

D x x nij ik jkk

n= −

=∑( ) /2

1

Tendo todas as variáveis o mesmo peso, consequentemente a função distância será

limitada a valores entre 0 (maior similaridade) e 1.0 ( menor similaridade).

Pode, também, ser ulizado o coeficiente cosseno-teta, que é uma medida de

proporcionalidade expressando o grau de similaridade em termos de separação angular:

( )

Cosx x

x xpq

ip iq

ip iq

θ =∑

∑ ∑2 2 1 2/ , p e q = valores comparados

Quando a similaridade é completa, a separação angular é 0º e cos θ = 1.0; quando não

ocorre similaridade nenhuma, a separação angular é 90° e o cos θ = 0.0

3.2.3.2. Coeficientes de Correlação

Medem o grau de associação entre valores pela representação de pontos num sistema de

coordenadas e suas respectivas posições em relação a uma linha reta. Podem tanto ser

considerado o coeficiente de correlação paramétrico (Pearson) como o não paramétrico

(Spearman).

• coeficiente de correlação paramétrico (Pearson) O coeficiente de correlação da amostra r (ou ρ*) o qual é uma estimativa do coeficiente de

correlação populacional ρ, é dado por:

r x y

x y

xi x yi yn

xi xn

yi yn

= =

− −−

−−

−−

cov( , )

[var( ) var( )] /

( ) ( )

[ ( ) . ( ) ] /1 21

2

1

2

11 2

Σ

Σ Σ

Onde n é o número de pares de valores para xi e yi , variáveis com distribuição normal,

e x e y são os valores médios para xi e yi .

Utilizando o método dos mínimos quadrados para o cálculo do coeficiente de correlação, a

seguinte fórmula simplificada é usada:

r SPXYSQX SQY

=.

SPXY = Σxy -(Σx. Σy) / n

SQX = Σx2 - (Σx)2 / n

Page 7: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

29

SQY = Σy2 - (Σy)2 / n

Valores de r , os quais são medidas adimensionais, podem variar entre -1 à +1,

expressando desde comportamento totalmente inverso até comportamento totalmente direto entre

as duas variáveis. Quando r=0 significa que não há relação linear entre x e y.

• Coeficiente de correlação não-paramétrico de Spearman

É um coeficiente de correlação não paramétrico entre duas variáveis, xi e yi , em que

para o seu cálculo inicialmente xi e yi são ordenados segundo os seus valores de posto ( x i, e

y i, ) e em seguida encontrados os valores di x i y i= −, , .

Para que os valores negativos de di não cancelem os valores positivos de di é

determinado para cada caso di2 . Finalmente encontra-se a somatória dos di

2 .

O coeficiente de correlação será fornecido pela fórmula:

rsdi

n n= −

−1

6 2

n = número de pares de valores xi, , yi

,

Caso ocorram muitos casos com valores de posto empatados usa-se a fórmula:

rsxe ye di

xe ye=

+ −Σ Σ Σ

Σ Σ

, ,

, ,

2

2

onde

Σ Σxen n Tx

, = −−

3

12; Σ Σye

n nTy

, =−

−3

12

T t t=

−3

12; T = número de observações repetidas em um determinado posto.

Como um exemplo numérico, seja uma matriz de dados composta por 7 amostras, no

sentido geológico, e 6 variáveis:

V01 V02 V03 V04 V05 V06

Am01 1.0 2.0 3.0 4.0 5.0 6.0

Am02 5.0 4.0 1.0 8.0 7.0 9.0

Am03 6.0 5.0 4.0 2.0 7.0 9.0

Am04 6.0 4.0 2.0 1.0 3.0 7.0

Am05 9.0 2.0 1.0 4.0 7.0 8.0

Am06 9.0 6.0 3.0 4.0 5.0 6.0

Am07 1.0 5.0 9.0 7.0 5.0 3.0

Utilizando a medida “distância euclidiana”, obtém-se a seguinte matriz inicial de

similaridades:

Page 8: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

30

Am01 Am02 Am03 Am04 Am05 Am06 Am07

Am01 .00 7.3 7.2 6.6 8.7 8.9 7.9

Am02 7.28 .0 6.9 8.4 6.1 7.3 11.0

Am03 7.21 6.9 .0 5.1 5.7 5.3 10.7

Am04 6.63 8.4 5.1 .0 6.3 5.3 11.4

Am05 8.72 6.1 5.7 6.3 .0 5.3 13.2

Am06 8.94 7.3 5.3 5.3 5.3 .0 10.9

Am07 7.94 11.0 10.7 11.4 13.2 10.9 .0

Na Figura 3.3. estão os dendrogramas resultantes da aplicação de dois métodos: “ligação

simples (single linkage)” e “agrupamento pareado igualmente ponderado (unwighted pair-group

average)”.

Verificar que os dendrogramas resultantes mostram praticamente os mesmos resultados,

em que pese as diferenças mostradas em ambos os gráficos com relação aos níveis para

agrupamentos.

Dendrograma

"Single Linkage"

Distância euclidiana

Níveis para agrupamento

AM07

AM05

AM06

AM04

AM03

AM02

AM01

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0

Page 9: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

31

Figura 3.3. Dendrogramas resultantes dos métodos “single linkage” e “UPGM”

3.2.3.3. Coeficientes binários

Expressam similaridades em termos de equiparações (matches) quando são utilizados

dados qualitativos. Neste caso comparações são feitas entre observações reduzidas a duas

categorias do tipo sim-não, presente-ausente etc. Se verificado em 4 perfís estratigráficos a

presença ou ausencia de 4 tipos de fósseis a seguinte matriz de dados binários pode ser

construida:

Dendrograma

"Unweighted pair-group average"

Distância euclidiana

Níveis para agrupamento

AM07

AM05

AM06

AM04

AM03

AM02

AM01

4 5 6 7 8 9 10 11

Page 10: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

32

Se tomadas dois objetos (A e B) e um mesmo caráter estiver presente em ambos, tal

situação será representada por "a"; se presente em A, porém ausente em B, por "c"; se presente

em B, porém ausente em A , por "b" ; se ausentes em ambos, por “d’.

presente Ausente

Presente a B Ausente c D

Os coeficientes binários, podem ser agrupados em:

a) coeficientes de similaridade: expressam a proporção de caracteres que dois objetos possuem

mutuamente quando comparados com o número total de caracteres possuídos por um dos objetos

ou pelo outro, ou por ambos;

Jaccard: a a b c/ ( )+ +

Otsuka : a a b a c/ ( ) ( )+ +

Fager : a a b a c min a b a c/ ( ) ( ) / { ( ),( ) }+ + − + +1 2

b) coeficientes de associação: expressam a probabilidade de acontecimento, por acaso, de um

certo número de caracteres comuns a dois objetos;

Yule : ( ) / ( )ad bc ad bc− +

Phi : ( ) / ( ) ( ) ( ) ( )ad bc a b a c b d c d− + + + +

c) coeficientes de equiparação: expressam a similaridade entre dois objetos em termos de

equiparações positivas, isto é, presença de um mesmo caráter em ambos os objetos, em relação

a equiparações negativas, isto é, ausência de um mesmo caráter em ambos os objetos, mais

equiparações desencontradas;

Simples : ( ) /a d n+

Hamann : ( ) /a d b c n+ − −

Sackin : a n/

d) coeficientes de distâncias: expressam o distanciamento entre dois objetos em um espaço multi-

dimensional;

Sokal : ( ) /b c n+

Novamente, como exemplo numérico, seja uma matriz com dados binários em que o valor

“1” significa presente e o valor “0” ausente:

Page 11: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

33

V01 V02 V03 V04 V05 V06

Am01 1 1 0 0 0 1

Am02 0 0 1 1 0 0

Am03 0 1 1 0 0 0

Am04 1 1 1 1 1 0

Am05 0 0 1 1 1 1

Am06 1 1 0 0 0 1

Am07 0 0 1 1 1 1

Nessa matriz as amostras 01 e 06 são idênticas, o mesmo acontecendo com as amostras

05 e 07.

A matriz inicial de similaridades, após calculados os coeficientes de Jaccard, é a seguinte:

Am01 Am02 Am03 Am04 Am05 Am06 Am07

Am01 1.000

Am02 0.000 1.000

Am03 0.250 0.333 1.000

Am04 0.333 0.400 0.400 1.000

Am05 0.167 0.500 0.200 0.500 1.000

Am06 1.000 0.000 0.250 0.333 0.167 1.000

Am07 0.167 0.500 0.200 0.500 1.000 0.167 1.000

E o dendrograma resultante esta exposto na Figura 4.4.

Figura 3.4. Dendrograma resultante da aplicação do coeficiente binário de Jaccard pelo método de ligação

simples. Notar as relações entre amostras 01 e 06 e entre amostras 05 e 07, todas ao nível 1.0

Page 12: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

34

• Exemplo

A indústria cerâmica existente na região de Rio Claro (SP), incluindo o pólo cerâmico de

Santa Gertrudes-Cordeirópolis, é uma das maiores do mundo e necessita, portanto, de um

acompanhamento tecnológico que a torne cada vez mais competitiva. A caracterização da

matéria-prima para a indústria é de necessidade premente para o controle da qualidade do

produto final. Com o conhecimento dessa matéria-prima, de suas propriedades e comportamento

físico-químico é possível otimizar a blendagem do material e calibrar todo o processo de

beneficiamento, principalmente fornos, buscando uma maior homogeneidade nos produtos.

Com essa preocupação Monteiro et alii (2000) aplicaram a análise de agrupamentos à

material cerâmico, constituido principalmente de lamitos e folhelhos da Formação Itararé, de uma

cava da Cerâmica Montreal na Fazenda São Caetano, em Jundiaí/SP. Foram identificados 7

níveis estratigráficos, dos quais foram selecionados 6 horizontes para amostragem. O perfil de

amostragem, da base para o topo, é constituído pelas seguintes litofácies (Figura 3.5.):

Nível 6 - Folhelho cinza originados pela decantação de finos trazidos por correntes de

turbidez de baixa densidade, com montmorilonita, mica-ilita, interestratificados e caulinita entre os

minerais presentes na fração fina (< 2 micra);

Nível 4 - Ritmitos resultantes de intercalações mais freqüentes de siltito e arenito

(turbiditos arenosos) nos folhelhos, e apresentam montmorilonita, mica-ilita e interestratificados na

fração fina;

Nível 5 - Lamitos castanhos que correspondem à turbiditos proximais, formando estratos

mais espessos com gradação normal de silte a argila onde estão presentes interestratificados

(provavelmente ilita-montmorilonita), mica-ilita e caulinita;

Nível 3 - Lamito vermelho maciço resultante de processos de fluxo de lama contendo

mica-ilita e caulinita. A maturidade dos sedimentos sofre uma mudança brusca a partir desse

nível;

Nível 2 - Lamito vermelho de fluxo de lama com estruturação, com mica-ilita e caulinita;

Nível 1 - Lamito vermelho maciço maciço com clastos de argila indicando retrabalhamento

e fluxos de detritos, com mica-ilita e caulinita.

Originalmente esses 3 níveis de lamitos vermelhos foram tratados como um único

horizonte cerâmico, interdigitado por uma lente de arenito. Os níveis 3 a 1 apresentam

quantidades crescentes de caulinita para o topo. A montmorilonita está restrita aos dois níveis

estratigraficamente inferiores (níveis 6 e 4).

Page 13: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

35

Figura 3.5.: Perfil estratigráfico da Cerâmica Montreal (Fazenda São Caetano/Jundiai,SP)

A amostragem foi executada nos 6 níveis descritos e identificadas como 6J, 4J, 5J, 3J, 2J

e 1J, da base para o topo), sendo que no nível 5 foi replicada a amostragem (5aJ e 5bJ). Foram

analisadas diversas propriedades desse material como: umidade de prensagem, absorção de

água, porosidade aparente, densidade aparente, perda ao fogo, retração linear na secagem, na

queima parcial e na queima total e tensão à ruptura por flexão. Para as variáveis absorção de

água (AA - em %), porosidade aparente (PA - em %), massa específica aparente (MEA - em

g/cm3) e massa específica aparente da parte sólida (MEAS - g/cm3), perda ao fogo (%PF),

Page 14: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

36

retração linear na queima parcial (%Rq), retração linear na queima total (%Rt) e tensão à ruptura

por flexão (TRF - em MPa) foram feitas análises para cinco partes de cada amostra nas

temperaturas de queima de 1.020°C, 1.070°C e 1.120°C.

O dendrograma resultante da aplicação da análise de agrupamentos no modo Q, ou seja,

entre amostras, apresenta uma nítida distinção entre o grupo de amostras 1J e 2J com o grupo 3J,

5aJ e 5bJ, 4J e 6J (Figura 3.6.). Essa distinção pode estar condicionada pela presença de

caulinita nos materiais superiores, ou por fatores relacionados à distribuição granulométrica. De

qualquer modo essa diferença nas características também é notável nas propriedades cerâmicas

daqueles materiais.

Figura 3.6.: Análise de Agrupamentos entre as amostras (modo Q)

O primeiro grupo subdivide-se em amostras 1J e 2J. O segundo grupo pode ainda ser

subdividido em dois outros; um com as amostras 3J e 4J, outro com 5aJ e 5bJ e outro com 6J. O

material do nível 5, é comercializada in natura pela empresa, como descorante para a indústria

têxtil. Entre as amostras 5aJ e 5bJ não é tão nítida a divisão, o que já era esperado pelo controle

geológico e de amostragem.

A análise de agrupamentos no modo R, ou seja, entre variáveis, revela uma distinção

entre dois grandes grupos: um constituído pelas variáveis PF, AA, e PA, e o segundo com %Rq,

Page 15: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

37

%Rt e TRF. O primeiro parece estar relacionado com propriedades da distribuição granulométrica

e o segundo diz respeito à composição química do material (ligações e valência) (Figura 3.7.).

Figura 3.7.: Análise de Agrupamentos entre as variáveis (modo R)

Além disso, pode-se observar que algumas variáveis como retração linear na queima

parcial (%Rq) e total (%Rt) encontram-se com alta correlação para mesmas temperaturas, bem

como se pode observar também um agrupamento para as variáveis de tensão à ruptura por flexão

(TRF) para as três temperaturas de 1.020°C, 1.070°C e 1.120°C. Isto se deve ao fato de ocorrer

um intercrescimento de fases neoformadas após cada temperatura.

Para as propriedades de absorção de água (AA), porosidade aparente (PA) e perda ao

fogo (%PF) é possível perceber um agrupamento bem evidente. A massa específica aparente

(MEA) e a massa específica aparente da parte sólida (MEAS) não formam nenhum agrupamento

evidente, por serem características bastante peculiares do material.

A análise de agrupamentos mostra que as amostras 5aJ e 5bJ possuem o mesmo

comportamento, o que é esperado por serem retiradas do mesmo nível. As amostras 3J e 4J

poderiam, em princípio serem tratadas da mesma forma, porém a análise de correspondências

mostra que a amostra 4J possui um comportamento diferente, por ser mais plástica e com menor

retração linear na queima (parcial e total), sendo esta uma importante característica do material,

muito semelhante às amostras 5aJ e 5bJ.

As amostras 1J e 2J, isto é, os níveis mais superiores, são bem distintos dos outros. O

material dos dois primeiros níveis não deve ser tratado da mesma forma que o material do nível 3

pela indústria ceramista, o que é a prática atual. Hoje a empresa faz a mistura usando os níveis 1,

2 e 3 como material inerte (saibro), adicionado ao material dos níveis 4 e 6 da base. As

Page 16: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

38

proporções na mistura são distintas conforme os diferentes produtos finais aos quais se destinam.

Varia de 4:5 para a indústria de revestimento e de 3:7 para a cerâmica estrutural. A análise

estatística multivariada aplicada indicou, porem, que os níveis 1 e 2 são distintos do nível 3, sob

vários aspectos que podem ser verificados nas suas características físicas e de comportamento

cerâmico.

Page 17: Análise de agrupamentos

ANÁLISE DE AGRUPAMENTOS

39

BIBLIOGRAFIA

DAVIS, J.C (1986) - Statistics and Data Analysis in Geology: 2nd. ed., John Wiley and Sons, Inc.

EVERITT, B. (1980) – Cluster Analysis: 2nd ed., Gower Publishing Co. GORDON, A. D. (1981) – Classification: Chapman and Hall GREIGH-SMITH, P. (1983) – Quantitative Plant Ecology: University of California Press, Berkeley MONTEIRO, R. C.; BERNARDES, E.V.; MASSON, M.R. & LANDIM, P.M.B. (2000) – Análise estatística multivariada para materiais cerâmicos: VIII Simp.Quant.Geociências, Bol.Res. Expandidos, 163-166 MVPS/Plus (1998) – Multi-Variate Statistical Pacckage, version 3.1.: Kovach Computing Services PIELOU, E.C. (1984) – The Interpretation of Ecological Data: Wiley-Interscience PRENTICE, I.C. (1980) – Multidimensional scaling as a research tool in Quaternary palybology: A review of theory and methods: Review of Paleobotany & Palynology, 31:71-104 SNEATH, D. H. & SOKAL, R. R. (1973) – Numerical Taxonomy: W. H. Freeman & Co.