1
HUMBERTO GERALDO COELHO
OSCAR AMÂNCIO VIEIRA NETO
AVALIAÇÃO DO POTENCIAL DE CLIENTES EM UMA
INDÚSTRIA DO RAMO METALÚRGICO NA REGIÃO
METROPOLITANA DE CURITIBA USANDO ANÁLISE
MULTIVARIADA
Curitiba-PR
2010
2
HUMBERTO GERALDO COELHO
OSCAR AMÂNCIO VIEIRA NETO
AVALIAÇÃO DO POTENCIAL DE CLIENTES EM UMA
INDÚSTRIA DO RAMO METALÚRGICO NA REGIÃO
METROPOLITANA DE CURITIBA USANDO ANÁLISE
MULTIVARIADA
Trabalho de Conclusão de Curso
apresentado ao Curso de Bacharelado em
Estatística do Setor de Ciências Exatas
da Universidade Federal do Paraná, como
requisito à obtenção do título de Bacharel.
Orientador: Prof. Cesar Augusto Taconeli
Curitiba-PR
2010
3
Trabalho de conclusão de curso de Bacharel em
Estatística com o título “Avaliação do potencial
de clientes em uma indústria do ramo
metalúrgico na região metropolitana de Curitiba,
usando análise multivariada”, desenvolvido pelos
alunos Humberto Geraldo Coelho e Oscar
Amâncio Vieira Neto, apresentado a banca
examinadora constituída pelos professores do
Departamento de Estatística da UFPR:
_______________________________
Cesar Augusto Taconeli
Orientador
________________________________
Bruno Grimaldo Martinho Churata
Banca
Curitiba-PR
2010
4
AGRADECIMENTOS
A Deus, primeiramente por nos abençoar em cada dia de nossas vidas, nos
proteger de todos os males e nos abençoar durante o transcorrer deste curso.
Ao Professor Cesar Augusto Taconeli, pela confiança acolhida, pela
orientação incansável, dedicação inestimável e atenção a estes discentes.
Aos colegas de curso, pelo companheirismo nas horas de dificuldades, que
sempre nos acolheram.
A todos os professores do Departamento de Estatística e demais
colaboradores por contribuir nesta conquista e nos enriquecer em conhecimentos.
Aos nossos familiares, esposas, filhos e amigos que nos incentivaram e
compreenderam nos momentos difíceis que nos recolhemos para os estudos.
5
RESUMO
Neste estudo foram analisados os dados de uma empresa do setor metalúrgico, com sede em Araucária, Paraná, que produz molas de compressão, torção, tração, aramados e estamparia leve. Os clientes da empresa são da área automobilística, moveleiro, eletro-eletrônicos, equipamentos elétricos e de informática, com porte nacional e multinacional. Foram consideradas variáveis produtivas referentes ao esforço e ao custo aplicados para atender à demanda de seus principais clientes. O conjunto de variáveis produtivas consideradas incide diretamente no resultado financeiro da empresa estudada, pois retratam características importantes de cada cliente. As variáveis foram analisadas com a utilização de técnicas estatísticas multivariadas, Manly, B.J.F.(2008), Mingoti (2005). Uma destas técnicas é a Análise Fatorial que consiste na obtenção de um reduzido conjunto de fatores comuns que explicam uma considerável quantidade da variância de cada variável. A parcela da variância total não explicada por estes fatores corresponde a variações específicas das variáveis. Rezende, M.L, et al (2007). Outra técnica destacada é a Análise de Agrupamentos (Cluster), que tem como objetivo dividir os elementos da amostra, ou população, em grupos de forma que os elementos pertencentes ao mesmo grupo sejam similares entre si com respeito às variáveis que neles foram medidas e os elementos em grupos diferentes sejam heterogêneos em relação a estas características. A análise fatorial possibilitou a obtenção do resultado almejado, reduzindo as variáveis originais para três fatores com explicação de 90,9% da variabilidade dos dados. Também, foram obtidos os índices escores para o ranqueamento das empresas, que nos permitiu avaliar cada empresa individualmente em comparação com o seu respectivo faturamento bruto. Em relação a análise de agrupamentos, foi útil para agrupar os clientes segundo a relevância dos mesmos para a empresa.
Palavras-chave: Análise Fatorial, Análise de Agrupamentos, Escores fatoriais
6
LISTA DE ILUSTRAÇÕES
FIGURA 1 – Gráficos de dispersão para as variáveis produtivas......................... 26
FIGURA 2 – Gráfico Box-plot para o conjunto de variáveis produtivas................. 27
FIGURA 3 – Gráfico Scree-plot da análise dos fatores e componentes...............
Principais............................................................................................................... 28
FIGURA 4 – Gráfico dos escores X faturamento bruto......................................... 33
FIGURA 5 – Dendograma da análise de agrupamentos para escores fatoriais.... 34
LISTA DE TABELAS TABELA 1 – Medidas de posição e tendência central........................................... 23
TABELA 2 – Correlações amostrais de Pearson................................................... 24
TABELA 3 – Autovalores da matriz de correlação................................................ 28
TABELA 4 – Cargas fatoriais do método de componentes principais................... 29
TABELA 5 – Cargas fatoriais do método de verossimilhança............................... 29
TABELA 6 – Escores fatoriais e ranqueamento das empresas............................. 30
TABELA 7 – Análise da similaridade dos grupos.................................................. 35
7
SUMÁRIO
1 INTRODUÇÃO................................................................................................... 08
2 REVISÃO DE LITERATURA............................................................................. 10
2.1 ANÁLISE FATORIAL....................................................................................... 10
2.1.1 Estimação das cargas fatoriais e das comunalidades.................................. 13
2.1.2 Determinação do número de fatores............................................................ 14
2.1.3 Rotações ortogonais..................................................................................... 15
2.1.4 Estimação dos fatores.................................................................................. 16
2.1.5 Ponderação dos escores e ranqueamento................................................... 17
2.2 ANÁLISE DE AGRUPAMENTOS................................................................... 18
2.2.1 Medidas de similaridade e dissimilaridade................................................... 18
2.2.2 Técnica de agrupamento.............................................................................. 19
2.2.3 Determinação do número de grupos............................................................ 20
3 MATERIAL E MÉTODOS................................................................................... 21
3.1 DESCRIÇÃO DOS DADOS............................................................................. 21
3.2 METODOLOGIA ESTATÍSTICA...................................................................... 22
4 RESULTADO E DISCUSSÃO............................................................................ 23
4.1 ANÁLISE DESCRITIVA................................................................................... 23
4.2 RESULTADO DA ANÁLISE FATORIAL.......................................................... 27
4.3 RESULTADO DA ANÁLISE DE AGRUPAMENTOS....................................... 34
5 CONCLUSÃO..................................................................................................... 36
6 REFERÊNCIAS BIBLIOGRÁFICAS.................................................................. 37
8
1 INTRODUÇÃO
Na atualidade é de fundamental importância ser competitivo e eficaz no
exigente mercado empresarial. Por isto, conhecer profundamente a carteira de
clientes em relação as suas características e atividades preponderantes contribuirá
para o sucesso da instituição. Uma característica importante a ser avaliada é o perfil
dos clientes, e com essa informação analisar as informações das variáveis
encontradas que incidem diretamente no resultado produtivo e financeiro para a
empresa.
Neste estudo analisamos uma empresa do setor metalúrgico, com sede em
Araucária, Paraná, que produz molas de compressão, tração, torção, aramados e
estamparia leve. Os clientes da empresa são da área automobilística, moveleiro,
eletro-eletrônicos, equipamentos elétricos e de informática, com porte nacional e
multinacional.
Os dados utilizados neste estudo foram analisados através de análise
multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos
utilizados em situações nas quais várias variáveis são medidas simultaneamente em
cada elemento amostral. Basicamente, a estatística multivariada se divide em dois
grupos: o primeiro enfoque em técnicas exploratórias de simplificação da
variabilidade dos dados e o outro direcionado a técnicas de inferência estatística.
Particularmente neste trabalho serão abordadas as técnicas de análise fatorial e
análise de agrupamentos.
A análise fatorial é um método estatístico que em certas situações permite
explicar o comportamento de um número relativamente grande de variáveis
observadas em termos de um número relativamente pequeno de variáveis latentes
ou fatores. Como exemplos de aplicação do método, Rezende, M.L, et al (2007),
aplica a análise fatorial para determinar os potenciais de desenvolvimento dos
municípios da região sul do estado de Minas Gerais. Furtado, E.M. et al (2002)
executam o ranqueamento de faxinais do estado do Paraná por meio de análise
fatorial, considerando variáveis sugeridas pelo Instituto Ambiental do Paraná (IAP).
9
Um ponto importante na análise fatorial é a escolha do número de fatores.
Fleck, Marcelo P.A, et al (1998), propõe um método de simulação juntamente com o
critério de Kaiser para esta definição, que em resumo tem o objetivo de selecionar
apenas os componentes significativos para o estudo.
O objetivo principal deste estudo é identificar e avaliar dentre a carteira e
clientes da empresa aquelas com maior grau de importância segundo o conjunto de
variáveis produtivas analisadas, propondo um índice alternativo do grau de
importância de cada empresa. Como objetivos específicos, vamos estudar as
correlações existentes entre às variáveis produtivas, buscar através da análise
fatorial um número de fatores que expliquem adequadamente a variabilidade dos
dados e agrupar as empresas de acordo com os resultados obtidos.
10
2 REVISÃO DE LITERATURA
O intuito deste capítulo é fazer uma breve descrição das técnicas de Análise
Fatorial e Análise de Agrupamentos, procurando descrever as ferramentas para
obtenção dos números de fatores, e cálculo dos escores fatoriais. Na parte de
agrupamentos procuramos especificar a técnica utilizada que fundamentou a
seleção dos distintos grupos.
2.1 A ANÁLISE FATORIAL
A análise de fatores tem objetivos próximos à da análise de componentes
principais, pois tenta descrever as características de um vetor 1 2 px = (x , x , ...x )
% no que
diz respeito a sua variabilidade original, por meio de um conjunto mais reduzido de
variáveis latentes do que as p - variáveis originais, as chamando de fatores
comuns. Com isso, espera-se que essas variáveis possam ser explicadas por um
conjunto de novas variáveis de menor dimensão em relação às variáveis originais.
Para fundamentar toda essa técnica, temos um modelo proposto para a
análise fatorial, que é definido a partir da matriz de correlação teórica pxpP . Seja
px1X%
um vetor aleatório com vetor de médias pµ%
e matriz de covariâncias Σpxp e matriz de
correlação pxpP . Sejam ( )[ / ]i i i iZ X µ σ= − as variáveis originais padronizadas, onde
iµ e
iσ representam respectivamente a média e desvio padrão de , 1,2,...,
iX i P= ,
então a matriz pxpP é a matriz de covariância do vetor aleatório
1 2 pZ = (Z , Z , ...Z )'
Mingoti (2005). O modelo de análise fatorial é dado por:
1 11 1 12 2 1 1
2 21 1 22 2 2 2
1 1 2 2
...
...
...
m m
m m
p p p pm m p
Z l F l F l F
Z l F l F l F
Z l F l F l F
= + + + + ε
= + + + + ε
= + + + + ε
M M M M M M
11
Nesse modelo, mx1
F é um vetor aleatório contendo m fatores que tem a
função de descrever os elementos da população que não são observáveis,
1 m p≤ ≤ , ou seja, não pode ser medido a priori, com isso o modelo de análise
fatorial assume que as variáveis i
Z estão relacionadas linearmente com novas
variáveis aleatórias , 1,2,...,i
F i m= . O vetor px1ε é de erros aleatórios
correspondentes, como descritos posteriormente, à variação de i
Z que não é
explicada pelos fatores comuns. O coeficiente ijl , chamado de carga fatorial, é o
coeficiente da i-ésima observação padronizada i
Z no j-ésimo fator jF .
Conseqüentemente, o objetivo fica em identificar tais fatores, interpretá-los e
calcular os escores de cada elemento amostral para cada fator.
Em notação matricial, o modelo pode ser expresso por:
( )D X L F− µ = + ε
sendo,
11 12 11 1 1 1
2 2 2 21 22 22
1 1 1
1 2
( )
X F
m
m
px px mx pxm
p p p p p pmm
l l lX F
X l l lFX F L
l l l
=
−µ ε −µ ε −µ = ε = =
−µ ε
L
L
M M M M M MM
L
1
2
1/ 0 0 0
0 1/ 0 0
0 0 0 1/
pxp
p
D
σ
σ
σ
=
L
L
M M O L M
M M M O M
L
Algumas suposições são necessárias para estimação das matrizes do
modelo. Tais suposições são listadas na seqüência:
12
1. [ ] 0mx
i E F = , implicam, [ ] 0 , 1, 2,...,i
E F i n= = , todos os fatores tem média igual a
zero.
[ ]1
1 0 0
0 1.
0 0 1
mx mxmii F I
= =
L
M M
M L O M
L
Var
todos os fatores i
F são não correlacionados, com variância igual a 1.
1. [ ] 0pxiii E ε = , implicam [ ] 0 , 1,2,...,i
E i nε = = , todos os erros tem médias iguais a
zero.
1
2
0 0
0.
0 0
pxp pxp
p
iv Var
ψ
ψε ψ
ψ
= =
L
L M
M L O M
L
ou seja, j j
Var ε ψ = e ( , ) 0j iCov ε ε = , i j∀ ≠ , que significa que os erros são não
correlacionados entre si e não tem necessariamente a mesma variância.
.v Os vetores px1ε e
mx1F são independentes. Por isso,
px1 mx1Cov(ε ,F ) = E(εF') = 0 .
Essa suposição implica em dizer que os vetores ε e F representam duas
fontes de variação distintas, relacionadas às variáveis padronizadas i
Z .
Em análises fatoriais os erros são denominados especificidades.
Uma conseqüência das suposições apresentadas diz respeito à
decomposição da matriz de correlação teórica pxpP . O objetivo da análise fatorial é
encontrar as matrizes pxmL e
pxpψ que podem representar satisfatoriamente a matriz
pxpP com um número m de fatores menores no número de variáveis originais p .
Também devemos lembrar que muitas matrizes de correlação pxpP não podem
ser decompostas na forma 'LL ψ+ para um valor de m muito menor que p .
Johnson; Wichern ( 2002).
13
Como conseqüência dos pressupostos listados, tem-se a seguinte implicação
para o modelo de análise fatorial:
( ) ( )
( ) ( ) '
pxpP Var Z Var LF
Var LF Var LL
ε
ε ψ
= = +
= + = +
ou seja:
( )iλ 2 2 2
2( ) ...i ij i im iVar Z l l l ψ= + + + + , onde 2 2 2 2
2 ...i ij i imh l l l= + + + , 1, 2,...,i n= .
Nessa situação temos que a variância de i
Z é decomposta em duas partes:
2
ih é a variabilidade de i
Z explicada pelos m fatores incluídos no modelo, enquanto
iψ é a parte da variabilidade de
iZ associada apenas ao erro aleatório
iε .(variação
específica da i-ésima variável).
2.1.1 Estimação das cargas fatoriais e das comunalidades
Uma vez determinado e definido o valor de m , conseguimos estimar as
matrizes pxmL e
pxpψ .
Dentre os procedimentos utilizados com tal finalidade, destacam-se os
métodos dos componentes principais e de máxima verossimilhança.
O método das componentes principais parte da decomposição espectral da
matriz de correlações amostrais, produzindo autovalores ( 1, 2,..., )i
i nλ = e
autovetores i i1 i2 i3 ipl = (l , l , l , ..., l ) .
1 1 2 2ˆ ˆ ˆ ˆ ˆ ˆˆ ...
pxm m mL λ λ λ =
l l l
ˆ ˆˆ ( ' )pxp pxp pxm pxmdiag R L Lψ = −
sendo R a matriz de correlações amostrais, diag(.) é a matriz diagonal e pxpψ
tem a diagonal principal iguais aos elementos da diagonal principal da matriz
14
ˆ ˆ(R - LL') . Quando o método das componentes é utilizado para estimar as matrizes
pxmL e pxpψ , a proporção de variância explicada pelo fator
jF é dada por
2
1
p
ij
i
l
p
=
∑
reduzindo-se a ˆ( / )î
pλ Johnson; Wichern (2002). Esse fator representa quanto cada
fator consegue captar da variação original das variáveis , 1,2,...,i
Z i n= .
A estimação por máxima verossimilhança parte da suposição que os fatores
comuns F e os fatores específicos ε são normalmente distribuídos, então, os
estimadores de máxima verossimilhança dos fatores de carregamento e a variância
específica podem ser obtidos. Quando j
F e j
ε tem distribuição normal conjunta,
j j jX LFµ ε− = + tem distribuição normal. Com isso, pode-se mostrar que as
estimativas L̂%
e ψ̂%
satisfazem:
1ˆ ˆ ˆˆ ˆ( )R I
−+ψL =L ψ L ,
conseqüentemente,
ˆ ˆˆ ( ')diag R= −ψ LL ( )Ι
1ˆ ˆˆ'−L ψ L é diagonal ( )ΙΙ
As equações ( )Ι e ( )ΙΙ são resolvidas iterativamente até se alcançar
convergência. Neste ponto, L̂%
e ψ̂%
são declaradas, respectivamente, estimativas de
máxima verossimilhança de L e ψ .
2.1.2 Determinação do número de fatores
A determinação do número de fatores é uma importante etapa da análise
fatorial. Diferentes critérios podem ser considerados nesta etapa, destacando-se:
15
• Fatores que explicam parcelas expressivas da variabilidade original,
avaliando-se os valores dos autovalores correspondentes a R .
• A proporção da variância total captada pelo i-ésimo fator é dado por /î
pλ ,
1, 2,...,i p= . A escolha de m pode ser realizada por meio do gráfico scree-plot
Catell (1966).
• Comparar o valor de ˆî
λ com o valor 1, 1, 2,...,i n= . O valor de m será igual ao
número de autovalores ˆî
λ maiores ou iguais a 1. A idéia desse critério é
manter fatores que possam expressar ao menos a variância da variável
original. Essa técnica foi proposta por Kaiser (1958).
As metodologias citadas acima são calcadas apenas em valores numéricos
dos autovalores, e para termos uma escolha adequada para m devemos levar em
consideração também a interpretação dos fatores e principalmente a questão
subjetiva nessa determinação, pois a experiência do pesquisador que vivenciou todo
o processo de coleta de dados e geralmente está inserido no contexto do problema,
é de fundamental relevância no momento de determinar o número de fatores a
serem inseridos no modelo.
2.1.3 Rotações ortogonais
A matriz de cargas fatoriais do modelo de análise fatorial ortogonal não é
única. Na verdade, multiplicando-a por uma matriz ortogonal qualquer, as
especificações do modelo ainda são atendidas. A escolha de uma matriz ortogonal
conveniente permite maximizar a variância em relação à variação dos escores
fatoriais em um número ainda menor de fatores. Neste caso, os fatores originais são
modificados (rotacionados) visando uma melhor interpretação dos resultados.
Diferentes técnicas podem ser consideradas na rotação dos fatores, destacando-se
aqui o método Varimax.
16
A rotação Varimax consiste na busca da matriz TmXm e é baseada na tentativa
de encontrarmos fatores com grande variabilidade nas cargas fatoriais, ou seja,
queremos encontrar um fator fixo, em um grupo de variáveis Zi , com uma alta
correlação de um fator e outro grupo de correlação bem baixa. Nessa situação,
temos, por exemplo, a quantidade V definida por:
4 2 2
1 1 1
1 1[ ( ) ]
p pm
ij ij
j i i
V l lp p= = =
= −∑ ∑ ∑% %
onde * ˆ( / ),ij ij il l h=%
sendo ˆi
h a raiz quadrada da comunalidade da variável
,iZ , 1, 2,...., .i p= A quantidade V citada acima é proporcional à soma das variâncias
das cargas fatoriais escalonadas ijl% ao quadrado de cada fator, com isso, o método
maximiza a quantidade V e seus coeficientes finais na matriz transformada fica:
*̂ ˆL LT= que são *ˆ ˆ , 1,2,...., .ij ij il l h i n= =%
2.1.4 Estimação dos escores
Os escores fatoriais são valores dos fatores constituídos e avaliados em cada
elemento amostral. Servem para analisar a relação de tais elementos com respeito
aos fatores obtidos e, conseqüentemente, às variáveis “contempladas” por cada
fator. Além disso, os escores fatoriais podem ser utilizados no ranqueamento das
amostras individualmente para cada fator ou ao conjunto de fatores.
Cada elemento amostral está estruturado em um vetor aleatório, composto
por p - variáveis aleatórias através da construção de combinações lineares das
variáveis originais. Após identificar e interpretar os fatores , 1, 2,...,jF j p=
relacionados com as variáveis ,iZ 1, 2,....,i n= é necessário calcular os escores
(valores numéricos) para cada elemento amostral, de modo a utilizar esses valores
para outras análises de interesse. Para cada elemento amostral , 1, 2,...,k k m= o seu
escore no fator jF é estimado da seguinte forma:
17
1 1 2 2ˆ ....jk j k j k jp pkF w Z w Z w Z= + + +
sendo (1 2 ...k k pkZ Z Z ) os valores observados das variáveis padronizadas
iZ para o k-
ésimo elemento amostral e os coeficientes 1, 2,...,jiw p= são os pesos das
ponderações de cada fator jF Mingoti (2005).
No método dos mínimos quadrados ponderados para estimação dos escores,
o modelo fatorial proposto é semelhante ao de regressão linear múltipla, pois Z
pode ser o vetor resposta, F o vetor de parâmetros do modelo, ε o vetor de erros
aleatórios com média zero e matriz de covariâncias ψ e pxmL , a matriz com os
níveis das m variáveis explicativas Z LF= + ε . Uma vez que assumirmos o modelo
nesse formato, temos condições de estimar o vetor F através do método dos
mínimos quadrados ponderados Johnson; Wichern ( 2002), pois os resíduos em ε
não necessariamente têm a mesma variância. Neste caso o valor numérico no fator
jF será descrito como:
1 1 1ˆ ˆˆ ˆ ˆ ˆ( ' ) 'jk k mxp k
F L L L Z W Z− − −= =Ψ Ψ
A matriz mxpW é a matriz de ponderação que gera os coeficientes
jiw , 1,2,...., ; 1, 2,...,j p i n= = .
2.1.5 Ponderação dos escores e ranqueamento
Como já visto no tópico 2.1.4, o índice escore é uma ferramenta importante
para orientar ou hierarquizar a ordem de importância ou classificação de um
determinado grupo de observações. A construção de um índice alternativo baseia-se
na seguinte ponderação dos escores originais:
18
1
qj
ij
j j
j
FPλ
λ=
∑∑
sendo jλ a variância explicada por cada fator e
jλ∑ a soma total da variância
explicada pelo conjunto de fatores comuns, e (ijFP ) é o escore fatorial que foi
padronizado. Após esse cálculo numérico, podemos ordenar os elementos amostrais
com base neste índice, sendo assim possível visualizar de uma forma mais clara o
grupo de elementos que mais se destaca nas variáveis de interesse.
2.2 ANÁLISE DE AGRUPAMENTOS
O intuito principal desta técnica é formar grupos de elementos similares com
respeito a um conjunto de variáveis de interesse.
2.2.1 Medidas de similaridade e dissimilaridade
Para podermos proceder ao agrupamento de elementos, é necessário decidir
com antecedência a medida de similaridade ou dissimilaridade que será utilizada.
Temos várias medidas para aplicarmos e cada uma delas resulta em um
determinado tipo de agrupamento. Algumas medidas são mais indicadas para
variáveis quantitativas, e vamos apresentar algumas delas a seguir. Para Medidas
de dissimilaridade quanto menor o valor, mais similares são os elementos que estão
sendo comparados. Dentre as medidas de dissimilaridade mais importantes,
destacam-se: Distância generalizada ou ponderada, distância de Minkowsky e a
mais utilizada a distância euclidiana, que vamos aprofundar um pouco mais. Os
dados para análise de agrupamentos são fundamentados em valores de p -
variáveis 1 2, ,...., pX X X para n objetos amostrais. Como estamos tratando de
algoritmos hierárquicos, esses valores são utilizados para gerarem um arranjo de
19
distâncias entre os objetos de estudo. A distância euclidiana para um par de
elementos i e j é definida como:
1
22
'
1
( )p
ii ik jk
k
d x x=
= − ∑
sendo ik
x o valor da variável k
X para o objeto i e ik
x é o valor da mesma variável
para o objeto j .
2.2.2 Técnica de agrupamento
Na análise de agrupamentos, observações são agrupadas segundo suas
similaridades, buscando unir as observações mais similares. Há duas abordagens
possíveis para a determinação dos grupos: As técnicas hierárquicas, nas quais os
elementos amostrais são sucessivamente conjugados segundo suas similaridades,
até a formação de um só grupo, e as técnicas não hierárquicas, que não se baseiam
em aglomerados sucessivos.
Dentre as hierárquicas, destacam-se os métodos de Ward, do vizinho mais
próximo, do vizinho mais distante e do centróide. Dentre os procedimentos não
hierárquicos, o mais utilizado é o método de k médias. Maiores detalhes sobre o
procedimentos mencionados podem ser vistos em Johnson e Whichern (2002). A
seguir, temos uma figura ilustrativa de um dendograma:
20
Ilustração de um dendograma
O método de Ward, considerado neste trabalho, não se aplica para
determinar o número de clusters, mas a forma como são formados.
Quando em uma etapa do agrupamento o conglomerado K
C é a união dos
conglomerados i
C e 1C , isto é, 1k iC C C= ∪ , então o coeficiente de correlação
parcial da partição será dado por:
2 1. . i
c
BS P R
SST=
sendo,
11 . 1. . 1.
1
( ) '( )i
i i i
i
n nB X X X X
n n= − −
+
é a distância de grupos utilizada no método de Ward, que para cada passo do
agrupamento, calcula-se o seu coeficiente de correlação semi-parcial.
2.2.3 Determinação do número de grupos
21
Essa questão é de grande relevância, pois o procedimento para escolher o
número final g de grupos é o que define a partição do conjunto de dados analisado.
Alguns critérios que podem auxiliar na tomada desta decisão, são eles:
Análise do comportamento do nível de fusão (distância), análise do
comportamento do nível de similaridade, análise da soma de quadrados entre
grupos: coeficiente 2R , Estatística Pseudo F, método de Ward (citado no tópico
anterior), Estatística Pseudo 2T , e Estatística CCC (Cubic Clustering Criterium).
3 MATERIAL E MÉTODOS
3.1 DESCRIÇÃO DOS DADOS
Essa etapa do trabalho é destinada a expor de uma forma clara e objetiva os
dados a serem analisados e como a metodologia foi aplicada. Os dados foram
coletados no período de Março/2009 a Março/2010, representando vinte e seis
clientes mais significativos no faturamento bruto de uma empresa metalúrgica na
região metropolitana de Curitiba. Foram consideradas oito variáveis relacionadas à
demanda referente a cada empresa.
A coleta propriamente dita das informações foi dividida em duas etapas, a
primeira consistiu em buscar no banco de dados do sistema da empresa,
observações referentes às variáveis: itens, peças produzidas, compras, pedidos e
setup.
O passo seguinte foi buscar as informações das demais variáveis, que são:
custo de matéria-prima, custo máquinas e número de operários envolvidos. Para a
variável custo de matéria-prima, foi necessário interpolar algumas informações, pois
o sistema informatizado tem disponível somente o peso consumido para a produção
de mil peças de cada item e o custo por Kg de cada material. Então com a obtenção
destes dois dados foi possível calcular o custo da matéria-prima Em relação ao
custo de máquinas e números de operários utilizados para a fabricação de um
22
determinado item, esses dados foram coletados de uma planilha fornecida pela
empresa em estudo.
As variáveis utilizadas e seus contextos estão apresentados no Quadro 1.
VARIÁVEL DESCRIÇÃO
Número de Itens Representa (em unidade) o número de diferentes tipos de produto
solicitado por cliente.
Peças produzidas Representa a quantidade total de peças produzidas em milheiros
consumidos por cliente.
Custo Matéria-Prima Representa o custo em reais da matéria prima utilizada na
produção das peças consumidas por cada cliente.
Custo com Máquinas Representa o custo total em reais das máquinas em operação na
produção das peças consumidas. Custo por hora.
Número de Operários Representa a quantidade total de operários envolvidos na
produção das peças consumidos por cada cliente.
Quantidade de Compras Representa o quantitativo de compras em unidade efetuada por
cliente durante o período estudado.
Tempo de Setup Setup das máquinas é o tempo total estimado em horas para
preparação e ajuste do equipamento até o início da produção de
um determinado item. A variável quantifica o setup total requerido
por cada cliente.
Quantidade de Pedidos Representa a quantidade de pedidos efetuados por cliente em
certa data, nos quais, em alguns casos ocorreram mais de uma
compra por pedido. A variável conta o número de pedidos.
QUADRO 1 – DESCRIÇÃO DAS VARIÁVEIS
3.2 METODOLOGIA ESTATÍSTICA
Inicialmente para descrever o comportamento dos clientes com relação ao
conjunto de variáveis produtivas, utilizamos técnicas descritivas uni e bivariadas,
através dos gráficos de correlações e Box-plot.
Visando estudar as correlações existentes entre as variáveis produtivas por
meio da produção de um pequeno número de fatores que expliquem
adequadamente a variabilidade total dos dados, utilizamos a ferramenta de Análise
23
Fatorial, que nos deu condições de reduzir o número de fatores sem perder a
qualidade de explicação da variabilidade dos dados.
Na questão de propôr um índice que reflita o grau de importância dos clientes,
fundamentado nos fatores obtidos, utilizamos os escores fatoriais (e uma
combinação deles).
E, finalmente para agrupar as empresas de acordo com os resultados
avaliados, aplicou-se uma análise de agrupamentos.
Nesse trabalho, foi utilizado o software R (R DEVELOPMENT CORE TEAM,
2010), cujos comandos estão no ANEXO I.
4 RESULTADO E DISCUSSÃO
4.1 ANÁLISE DESCRITIVA
Nesta seção, fez-se a análise descritiva dos dados, obtendo-se os seguintes
resultados:
TABELA 1 – MEDIDAS DE POSIÇÃO E TENDÊNCIA CENTRAL
Descrição Itens Peças
Produzidas
Custo
Matéria
Prima
Custo
Máquinas Operários Compras Setup Pedidos
Mínimo 1,00 18,10 2.528,00 712,20 1,00 6,00 4,00 4,00
1º Quartil 5,00 246,40 6.619,00 7.873,40 6,00 52,25 25,00 28,75
Mediana 9,50 617,90 16.765,00 13.922,80 15,00 165,00 46,00 58,00
Média 20,54 1.931,80 52.903,77 38.896,46 31,46 272,23 97,96 72,62
3º Quartil 15,75 1.730,80 59.986,00 69.870,80 35,25 318,25 76,75 83,25
Máximo 155,00 11.174,00 505.972,00 157.743,80 189,00 1.253,00 817,00 205,00
Observa-se na Tabela 1 as estatísticas descritivas: mínimo, quartis, mediana,
média e máximo.
24
TABELA 2 – CORRELAÇÕES AMOSTRAIS DE PEARSON
Variáveis Itens
Peças
Produzida
s
Custo
Matéria
Prima
Custo
Máquina
s
Operário
s
Compra
s Setup
Pedido
s
Itens 1,00 0,30 0,05 0,33 0,97 0,58 0,99 0,30
Peças Produzidas 0,30 1,00 0,08 0,86 0,26 0,48 0,32 0,46
Custo Matéria Prima 0,05 0,08 1,00 0,41 0,12 0,68 0,03 0,58
Custo Máquinas 0,33 0,86 0,41 1,00 0,31 0,73 0,32 0,76
Operários 0,97 0,26 0,12 0,31 1,00 0,60 0,95 0,34
Compras 0,58 0,48 0,68 0,73 0,60 1,00 0,58 0,82
Setup 0,99 0,32 0,03 0,32 0,95 0,58 1,00 0,27
Pedidos 0,30 0,46 0,58 0,76 0,34 0,82 0,27 1,00
No Quadro 2, de forma resumida, foram feitos comentários sobre algumas
correlações amostrais constantes da Tabela 2, explicando o grau de relacionamento
linear entre as variáveis.
VARIÁVEIS CORRELAÇÃO COMENTÁRIOS
Número de Itens
X
Operários
0,97 São altamente correlacionados devido a quantidade de
itens fornecidos ser diretamente proporcional ao número de
pessoas envolvidas na produção.
Peças Produzidas
X
Custo Máquinas
0,86 O custo de máquina é relacionado com o tempo de
utilização do equipamento, portanto quanto mais peças são
produzidas, mais tempo de máquina é consumido e maior o
custo.
C. Matéria Prima
X
Compras
0,68 A correlação entre as variáveis é verdadeira, pelo fato de
que a quantidade de peças comprada gera um custo
agregado de matéria prima.
Compras X
Pedidos
0,82 São correlacionadas, pois os pedidos contemplam as
compras dos clientes
Compras
X
Peças Produzidas
0,48 A correlação pode ser explicada pelas compras que tem
altas quantidades de peças produzidas enquanto outras
compras apresentam quantidades menores de peças
produzidas.
Número de Itens
X
Setup
0,99 São altamente correlacionado devido ao tempo de ajuste do
equipamento ter influência proporcional com a quantidade
de itens solicitados por cliente.
25
Número de Itens
X
C. Matéria Prima
0,05 A baixa correlação entre estas variáveis é devido ao
número de itens não ter influência no custo de compra do
produto.
Peças Produzidas
X
C. Matéria Prima
0,08 Há correlação baixa entre estas variáveis, pois o custo de
matéria prima varia por tipo de peça sem influência da
quantidade de peças produzidas.
C. Matéria Prima
X
Setup
0,03 O custo da matéria prima não tem ligação com o tempo de
regulagem do equipamento (setup), por isto a correlação é
baixa.
Custo Máquina X
Operários
0,31 A correlação é baixa, divido a relação da máquina em
produção com a mão de obra dos operários ser pequena.
Operários X Custo
Matéria Prima
0,12 Há pouca relação entre as variáveis.
Pedidos X Setup 0,27 O tempo de setup tem pouca relação com a quantidade de
pedidos efetuados por cliente.
QUADRO 2 - DESCRIÇÃO DA CORRELAÇÃO AMOSTRAL
A Figura 1 apresenta os diagramas de dispersão entre pares de variáveis,
sendo possível visualizar eventuais relações entre elas. Por meio do Quadro 2 e da
Figura 1 verificam-se, por exemplo, uma alta relação linear entre as variáveis Itens X
Operários e Itens X Setup, relação moderada entre as variáveis compras X Peças
Produzidas e relação baixa entre as variáveis Itens X Custo de Matéria Prima e
Setup X Custo de Matéria Prima.
26
Número de Itens
0 4000 8000 0 50000 150000 0 200 600 1000 0 50 100 150 200
050
150
060
00 Peças Produzidas
Custo Matéria Prima
0e+0
04e
+05
010
0000
Custo Máquinas
Número de Operários
010
0
060
0 Quantidade de compras
Tempo de Setup
040
080
00 50 100 150
010
020
0
0e+00 2e+05 4e+05 0 50 100 150 0 200 400 600 800
Quantidade de Pedidos
Figura 1 – Gráficos de dispersão para as variáveis produtivas
Os gráficos Box-plot mostrados na Figura 2 indicam a existência de pontos
discrepantes quando cada variável é analisada separadamente. Também, pode ser
visualizada a falta de normalidade das variáveis.
27
050
100
150
Número de Itens
020
0040
0060
0080
0010
000
Peças Produzidas
0e+0
01e
+05
2e+0
53e
+05
4e+0
55e
+05
Custo Matéria Prima
050
000
1000
0015
0000
Custo com Máquinas0
5010
015
0
Número de Operários
020
040
060
080
010
0012
00
Quantidade de Compras
020
040
060
080
0
Tempo de Setup
050
100
150
200
Quantidade de Pedidos
Figura 2 – Gráficos Box-plot para o conjunto de variáveis produtivas
4.2 RESULTADO DA ANÁLISE FATORIAL
O Gráfico Scree-plot (Figura 3) de análise dos fatores e componentes
principais apresenta uma análise fatorial preliminar com informações para a
determinação do número de fatores. As linhas contínuas representam a matriz com
dados originais e as linhas pontilhadas a matriz de dados gerados aleatoriamente e
por reamostragem. Pode-se observar na linha contínua uma mudança de
declividade dentro do intervalo de linhas pontilhadas, o que nos indica para a
utilização de dois fatores.
28
1 2 3 4 5 6 7 8
01
23
4
Factor Number
eige
nval
ues
of p
rinci
pal c
ompo
nent
s an
d fa
ctor
ana
lysi
s
PC Actual Data
PC Simulated Data
PC Resampled Data
FA Actual Data
FA Simulated Data
FA Resampled Data
Figura 3 – Gráfico scree-plot da análise dos fatores e componentes
principais
Na Tabela 3 estão apresentados os autovalores da matriz de correlação
amostral com as respectivas porcentagens de variação total explicada, obtendo-se
três autovalores maiores que 1, que juntos são capazes de explicar 90,9% da
variabilidade total dos dados, indicando ser o número ideal para esta análise.
TABELA 3 – AUTOVALORES DA MATRIZ DE CORRELAÇÃO
Ordem ( )i
Autovalores
( )iλ
Porcentagem de Variância Explicada
(%)
Porcentagem acumulada (%)
1 4,4886 39,1 39,1
2 1,9813 27,0 66,1
3 1,0673 24,8 90,9
4 0,3014
5 0,0758
6 0,0542
7 0,0277
8 0,0037
29
As Tabelas 4 e 5 apresentam o resultado da análise fatorial pelos Métodos de
Componentes Principais e de Máxima Verossimilhança, podendo-se observar nas
cargas fatoriais que não há diferenças relevantes nos resultados obtidos. Também,
observa-se que os dois métodos apresentaram comunalidades altas com valores
próximos a 1, indicando que todas as variáveis são bem explicadas pelos fatores
comuns.
TABELA 4 – CARGAS FATORIAIS DO MÉTODO DE COMPONENTES PRINCIPAIS
Variáveis Fator 1
Variedade Fator 2
Quantidade Fator 3 Esforço
Comunalidades
Itens 0.98 0.09 0.15 0,99
Peças Produzidas 0.16 0.04 0.96 0,95
Custo Matéria Prima -0,04 0,95 -0,01 0,90
Custo Máquinas 0,16 0,44 0,87 0,97
Operários 0,97 0,16 0,11 0,97
Compras 0,47 0,76 0,39 0,95
Setup 0,98 0,06 0,16 0,99
Pedidos 0,17 0,74 0,49 0,82
% de Variância 39,0 28,0 27,0
% de Variância acumulado 39,0 67,0 94,0
TABELA 5 – CARGAS FATORIAIS DO MÉTODO DE VEROSSIMILHANÇA
Variáveis Fator 1
Variedade Fator 2
Quantidade Fator 3 Esforço
Comunalidades
Itens 0.98 0.15 0.99
Peças Produzidas 0.15 0.91 0.86
Custo Matéria Prima 0.86 0.74
Custo Máquinas 0.15 0.45 0.87 0.98
Operários 0.95 0.16 0.10 0.94
Compras 0.46 0.77 0.35 0.93
Setup 0.97 0.16 0.98
Pedidos 0.16 0.75 0.44 0.79
% de Variância 39,1 27,0 24,8
% de Variância acumulado 39,1 66,1 90,9 Obs: As lacunas vazias apresentaram carga fatorial abaixo de 0,1
As cargas fatoriais representam as correlações entre as variáveis e os fatores,
podendo-se observar na tabela 5 que:
30
i. O fator 1 representa 39,1% da variância total, sendo fortemente
correlacionado com as variáveis: Itens, Operários e Setup, com cargas
fatoriais altas positivas com relação as características de variedade de
produtos comercializados.
ii O fator 2 representa 27,0% da variância total, sendo fortemente
correlacionado com as variáveis: Custo de Matéria Prima, Compras e
Pedidos, com cargas fatoriais positivas, caracterizando relação com
quantidade de compras; e
iii O fator 3 representando 24,8% da variância total, é fortemente
correlacionado com as variáveis: Peças Produzidas e Custo de Máquinas,
com cargas fatoriais positivas e características relacionadas com esforço de
atendimento.
O índice ponderado calculado como descrito na Seção 2.1.5, mostra o
potencial e a classificação de cada cliente, podendo ser utilizado para orientar ou
hierarquizar as empresas por ordem de importância. Na Tabela 6 estão
apresentados os escores fatoriais gerados pela análise fatorial via Método de
Verossimilhança, mais o índice ponderado e o ranqueamento das vinte e seis
empresas clientes da indústria metalúrgica.
TABELA 6 – ESCORES FATORIAS E RANQUEAMENTO DAS EMPRESAS
Fator 1 Fator 2 Fator 3 Índice Ponderado Empresa
Score Rank Score Rank Score Rank Score Rank
Emp1 3,9340 1ª 0,4283 5ª 1,2730 4ª 1,9695 1ª
Emp2 -0,5834 23ª 4,1811 1ª -0,5211 20ª 0,7715 2ª
Emp3 -1,0613 26ª -0,5623 19ª 3,3105 1ª 0,2542 8ª
Emp4 -0,7241 25ª -0,5692 20ª 1,3351 3ª -0,1057 10ª
Emp5 -0,6335 24ª 1,1440 3ª 1,2379 5ª 0,3681 5ª
Emp6 0,1990 5ª 1,6492 2ª 0,0409 6ª 0,5332 3ª
Emp7 -0,3298 14ª -0,6848 25ª -0,3740 11ª -0,4065 24ª
Emp8 -0,2091 11ª 0,8618 4ª -0,1510 8ª 0,1134 9ª
Emp9 1,4087 3ª 0,1388 6ª -0,9304 26ª 0,3575 6ª
Emp10 -0,2556 13ª -0,4372 16ª 2,2390 2ª 0,3372 7ª
Emp11 -0,3510 16ª -0,4349 15ª -0,4298 13ª -0,3612 20ª
Emp12 -0,1162 8ª 0,0630 8ª -0,5021 18ª -0,1529 11ª
Emp13 -0,4020 20ª -0,0624 9ª -0,4635 16ª -0,2889 16ª
31
Emp14 -0,3680 19ª -0,1338 11ª -0,3645 10ª -0,2704 15ª
Emp15 0,2278 4ª -0,4344 14ª -0,5800 22ª -0,1720 12ª
Emp16 -0,3658 18ª -0,5031 17ª -0,4149 12ª -0,3817 22ª
Emp17 -0,3641 17ª -0,6347 23ª -0,5433 21ª -0,4484 25ª
Emp18 -0,4765 22ª -0,6827 24ª -0,3595 9ª -0,4597 26ª
Emp19 -0,2515 12ª -0,5928 21ª -0,4684 17ª -0,3745 21ª
Emp20 -0,1180 9ª -0,3224 12ª -0,4401 15ª -0,2423 14ª
Emp21 -0,0186 6ª -0,6074 22ª -0,5049 19ª -0,2964 17ª
Emp22 -0,4311 21ª -0,4101 13ª -0,4347 14ª -0,3870 23ª
Emp23 -0,1649 10ª 0,0671 7ª -0,7374 25ª -0,2292 13ª
Emp24 -0,3368 15ª -0,0819 10ª -0,5833 23ª -0,2984 18ª
Emp25 -0,1040 7ª -0,5500 18ª -0,6093 24ª -0,3402 19ª
Emp26 1,8960 2ª -0,8292 26ª -0,0244 7ª 0,5114 4ª
Para melhor compreensão da análise dos escores das empresas é importante
especificar e comentar o significado de cada fator:
Fator 1: Este fator corresponde a variedade de produtos comercializados com as
empresas, os produtos possuem diferentes especificações técnicas, as quais têm
influência direta com o número de operários envolvidos e também com tempo de
ajuste da máquina para produção.
Fator 2: Para este fator podemos dizer que corresponde a quantidades de produtos
comprados, dos quais a cada pedido ocorrem várias compras, que por conseqüência
irá consumir mais matéria prima.
Fator 3: Este fator corresponde à questão produtiva, relacionada ao esforço de
atendimento aos clientes pela parte fabril, devido às horas de máquina consumidas
durante o processo produtivo.
Analisando os escores fatoriais e o ranqueamento das empresas (Tabela 6),
destacamos a seguir algumas empresas e seus respectivos resultados:
Empresa 1: Este cliente se destacou como a primeira colocada no ranqueamento,
obtendo o maior escore ponderado, demonstrando ser o principal cliente com grande
32
volume de compra de produtos, exigindo grande esforço de atendimento e,
representa grande potencial por estar relacionado ao maior faturamento bruto.
Empresa 2: Esta empresa destacou segundo lugar no ranqueamento, por ser a
primeira colocada no fator 2 relacionada a quantidade de compras. No entanto, nos
demais fatores não obteve uma boa colocação, por ser um cliente que não tem um
grande leque de itens consumidos e não exige um esforço produtivo muito intenso.
Esta empresa se destaca também por ter o segundo maior faturamento bruto.
Empresas 3 e 4: Essas duas empresas obtiveram posicionamento muito próximos
nos três fatores: baixo escore nos fatores 1 e 2 e elevado escore na ponderação dos
três fatores, atingindo o oitavo lugar na classificação dos potenciais. De maneira
similar, a empresa 4 ocupa a décima posição com relação ao potencial. Este
resultado nos leva a interpretação de que esses clientes devem ter uma melhor
atenção devido aos resultados obtidos.
Empresa 9: A análise deste cliente é bem peculiar, pois obteve a terceira posição no
fator 1, sexta no fator 2 e foi a última colocada no fator 3, ou seja, o ponto que mais
se destaca nesta empresa é o baixo esforço produtivo. No entanto, considerando a
sua colocação no ranqueamento ponderado, ela destaca-se em sexto lugar
demonstrando um ótimo potencial, inclusive melhor colocada em relação ao seu
faturamento bruto.
Empresa 26: Este cliente também nos possibilitou efetuar uma análise importante
em relação aos escores atingidos, pois na característica faturamento, este ocupa a
última posição. Porém, considerando a ponderação dos fatores propostos, a
empresa passa a ocupar a quarta posição, pois obteve o segundo lugar no fator
relacionado à variedade de produtos e sétimo no fator correspondente ao esforço
produtivo. Com isto esta empresa também merece uma análise especial.
33
Os gráficos da Figura 4, mostram de uma forma personalizada as relações
dos escores fatoriais em relação ao faturamento bruto (ANEXO II). Algumas das
empresas em destaque são as que foram citadas nos tópicos anteriores.
-1 0 1 2 3 4
050
000
1500
00
Escores Fator 1
Fat
uram
ento
Bru
to Emp1
Emp2
Emp3Emp26Emp9
-1 0 1 2 3 4
050
000
1500
00
Escores Fator 2F
atur
amen
to B
ruto Emp1
Emp2
Emp6Emp5
Emp8
-1 0 1 2 3
050
000
1500
00
Escores Fator 3
Fat
uram
ento
Bru
to Emp1
Emp2
Emp3Emp10
Emp4
Emp5
-0.5 0.0 0.5 1.0 1.5 2.0
050
000
1500
00
Escores Fator Ponderado
Fat
uram
ento
Bru
to
Emp1
Emp2
Emp3
Emp6
Emp26
Figura 4 – Gráficos dos Escores Fatoriais X Faturamento Bruto
4.3 RESULTADO DA ANÁLISE DE AGRUPAMENTOS
Realizou-se uma análise de agrupamentos para os escores fatoriais dos três
fatores constituídos. O objetivo é identificar grupos de empresas com demandas
similares. A Figura 7 apresenta o dendograma da análise, considerando o método
de agrupamento hierárquico de Ward. Pela forma do dendograma, têm-se um
indicativo de que quatro grupos devem ser formados.
34
24 13 14 12 23 15 20 21 25 22 11 16 17 19 7 18
1
9 26
3
4 10
2
5
6 8
02
46
810
12Dendograma
hclust (*, "ward")Método Ward
Dis
tânc
ia
Figura 5 – Dendograma da análise de agrupamento para escores fatoriais. Os
números apresentados sob o gráfico indicam as respectivas empresas,
ordenadas de maneira decrescente conforme o faturamento bruto
A Tabela 7 apresenta às médias e os desvios padrões dos escores fatoriais
para cada grupo, permitindo caracterizar as empresas que os compõe. Verifica-se,
por exemplo, que o grupo 1 apresenta empresas com maior média para escores do
primeiro fator, indicando um demanda diversificada dessas empresas. Além disso, o
grupo 1 apresenta maior potencial médio de compras e maior faturamento médio.
Quanto aos fatores 2 e 3 destacam-se os grupos 2 e 3, configurando empresas com
elevada demanda e elevado esforço de atendimento. No entanto, vale ressaltar que
os desvios padrões dos escores são elevados, indicando em alguns casos grande
variabilidade dentro dos grupos, fazendo com que os resultados devam ser
analisados com cautela.
Grupo 4
Gr. 1 Gr. 3 Gr.2
35
TABELA 7 – ANÁLISE DA SIMILARIDADE DOS GRUPOS
Fator 1 Fator 2 Fator 3 Índice
Ponderado Faturamento
Bruto Grupos Número de Empresas
Média Desvio Média Desvio Média Desvio Média Desvio Média Desvio
1 3 1,12 2,43 0,21 2,83 0,19 3,51 0,54 1,26 76020 162
2 4 -0,12 1,07 0,83 2,25 1,02 2,07 0,43 0,85 56719 308
3 3 -0,38 0,50 0,74 1,16 0,87 0,72 0,26 0,33 28414 2174
4 16 -0,10 0,56 -0,38 0,28 -0,45 0,15 -0,25 0,22 7527 3853
36
5 CONCLUSÃO
Foi estabelecido um índice alternativo para avaliar o potencial de clientes da
indústria do ramo metalúrgico levando-se em consideração as variáveis produtivas
apuradas em banco de dados.
Especificamente, também foi descrito o comportamento dos clientes em
relação as variáveis propostas, utilizando técnicas descritivas uni e bivariadas e
utilizado-se os resultados obtidos na execução e avaliação da análise fatorial. A
análise fatorial possibilitou a obtenção do resultado almejado, reduzindo as variáveis
originais para três fatores com explicação de 90,9% da variabilidade dos dados.
Também, obtivemos os índices escores de cada fator, mais o índice ponderado e o
ranqueamento, que nos permitiu avaliar cada empresa individualmente através do
seu posicionamento e em comparação com o seu respectivo faturamento bruto. Em
relação a análise de agrupamentos, foi útil para agrupar os clientes segundo a
relevância dos mesmos para a empresa.
É importante salientar que as aplicações da análise fatorial e de
agrupamentos foram satisfatórias no presente estudo, pois apresentaram o resultado
esperado. No entanto, é possível implementar outras técnicas estatísticas aos
dados, pelas quantidades de informações disponíveis, como por exemplo modelos
de regressão, com objetivo de analisar as relações dos índices produtivos e
características das empresas.
37
6 REFERÊNCIAS BIBLIOGRÁFICAS
Furtado, Emerson M; Chaves Neto, A; Domingues, Zilna H; Hosokawa, Roberto T., Ranqueamento de faxinais do Estado do Paraná através de análise fatorial, Revista Ciências Exatas e Naturais, Vol. 5, nº 1, Jan/Jun 2003. Johnson, R. A; Wichern, D. W. Applied Multivariate Statistical Analysis. 5ª ed. Prentice Hall, 2002 Manly, Bryan, F.J. Métodos Estatísticos Multivariados: uma Introdução/ Bryan F.J. Manly ; tradução Sara Landa Carmona – 3.ed. – Porto Alegre : Bookman,2008
Marcelo P.A. Fleck; Bourdel, Marie C; Método de simulação e escolha de fatores da análise dos principais componentes, Rev. Saúde Pública, 32 (3): 267-72, 1998.
Mingoti, Sueli A. Análise de dados através de métodos de estatística
multivariada: uma abordagem aplicada – Belo Horizonte: Editora UFMG, 2005.
R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing., Vienna, Austria, 2006. Disponível http://www.R-project.org, 2010.
Rezende, Marcelo L; Fernandes, Luiz P. S; Silva, Antônio M. R, Utilização da análise fatorial para determinar o potencial de crescimento econômico em uma região do sudeste do Brasil, Revista Economia e Desenvolvimento, n. 19, 2007.
Sellitto, M Afonso; Ribeiro, José L. D, Construção de Indicadores para Avaliação de Conceitos Intangíveis em Sistemas Produtivos, Gestão & Produção, Artigo publicado em 2004.
38
ANEXOS ANEXO I - COMANDOS UTILIZADOS NO SOFTWARE R ## ARQUIVO DOS DADOS dados <- read.table("C:/Users/Humberto G Coelho/Documents/TCC\ -\ HUMBERTO \ -\OSCAR/dados.txt",head=T,dec=",") dados ## ANALISE DESCRITIVA round(mean(dados[, -1]),2) summary(dados[, -1]) round(var(dados[,-1]),2) round(cov(dados[,-1]),2) round(sd(dados[,-1]),2) round(cor(dados[,-1]),2) ##GRAFICO DE DISPERSAO DA CORRELACAO AMOSTRAL pairs(dados[,-1],cex=1, cex.labels =1.5,font.labels = 2, labels=c("Número \n de Itens", "Peças \n Produzidas", "Custo \n Matéria \n Prima", "Custo \n Máquinas", "Número de \n Operários", "Quantidade \n de compras", "Tempo \n de Setup", "Quantidade \n de Pedidos")) ## GRAFICO BOXPLOT opar<- par(mfrow = c(2,4)) boxplot(dados$itens, main="Número de Itens", cex.main=2) boxplot(dados$pecasprod, main="Peças Produzidas", cex.main=2) boxplot(dados$ctmprima, main="Custo Matéria Prima", cex.main=2) boxplot(dados$ctmaquinas, main="Custo com Máquinas", cex.main=2) boxplot(dados$operarios, main="Número de Operários", cex.main=2) boxplot(dados$compras, main="Quantidade de Compras", cex.main=2) boxplot(dados$setup, main="Tempo de Setup", cex.main=2) boxplot(dados$pedidos, main="Quantidade de Pedidos", cex.main=2) ## HISTOGRAMA COM PROBABILIDADES par(mfrow=c(3,3),mar=c(2,2,4,2));for(i in 2:9){hist(dados[,i], main=names(dados)[i])} par(mfrow=c(3,3),mar=c(2,2,4,2));for(i in 2:9){hist(dados[,i], prob=T, main=names(dados)[i]);lines(density(dados[,i]))} par(mfrow=c(3,3),mar=c(2,2,4,2));for(i in 2:9){hist(dados[,i], prob=T, main=names(dados)[i]);lines(density(dados[,i]),col=2)} ### VERIFICACAO DA NORMALIDADE MULTIVARIADA dados2<-(c(dados1$itens, dados1$pecasprod ,dados1$ctmprima, dados1$ctmaquinas, dados1$operarios ,dados1$compras, dados1$setup, dados1$pedidos)) dados2<-matrix(dados2,nc=8) dados2 Xmean<-matrix(c(mean(dados2[,1]), mean(dados2[,2]), mean(dados2[,3]), mean(dados2[,4]), mean(dados2[,5]), mean(dados2[,6]), mean(dados2[,7]), mean(dados2[,8])),nc=1) Xmean dj2<-matrix(c(rep(0,26)),nc=1) saida<-for(i in 1:length(dj2)) { X<-matrix(dados2[i,],nc=1) M<-(X-Xmean) t(M)%*%solve(S)%*%M dj2[i]<-t(M)%*%solve(S)%*%M }
39
dj2ordem<-sort(dj2) quantidade<-matrix(c(rep(0,26)),nc=1) saida2<-for(i in 1:length(quantidade)) { quantidade[i]=(i-(1/2))/length(quantidade) } jotas:1:26 OQQ<-qchisq(quantidade, df=8) tabela<-cbind(jotas,dados2,dj2,dj2ordem,quantidade,OQQ) tabela plot(tabela[,11],tabela[,13], ylab="Ordenadas Qui-Quadrada", xlab="Distâncias - dj2_ordenadas", main="Grafico Q-Q plot", cex.lab=2, cex.main=2) lines(tabela[,13],tabela[,13]) ## ESTIMACAO DOS FATORES require(psych) ?fa fat1=factanal(dados1, factors=3) # varimax is the default factanal(dados1, factors=3, rotation="promax") f1=factanal(dados1, factors=3) # varimax is the default f1 f1=factanal(dados1, factors=3,scores='Bartlett') ## varimax is the default f1$scores ## RANK ESCORES rank(f1$scores[,1]) ##VARIMAX factanal(dados1, factors=3, rotation="varimax") f3=factanal(dados1, factors=3,scores='regression') f3$scores rank(f3$scores[,1]) ## COMPONENTES PRINCIPAIS analise = principal(dados1, nfactors = 3, residuals = FALSE,rotate="varimax", scores=T) analise analise$scores dados[order(analise$scores[,1]),"empresa"][26:1] dados[order(analise$scores[,2]),"empresa"][26:1] dados[order(analise$scores[,3]),"empresa"][26:1] ## GRAFICO SCREEPLOT ?screeplot screeplot(princomp(cor(dados2))) help.search("scree") ?VSS.scree VSS.scree(cor(dados2), (main= "Scree-plot - Avaliação dos Fatores")) ## COMUNALIDADES ?factanal names(f1) 1-f1$uniquenesses ## GRAFICO FA PARALLEL require (psych) fa.parallel(dados2, main=NULL)
40
## AUTOVALORES E AUTOVETORES E GRAFICO SCREEPLOT eigen(cor(dados2)) ## PONDERACAO DOS ESCORES FATORIAIS pond <- read.table("C:/Users/Humberto G Coelho/Documents/TCC\ -\ HUMBERTO\ -\ OSCAR/Ponderacao.txt",head=T,dec=",") pond x=pond[,'FatorBruto'] xp=(x-mean(x))/sd(x) pesos=as.matrix(c( 0.391 , 0.270, 0.248),3,1) escfatores=as.matrix(pond[,2:4]) escfatores escorepond=escfatores%*%pesos escorepond medias=by(pond[,-1],clusters,mean) medias desvios=by(pond[,-1],clusters,sd) desvios ## GRAFICOS DE ESCORES X FATOR BRUTO opar<- par(mfrow = c(2,2)) plot(pond$Fator1,xlab='Escores Fator 1', ylab='Faturamento Bruto', pond$FatorBruto, cex.lab=1.8, pch=16, cex=2, cex.axis=1.2) ##locator() text(x=3.58,y=189639.4,'Emp1', cex=1.5) text(x=-0.65,y=120363.9,'Emp2', cex=1.5) text(x=-1.0,y=48973,'Emp3', cex=1.5) text(x=2.08,y=17772,'Emp26', cex=1.5) text(x=1.05,y=26233,'Emp9', cex=1.5) plot(pond$Fator2,xlab='Escores Fator 2', ylab='Faturamento Bruto', pond$FatorBruto, cex.lab=1.8, pch=16, cex=2, cex.axis=1.2) ##locator() text(x=0.18,y=187524.1,'Emp1', cex=1.5) text(x=4.07,y=119616.8,'Emp2', cex=1.5) text(x=1.73,y=13542.1,'Emp6', cex=1.5) text(x=1.0,y=41040.8,'Emp5', cex=1.5) text(x=0.59,y=5609.8,'Emp8',cex=1.5) plot(pond$Fator3,xlab='Escores Fator 3', ylab='Faturamento Bruto', pond$FatorBruto, cex.lab=1.8, pch=16, cex=2, cex.axis=1.2) ##locator() text(x=1.0,y=186466.5,'Emp1', cex=1.5) text(x=-0.62,y=120363.9,'Emp2', cex=1.5) text(x=3.01,y=45271.4,'Emp3', cex=1.5) text(x=2.13,y=27820,'Emp10', cex=1.5) text(x=1.26, y=47386,'Emp4', cex=1.5) text(x=0.96,y=13542,'Emp5', cex=1.5) plot(pond$Fpond,xlab='Escores Fator Ponderado', ylab='Faturamento Bruto', pond$FatorBruto, cex.lab=1.8, pch=16, cex=2, cex.axis=1.2) ##locator() text(x=1.73,y=183822,'Emp1', cex=1.5) text(x=0.66,y=116662,'Emp2', cex=1.5) text(x=0.06,y=78587,'Emp3', cex=1.5) text(x=0.52,y=43684,'Emp6', cex=1.5) text(x=0.65, y=3494,'Emp26', cex=1.5)
41
##ANALISE DE AGRUPAMENTOS matdist=dist(f1$scores) matdist cluster=hclust(matdist, method="ward") plot(cluster, main="Dendograma", xlab="Método Ward", ylab="Distância", cex.main=3,cex.lab=2) clusters=cutree(cluster, k=4) clusters pondnovo=data.frame(pond,clusters) pondnovo attach(pondnovo) cluster=hclust(matdist, method="cen") plot(cluster) cluster=hclust(matdist, method="median") plot(cluster) cluster=hclust(matdist, method="single") plot(cluster) cluster=hclust(matdist, method="complete") plot(cluster) cluster=hclust(matdist, method="average") plot(cluster) cluster=hclust(matdist, method="mcquitty") plot(cluster)
42
ANEXO I I– PLANILHA RESUMO DOS DADOS DA EMPRESA METALURGICA
EmpresasNúmero de
itensPeças
ProduzidasCusto de
Matéria PrimaCusto com Máquinass
Número de Operários
Quantidade de Compras
Tempo de Setup
Quantidade de Pedidos
Faturamento Bruto
Empresa 1 155 7.486,6 60.531,86 128.011,28 189 1253 817 146 201.982,45
Empresa 2 12 1.350,2 505.971,71 103.477,38 30 1174 39 203 134.091,36
Empresa 3 1 8.833,7 8.603,98 157.743,75 2 271 5 153 63.277,20
Empresa 4 2 3.724,9 27.191,58 79.203,68 3 116 9 68 30.924,18
Empresa 5 9 4.258,0 143.691,11 111.132,95 11 630 53 144 27.214,90
Empresa 6 35 1.790,2 80.198,90 77.855,90 69 716 109 205 27.103,96
Empresa 7 6 1.552,8 14.322,92 4.874,31 6 39 25 11 19.805,30
Empresa 8 15 2.767,1 58.348,84 45.663,48 23 469 78 178 19.306,79
Empresa 9 61 445,9 109.358,38 14.708,07 117 334 302 62 16.141,92
Empresa 10 22 11.174,0 71.483,44 114.304,39 41 475 101 78 13.366,31
Empresa 11 5 240,5 8.444,60 9.561,76 6 62 33 39 10.719,00
Empresa 12 14 468,0 18.973,12 18.087,14 21 224 72 85 10.121,80
Empresa 13 5 596,5 138.019,24 16.102,78 5 65 25 44 9.825,00
Empresa 14 6 251,7 17.174,45 18.903,71 9 154 31 54 8.328,42
Empresa 15 24 244,7 2.894,71 7.831,78 45 96 105 51 7.143,42
Empresa 16 5 168,2 2.657,41 8.973,42 7 41 22 31 7.105,00
Empresa 17 4 18,1 5.994,60 712,21 4 8 18 6 6.772,95
Empresa 18 1 509,7 2.528,11 6.371,25 1 6 4 4 6.170,00
Empresa 19 8 147,6 3.577,18 5.723,95 13 29 39 20 5.938,60
Empresa 20 13 757,4 16.355,66 13.137,51 26 176 63 11 5.678,43
Empresa 21 16 638,3 5.108,48 4.433,81 18 49 73 38 5.420,70
Empresa 22 3 597,5 16.136,30 8.756,25 3 76 13 28 5.250,06
Empresa 23 10 175,2 6.177,06 7.998,23 37 211 56 63 5.129,90
Empresa 24 6 914,1 18.488,23 8.542,50 6 177 33 65 4.732,47
Empresa 25 12 50,0 7.944,80 1.368,55 17 44 64 28 4.600,00
Empresa 26 84 1.053,1 25.321,40 37.827,90 109 183 358 73 4.477,80
Obs: (itens, operários, compras, pedidos = unidade); (peçasprod = milheiros); (ctprima, ctmaquinas = Reais); (setup = horas)
Top Related