Download - HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Transcript

HUMBERTO GERALDO COELHO

OSCAR AMÂNCIO VIEIRA NETO

AVALIAÇÃO DO POTENCIAL DE CLIENTES EM UMA

INDÚSTRIA DO RAMO METALÚRGICO NA REGIÃO

METROPOLITANA DE CURITIBA USANDO ANÁLISE

MULTIVARIADA

Curitiba-PR

2010

HUMBERTO GERALDO COELHO

OSCAR AMÂNCIO VIEIRA NETO

AVALIAÇÃO DO POTENCIAL DE CLIENTES EM UMA

INDÚSTRIA DO RAMO METALÚRGICO NA REGIÃO

METROPOLITANA DE CURITIBA USANDO ANÁLISE

MULTIVARIADA

Trabalho de Conclusão de Curso

apresentado ao Curso de Bacharelado em

Estatística do Setor de Ciências Exatas

da Universidade Federal do Paraná, como

requisito à obtenção do título de Bacharel.

Orientador: Prof. Cesar Augusto Taconeli

Curitiba-PR

2010

Page 3: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Trabalho de conclusão de curso de Bacharel em

Estatística com o título “Avaliação do potencial

de clientes em uma indústria do ramo

metalúrgico na região metropolitana de Curitiba,

usando análise multivariada”, desenvolvido pelos

alunos Humberto Geraldo Coelho e Oscar

Amâncio Vieira Neto, apresentado a banca

examinadora constituída pelos professores do

Departamento de Estatística da UFPR:

_______________________________

Cesar Augusto Taconeli

Orientador

________________________________

Bruno Grimaldo Martinho Churata

Banca

Curitiba-PR

2010

Page 4: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

AGRADECIMENTOS

A Deus, primeiramente por nos abençoar em cada dia de nossas vidas, nos

proteger de todos os males e nos abençoar durante o transcorrer deste curso.

Ao Professor Cesar Augusto Taconeli, pela confiança acolhida, pela

orientação incansável, dedicação inestimável e atenção a estes discentes.

Aos colegas de curso, pelo companheirismo nas horas de dificuldades, que

sempre nos acolheram.

A todos os professores do Departamento de Estatística e demais

colaboradores por contribuir nesta conquista e nos enriquecer em conhecimentos.

Aos nossos familiares, esposas, filhos e amigos que nos incentivaram e

compreenderam nos momentos difíceis que nos recolhemos para os estudos.

Page 5: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

RESUMO

Neste estudo foram analisados os dados de uma empresa do setor metalúrgico, com sede em Araucária, Paraná, que produz molas de compressão, torção, tração, aramados e estamparia leve. Os clientes da empresa são da área automobilística, moveleiro, eletro-eletrônicos, equipamentos elétricos e de informática, com porte nacional e multinacional. Foram consideradas variáveis produtivas referentes ao esforço e ao custo aplicados para atender à demanda de seus principais clientes. O conjunto de variáveis produtivas consideradas incide diretamente no resultado financeiro da empresa estudada, pois retratam características importantes de cada cliente. As variáveis foram analisadas com a utilização de técnicas estatísticas multivariadas, Manly, B.J.F.(2008), Mingoti (2005). Uma destas técnicas é a Análise Fatorial que consiste na obtenção de um reduzido conjunto de fatores comuns que explicam uma considerável quantidade da variância de cada variável. A parcela da variância total não explicada por estes fatores corresponde a variações específicas das variáveis. Rezende, M.L, et al (2007). Outra técnica destacada é a Análise de Agrupamentos (Cluster), que tem como objetivo dividir os elementos da amostra, ou população, em grupos de forma que os elementos pertencentes ao mesmo grupo sejam similares entre si com respeito às variáveis que neles foram medidas e os elementos em grupos diferentes sejam heterogêneos em relação a estas características. A análise fatorial possibilitou a obtenção do resultado almejado, reduzindo as variáveis originais para três fatores com explicação de 90,9% da variabilidade dos dados. Também, foram obtidos os índices escores para o ranqueamento das empresas, que nos permitiu avaliar cada empresa individualmente em comparação com o seu respectivo faturamento bruto. Em relação a análise de agrupamentos, foi útil para agrupar os clientes segundo a relevância dos mesmos para a empresa.

Palavras-chave: Análise Fatorial, Análise de Agrupamentos, Escores fatoriais

Page 6: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

LISTA DE ILUSTRAÇÕES

FIGURA 1 – Gráficos de dispersão para as variáveis produtivas......................... 26

FIGURA 2 – Gráfico Box-plot para o conjunto de variáveis produtivas................. 27

FIGURA 3 – Gráfico Scree-plot da análise dos fatores e componentes...............

Principais............................................................................................................... 28

FIGURA 4 – Gráfico dos escores X faturamento bruto......................................... 33

FIGURA 5 – Dendograma da análise de agrupamentos para escores fatoriais.... 34

LISTA DE TABELAS TABELA 1 – Medidas de posição e tendência central........................................... 23

TABELA 2 – Correlações amostrais de Pearson................................................... 24

TABELA 3 – Autovalores da matriz de correlação................................................ 28

TABELA 4 – Cargas fatoriais do método de componentes principais................... 29

TABELA 5 – Cargas fatoriais do método de verossimilhança............................... 29

TABELA 6 – Escores fatoriais e ranqueamento das empresas............................. 30

TABELA 7 – Análise da similaridade dos grupos.................................................. 35

Page 7: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

SUMÁRIO

1 INTRODUÇÃO................................................................................................... 08

2 REVISÃO DE LITERATURA............................................................................. 10

2.1 ANÁLISE FATORIAL....................................................................................... 10

2.1.1 Estimação das cargas fatoriais e das comunalidades.................................. 13

2.1.2 Determinação do número de fatores............................................................ 14

2.1.3 Rotações ortogonais..................................................................................... 15

2.1.4 Estimação dos fatores.................................................................................. 16

2.1.5 Ponderação dos escores e ranqueamento................................................... 17

2.2 ANÁLISE DE AGRUPAMENTOS................................................................... 18

2.2.1 Medidas de similaridade e dissimilaridade................................................... 18

2.2.2 Técnica de agrupamento.............................................................................. 19

2.2.3 Determinação do número de grupos............................................................ 20

3 MATERIAL E MÉTODOS................................................................................... 21

3.1 DESCRIÇÃO DOS DADOS............................................................................. 21

3.2 METODOLOGIA ESTATÍSTICA...................................................................... 22

4 RESULTADO E DISCUSSÃO............................................................................ 23

4.1 ANÁLISE DESCRITIVA................................................................................... 23

4.2 RESULTADO DA ANÁLISE FATORIAL.......................................................... 27

4.3 RESULTADO DA ANÁLISE DE AGRUPAMENTOS....................................... 34

5 CONCLUSÃO..................................................................................................... 36

6 REFERÊNCIAS BIBLIOGRÁFICAS.................................................................. 37

Page 8: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

1 INTRODUÇÃO

Na atualidade é de fundamental importância ser competitivo e eficaz no

exigente mercado empresarial. Por isto, conhecer profundamente a carteira de

clientes em relação as suas características e atividades preponderantes contribuirá

para o sucesso da instituição. Uma característica importante a ser avaliada é o perfil

dos clientes, e com essa informação analisar as informações das variáveis

encontradas que incidem diretamente no resultado produtivo e financeiro para a

empresa.

Neste estudo analisamos uma empresa do setor metalúrgico, com sede em

Araucária, Paraná, que produz molas de compressão, tração, torção, aramados e

estamparia leve. Os clientes da empresa são da área automobilística, moveleiro,

eletro-eletrônicos, equipamentos elétricos e de informática, com porte nacional e

multinacional.

Os dados utilizados neste estudo foram analisados através de análise

multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos

utilizados em situações nas quais várias variáveis são medidas simultaneamente em

cada elemento amostral. Basicamente, a estatística multivariada se divide em dois

grupos: o primeiro enfoque em técnicas exploratórias de simplificação da

variabilidade dos dados e o outro direcionado a técnicas de inferência estatística.

Particularmente neste trabalho serão abordadas as técnicas de análise fatorial e

análise de agrupamentos.

A análise fatorial é um método estatístico que em certas situações permite

explicar o comportamento de um número relativamente grande de variáveis

observadas em termos de um número relativamente pequeno de variáveis latentes

ou fatores. Como exemplos de aplicação do método, Rezende, M.L, et al (2007),

aplica a análise fatorial para determinar os potenciais de desenvolvimento dos

municípios da região sul do estado de Minas Gerais. Furtado, E.M. et al (2002)

executam o ranqueamento de faxinais do estado do Paraná por meio de análise

fatorial, considerando variáveis sugeridas pelo Instituto Ambiental do Paraná (IAP).

Page 9: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Um ponto importante na análise fatorial é a escolha do número de fatores.

Fleck, Marcelo P.A, et al (1998), propõe um método de simulação juntamente com o

critério de Kaiser para esta definição, que em resumo tem o objetivo de selecionar

apenas os componentes significativos para o estudo.

O objetivo principal deste estudo é identificar e avaliar dentre a carteira e

clientes da empresa aquelas com maior grau de importância segundo o conjunto de

variáveis produtivas analisadas, propondo um índice alternativo do grau de

importância de cada empresa. Como objetivos específicos, vamos estudar as

correlações existentes entre às variáveis produtivas, buscar através da análise

fatorial um número de fatores que expliquem adequadamente a variabilidade dos

dados e agrupar as empresas de acordo com os resultados obtidos.

Page 10: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

2 REVISÃO DE LITERATURA

O intuito deste capítulo é fazer uma breve descrição das técnicas de Análise

Fatorial e Análise de Agrupamentos, procurando descrever as ferramentas para

obtenção dos números de fatores, e cálculo dos escores fatoriais. Na parte de

agrupamentos procuramos especificar a técnica utilizada que fundamentou a

seleção dos distintos grupos.

2.1 A ANÁLISE FATORIAL

A análise de fatores tem objetivos próximos à da análise de componentes

principais, pois tenta descrever as características de um vetor 1 2 px = (x , x , ...x )

% no que

diz respeito a sua variabilidade original, por meio de um conjunto mais reduzido de

variáveis latentes do que as p - variáveis originais, as chamando de fatores

comuns. Com isso, espera-se que essas variáveis possam ser explicadas por um

conjunto de novas variáveis de menor dimensão em relação às variáveis originais.

Para fundamentar toda essa técnica, temos um modelo proposto para a

análise fatorial, que é definido a partir da matriz de correlação teórica pxpP . Seja

px1X%

um vetor aleatório com vetor de médias pµ%

e matriz de covariâncias Σpxp e matriz de

correlação pxpP . Sejam ( )[ / ]i i i iZ X µ σ= − as variáveis originais padronizadas, onde

iµ e

iσ representam respectivamente a média e desvio padrão de , 1,2,...,

iX i P= ,

então a matriz pxpP é a matriz de covariância do vetor aleatório

1 2 pZ = (Z , Z , ...Z )'

Mingoti (2005). O modelo de análise fatorial é dado por:

1 11 1 12 2 1 1

2 21 1 22 2 2 2

1 1 2 2

...

m m

p p p pm m p

Z l F l F l F

= + + + + ε

M M M M M M

Page 11: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Nesse modelo, mx1

F é um vetor aleatório contendo m fatores que tem a

função de descrever os elementos da população que não são observáveis,

1 m p≤ ≤ , ou seja, não pode ser medido a priori, com isso o modelo de análise

fatorial assume que as variáveis i

Z estão relacionadas linearmente com novas

variáveis aleatórias , 1,2,...,i

F i m= . O vetor px1ε é de erros aleatórios

correspondentes, como descritos posteriormente, à variação de i

Z que não é

explicada pelos fatores comuns. O coeficiente ijl , chamado de carga fatorial, é o

coeficiente da i-ésima observação padronizada i

Z no j-ésimo fator jF .

Conseqüentemente, o objetivo fica em identificar tais fatores, interpretá-los e

calcular os escores de cada elemento amostral para cada fator.

Em notação matricial, o modelo pode ser expresso por:

( )D X L F− µ = + ε

sendo,

11 12 11 1 1 1

2 2 2 21 22 22

1 1 1

1 2

( )

X F

px px mx pxm

p p p p p pmm

l l lX F

X l l lFX F L

l l l

−µ ε −µ ε −µ = ε = =

−µ ε

M M M M M MM

1/ 0 0 0

0 1/ 0 0

0 0 0 1/

pxp

M M O L M

M M M O M

Algumas suposições são necessárias para estimação das matrizes do

modelo. Tais suposições são listadas na seqüência:

Page 12: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

1. [ ] 0mx

i E F = , implicam, [ ] 0 , 1, 2,...,i

E F i n= = , todos os fatores tem média igual a

zero.

[ ]1

1 0 0

0 1.

0 0 1

mx mxmii F I

= =

M M

M L O M

Var

todos os fatores i

F são não correlacionados, com variância igual a 1.

1. [ ] 0pxiii E ε = , implicam [ ] 0 , 1,2,...,i

E i nε = = , todos os erros tem médias iguais a

zero.

0 0

pxp pxp

iv Var

ψε ψ

= =

L M

M L O M

ou seja, j j

Var ε ψ = e ( , ) 0j iCov ε ε = , i j∀ ≠ , que significa que os erros são não

correlacionados entre si e não tem necessariamente a mesma variância.

.v Os vetores px1ε e

mx1F são independentes. Por isso,

px1 mx1Cov(ε ,F ) = E(εF') = 0 .

Essa suposição implica em dizer que os vetores ε e F representam duas

fontes de variação distintas, relacionadas às variáveis padronizadas i

Z .

Em análises fatoriais os erros são denominados especificidades.

Uma conseqüência das suposições apresentadas diz respeito à

decomposição da matriz de correlação teórica pxpP . O objetivo da análise fatorial é

encontrar as matrizes pxmL e

pxpψ que podem representar satisfatoriamente a matriz

pxpP com um número m de fatores menores no número de variáveis originais p .

Também devemos lembrar que muitas matrizes de correlação pxpP não podem

ser decompostas na forma 'LL ψ+ para um valor de m muito menor que p .

Johnson; Wichern ( 2002).

Page 13: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Como conseqüência dos pressupostos listados, tem-se a seguinte implicação

para o modelo de análise fatorial:

( ) ( )

( ) ( ) '

pxpP Var Z Var LF

Var LF Var LL

ε ψ

= = +

= + = +

ou seja:

( )iλ 2 2 2

2( ) ...i ij i im iVar Z l l l ψ= + + + + , onde 2 2 2 2

2 ...i ij i imh l l l= + + + , 1, 2,...,i n= .

Nessa situação temos que a variância de i

Z é decomposta em duas partes:

ih é a variabilidade de i

Z explicada pelos m fatores incluídos no modelo, enquanto

iψ é a parte da variabilidade de

iZ associada apenas ao erro aleatório

iε .(variação

específica da i-ésima variável).

2.1.1 Estimação das cargas fatoriais e das comunalidades

Uma vez determinado e definido o valor de m , conseguimos estimar as

matrizes pxmL e

pxpψ .

Dentre os procedimentos utilizados com tal finalidade, destacam-se os

métodos dos componentes principais e de máxima verossimilhança.

O método das componentes principais parte da decomposição espectral da

matriz de correlações amostrais, produzindo autovalores ( 1, 2,..., )i

i nλ = e

autovetores i i1 i2 i3 ipl = (l , l , l , ..., l ) .

1 1 2 2ˆ ˆ ˆ ˆ ˆ ˆˆ ...

pxm m mL λ λ λ =

l l l

ˆ ˆˆ ( ' )pxp pxp pxm pxmdiag R L Lψ = −

sendo R a matriz de correlações amostrais, diag(.) é a matriz diagonal e pxpψ

tem a diagonal principal iguais aos elementos da diagonal principal da matriz

Page 14: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

ˆ ˆ(R - LL') . Quando o método das componentes é utilizado para estimar as matrizes

pxmL e pxpψ , a proporção de variância explicada pelo fator

jF é dada por

∑

reduzindo-se a ˆ( / )î

pλ Johnson; Wichern (2002). Esse fator representa quanto cada

fator consegue captar da variação original das variáveis , 1,2,...,i

Z i n= .

A estimação por máxima verossimilhança parte da suposição que os fatores

comuns F e os fatores específicos ε são normalmente distribuídos, então, os

estimadores de máxima verossimilhança dos fatores de carregamento e a variância

específica podem ser obtidos. Quando j

F e j

ε tem distribuição normal conjunta,

j j jX LFµ ε− = + tem distribuição normal. Com isso, pode-se mostrar que as

estimativas L̂%

e ψ̂%

satisfazem:

1ˆ ˆ ˆˆ ˆ( )R I

−+ψL =L ψ L ,

conseqüentemente,

ˆ ˆˆ ( ')diag R= −ψ LL ( )Ι

1ˆ ˆˆ'−L ψ L é diagonal ( )ΙΙ

As equações ( )Ι e ( )ΙΙ são resolvidas iterativamente até se alcançar

convergência. Neste ponto, L̂%

e ψ̂%

são declaradas, respectivamente, estimativas de

máxima verossimilhança de L e ψ .

2.1.2 Determinação do número de fatores

A determinação do número de fatores é uma importante etapa da análise

fatorial. Diferentes critérios podem ser considerados nesta etapa, destacando-se:

Page 15: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

• Fatores que explicam parcelas expressivas da variabilidade original,

avaliando-se os valores dos autovalores correspondentes a R .

• A proporção da variância total captada pelo i-ésimo fator é dado por /î

pλ ,

1, 2,...,i p= . A escolha de m pode ser realizada por meio do gráfico scree-plot

Catell (1966).

• Comparar o valor de ˆî

λ com o valor 1, 1, 2,...,i n= . O valor de m será igual ao

número de autovalores ˆî

λ maiores ou iguais a 1. A idéia desse critério é

manter fatores que possam expressar ao menos a variância da variável

original. Essa técnica foi proposta por Kaiser (1958).

As metodologias citadas acima são calcadas apenas em valores numéricos

dos autovalores, e para termos uma escolha adequada para m devemos levar em

consideração também a interpretação dos fatores e principalmente a questão

subjetiva nessa determinação, pois a experiência do pesquisador que vivenciou todo

o processo de coleta de dados e geralmente está inserido no contexto do problema,

é de fundamental relevância no momento de determinar o número de fatores a

serem inseridos no modelo.

2.1.3 Rotações ortogonais

A matriz de cargas fatoriais do modelo de análise fatorial ortogonal não é

única. Na verdade, multiplicando-a por uma matriz ortogonal qualquer, as

especificações do modelo ainda são atendidas. A escolha de uma matriz ortogonal

conveniente permite maximizar a variância em relação à variação dos escores

fatoriais em um número ainda menor de fatores. Neste caso, os fatores originais são

modificados (rotacionados) visando uma melhor interpretação dos resultados.

Diferentes técnicas podem ser consideradas na rotação dos fatores, destacando-se

aqui o método Varimax.

Page 16: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

A rotação Varimax consiste na busca da matriz TmXm e é baseada na tentativa

de encontrarmos fatores com grande variabilidade nas cargas fatoriais, ou seja,

queremos encontrar um fator fixo, em um grupo de variáveis Zi , com uma alta

correlação de um fator e outro grupo de correlação bem baixa. Nessa situação,

temos, por exemplo, a quantidade V definida por:

4 2 2

1 1 1

1 1[ ( ) ]

p pm

ij ij

j i i

V l lp p= = =

= −∑ ∑ ∑% %

onde * ˆ( / ),ij ij il l h=%

sendo ˆi

h a raiz quadrada da comunalidade da variável

,iZ , 1, 2,...., .i p= A quantidade V citada acima é proporcional à soma das variâncias

das cargas fatoriais escalonadas ijl% ao quadrado de cada fator, com isso, o método

maximiza a quantidade V e seus coeficientes finais na matriz transformada fica:

*̂ ˆL LT= que são *ˆ ˆ , 1,2,...., .ij ij il l h i n= =%

2.1.4 Estimação dos escores

Os escores fatoriais são valores dos fatores constituídos e avaliados em cada

elemento amostral. Servem para analisar a relação de tais elementos com respeito

aos fatores obtidos e, conseqüentemente, às variáveis “contempladas” por cada

fator. Além disso, os escores fatoriais podem ser utilizados no ranqueamento das

amostras individualmente para cada fator ou ao conjunto de fatores.

Cada elemento amostral está estruturado em um vetor aleatório, composto

por p - variáveis aleatórias através da construção de combinações lineares das

variáveis originais. Após identificar e interpretar os fatores , 1, 2,...,jF j p=

relacionados com as variáveis ,iZ 1, 2,....,i n= é necessário calcular os escores

(valores numéricos) para cada elemento amostral, de modo a utilizar esses valores

para outras análises de interesse. Para cada elemento amostral , 1, 2,...,k k m= o seu

escore no fator jF é estimado da seguinte forma:

Page 17: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

1 1 2 2ˆ ....jk j k j k jp pkF w Z w Z w Z= + + +

sendo (1 2 ...k k pkZ Z Z ) os valores observados das variáveis padronizadas

iZ para o k-

ésimo elemento amostral e os coeficientes 1, 2,...,jiw p= são os pesos das

ponderações de cada fator jF Mingoti (2005).

No método dos mínimos quadrados ponderados para estimação dos escores,

o modelo fatorial proposto é semelhante ao de regressão linear múltipla, pois Z

pode ser o vetor resposta, F o vetor de parâmetros do modelo, ε o vetor de erros

aleatórios com média zero e matriz de covariâncias ψ e pxmL , a matriz com os

níveis das m variáveis explicativas Z LF= + ε . Uma vez que assumirmos o modelo

nesse formato, temos condições de estimar o vetor F através do método dos

mínimos quadrados ponderados Johnson; Wichern ( 2002), pois os resíduos em ε

não necessariamente têm a mesma variância. Neste caso o valor numérico no fator

jF será descrito como:

1 1 1ˆ ˆˆ ˆ ˆ ˆ( ' ) 'jk k mxp k

F L L L Z W Z− − −= =Ψ Ψ

A matriz mxpW é a matriz de ponderação que gera os coeficientes

jiw , 1,2,...., ; 1, 2,...,j p i n= = .

2.1.5 Ponderação dos escores e ranqueamento

Como já visto no tópico 2.1.4, o índice escore é uma ferramenta importante

para orientar ou hierarquizar a ordem de importância ou classificação de um

determinado grupo de observações. A construção de um índice alternativo baseia-se

na seguinte ponderação dos escores originais:

Page 18: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

j j

FPλ

λ=

∑∑

sendo jλ a variância explicada por cada fator e

jλ∑ a soma total da variância

explicada pelo conjunto de fatores comuns, e (ijFP ) é o escore fatorial que foi

padronizado. Após esse cálculo numérico, podemos ordenar os elementos amostrais

com base neste índice, sendo assim possível visualizar de uma forma mais clara o

grupo de elementos que mais se destaca nas variáveis de interesse.

2.2 ANÁLISE DE AGRUPAMENTOS

O intuito principal desta técnica é formar grupos de elementos similares com

respeito a um conjunto de variáveis de interesse.

2.2.1 Medidas de similaridade e dissimilaridade

Para podermos proceder ao agrupamento de elementos, é necessário decidir

com antecedência a medida de similaridade ou dissimilaridade que será utilizada.

Temos várias medidas para aplicarmos e cada uma delas resulta em um

determinado tipo de agrupamento. Algumas medidas são mais indicadas para

variáveis quantitativas, e vamos apresentar algumas delas a seguir. Para Medidas

de dissimilaridade quanto menor o valor, mais similares são os elementos que estão

sendo comparados. Dentre as medidas de dissimilaridade mais importantes,

destacam-se: Distância generalizada ou ponderada, distância de Minkowsky e a

mais utilizada a distância euclidiana, que vamos aprofundar um pouco mais. Os

dados para análise de agrupamentos são fundamentados em valores de p -

variáveis 1 2, ,...., pX X X para n objetos amostrais. Como estamos tratando de

algoritmos hierárquicos, esses valores são utilizados para gerarem um arranjo de

Page 19: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

distâncias entre os objetos de estudo. A distância euclidiana para um par de

elementos i e j é definida como:

( )p

ii ik jk

d x x=

= − ∑

sendo ik

x o valor da variável k

X para o objeto i e ik

x é o valor da mesma variável

para o objeto j .

2.2.2 Técnica de agrupamento

Na análise de agrupamentos, observações são agrupadas segundo suas

similaridades, buscando unir as observações mais similares. Há duas abordagens

possíveis para a determinação dos grupos: As técnicas hierárquicas, nas quais os

elementos amostrais são sucessivamente conjugados segundo suas similaridades,

até a formação de um só grupo, e as técnicas não hierárquicas, que não se baseiam

em aglomerados sucessivos.

Dentre as hierárquicas, destacam-se os métodos de Ward, do vizinho mais

próximo, do vizinho mais distante e do centróide. Dentre os procedimentos não

hierárquicos, o mais utilizado é o método de k médias. Maiores detalhes sobre o

procedimentos mencionados podem ser vistos em Johnson e Whichern (2002). A

seguir, temos uma figura ilustrativa de um dendograma:

Page 20: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Ilustração de um dendograma

O método de Ward, considerado neste trabalho, não se aplica para

determinar o número de clusters, mas a forma como são formados.

Quando em uma etapa do agrupamento o conglomerado K

C é a união dos

conglomerados i

C e 1C , isto é, 1k iC C C= ∪ , então o coeficiente de correlação

parcial da partição será dado por:

2 1. . i

BS P R

SST=

sendo,

11 . 1. . 1.

( ) '( )i

i i i

n nB X X X X

n n= − −

é a distância de grupos utilizada no método de Ward, que para cada passo do

agrupamento, calcula-se o seu coeficiente de correlação semi-parcial.

2.2.3 Determinação do número de grupos

Page 21: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Essa questão é de grande relevância, pois o procedimento para escolher o

número final g de grupos é o que define a partição do conjunto de dados analisado.

Alguns critérios que podem auxiliar na tomada desta decisão, são eles:

Análise do comportamento do nível de fusão (distância), análise do

comportamento do nível de similaridade, análise da soma de quadrados entre

grupos: coeficiente 2R , Estatística Pseudo F, método de Ward (citado no tópico

anterior), Estatística Pseudo 2T , e Estatística CCC (Cubic Clustering Criterium).

3 MATERIAL E MÉTODOS

3.1 DESCRIÇÃO DOS DADOS

Essa etapa do trabalho é destinada a expor de uma forma clara e objetiva os

dados a serem analisados e como a metodologia foi aplicada. Os dados foram

coletados no período de Março/2009 a Março/2010, representando vinte e seis

clientes mais significativos no faturamento bruto de uma empresa metalúrgica na

região metropolitana de Curitiba. Foram consideradas oito variáveis relacionadas à

demanda referente a cada empresa.

A coleta propriamente dita das informações foi dividida em duas etapas, a

primeira consistiu em buscar no banco de dados do sistema da empresa,

observações referentes às variáveis: itens, peças produzidas, compras, pedidos e

setup.

O passo seguinte foi buscar as informações das demais variáveis, que são:

custo de matéria-prima, custo máquinas e número de operários envolvidos. Para a

variável custo de matéria-prima, foi necessário interpolar algumas informações, pois

o sistema informatizado tem disponível somente o peso consumido para a produção

de mil peças de cada item e o custo por Kg de cada material. Então com a obtenção

destes dois dados foi possível calcular o custo da matéria-prima Em relação ao

custo de máquinas e números de operários utilizados para a fabricação de um

Page 22: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

determinado item, esses dados foram coletados de uma planilha fornecida pela

empresa em estudo.

As variáveis utilizadas e seus contextos estão apresentados no Quadro 1.

VARIÁVEL DESCRIÇÃO

Número de Itens Representa (em unidade) o número de diferentes tipos de produto

solicitado por cliente.

Peças produzidas Representa a quantidade total de peças produzidas em milheiros

consumidos por cliente.

Custo Matéria-Prima Representa o custo em reais da matéria prima utilizada na

produção das peças consumidas por cada cliente.

Custo com Máquinas Representa o custo total em reais das máquinas em operação na

produção das peças consumidas. Custo por hora.

Número de Operários Representa a quantidade total de operários envolvidos na

produção das peças consumidos por cada cliente.

Quantidade de Compras Representa o quantitativo de compras em unidade efetuada por

cliente durante o período estudado.

Tempo de Setup Setup das máquinas é o tempo total estimado em horas para

preparação e ajuste do equipamento até o início da produção de

um determinado item. A variável quantifica o setup total requerido

por cada cliente.

Quantidade de Pedidos Representa a quantidade de pedidos efetuados por cliente em

certa data, nos quais, em alguns casos ocorreram mais de uma

compra por pedido. A variável conta o número de pedidos.

QUADRO 1 – DESCRIÇÃO DAS VARIÁVEIS

3.2 METODOLOGIA ESTATÍSTICA

Inicialmente para descrever o comportamento dos clientes com relação ao

conjunto de variáveis produtivas, utilizamos técnicas descritivas uni e bivariadas,

através dos gráficos de correlações e Box-plot.

Visando estudar as correlações existentes entre as variáveis produtivas por

meio da produção de um pequeno número de fatores que expliquem

adequadamente a variabilidade total dos dados, utilizamos a ferramenta de Análise

Page 23: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Fatorial, que nos deu condições de reduzir o número de fatores sem perder a

qualidade de explicação da variabilidade dos dados.

Na questão de propôr um índice que reflita o grau de importância dos clientes,

fundamentado nos fatores obtidos, utilizamos os escores fatoriais (e uma

combinação deles).

E, finalmente para agrupar as empresas de acordo com os resultados

avaliados, aplicou-se uma análise de agrupamentos.

Nesse trabalho, foi utilizado o software R (R DEVELOPMENT CORE TEAM,

2010), cujos comandos estão no ANEXO I.

4 RESULTADO E DISCUSSÃO

4.1 ANÁLISE DESCRITIVA

Nesta seção, fez-se a análise descritiva dos dados, obtendo-se os seguintes

resultados:

TABELA 1 – MEDIDAS DE POSIÇÃO E TENDÊNCIA CENTRAL

Descrição Itens Peças

Produzidas

Custo

Matéria

Prima

Custo

Máquinas Operários Compras Setup Pedidos

Mínimo 1,00 18,10 2.528,00 712,20 1,00 6,00 4,00 4,00

1º Quartil 5,00 246,40 6.619,00 7.873,40 6,00 52,25 25,00 28,75

Mediana 9,50 617,90 16.765,00 13.922,80 15,00 165,00 46,00 58,00

Média 20,54 1.931,80 52.903,77 38.896,46 31,46 272,23 97,96 72,62

3º Quartil 15,75 1.730,80 59.986,00 69.870,80 35,25 318,25 76,75 83,25

Máximo 155,00 11.174,00 505.972,00 157.743,80 189,00 1.253,00 817,00 205,00

Observa-se na Tabela 1 as estatísticas descritivas: mínimo, quartis, mediana,

média e máximo.

Page 24: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

TABELA 2 – CORRELAÇÕES AMOSTRAIS DE PEARSON

Variáveis Itens

Peças

Produzida

Custo

Matéria

Prima

Custo

Máquina

Operário

Compra

s Setup

Pedido

Itens 1,00 0,30 0,05 0,33 0,97 0,58 0,99 0,30

Peças Produzidas 0,30 1,00 0,08 0,86 0,26 0,48 0,32 0,46

Custo Matéria Prima 0,05 0,08 1,00 0,41 0,12 0,68 0,03 0,58

Custo Máquinas 0,33 0,86 0,41 1,00 0,31 0,73 0,32 0,76

Operários 0,97 0,26 0,12 0,31 1,00 0,60 0,95 0,34

Compras 0,58 0,48 0,68 0,73 0,60 1,00 0,58 0,82

Setup 0,99 0,32 0,03 0,32 0,95 0,58 1,00 0,27

Pedidos 0,30 0,46 0,58 0,76 0,34 0,82 0,27 1,00

No Quadro 2, de forma resumida, foram feitos comentários sobre algumas

correlações amostrais constantes da Tabela 2, explicando o grau de relacionamento

linear entre as variáveis.

VARIÁVEIS CORRELAÇÃO COMENTÁRIOS

Número de Itens

Operários

0,97 São altamente correlacionados devido a quantidade de

itens fornecidos ser diretamente proporcional ao número de

pessoas envolvidas na produção.

Peças Produzidas

Custo Máquinas

0,86 O custo de máquina é relacionado com o tempo de

utilização do equipamento, portanto quanto mais peças são

produzidas, mais tempo de máquina é consumido e maior o

custo.

C. Matéria Prima

Compras

0,68 A correlação entre as variáveis é verdadeira, pelo fato de

que a quantidade de peças comprada gera um custo

agregado de matéria prima.

Compras X

Pedidos

0,82 São correlacionadas, pois os pedidos contemplam as

compras dos clientes

Compras

Peças Produzidas

0,48 A correlação pode ser explicada pelas compras que tem

altas quantidades de peças produzidas enquanto outras

compras apresentam quantidades menores de peças

produzidas.

Número de Itens

Setup

0,99 São altamente correlacionado devido ao tempo de ajuste do

equipamento ter influência proporcional com a quantidade

de itens solicitados por cliente.

Page 25: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Número de Itens

C. Matéria Prima

0,05 A baixa correlação entre estas variáveis é devido ao

número de itens não ter influência no custo de compra do

produto.

Peças Produzidas

C. Matéria Prima

0,08 Há correlação baixa entre estas variáveis, pois o custo de

matéria prima varia por tipo de peça sem influência da

quantidade de peças produzidas.

C. Matéria Prima

Setup

0,03 O custo da matéria prima não tem ligação com o tempo de

regulagem do equipamento (setup), por isto a correlação é

baixa.

Custo Máquina X

Operários

0,31 A correlação é baixa, divido a relação da máquina em

produção com a mão de obra dos operários ser pequena.

Operários X Custo

Matéria Prima

0,12 Há pouca relação entre as variáveis.

Pedidos X Setup 0,27 O tempo de setup tem pouca relação com a quantidade de

pedidos efetuados por cliente.

QUADRO 2 - DESCRIÇÃO DA CORRELAÇÃO AMOSTRAL

A Figura 1 apresenta os diagramas de dispersão entre pares de variáveis,

sendo possível visualizar eventuais relações entre elas. Por meio do Quadro 2 e da

Figura 1 verificam-se, por exemplo, uma alta relação linear entre as variáveis Itens X

Operários e Itens X Setup, relação moderada entre as variáveis compras X Peças

Produzidas e relação baixa entre as variáveis Itens X Custo de Matéria Prima e

Setup X Custo de Matéria Prima.

Page 26: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Número de Itens

0 4000 8000 0 50000 150000 0 200 600 1000 0 50 100 150 200

050

150

060

00 Peças Produzidas

Custo Matéria Prima

0e+0

04e

+05

010

0000

Custo Máquinas

Número de Operários

010

060

0 Quantidade de compras

Tempo de Setup

040

080

00 50 100 150

010

020

0e+00 2e+05 4e+05 0 50 100 150 0 200 400 600 800

Quantidade de Pedidos

Figura 1 – Gráficos de dispersão para as variáveis produtivas

Os gráficos Box-plot mostrados na Figura 2 indicam a existência de pontos

discrepantes quando cada variável é analisada separadamente. Também, pode ser

visualizada a falta de normalidade das variáveis.

Page 27: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

050

100

150

Número de Itens

020

0040

0060

0080

0010

000

Peças Produzidas

0e+0

01e

+05

2e+0

53e

+05

4e+0

55e

+05

Custo Matéria Prima

050

000

1000

0015

0000

Custo com Máquinas0

5010

015

Número de Operários

020

040

060

080

010

0012

Quantidade de Compras

020

040

060

080

Tempo de Setup

050

100

150

200

Quantidade de Pedidos

Figura 2 – Gráficos Box-plot para o conjunto de variáveis produtivas

4.2 RESULTADO DA ANÁLISE FATORIAL

O Gráfico Scree-plot (Figura 3) de análise dos fatores e componentes

principais apresenta uma análise fatorial preliminar com informações para a

determinação do número de fatores. As linhas contínuas representam a matriz com

dados originais e as linhas pontilhadas a matriz de dados gerados aleatoriamente e

por reamostragem. Pode-se observar na linha contínua uma mudança de

declividade dentro do intervalo de linhas pontilhadas, o que nos indica para a

utilização de dois fatores.

Page 28: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

1 2 3 4 5 6 7 8

Factor Number

eige

nval

ues

of p

rinci

pal c

ompo

nent

s an

d fa

ctor

ana

lysi

PC Actual Data

PC Simulated Data

PC Resampled Data

FA Actual Data

FA Simulated Data

FA Resampled Data

Figura 3 – Gráfico scree-plot da análise dos fatores e componentes

principais

Na Tabela 3 estão apresentados os autovalores da matriz de correlação

amostral com as respectivas porcentagens de variação total explicada, obtendo-se

três autovalores maiores que 1, que juntos são capazes de explicar 90,9% da

variabilidade total dos dados, indicando ser o número ideal para esta análise.

TABELA 3 – AUTOVALORES DA MATRIZ DE CORRELAÇÃO

Ordem ( )i

Autovalores

( )iλ

Porcentagem de Variância Explicada

(%)

Porcentagem acumulada (%)

1 4,4886 39,1 39,1

2 1,9813 27,0 66,1

3 1,0673 24,8 90,9

4 0,3014

5 0,0758

6 0,0542

7 0,0277

8 0,0037

Page 29: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

As Tabelas 4 e 5 apresentam o resultado da análise fatorial pelos Métodos de

Componentes Principais e de Máxima Verossimilhança, podendo-se observar nas

cargas fatoriais que não há diferenças relevantes nos resultados obtidos. Também,

observa-se que os dois métodos apresentaram comunalidades altas com valores

próximos a 1, indicando que todas as variáveis são bem explicadas pelos fatores

comuns.

TABELA 4 – CARGAS FATORIAIS DO MÉTODO DE COMPONENTES PRINCIPAIS

Variáveis Fator 1

Variedade Fator 2

Quantidade Fator 3 Esforço

Comunalidades

Itens 0.98 0.09 0.15 0,99

Peças Produzidas 0.16 0.04 0.96 0,95

Custo Matéria Prima -0,04 0,95 -0,01 0,90

Custo Máquinas 0,16 0,44 0,87 0,97

Operários 0,97 0,16 0,11 0,97

Compras 0,47 0,76 0,39 0,95

Setup 0,98 0,06 0,16 0,99

Pedidos 0,17 0,74 0,49 0,82

% de Variância 39,0 28,0 27,0

% de Variância acumulado 39,0 67,0 94,0

TABELA 5 – CARGAS FATORIAIS DO MÉTODO DE VEROSSIMILHANÇA

Variáveis Fator 1

Variedade Fator 2

Quantidade Fator 3 Esforço

Comunalidades

Itens 0.98 0.15 0.99

Peças Produzidas 0.15 0.91 0.86

Custo Matéria Prima 0.86 0.74

Custo Máquinas 0.15 0.45 0.87 0.98

Operários 0.95 0.16 0.10 0.94

Compras 0.46 0.77 0.35 0.93

Setup 0.97 0.16 0.98

Pedidos 0.16 0.75 0.44 0.79

% de Variância 39,1 27,0 24,8

% de Variância acumulado 39,1 66,1 90,9 Obs: As lacunas vazias apresentaram carga fatorial abaixo de 0,1

As cargas fatoriais representam as correlações entre as variáveis e os fatores,

podendo-se observar na tabela 5 que:

Page 30: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

i. O fator 1 representa 39,1% da variância total, sendo fortemente

correlacionado com as variáveis: Itens, Operários e Setup, com cargas

fatoriais altas positivas com relação as características de variedade de

produtos comercializados.

ii O fator 2 representa 27,0% da variância total, sendo fortemente

correlacionado com as variáveis: Custo de Matéria Prima, Compras e

Pedidos, com cargas fatoriais positivas, caracterizando relação com

quantidade de compras; e

iii O fator 3 representando 24,8% da variância total, é fortemente

correlacionado com as variáveis: Peças Produzidas e Custo de Máquinas,

com cargas fatoriais positivas e características relacionadas com esforço de

atendimento.

O índice ponderado calculado como descrito na Seção 2.1.5, mostra o

potencial e a classificação de cada cliente, podendo ser utilizado para orientar ou

hierarquizar as empresas por ordem de importância. Na Tabela 6 estão

apresentados os escores fatoriais gerados pela análise fatorial via Método de

Verossimilhança, mais o índice ponderado e o ranqueamento das vinte e seis

empresas clientes da indústria metalúrgica.

TABELA 6 – ESCORES FATORIAS E RANQUEAMENTO DAS EMPRESAS

Fator 1 Fator 2 Fator 3 Índice Ponderado Empresa

Score Rank Score Rank Score Rank Score Rank

Emp1 3,9340 1ª 0,4283 5ª 1,2730 4ª 1,9695 1ª

Emp2 -0,5834 23ª 4,1811 1ª -0,5211 20ª 0,7715 2ª

Emp3 -1,0613 26ª -0,5623 19ª 3,3105 1ª 0,2542 8ª

Emp4 -0,7241 25ª -0,5692 20ª 1,3351 3ª -0,1057 10ª

Emp5 -0,6335 24ª 1,1440 3ª 1,2379 5ª 0,3681 5ª

Emp6 0,1990 5ª 1,6492 2ª 0,0409 6ª 0,5332 3ª

Emp7 -0,3298 14ª -0,6848 25ª -0,3740 11ª -0,4065 24ª

Emp8 -0,2091 11ª 0,8618 4ª -0,1510 8ª 0,1134 9ª

Emp9 1,4087 3ª 0,1388 6ª -0,9304 26ª 0,3575 6ª

Emp10 -0,2556 13ª -0,4372 16ª 2,2390 2ª 0,3372 7ª

Emp11 -0,3510 16ª -0,4349 15ª -0,4298 13ª -0,3612 20ª

Emp12 -0,1162 8ª 0,0630 8ª -0,5021 18ª -0,1529 11ª

Emp13 -0,4020 20ª -0,0624 9ª -0,4635 16ª -0,2889 16ª

Page 31: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Emp14 -0,3680 19ª -0,1338 11ª -0,3645 10ª -0,2704 15ª

Emp15 0,2278 4ª -0,4344 14ª -0,5800 22ª -0,1720 12ª

Emp16 -0,3658 18ª -0,5031 17ª -0,4149 12ª -0,3817 22ª

Emp17 -0,3641 17ª -0,6347 23ª -0,5433 21ª -0,4484 25ª

Emp18 -0,4765 22ª -0,6827 24ª -0,3595 9ª -0,4597 26ª

Emp19 -0,2515 12ª -0,5928 21ª -0,4684 17ª -0,3745 21ª

Emp20 -0,1180 9ª -0,3224 12ª -0,4401 15ª -0,2423 14ª

Emp21 -0,0186 6ª -0,6074 22ª -0,5049 19ª -0,2964 17ª

Emp22 -0,4311 21ª -0,4101 13ª -0,4347 14ª -0,3870 23ª

Emp23 -0,1649 10ª 0,0671 7ª -0,7374 25ª -0,2292 13ª

Emp24 -0,3368 15ª -0,0819 10ª -0,5833 23ª -0,2984 18ª

Emp25 -0,1040 7ª -0,5500 18ª -0,6093 24ª -0,3402 19ª

Emp26 1,8960 2ª -0,8292 26ª -0,0244 7ª 0,5114 4ª

Para melhor compreensão da análise dos escores das empresas é importante

especificar e comentar o significado de cada fator:

Fator 1: Este fator corresponde a variedade de produtos comercializados com as

empresas, os produtos possuem diferentes especificações técnicas, as quais têm

influência direta com o número de operários envolvidos e também com tempo de

ajuste da máquina para produção.

Fator 2: Para este fator podemos dizer que corresponde a quantidades de produtos

comprados, dos quais a cada pedido ocorrem várias compras, que por conseqüência

irá consumir mais matéria prima.

Fator 3: Este fator corresponde à questão produtiva, relacionada ao esforço de

atendimento aos clientes pela parte fabril, devido às horas de máquina consumidas

durante o processo produtivo.

Analisando os escores fatoriais e o ranqueamento das empresas (Tabela 6),

destacamos a seguir algumas empresas e seus respectivos resultados:

Empresa 1: Este cliente se destacou como a primeira colocada no ranqueamento,

obtendo o maior escore ponderado, demonstrando ser o principal cliente com grande

Page 32: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

volume de compra de produtos, exigindo grande esforço de atendimento e,

representa grande potencial por estar relacionado ao maior faturamento bruto.

Empresa 2: Esta empresa destacou segundo lugar no ranqueamento, por ser a

primeira colocada no fator 2 relacionada a quantidade de compras. No entanto, nos

demais fatores não obteve uma boa colocação, por ser um cliente que não tem um

grande leque de itens consumidos e não exige um esforço produtivo muito intenso.

Esta empresa se destaca também por ter o segundo maior faturamento bruto.

Empresas 3 e 4: Essas duas empresas obtiveram posicionamento muito próximos

nos três fatores: baixo escore nos fatores 1 e 2 e elevado escore na ponderação dos

três fatores, atingindo o oitavo lugar na classificação dos potenciais. De maneira

similar, a empresa 4 ocupa a décima posição com relação ao potencial. Este

resultado nos leva a interpretação de que esses clientes devem ter uma melhor

atenção devido aos resultados obtidos.

Empresa 9: A análise deste cliente é bem peculiar, pois obteve a terceira posição no

fator 1, sexta no fator 2 e foi a última colocada no fator 3, ou seja, o ponto que mais

se destaca nesta empresa é o baixo esforço produtivo. No entanto, considerando a

sua colocação no ranqueamento ponderado, ela destaca-se em sexto lugar

demonstrando um ótimo potencial, inclusive melhor colocada em relação ao seu

faturamento bruto.

Empresa 26: Este cliente também nos possibilitou efetuar uma análise importante

em relação aos escores atingidos, pois na característica faturamento, este ocupa a

última posição. Porém, considerando a ponderação dos fatores propostos, a

empresa passa a ocupar a quarta posição, pois obteve o segundo lugar no fator

relacionado à variedade de produtos e sétimo no fator correspondente ao esforço

produtivo. Com isto esta empresa também merece uma análise especial.

Page 33: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

Os gráficos da Figura 4, mostram de uma forma personalizada as relações

dos escores fatoriais em relação ao faturamento bruto (ANEXO II). Algumas das

empresas em destaque são as que foram citadas nos tópicos anteriores.

-1 0 1 2 3 4

050

000

1500

Escores Fator 1

Fat

uram

ento

Bru

to Emp1

Emp2

Emp3Emp26Emp9

-1 0 1 2 3 4

050

000

1500

Escores Fator 2F

atur

amen

to B

ruto Emp1

Emp2

Emp6Emp5

Emp8

-1 0 1 2 3

050

000

1500

Escores Fator 3

Fat

uram

ento

Bru

to Emp1

Emp2

Emp3Emp10

Emp4

Emp5

-0.5 0.0 0.5 1.0 1.5 2.0

050

000

1500

Escores Fator Ponderado

Fat

uram

ento

Bru

Emp1

Emp2

Emp3

Emp6

Emp26

Figura 4 – Gráficos dos Escores Fatoriais X Faturamento Bruto

4.3 RESULTADO DA ANÁLISE DE AGRUPAMENTOS

Realizou-se uma análise de agrupamentos para os escores fatoriais dos três

fatores constituídos. O objetivo é identificar grupos de empresas com demandas

similares. A Figura 7 apresenta o dendograma da análise, considerando o método

de agrupamento hierárquico de Ward. Pela forma do dendograma, têm-se um

indicativo de que quatro grupos devem ser formados.

Page 34: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

24 13 14 12 23 15 20 21 25 22 11 16 17 19 7 18

9 26

4 10

6 8

810

12Dendograma

hclust (*, "ward")Método Ward

Dis

tânc

Figura 5 – Dendograma da análise de agrupamento para escores fatoriais. Os

números apresentados sob o gráfico indicam as respectivas empresas,

ordenadas de maneira decrescente conforme o faturamento bruto

A Tabela 7 apresenta às médias e os desvios padrões dos escores fatoriais

para cada grupo, permitindo caracterizar as empresas que os compõe. Verifica-se,

por exemplo, que o grupo 1 apresenta empresas com maior média para escores do

primeiro fator, indicando um demanda diversificada dessas empresas. Além disso, o

grupo 1 apresenta maior potencial médio de compras e maior faturamento médio.

Quanto aos fatores 2 e 3 destacam-se os grupos 2 e 3, configurando empresas com

elevada demanda e elevado esforço de atendimento. No entanto, vale ressaltar que

os desvios padrões dos escores são elevados, indicando em alguns casos grande

variabilidade dentro dos grupos, fazendo com que os resultados devam ser

analisados com cautela.

Grupo 4

Gr. 1 Gr. 3 Gr.2

Page 35: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

TABELA 7 – ANÁLISE DA SIMILARIDADE DOS GRUPOS

Fator 1 Fator 2 Fator 3 Índice

Ponderado Faturamento

Bruto Grupos Número de Empresas

Média Desvio Média Desvio Média Desvio Média Desvio Média Desvio

1 3 1,12 2,43 0,21 2,83 0,19 3,51 0,54 1,26 76020 162

2 4 -0,12 1,07 0,83 2,25 1,02 2,07 0,43 0,85 56719 308

3 3 -0,38 0,50 0,74 1,16 0,87 0,72 0,26 0,33 28414 2174

4 16 -0,10 0,56 -0,38 0,28 -0,45 0,15 -0,25 0,22 7527 3853

Page 36: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

5 CONCLUSÃO

Foi estabelecido um índice alternativo para avaliar o potencial de clientes da

indústria do ramo metalúrgico levando-se em consideração as variáveis produtivas

apuradas em banco de dados.

Especificamente, também foi descrito o comportamento dos clientes em

relação as variáveis propostas, utilizando técnicas descritivas uni e bivariadas e

utilizado-se os resultados obtidos na execução e avaliação da análise fatorial. A

análise fatorial possibilitou a obtenção do resultado almejado, reduzindo as variáveis

originais para três fatores com explicação de 90,9% da variabilidade dos dados.

Também, obtivemos os índices escores de cada fator, mais o índice ponderado e o

ranqueamento, que nos permitiu avaliar cada empresa individualmente através do

seu posicionamento e em comparação com o seu respectivo faturamento bruto. Em

relação a análise de agrupamentos, foi útil para agrupar os clientes segundo a

relevância dos mesmos para a empresa.

É importante salientar que as aplicações da análise fatorial e de

agrupamentos foram satisfatórias no presente estudo, pois apresentaram o resultado

esperado. No entanto, é possível implementar outras técnicas estatísticas aos

dados, pelas quantidades de informações disponíveis, como por exemplo modelos

de regressão, com objetivo de analisar as relações dos índices produtivos e

características das empresas.

Page 37: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

6 REFERÊNCIAS BIBLIOGRÁFICAS

Furtado, Emerson M; Chaves Neto, A; Domingues, Zilna H; Hosokawa, Roberto T., Ranqueamento de faxinais do Estado do Paraná através de análise fatorial, Revista Ciências Exatas e Naturais, Vol. 5, nº 1, Jan/Jun 2003. Johnson, R. A; Wichern, D. W. Applied Multivariate Statistical Analysis. 5ª ed. Prentice Hall, 2002 Manly, Bryan, F.J. Métodos Estatísticos Multivariados: uma Introdução/ Bryan F.J. Manly ; tradução Sara Landa Carmona – 3.ed. – Porto Alegre : Bookman,2008

Marcelo P.A. Fleck; Bourdel, Marie C; Método de simulação e escolha de fatores da análise dos principais componentes, Rev. Saúde Pública, 32 (3): 267-72, 1998.

Mingoti, Sueli A. Análise de dados através de métodos de estatística

multivariada: uma abordagem aplicada – Belo Horizonte: Editora UFMG, 2005.

R DEVELOPMENT CORE TEAM. R: A language and environment for statistical computing., Vienna, Austria, 2006. Disponível http://www.R-project.org, 2010.

Rezende, Marcelo L; Fernandes, Luiz P. S; Silva, Antônio M. R, Utilização da análise fatorial para determinar o potencial de crescimento econômico em uma região do sudeste do Brasil, Revista Economia e Desenvolvimento, n. 19, 2007.

Sellitto, M Afonso; Ribeiro, José L. D, Construção de Indicadores para Avaliação de Conceitos Intangíveis em Sistemas Produtivos, Gestão & Produção, Artigo publicado em 2004.

Page 38: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

ANEXOS ANEXO I - COMANDOS UTILIZADOS NO SOFTWARE R ## ARQUIVO DOS DADOS dados <- read.table("C:/Users/Humberto G Coelho/Documents/TCC\ -\ HUMBERTO \ -\OSCAR/dados.txt",head=T,dec=",") dados ## ANALISE DESCRITIVA round(mean(dados[, -1]),2) summary(dados[, -1]) round(var(dados[,-1]),2) round(cov(dados[,-1]),2) round(sd(dados[,-1]),2) round(cor(dados[,-1]),2) ##GRAFICO DE DISPERSAO DA CORRELACAO AMOSTRAL pairs(dados[,-1],cex=1, cex.labels =1.5,font.labels = 2, labels=c("Número \n de Itens", "Peças \n Produzidas", "Custo \n Matéria \n Prima", "Custo \n Máquinas", "Número de \n Operários", "Quantidade \n de compras", "Tempo \n de Setup", "Quantidade \n de Pedidos")) ## GRAFICO BOXPLOT opar<- par(mfrow = c(2,4)) boxplot(dados$itens, main="Número de Itens", cex.main=2) boxplot(dados$pecasprod, main="Peças Produzidas", cex.main=2) boxplot(dados$ctmprima, main="Custo Matéria Prima", cex.main=2) boxplot(dados$ctmaquinas, main="Custo com Máquinas", cex.main=2) boxplot(dados$operarios, main="Número de Operários", cex.main=2) boxplot(dados$compras, main="Quantidade de Compras", cex.main=2) boxplot(dados$setup, main="Tempo de Setup", cex.main=2) boxplot(dados$pedidos, main="Quantidade de Pedidos", cex.main=2) ## HISTOGRAMA COM PROBABILIDADES par(mfrow=c(3,3),mar=c(2,2,4,2));for(i in 2:9){hist(dados[,i], main=names(dados)[i])} par(mfrow=c(3,3),mar=c(2,2,4,2));for(i in 2:9){hist(dados[,i], prob=T, main=names(dados)[i]);lines(density(dados[,i]))} par(mfrow=c(3,3),mar=c(2,2,4,2));for(i in 2:9){hist(dados[,i], prob=T, main=names(dados)[i]);lines(density(dados[,i]),col=2)} ### VERIFICACAO DA NORMALIDADE MULTIVARIADA dados2<-(c(dados1$itens, dados1$pecasprod ,dados1$ctmprima, dados1$ctmaquinas, dados1$operarios ,dados1$compras, dados1$setup, dados1$pedidos)) dados2<-matrix(dados2,nc=8) dados2 Xmean<-matrix(c(mean(dados2[,1]), mean(dados2[,2]), mean(dados2[,3]), mean(dados2[,4]), mean(dados2[,5]), mean(dados2[,6]), mean(dados2[,7]), mean(dados2[,8])),nc=1) Xmean dj2<-matrix(c(rep(0,26)),nc=1) saida<-for(i in 1:length(dj2)) { X<-matrix(dados2[i,],nc=1) M<-(X-Xmean) t(M)%*%solve(S)%*%M dj2[i]<-t(M)%*%solve(S)%*%M }

Page 39: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

dj2ordem<-sort(dj2) quantidade<-matrix(c(rep(0,26)),nc=1) saida2<-for(i in 1:length(quantidade)) { quantidade[i]=(i-(1/2))/length(quantidade) } jotas:1:26 OQQ<-qchisq(quantidade, df=8) tabela<-cbind(jotas,dados2,dj2,dj2ordem,quantidade,OQQ) tabela plot(tabela[,11],tabela[,13], ylab="Ordenadas Qui-Quadrada", xlab="Distâncias - dj2_ordenadas", main="Grafico Q-Q plot", cex.lab=2, cex.main=2) lines(tabela[,13],tabela[,13]) ## ESTIMACAO DOS FATORES require(psych) ?fa fat1=factanal(dados1, factors=3) # varimax is the default factanal(dados1, factors=3, rotation="promax") f1=factanal(dados1, factors=3) # varimax is the default f1 f1=factanal(dados1, factors=3,scores='Bartlett') ## varimax is the default f1$scores ## RANK ESCORES rank(f1$scores[,1]) ##VARIMAX factanal(dados1, factors=3, rotation="varimax") f3=factanal(dados1, factors=3,scores='regression') f3$scores rank(f3$scores[,1]) ## COMPONENTES PRINCIPAIS analise = principal(dados1, nfactors = 3, residuals = FALSE,rotate="varimax", scores=T) analise analise$scores dados[order(analise$scores[,1]),"empresa"][26:1] dados[order(analise$scores[,2]),"empresa"][26:1] dados[order(analise$scores[,3]),"empresa"][26:1] ## GRAFICO SCREEPLOT ?screeplot screeplot(princomp(cor(dados2))) help.search("scree") ?VSS.scree VSS.scree(cor(dados2), (main= "Scree-plot - Avaliação dos Fatores")) ## COMUNALIDADES ?factanal names(f1) 1-f1$uniquenesses ## GRAFICO FA PARALLEL require (psych) fa.parallel(dados2, main=NULL)

Page 40: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

## AUTOVALORES E AUTOVETORES E GRAFICO SCREEPLOT eigen(cor(dados2)) ## PONDERACAO DOS ESCORES FATORIAIS pond <- read.table("C:/Users/Humberto G Coelho/Documents/TCC\ -\ HUMBERTO\ -\ OSCAR/Ponderacao.txt",head=T,dec=",") pond x=pond[,'FatorBruto'] xp=(x-mean(x))/sd(x) pesos=as.matrix(c( 0.391 , 0.270, 0.248),3,1) escfatores=as.matrix(pond[,2:4]) escfatores escorepond=escfatores%*%pesos escorepond medias=by(pond[,-1],clusters,mean) medias desvios=by(pond[,-1],clusters,sd) desvios ## GRAFICOS DE ESCORES X FATOR BRUTO opar<- par(mfrow = c(2,2)) plot(pond$Fator1,xlab='Escores Fator 1', ylab='Faturamento Bruto', pond$FatorBruto, cex.lab=1.8, pch=16, cex=2, cex.axis=1.2) ##locator() text(x=3.58,y=189639.4,'Emp1', cex=1.5) text(x=-0.65,y=120363.9,'Emp2', cex=1.5) text(x=-1.0,y=48973,'Emp3', cex=1.5) text(x=2.08,y=17772,'Emp26', cex=1.5) text(x=1.05,y=26233,'Emp9', cex=1.5) plot(pond$Fator2,xlab='Escores Fator 2', ylab='Faturamento Bruto', pond$FatorBruto, cex.lab=1.8, pch=16, cex=2, cex.axis=1.2) ##locator() text(x=0.18,y=187524.1,'Emp1', cex=1.5) text(x=4.07,y=119616.8,'Emp2', cex=1.5) text(x=1.73,y=13542.1,'Emp6', cex=1.5) text(x=1.0,y=41040.8,'Emp5', cex=1.5) text(x=0.59,y=5609.8,'Emp8',cex=1.5) plot(pond$Fator3,xlab='Escores Fator 3', ylab='Faturamento Bruto', pond$FatorBruto, cex.lab=1.8, pch=16, cex=2, cex.axis=1.2) ##locator() text(x=1.0,y=186466.5,'Emp1', cex=1.5) text(x=-0.62,y=120363.9,'Emp2', cex=1.5) text(x=3.01,y=45271.4,'Emp3', cex=1.5) text(x=2.13,y=27820,'Emp10', cex=1.5) text(x=1.26, y=47386,'Emp4', cex=1.5) text(x=0.96,y=13542,'Emp5', cex=1.5) plot(pond$Fpond,xlab='Escores Fator Ponderado', ylab='Faturamento Bruto', pond$FatorBruto, cex.lab=1.8, pch=16, cex=2, cex.axis=1.2) ##locator() text(x=1.73,y=183822,'Emp1', cex=1.5) text(x=0.66,y=116662,'Emp2', cex=1.5) text(x=0.06,y=78587,'Emp3', cex=1.5) text(x=0.52,y=43684,'Emp6', cex=1.5) text(x=0.65, y=3494,'Emp26', cex=1.5)

Page 41: HUMBERTO GERALDO COELHO OSCAR AMÂNCIO VIEIRA NETO - coordest.ufpr… · multivariada Mingoti (2005), que consiste em um conjunto de métodos estatísticos utilizados em situações

##ANALISE DE AGRUPAMENTOS matdist=dist(f1$scores) matdist cluster=hclust(matdist, method="ward") plot(cluster, main="Dendograma", xlab="Método Ward", ylab="Distância", cex.main=3,cex.lab=2) clusters=cutree(cluster, k=4) clusters pondnovo=data.frame(pond,clusters) pondnovo attach(pondnovo) cluster=hclust(matdist, method="cen") plot(cluster) cluster=hclust(matdist, method="median") plot(cluster) cluster=hclust(matdist, method="single") plot(cluster) cluster=hclust(matdist, method="complete") plot(cluster) cluster=hclust(matdist, method="average") plot(cluster) cluster=hclust(matdist, method="mcquitty") plot(cluster)