Post on 12-Jan-2016
description
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
Análise de Agrupamentos
Análise de Componentes Principais
Análise de Fatores
Análise Discriminante
Multivariate Statistical Process Control - MSPC
Conteúdo
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
Definição
Análise de Agrupamento é uma
técnica multivariada cuja finalidade é agregar
objetos (OTU’s – Unidades de Objetos
Taxonômicos) com base nas características que
eles possuem. O resultado são grupos que
exibem máxima homogeneidade de
objetos dentro de grupos e, ao mesmo tempo,
máxima heterogeneidade entre os grupos.
T ree D iagram for 36 C asesW ard`s method
Euc lidean dis tanc es
SuiçaSuécia
RFA
RU Israel
Nova Zelândia
ItáliaEspanha
EUA
AustráliaJapão
Canadá
PortugalIugosláv
GréciaH
ungriaU
RSS
Uruguai
FilipinaC
hinaC
.Rica
Chile TurquiaM
éxicoBrasil R
ep.C. Af.
GanaN
igériaPaquist
BangladeQ
ueniaArgélia
EgitoIndiaH
aiti Bolívia
0
10
20
30
40
50
60
70
Linkage Distance
Conceitos Básicos
Tempo (em dias)
Consumo (em R$)
Conceitos Básicos
Alguns pontos relevantes que devemos observar em análise de agrupamentos são:
A análise de agrupamentos não faz distinção entre variáveis dependentes e independentes, no entanto pode examinar relações de interdependência entre todo o conjunto de variáveis.
O objetivo principal de análise de agrupamentos é classificar objetos em grupos relativamente homogêneos, a partir das variáveis consideradas importantes para a análise;
Os objetos em um grupo são relativamente semelhantes em termos dessas variáveis e diferentes de objetos de outros grupos;
A mais forte aplicação desta técnica tem sido em Pesquisa de Marketing, principalmente, Segmentação de Mercado.
Fase 2
Padronizando os dados
Imagine a situação descrita
na tabela ao lado. Foram medidas 3 características de
8 clientes e queremos avaliar
uma forma de agrupar estes
clientes e encontrar aquelas que acompanham
um comportamento
semelhante.
Percentual deImportância
SalárioMédio
ConsumoMédio
Cliente 1 10,85 1.500,80 149,35
Cliente 2 14,13 1.496,07 187,99
Cliente 3 8,62 1.448,79 130,97
Cliente 4 23,04 1.277,33 424,87
Cliente 5 16,04 1.204,02 214,36
Cliente 6 43,74 1.190,94 1.139,52
Cliente 7 25,39 1.292,91 358,39
Cliente 8 42,86 1.590,66 721,90
Média 23,08 1.375,19 415,92
Desvio Padrão
13,69 152,05 351,62
Fase 2O primeiro passo da análise é definir um critério para a formação dos grupos. Um critério que parece ser razoável é considerar a proximidade entre os pontos. Pontos próximos, então, representariam regiões com comportamentos semelhantes no que se refere às variáveis do gráfico, ou seja, regiões que podem fazer parte de um mesmo grupo.
C liente 1C liente 2
C liente 3
C liente 4
C liente 5C liente 6
C liente 7
C liente 8
-50,00 0,00 50,00 100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00
P erc entual de Im portânc ia
1.150,00
1.200,00
1.250,00
1.300,00
1.350,00
1.400,00
1.450,00
1.500,00
1.550,00
1.600,00
1.650,00
Média S
alarial
Padronizando os dados
Fase 2C liente 1C liente 2
C liente 3
C liente 4
C liente 5C liente 6
C liente 7
C liente 8
-50,00 0,00 50,00 100,00 150,00 200,00 250,00 300,00 350,00 400,00 450,00 500,00
P erc entual de Im portânc ia
1.150,00
1.200,00
1.250,00
1.300,00
1.350,00
1.400,00
1.450,00
1.500,00
1.550,00
1.600,00
1.650,00
Média S
alarial
Note que as distâncias no sentido vertical são muito maiores do que no sentido horizontal, o que reflete o fato da variabilidade da variável X2 ser muito maior do que a de X1. Em termos, práticos, a variável X1 contribuiu muito pouco para a definição dos grupos. E se quiséssemos dar igual importância às duas variáveis?
Padronizando os dados
Fase 2Clie nte 1Clie nte 2
Clie nte 3
Clie nte 4
Clie nte 5Clie nte 6
Clie nte 7
Clie nte 8
-1 ,20 -1 ,00 -0 ,80 -0 ,60 -0 ,40 -0 ,20 0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40 1,60 1,80
P erc entual de Im portânc ia
-1 ,40
-1 ,20
-1 ,00
-0 ,80
-0 ,60
-0 ,40
-0 ,20
0,00
0,20
0,40
0,60
0,80
1,00
1,20
1,40
1,60
Média Salarial
Uma maneira popular de tratar com isso é usar variáveis padronizadas. Ou seja, subtraímos a média do grupo de cada valor e dividimos pelo desvio padrão:
Isso garante que as duas variáveis estão sendo consideradas com importâncias equivalentes. Observe agora os novos grupos.
j
jijij S
XXZ
Padronizando os dados
Resumo dos Estágios
1. Escolha do critério de parecença
2. Definição do número de grupos
3. Formação dos grupos
4. Validação do agrupamento
5. Interpretação dos grupos
Nesse primeiro instante devemos avaliar se as variáveis devem ou não ser padronizadas e o critério
que será utilizado na determinação dos grupos.
O número de grupos pode ser definido a priori, através de algum conhecimento que se tenha
sobre os dados, conveniência de análise ou ainda pode ser definido a posteriori com base
nos resultados da análise.
Aqui definimos o algoritmo que será utilizado na
identificação dos grupos: Métodos hierárquicos e
Métodos de Partição
Deve-se garantir que de fato as variáveis têm comportamento diferenciado nos diversos
grupos. É comum, então, que cada grupo seja uma amostra aleatória de alguma subpopulação e aplicar técnicas inferenciais para compará-las.
Ao final do processo de formação de grupos é importante caracterizar os
grupos formados. O uso de estatísticas descritivas é recomendado para esta
fase da análise.
Medidas de Parecença
As medidas de parecença têm um papel central nos
algoritmos de agrupamentos. Através delas são definidos critérios para avaliar se dois
pontos estão próximos, e portanto podem fazer parte de
um mesmo grupo, ou não.
Há dois tipos de medidas de parecença: medidas de
similaridade (quanto maior o valor, maior a semelhança
entre os objetos) e medidas de dissimilaridade (quanto maior o
valor, mais diferentes são os objetos.)
Medidas disponíveis naSolução STATISTICA
Algoritmos de Agrupamentos
A maioria dos algoritmos utilizados na formação dos agrupamentos pode ser classificada em duas grandes famílias de métodos: hierárquicos e de partição.
Métodos Hierárquicos Aglomerativos
•Para esses métodos os agrupamentos são formados a partir de uma matriz de parecença;
•Queremos identificar os objetos que mais se parecem;
•Agrupamos esses objetos e os consideramos como um único objeto;
•Definimos uma nova matriz de parecença.
Algoritmos de Agrupamentos
Os procedimentos hierárquicos envolvem a construção de uma hierarquia de uma estrutura do tipo árvore. Existem basicamente dois tipos de procedimentos hierárquicos de agrupamento: Aglomerativos e Divisivos.Métodos Hierárquicos Aglomerativos Usando o STATISTICA
Vamos enumerar pelos menos 5 mé-todos aqui:
•Método do vizinho mais próximo;
•Método do vizinho mais longe;
•Método das médias das distâncias;
•Método da centróide;
•Método de Ward.
O STATISTICA traz uma série de métodos implementados:
a distância entre os grupos é
definida como sendo a
distância entre os elementos
mais próximos (menor
distância) dos dois grupos
Método do vizinho mais próximo(Single Linkage)
Algoritmos de Agrupamentos
a distância entre dois grupos é definida como
sendo a distância entre
os indivíduos mais distantes
dos dois grupos (distância máxima).
Método do vizinho mais longe(Complete Linkage)
Algoritmos de Agrupamentos
Este método define a coordenada de cada grupo como sendo a
média das coordenadas de seus
objetos. Uma vez obtida essa
coordenada, denominada centróide,
a distância entre os grupos é obtida
através do cálculo das distâncias entre os
centróides.
Método do centróide
Algoritmos de Agrupamentos
O método de Ward busca unir objetos que tornem os agrupamentos formados os mais homogêneos possível. A medida de homogeneidade utilizada baseia-se na partição da soma de quadrados total de uma análise de variância. Observe abaixo:
Método de Ward
k
j Gi
ji
k
j
jj
k
j Gii
jj
XxXXnXx1
211
1
211
1
211
O Método de Ward, é atraente por basear-se numa medida com forte apelo estatístico e por gerar grupos que, assim como os do método do vizinho mais longe, possuem alta homogeneidade interna.
Algoritmos de Agrupamentos
No STATISTICA
Na opção Input File existem duas maneiras para entrar com uma base de dados: Raw Data ou Distance Matrix. Por vezes, algum procedimento hierárquico ou medida de distância não está implementada num procedimento automático. É possível, então, entrar com a matriz de distância e avaliar os grupos. As informações que esta matriz deve ter são:
Medidas de distância;
Média, Desvio Padrão e Número de Casos;
Tipo de Matriz:
1 – Matriz de Correlação;
2 – Matriz de Similaridade;
3 – Matriz de Dissimilaridade;
4 – Matriz de Variância e Covariância.
No STATISTICA
Exercício
Abra o arquivo Países.sta e avalie algum tipo de agrupamento entre os 36 países disponíveis para análise.
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
Análise de Componentes Principais (ACP) é uma técnica estatística que transforma linearmente um conjunto de p variáveis em
um novo conjunto com um número menor (k) de variáveis não-correlacionadas, que explica uma parcela substancial das informações
do conjunto original.
Definição
Projec tion of the c as es on the f ac tor-plane ( 1 x 2)
Cas es w ith s um of c os ine s quare >= 0,00
A c tiv e
B olív ia
B ras i l
Chi le
Uruguai
Canadá
E UA
Méx ic o
C.Ric a
Haiti
E s panhaG réc ia
Hungria
Itál ia
Iugos lávP ortugal
RURF A
S uéc ia
S uiç a
URS SE gito
T urquiaA rgél ia
Is rael
B anglade
P aquis tã
IndiaF i l ipina
China
J apãoA us trál ia
Nova Z elândia
Rep.C. A f.
NigériaG ana
Quenia
-8 -6 -4 -2 0 2 4 6 8 10
Fac tor 1: 70,05%
-5
-4
-3
-2
-1
0
1
2
3
4
Factor 2: 8,46%
Também será útil quando desejamos
confirmar um modelo de
agrupamento avaliado com a
técnica de Análise de Agrupamentos
(ao lado vemos os grupos vistos
anteriormente)
Motivação
No menu Help, opte por Open Examples, na pasta Datasets busque o arquivo Economic Indicators. O arquivo consta de
informações econômicas (Imposto, PNB, Inflação e Dívida) de 40 países.
Vamos estudar o relacionamento
entre as variáveis usando a Análise
de Correlações. Depois faremos uma Análise de
Agrupamentos e, logo em seguida,
uma Análise de Componentes
Principais.
Motivação
Vamos proceder com uma análise de correlação. No menu Statistics, opte por Basic Statistics and Tables e, em seguida, clique duas vezes na opção Correlation matrices.
Insira todas as variáveis em One variable list e clique em Summary Correlation matrix.
Depois clique na opção Scatterplot matrix.
MotivaçãoCorrelations (Ec onomic indic ators 4v *40c )
W A GE RA T E
GNP
INFLA T ION
DE B T
Vamos avaliar os resultados: O que há de peculiar entre as variáveis? Qual a estrutura de relação entre elas?
Motivação
Tree Diagram f or 40 Cas es
W ard`s method
Euc lidean dis tanc es
SpainIreland
KoreaItaly
IndonesiaPortugalH
ungaryThailand
PolandC
zech Republic
Greece
MexicoM
alaysiaC
hinaTaiw
anFinlandBelgium
Luxemburg
Switzerland
Germ
anyN
etherlandsD
enmark
BritainJapan
Sweden
USA France
Norw
ayAustria
AustraliaH
aiti EthiopiaPeruKeniaEgypt South AfricaBrazil
India Sri LankaAlgeria
0
5
10
15
20
25
30
35
40
Linkage Distance
MotivaçãoAgora, para finalizar essa motivação, vamos à técnica de Análise de Componentes Principais. No menu Statistics, opte por Multivariate Exploratory Techiniques e Principal Components & Classification Analysis.
MotivaçãoNa aba Advanced, em Variables inserimos as variáveis de interesse para a análise como na janela abaixo. Variáveis suplementares são aqueles que desejamos analisar, mas não diretamente.
Podemos desejar usar
apenas algumas
observações, então usamos
Active cases variable.
Motivação
Para observar o comportamento
das variáveis podemos avaliar
um gráfico de scaterplot. Clique
em Plot var. factor
coordinates, 2D. Em seguida, na
aba Cases clique em Plot cases
factor coordinates, 2D.
Motivação
Projec tion of the v ar iables on the f ac tor-plane ( 1 x 2)
W AG E RA T E G NP
INF LA T IO N
DEBT
-1,0 -0,5 0,0 0,5 1,0
Fac tor 1 : 94,31%
-1,0
-0,5
0,0
0,5
1,0
Factor 2 : 3,11%
Motivação
Projec tion of the c as es on the f ac tor-plane ( 1 x 2)
Cas es w ith s um of c os ine s quare >= 0,00
A c tiv e
A lgeria
A us tral iaA us tria
B elgium
B ri tain
B raz i l
China
Cz ec h Republ ic Denm arkE gypt
E thiopia
F inland
F ranc e
G ermany
G reec eHaiti Hungary
IndiaIndones ia
Ireland
Italy
J apan
K enia
K orea Lux emburg
Malay s ia
Mex ic o
Netherlands
Norw ay
P eru
P oland
P ortugal
S outh A fric a
S pain
S ri Lank a S w edenS w itz erland
T aiw an
T hai land
USA
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
Fac tor 1: 94,31%
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Factor 2: 3,11%
As p variáveis originais (X1, . . . , Xp) são transformadas em p variáveis (Y1, . . . , Yp), denominadas componentes principais, de modo que Y1 é aquela que explica a maior parcela da variabilidade total dos dados, Y2 explica a segunda maior parcela e assim por diante. Portanto, podemos afirmar que os principais objetivos de ACP são:
Principais Objetivos da Análise
ComponentesPrincipais
Reduçãoda dimensionalidade
dos dados
Obtençãode combinações
interpretáveis das variáveis
Descriçãoe entendimento da
estrutura de correlação das variáveis
Confirma grupos da Análise de Agrupamentos
- O intuito da análise é resumir o padrão de correlação entre as variáveis e muitas vezes é possível chegar a conjuntos não correlacionados de variáveis, de modo que surge alguns agrupamentos;
- Algebricamente, as componentes principais são combinações lineares das variáveis originais;
- Geometricamente, as componentes principais são as coordenadas dos pontos amostrais em um sistema de eixos obtido pela rotação do sistema de eixos original, na direção da máxima variabilidade dos dados;
- A análise de componentes principais depende somente da matriz de covariância ou a de correlação. Não exige qualquer suposição sobre a forma da distribuição multivariada dessas variáveis;
- Se a normalidade existe, a análise é engrandecida, se não ela ainda vale a pena.
Algumas Considerações Importantes
Como Obter as Componentes Principais
Suponha que estamos observando
3 variáveis que refletem a motivação,
preferência e habilidades
intelectuais de um grupo de pessoas. No
entanto, queremos saber se é possível
ter respostas adequadas quando
trabalhamos apenas duas variáveis.
Vamos retornar àquele exemplo sobre índices econômicos. Vejamos como se estrutura o relacionamento entre as variáveis e avaliar um modelo algébrico de componentes principais. Clique em Eigenvalues e Eigenvectors (Autovalores e Autovetores).
Aplicação
Aplicação
Aplicação
Os autovetores nos dão os coeficientes das equações lineares abaixo:
CP1 = – 0,507.Wagerate + 0,497.GNP – 0,504.Inflation – 0,492.Debt
CP2 = 0,386.Wagerate + 0,183.GNP + 0,516.Inflation – 0,742.Debt
CP3 = – 0,192.Wagerate – 0,848.GNP – 0,204.Inflation – 0,450.Debt
CP4 = 0,746.Wagerate + 0,025.GNP – 0,662.Inflation – 0,066.Debt
CP1 é responsável por 94,31% da informação original e CP2 é responsável por 3,11% da informação original. Essas duas componentes juntas nos fornecem 97,42% de informação.
Quantidade de Componentes a Escolher
Eigenvalues of correlation m atrix
94,31%
3,11% 2,23% ,34%
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
Eigenv alue number
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
Eigenvalue
Como Interpretar as Componentes Principais?
- A interpretação é feita com base nas correlações entre as variáveis originais e as componentes principais, e nos coeficientes dados pelas combinações lineares que levam às componentes principais;
- As correlações são medidas das contribuições individuais de cada variável e não consideram a contribuição multivariada das demais variáveis;
- A primeira componente principal pode ser interpretada como uma média entre as variáveis com maior coeficiente na combinação linear
Contribuições
Podemos medir o grau de relação que existe entre as variáveis e as componentes principais com a opção Factor & variable correlations.
E podemos também medir a contribuição
de cada variável para a construção de
uma componente
principal usando a
opção Contributions of variables.
Contribuições
111.CPX WagerateCPX Wagerate CPv
98512,0772414,3.5072,0
2CPX WagerateCPX Wagerate 11
ãoContribuiç v
257252,05072,0 2
Análise de Classificação
Podemos avaliar um modelo de
agrupamento usando a técnica de
componentes principais, basta clicar
nas opções Factor coordinates of cases e
Plot case factor coordinates, 2D.
Um modelo de Scores pode ser exibido com
as opções Factor scores e Factor scores
Coefficients
Projec tion of the c as es on the f ac tor-plane ( 1 x 2)
Cas es w ith s um of c os ine s quare >= 0,00
A c tiv e
A lgeria
A us tral iaA us tria
B elgium
B ri tain
B raz i l
China
Cz ec h Republ ic Denm arkE gypt
E thiopia
F inland
F ranc e
G ermany
G reec eHaiti Hungary
IndiaIndones ia
Ireland
Italy
J apan
K enia
K orea Lux emburg
Malay s ia
Mex ic o
Netherlands
Norw ay
P eru
P oland
P ortugal
S outh A fric a
S pain
S ri Lank a S w edenS w itz erland
T aiw an
T hai land
USA
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
Fac tor 1: 94,31%
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Factor 2: 3,11%
Análise de Classificação
Exercício
Abra o arquivo Países.sta e confirme o agrupamento entre os 36 países na técnica de Cluster Analysis.
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
Definição e Conceitos
Análise Fatorial é um nome genérico dado a uma classe de métodos estatísticos multivariados cujo propósito principal é definir a estrutura subjacente em uma matriz de dados. Assim, têm-se os seguintes pontos:
Abordar o problema de analisar a estrutura das inter-relações (correlações) entre um grande número de variáveis, definindo um conjunto de dimensões latentes comuns, chamadas de fatores;
Identificar as dimensões separadas da estrutura e então determinar o grau em que cada variável é explicada por cada dimensão;
Resumir e reduzir os dados em dimensões latentes interpretáveis e compreensíveis usando escores para cada dimensão e, conseqüentemente, substituir as variáveis originais.
Definição e Conceitos
Os modelos de análise fatorial buscam explicar o comportamento das variáveis observadas em relação ao comportamento de um conjunto de variáveis não observadas (variáveis latentes ou fatores).
Desta forma, sejam
Um modelo de análise fatorial é dado por:
TpXX ,,1 TpE ,,1
pmpmpppp
mm
mm
FFX
FFX
FFX
1
2222122
1111111
Definição e Conceitos
pmpmpp
m
m
pp F
F
F
X
X
X
2
1
2
1
21
22221
11211
2
1
2
1
Traduzindo para notação de matriz, temos:
Cargas Fatoriais
Podemos interpretar as cargas fatoriais como:
jimimjijiji FFFFCovFXCov ;, 11
ijjjijji FFCovFXCov ;,
Observe que os fatores são ortogonais, ou seja a covariância entre fatores é igual a zero. Portanto,
Definição e Conceitos
Vamos estudar a variância das variáveis observadas. Para Xi temos:
imimiiiii FFVarXVarXVar 112
o resultado disso é:
Portanto, temos dois importantes conceitos:
Comunalidade. Parcela da variância de Xi que é explicada pelos fatores comuns.
Especificidade. Parcela de variância de Xi que não é explicada pelos fatores
iimii 221
2
221
2imiic
idadeEspecifici :
Pode-se usar a proporção de
variabilidade explicada:2
2
Pri
ii
c
Definição e Conceitos
Se definimos a variabilidade total das variáveis originais como sendo:
p
iiT
1
22
p
iic
1
2
Representa a parcela da variabilidade total que é explicada pelo conjunto de fatores. Conseqüentemente,
21
2
PrT
p
ii
T
c
temos, então que
é a proporção da variabilidade total dos dados que é explicada pelo conjunto de fatores comuns.
Aplicação
Imagine a matriz de correlação para nove elementos da imagem de uma loja:
Política de devolução Pessoal Disponibilidade de
produto
Serviço interno Diversidade de itens para cada produto Nível de Preço
Atmosfera da loja Diversidade de produtos
Qualidade de produto
A questão que se pode levantar é: Estes elementos todos são separados no que se refere às suas propriedades de avaliação ou eles se ‘agrupam’ em algumas áreas mais gerais de avaliação?
Aplicação
Aplicação
Experiência Interna
Oferta de Produtos
Valor
O propósito geral de técnicas de análise fatorial é encontrar um modo de condensar a informação contida em diversas variáveis originais em um conjunto menor de novas dimensões compostas ou variáveis estatísticas com uma perda mínima de informação.
Fase 1Planejamento da Análise Fatorial
Etapas do Processo de Análise Fatorial
Obj
etiv
o
É importante definir com critério as variáveis que farão parte da pesquisa com Análise Fatorial, definir as propriedades de medidas e tipos de variáveis envolvidas. Quanto maior for o número de variáveis, maior será o tamanho da amostra.
Algumas cuidados importantes em Análise de Fatores dizem respeito ao tamanho da amostra:
Dificilmente um pesquisador realiza uma Análise Fatorial com menos que 50 observações;
Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100;
Alguns estudiosos propõem um mínimo de 20 observações vezes o número de variáveis a serem estudadas.
Quando se lida com amostras menores, o pesquisador sempre deve interpretar qualquer descoberta com precaução.
Variá
veis
Tam
anho
da
Am
ostr
a
Etapas do Processo de Análise Fatorial
Abra o arquivo Hatco.sta na pasta Treinamento / BDs / STATISTICA /.
Fase 4Cargas fatoriais:
A carga fatorial é o meio de interpretar o papel que cada variável tem na definição de cada fator;
As cargas fatoriais são a correlação de cada variável com o fator, elas são significantes quando seus valores excedem 0,70;
Cargas maiores fazem a variável ser representativa no fator.
Rotação de fatores:
Interpretação dos Fatores
V1V2
V3
V4
V5
0,50 1,0-0,50-1,0
-0,50
-1,0
0,50
1,0
Fator 1
Fator 2 Fator 2_Ort
Fator 1_Ort
RotaçãoFatorialOrtogonale Oblíqua
Fator 2_Obl
Fator 1_Obl
Quartimax. Concentra-se em rotacionar o fator inicial de modo que uma variável tenha carga alta em um fator e cargas tão baixas nos demais;
Varimax. Este método, por outro lado, busca concentrar cargas altas e baixas em cada fator, isso maximiza a variância
Equamax. É uma espécie de acordo entre os dois métodos acima.
Etapas do Processo de Análise Fatorial
Exemplo
Vamos usar uma base de dados da Hatco para avaliar a existência de agrupamentos de percepções que clientes têm com respeito à empresa.As variáveis que nos interessam são: X1 a X4, X6
e X7.
O tamanho da amostra é de
100 observações,
resultando em 14 casos para cada variável,
um valor aceitável.
Exemplo: Medidas de Correlação
Suposições de Normalidade, Linearidade, Homocedasticidade... afetam as correlações e se estas não são significantes, então a perda é considerável nos resultados da Análise Fatorial. Sendo assim, é preciso avaliar a grandeza e significância das correlações.
Estas correlações
são significantes
ao nível de 5%. Note que
8 das 15 correlações
são significantes.
Isso é adequado.
Exemplo: Decidindo Quantos Fatores Usar
O passo seguinte é selecionar o número de componentes a serem mantidos para análise posterior. Podemos usar os autovalores para fazer essa seleção, tomando o teste da raiz latente em que os autovalores devem assumir resultados superiores a 1. Portanto, temos 3 fatores com essa característica e que respondem por 83,24% da variabilidade nas variáveis originais.
Exemplo: O Gráfico para o Teste da Raiz Latente
Teste da R ais Latente
2,513
1,740
0,597 0,5300,416
0,204
1 2 3 4 5 6
Number of Eigenv alues
0,0
0,5
1,0
1,5
2,0
2,5
3,0
Value
Exemplo: Cargas Fatoriais e Cumunalidades
Uma vez decididos por 2 fatores, então precisamos informar ao STATISTICA
que ele deve escolher 2 fatores com autovalores
maior que 1.
Clique em OK na janela ao lado e retorne ao módulo de análise. Clique em Summary: Factor loading.
Exemplo: Cargas Fatoriais e Cumunalidades
O fator 1 é o que explica a porção maior da variabilidade e o fator 2 é o que explica ligeiramente menos;
2,51 é a porção de variabilidade total explicada pelo Fator 1, isso corresponde a 41,89% de explicação;
1,74 é a porção de variabilidade total explicada pelo Fator 2 que corresponde a 28,99% de explicação;
A significância das cargas fatoriais foram aquelas com valores superiores a 0,70.
Exemplo: Aplicando Rotação Varimax
Desta forma temos 39,50% em lugar dos 41,89% para
o Fator 1; temos 31,40% em lugar dos 28,99% para
o Fator 2.
A rotação compensou a variância explicada por cada fator, distribuindo melhor os 70,9% de variabilidade explicada pelos dois fatores.
Exemplo: Aplicando Rotação Varimax
Factor Loadings, Factor 1 vs. Factor 2R otation: U nrotatedEx trac tion: Pr inc ipal c omponents
X1
X2
X3
X4 X6
X7
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
Fac tor 1
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
Factor 2
Exemplo: Aplicando Rotação Varimax
Factor Loadings, Factor 1 vs. Factor 2
R otation: V arim ax norm alizedEx trac tion: Pr inc ipal c omponents
X1
X2
X3
X4X6
X7
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Fac tor 1
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
Factor 2
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
Definição
A análise discriminante envolve determinar uma variável estatística que é a combinação linear de duas ou mais variáveis independentes que discriminarão melhor entre grupos definidos a priori.
A discriminação é conseguida estabelecendo-se os pesos da variável estatística para cada variável para maximizar a variância entre grupos relativa à variância dentro dos grupos.
A B A B
Função Discriminante Função Discriminante
A combinação linear para uma análise discriminante, também conhecida como a função discriminante, é determinada de uma equação que assume a seguinte forma:
onde
zjk = escore Z discriminante da função discriminante j para o objeto k
a = intercepto
wi = peso discriminante para a variável independente i
xik = objeto k na variável Xi.
Definição
nknkkjk xwxwxwaz 2211
Exemplo
Uma empresa está interessada em investigar se um de seus novos produtos será comercialmente bem-sucedido. Isso conduz a uma pesquisa com consumidores que comprariam ou não o novo produto. Estudamos, então, as 3 características descritas no quadro abaixo:
Note que a característica Durabilidade discrimina
bem os dois grupos.
Já a característica Estilo tem uma diferença entre médias de grupo igual a
0,2. No entanto, isso não caracteriza uma má
discriminação. É preciso avaliar a dispersão e os escores discriminantes.
Exemplo
10
9 7
8
5 26 1
1 2 3 4 5 6 7 8 9 10
4 3X1
Durabilidade
10
9
7
8 52
6
1
1 2 3 4 5 6 7 8 9 10
4 3X2
Desempenho
10
97 8
5 2 61
1 2 3 4 5 6 7 8 9 10
43X3
Estilo
Exemplo
Usando apenas a variável X1 obtemos um percentual de classificação correta de 90%, visto que o item 5 não foi alocado corretamente. Quando inserimos a variável X2, obtemos 100% de acerto na Função 2. Mas com a análise discriminante, estamos interessados não só em agrupar, como também maximizar variabilidade entre grupos.
Exemplo
Exemplo
Faremos um procedimento passo a passo. O método é o Forward stepwise.
Exemplo
DesempenhodeDurabilidaZ .3588,0.4756,053,4
O função discriminante:
Exemplo
A Matriz de Classificação e a Classificação dos
Casos estão demonstradas nas
tabelas a seguir.
Estágios do Processo de Análise Discriminante
À medida que conceituamos os
procedimentos da análise faremos um
exemplo para nos familiarizarmos com o
STATISTICA.
Abra o arquivo Hatco.sta.
Em Vars, opte por clicar em All Specs.
Veja o significado de cada variável.
Estágios do Processo de Análise Discriminante
Objetivo da Pesquisa:
Determinar se existem diferenças estatisticamente significantes entre os perfis de escore médio em um conjunto de variáveis para dois (ou mais) grupos definidos a priori;
Determinar quais das variáveis independentes explicam o máximo de diferenças nos perfis de escore médio dos dois ou mais grupos;
Estabelecer procedimentos para classificar objetos em grupos, com base em seus escores em um conjunto de variáveis independentes;
Estabelecer o número e a composição das dimensões de discriminação entre grupos formados a partir do conjunto de variáveis independentes.
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante:
Seleção de Variáveis Dependente e Independentes:
O pesquisador deve se concentrar na variável dependente primeiro. O número de grupos pode ser dois ou mais, mas devem ser mutuamente excludentes e cobrir todos os casos.
Tamanho da amostra:
A Análise Discriminante é muito sensível ao tamanho da amostra e o número de variáveis preditoras Alguns estudos sugerem um número de 20 observações para cada preditora.
Divisão da Amostra:
É muito comum um estudo de validação do modelo, usando recursos de divisão da amostra (crossvalidation); este procedimento consiste em dividir a amostra em duas partes: 1. Modelagem (não menos que 60%) e 2. Teste (não mais que 40%).
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
Vamos observar os dados em termos de média e desvio-padrão, considerando o tamanho amostral.
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
Crie uma nova variável na tabela em que o valor geral é 1 para todos os casos.
Ela aparece ao lado como NewVar e será uma variável auxiliar
para contagem de casos.
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
A variável X11 avalia duas abordagens quanto à compra de produtos e serviços:
1 – Análise de Valor Total: avalia cada aspecto de compra, incluindo cada tanto o produto quanto o serviço que é comprado;
0 – Especificação de Compra: define-se todas as características de produto e serviço desejados e o vendedor, então, faz uma oferta para preencher as especificações.
Já a variável Grupo define uma parte das observações que será usado para análise (assume valor 0) e a parte das observações que será usada para validar (assume valor 1) o modelo discriminante. Usamos 60 observações para análise e 40 para validação.
Estágios do Processo de Análise Discriminante
Projeto de Pesquisa para Análise Discriminante
Estágios do Processo de Análise Discriminante
Suposições da Análise Discriminante:
Uma suposição chave é a de normalidade multivariada para as variáveis independentes. Existem evidências da sensibilidade da análise discriminante a violações dessas suposições;
Outra questão é a matriz de covariância que é desconhecida, no entanto deve ser igual para todo grupo; matrizes desiguais afetam negativamente o processo de classificação;
Também é preciso ter cuidado com a Multicolinearidade.
Estágios do Processo de Análise DiscriminanteEstimação do Modelo Discriminante:
Método Computacional
Estimação Simultânea: envolve a computação da função discriminante, de modo que todas as variáveis independentes são consideradas juntas;
Estimação Stepwise: envolve a inclusão das variáveis independentes na função discriminante, uma por vez, com base em seu poder discriminatório.
Significância Estatística
As medidas de lambda de Wilks, traço de Hotelling e critério de Pillai avaliam a significância estatística do poder discriminatório da função discriminante;
A maior raiz característica de Roy avalia apenas a primeira função discriminante;
Se um método stepwise é empregado para estimar a função discriminante, as medidas D2 de Mahalanobis são mais adequadas
Exemplo no STATISTICA
Escolha as variáveis para análise em
Variables:
X11 é Dependente e de X1 a X7, são as
Independentes.
Escolha a opção Tradicional discriminant analysis. A outra opção é usada quando temos variáveis independentes categóricas.
Exemplo no STATISTICA
Vamos usar a opção Cross validation para
avaliar a função discriminante para
esses dados.
Habilite a opção Foward stepwise para o procedimento computacional
Exemplo no STATISTICA
Exemplo no STATISTICA
Esta tabela nos dá o entendimento das variáveis que entram na Análise Discriminante.
Exemplo no STATISTICA
Exemplo no STATISTICA
Note que a variável X7 é a que apresenta maior poder discriminante e foi escolhida primeiro. Em seguida aparece X3 e depois X1 disputa com X5 com valores muito próximos.
Após a seleção das 3 variáveis, as 4 restantes não contribuem para discriminar os grupos.
Avaliação do Ajuste Geral:
Cálculo de Escores Z discriminantes
Avaliação de Diferenças de Grupos
Um caminho para avaliar o ajuste geral do modelo é determinar a magnitude de diferenças entre membros de cada grupo em termos dos escores Z discriminantes. Podemos fazer isso usando a comparação dos centróides dos grupos, o escore Z discriminante média para todos os membros dos grupos.
Avaliação da Precisão Preditiva de Pertinência de Grupo
O uso de matriz de classificação nos informa o valor razão de sucesso (um percentual de classificação correta);
O escore de corte que é o critério em relação ao qual o escore discriminante de cada objeto é comparado para determinar em qual grupo o objeto deve ser classificado.
nknkkjk xwxwxwaz 2211
Exemplo no STATISTICA
Exemplo no STATISTICA
O que desejamos, desde o início, é
maximizar a distância entre as médias populacionais e
minimizar a variância.
Uma medida de distância usada é o D2
de Mahalanobis.
Clique nas opções Class squared
Mahalanobis distances, Class means for
canonical variables e Tests of significance of
distances.
Exemplo no STATISTICA
773,0
2238063,1.22836,1.38
CorteZ
Observações com escores discriminantes menores que ZCorte se classificam no grupo de Análise de Valor Total ( 1 ). E os escores com valores maiores, se classificam no grupo Especificação de Compra ( 0 ).
Exemplo no STATISTICA
Exemplo no STATISTICA
Interpretação dos Resultados:
Pesos Discriminantes
A interpretação de pesos discriminantes é análoga à interpretação de pesos beta em análise de regressão e está, portanto, sujeita às mesmas críticas.
Exemplo no STATISTICA
731 .659,0.472,0.447,0 XXXZ
É a função discriminante com pesos padronizados.
Interpretação dos Resultados:
Cargas Discriminantes
As cargas discriminantes medem a correlação linear simples entre cada variável independente e a função discriminante.
Exemplo no STATISTICA
As cargas são consideradas mais
válidas do que os pesos como um
meio de interpretação do
poder discriminatório de
variáveis independentes por
causa de sua natureza
correlacional.
Interpretação dos Resultados:
A Diferença entre os Grupos
Associado a cada função discriminante encontramos um raiz característica (autovalor);
O teste Lambda de Wilk avalia a diferença entre os grupos (0 e 1);
A estatística Qui-Quadrado revela se a diferença entre os grupos é significante;
O R canônico pode ser interpretado elevando-se o seu valor ao quadrado, então dizemos que o modelo discriminante
Exemplo no STATISTICA
explica certa porcentagem (66,9%) da variância na variável dependente.
Coeficientes da Função de Classificação
Resultados da Classificação
Exemplo no STATISTICA
Josias JônatasData Mining Consultant
StatSoft South America Consulting Services
LSC para Diâmetro Interno de Pistão
LIC para Diâmetro Interno de Pistão
LSC para Diâmetro Externo de Pistão
LIC para Diâmetro Externo de Pistão
Usando MSPC:
- Avaliamos cada variável no tempo;
- Avaliamos o conjunto de variáveis, dado que a relação entre elas existe;
- Avaliamos cada lote para determinar sucesso na detecção de um processo irregular.
Controle Estatístico do Processo Multivariado
1 2 . . . k
2..
.
j
i
.
.
.
Variáveis
Lote
sTempo
Time-wise Mult-way Principal Components Analysis
Vamos usar um exemplo do Help do STATISTICA para ilustrar o uso desta técnica multivariada. Os dados vem de um processo industrial que mede a polimerização de um reator por lote.
Time-wise Mult-way Principal Components Analysis
Descrição do problema:
• Para cada batelada tomamos 100 leituras de 10 variáveis observadas;
• Tomamos 55 bateladas:
• 47 bateladas alcançaram sucesso, ou seja, a qualidade do polímero é aceitável: 1-37, 39, 41, 43, 44, 47 e 49;
• 4 bateladas estão próximas do limite de tolerância: 38, 45, 46 e 49;
• 8 bateladas não obtiveram sucesso: 40, 42 e 50-55;
• Dividimos essas bateladas em 2 arquivos: 30 com sucesso estão em NormalBatches.sta e 25 (com sucesso, sem sucesso e próximo dos limites) foram misturadas em BatchesForDeployment.sta.
Time-wise Mult-way Principal Components Analysis
Objetivos da análise:
• Aplicar TMPCA em NormalBatches.sta para construir um modelo de referência que descreva a evolução de bons lotes;
• Usar este modelo para identificar bateladas futuras como lotes com Sucesso ou sem Sucesso usando os dados de BatchesForDeployment.sta.
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Este módulo suporta a entrada tanto de variáveis
contínuas como de variáveis discretas que assumam um comportamento dicotômico
(variável dummy), assumindo valores 0 e 1.
Podemos explorar o comportamento do Processo com PCA e modelar com PLS, usando o tempo ou os lotes.
Time-wise Mult-way Principal Components Analysis
Escolha as variáveis como no quadro a seguir.
Time-wise Mult-way Principal Components Analysis
Nonlinear Iterative Partial Least Squares, NIPALS é o algoritmo responsável por encontrar o conjunto mais adequado de Componentes Principais e também por descrever um modelo de estrutura latente nos dados (PLS).
Nesta janela, selecionamos o método para determinar o
número de componentes. O método de Cross Validation é
indicado, visto que fará uma busca iterativa do melhor número de componentes.
Time-wise Mult-way Principal Components Analysis
Uma importante característica do STATISTICA TMPCA é sua funcionalidade de pré-processamento que nos habilita a a padronizar os dados para construir um modelo melhor.
A opção default é Unit standard deviations, ela calcular um único desvio padrão para padronizar todos os lotes. Esse procedimento é requerido sempre que executamos uma PCA.
Podemos criar um procedimento de substituição de Missing Data. E quando trabalhamos com grandes bases de dados, podemos informar ao STATISTICA que a base é de certa ordem em MB.
Time-wise Mult-way Principal Components Analysis
Uma avaliação primária é concernente às componentes geradas pela iteração. Na opção Summary na aba Quick, vemos uma tabela que avalia o R2 das componentes com os casos selecionados aleatoriamente para treinamento do modelo por Cross Validation.
A parte dos casos que não foi usada no modelo tem o seu índice em Q2.
Foram geradas 14 componentes, visto que 10 componentes foram avaliadas com casos para treinamento e 10 com casos para teste.
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Time-w is e Multi-w ay Pr inc ipal Components A naly s is Summary Ov erv iew
Number of c omponents is 14
R²X(Cumul.) Q²(Cumul.)
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Component
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Variable im portance
0,931 0,927 0,926
0,8910,884
0,8470,841
0,824 0,820
0,799
T 2 DR T 3 DR T 1 DR T F M 2 T F M 1 PR ES 2 T 1 R M T 2 R M PR ES 3 PR ES 1
Variab le
0,78
0,80
0,82
0,84
0,86
0,88
0,90
0,92
0,94
0,96
0,98
1,00
Power
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Hotelling T² Control Chart
Number of c omponents is 14
99,000%
B 1B 2
B 3B 4
B 5B 6
B 7B 8
B 9B 10
B 11B 12
B 13B 14
B 15B 16
B 17B 18
B 19B 20
B 21B 22
B 23B 24
B 25B 26
B 27B 28
B 29B 30
Batc h
0
10
20
30
40
50
60
70
80
90
100
T²
90,478
Agora o alvo é encontrar possíveis outliers. Podemos detectar outliers a partir de seus x-scores, visto que o uso de Componentes Principais transformou os valores originais em outra escala. Usamos, então, a distribuição amostral multivariada T2-Hotelling. Para ao i-ésima observação temos:
C
k ik
iki s
tT
12
22
tik é o escore da i-ésima observação para o k-ésimo componente;
sik é o desvio padrão estimado de tk;
C é o número de componentes.
Time-wise Mult-way Principal Components Analysis
Outras medidas para diagnóstico:
O T2-Hotelling não é suficiente para predizer outliers, especialmente se inserimos observações que não foram usadas para treinar o modelo. Uma quantidade melhor é o Erro Quadrático da Predição (SPE – Square of the predictions error). Para o i-ésimo elemento temos o SPE definido ao lado.
Podemos usar ainda os resíduos para detectar outliers com a técnica distância do modelo (D-To-Model). Tome a i-ésima observação e veja ao lado.
M
jijiji xxQ
1
2ˆ
CM
xx
ModelToD
M
jijij
1
2ˆ
xij é um elemento da matriz X_Barra;
xij é um elemento da matriz de escores das Componentes Principais
^
M é o número de variáveis originais;
xij é o número de componentes
Time-wise Mult-way Principal Components Analysis
SPE(Q ) ChartN umber o f components is 14
99,000%0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 90 93 96 99
Time
0
1
2
3
4
5
6
7
8
9
10
11
12
Q
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Distance to m odelN u mb er o f co mp o n en ts is 14
T he normalized d istance to the model is 0,496
B1B2
B3B4
B5B6
B7B8
B9B10
B11B12
B13B14
B15B16
B17B18
B19B20
B21B22
B23B24
B25B26
B27B28
B29B30
Batc h
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
Dis
tance
Os valores são considerados outliers se excedem o limite calculado de 0,496 calculado pela solução.
Time-wise Mult-way Principal Components Analysis
Score scatterplot (t1 vs. t2)S tan d ard d eviatio n o f t1: 19,470
S tan d ard d eviatio n o f t2: 10,948
B 1B 2
B 3
B 4
B 5B 6
B 7B 8B 9
B 10
B 11B 12
B 13
B 14
B 15
B 16
B 17B 18
B 19B 20
B 21B 22
B 23B 24
B 25
B 26 B 27B 28
B 29
B 30
-80 -60 -40 -20 0 20 40 60 80
t1
-80
-60
-40
-20
0
20
40
60
80
t2 + /-3,000*S td.Dev
Time-wise Mult-way Principal Components Analysis
O gráfico abaixo exprime o fato de que as bateladas não sofrem desvios da normalidade quando avaliamos as 10 variáveis juntas. A elipse representa o limite correlacionado para esta variáveis.
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Score contribution plot (t1, 0)
0,039
0,008
0,036
0,016
0,026
0,0040,000 0,000
0,018
0,011
T 1 DR T 2 DR T 3 DR PR ES 1 T F M 1 T 1 R M T 2 R M PR ES 2 PR ES 3 T F M 2
Variab le
-0,05
-0,04
-0,03
-0,02
-0,01
0,00
0,01
0,02
0,03
0,04
0,05
Score contribution (B1 - A
verage)
Podemos ainda avaliar a importância de cada variável para algum componente. O gráfico abaixo, por exemplo, se refere ao primeiro componente e, note, a primeira variável é a que mais influencia.
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Para avaliar a trajetória dos pontos ao longo do tempo, usamos a opção Trajectory.
Trajectory plot of variable: T 1DR
N umber o f ba tches: 30
0 7 14 21 28 35 42 49 56 63 70 77 84 91 98
Time
0,5
0,6
0,7
0,8
0,9
1,0
Trajectory
+/-3 ,000*Std .D ev +/-2 ,000*Std .D ev M ean
Time-wise Mult-way Principal Components Analysis
Agora vamos avaliar uma nova batelada contida no arquivo Batches For Deployment, no Help do STATISTICA, usando o procedimento de MSPC Deployment. Gere o PMML script do como ao lado.
Time-wise Mult-way Principal Components Analysis
Time-wise Mult-way Principal Components Analysis
Cancele a janela ao lado até retornar à janela inicial. Abra o arquivo que será avaliado (use Open Data) e siga os passos.
Time-wise Mult-way Principal Components Analysis
Busque o script do PMML salvo em lugar conhecido e seguro. Use a opção Load models do STATISTICA MSPC.
Assim que inserir o script, as opções na aba Results estarão habilitadas para uso. Clique em Summary.
Time-wise Mult-way Principal Components Analysis
Avalie novamente os resultados anteriores para esse novo conjunto de bateladas. Observe que essas bateladas estão fora de especificação e, portanto, a qualidade dos polímeros não é satisfatória.
Time-wise Mult-way Principal Components Analysis
Hotelling T² Control ChartN umber o f components is 14
19.516,728
10.337,292
20.433,084
10.184,001
20.904,183
7.842,383
B31B32
B33B34
B35B36
B37B38
B39B40
B41B42
B43B44
B45B46
B47B48
B49B50
B51B52
B53B54
B55
B atch
0
5000
10000
15000
20000
25000
T²
90,478 99 ,000%
StatSoft South AmericaDeptº. de Projetos e Consultoria
Josias Jônatas – Consultor Data MinerDeptº. de Treinamentos e Suporte
Andréia Santiago – Gerente de TreinamentosFone: 55 11 3422 4250
Fax: 55 11 3422 4255