Análise Fatorial e Cluster no Stata 11

3
Análise Fatorial e Cluster no Stata 11 Samuel Alex Coelho Campos 1 1. Análise Fatorial A análise fatorial pode ser estimada, entre outros, por componentes principais ou por máxima verossimilhança, que é um método melhor que o anterior, mas necessita que as variáveis tenham distribuição normal multivariada. No Stata, para as variáveis instalacaovacas a variação, vacacocho e cochoarea: .mvtest normality instalacaovacas- variacao vacacocho cochoarea, stats(all) Supondo que as variáveis não tenham distribuição normal, devemos estimar a análise fatorial pelo procedimento de componetes principais: .factor instalacaovacas- variacao vacacocho cochoarea, pcf *Nesta situação foram escolhidos 5 fatores, uma vez que foram extraídos aqueles fatores que possuíram eigenvalue maior que 1, nomeando-os com os nomes de f1, f2, f3, f4 e f5: .predict f1 f2 f3 f4 f5 Posteriormente, é testada a adequação dos dados à análise fatorial: factortest instalacaovacas- variacao vacacocho cochoarea Este comando apresenta o valor do determinante da matriz, o teste de esferacidade de Bartlett e a estatística Kaiser-Meyer-Olkin (KMO) 1 Mestrando em Economia Aplicada pela Universidade Federal de Viçosa. 1

Transcript of Análise Fatorial e Cluster no Stata 11

Page 1: Análise Fatorial e Cluster no Stata 11

Análise Fatorial e Cluster no Stata 11Samuel Alex Coelho Campos1

1. Análise FatorialA análise fatorial pode ser estimada, entre outros, por componentes principais ou por

máxima verossimilhança, que é um método melhor que o anterior, mas necessita que as

variáveis tenham distribuição normal multivariada.

No Stata, para as variáveis instalacaovacas a variação, vacacocho e cochoarea:

.mvtest normality instalacaovacas- variacao vacacocho cochoarea, stats(all)

Supondo que as variáveis não tenham distribuição normal, devemos estimar a análise

fatorial pelo procedimento de componetes principais:

.factor instalacaovacas- variacao vacacocho cochoarea, pcf

*Nesta situação foram escolhidos 5 fatores, uma vez que foram extraídos aqueles

fatores que possuíram eigenvalue maior que 1, nomeando-os com os nomes de f1, f2, f3, f4 e

f5:

.predict f1 f2 f3 f4 f5

Posteriormente, é testada a adequação dos dados à análise fatorial:

factortest instalacaovacas- variacao vacacocho cochoarea

Este comando apresenta o valor do determinante da matriz, o teste de esferacidade de

Bartlett e a estatística Kaiser-Meyer-Olkin (KMO)

2. Análise de ClusterPara agrupar os indivíduos por meio do método de dois estágios proposto por Punj e

Steward (1983), primeiramente, determina o número de grupos por meio do método de

variância mínima de Wald:

Na análise de cluster são utilizados os fatores extraídos da Análise Fatorial como

descrito acima.

. cluster wardslinkage f1 f2 f3 f4 f5, measure(L2) name(wald)

Posteriormente, o número ideal de clusters a serem formados é determinado:

.cluster stop wald, rule(calinski)

.cluster stop wald, rule(duda)

1 Mestrando em Economia Aplicada pela Universidade Federal de Viçosa.

1

Page 2: Análise Fatorial e Cluster no Stata 11

Para selecionar o número de cluster pelo critério de Calinski–Harabasz, pseudo-F,

observe os maiores valores; Pelo critério de Duda–Hart, Je(2)/Je(1), observe os maiores

valores; e para o Duda–Hart, pseudo-T, observe os menores valores (Stata Corp, 2009).

Supondo que os critérios determinaram que devam ser formados dois clusters:

Pelo comando, será criada uma variável de nome “kmean22” que assumira valores 1

ou 2, de acordo com o cluster a qual grupo o indivíduo estará inserido. Estão sendo utilizados

os fatores f1 a f5.

. cluster kmeans f1 f2 f3 f4 f5, k(2) measure(L2) name(kmean22) start(krandom)

3. Referências

PUNJ, G. e STEWART, D.W. Cluster Analysis in Marketing Research: Review and Suggestions for Application. Journal of Marketing Research, v. 20, n. 2, p. 134-148, 1983.

2