ESTATÍSTICA MULTIVARIADA 11... · alimentares para os habitantes de 25 países da Europa . Foram...

1

Universidade Federal de Uberlândia


Faculdade de Matemática


Curso de Especialização em Estatística Empresarial


1

ESTATÍSTICA MULTIVARIADAESTATÍSTICA MULTIVARIADA11

Prof. Dr. Marcelo Tavares







2

BIBLIOGRAFIA

� HAIR, J. F., ANDERSON, R. E. TATHAM, R. L., BLACK, W. C. Análise Multivariada de Dados. 5. ed. Porto Alegre: Bookman, 2006.

� MANLY, B. F. J. (Org.) ; DIAS, Carlos Tadeu dos Santos(Org.) . Métodos estatísticos multivariados - uma introduç ão.3. ed. Porto Alegre: ARTMED/Bookman, 2008. v. 1. 229 p.

� Corrar, Luiz J. ; Paulo, Edilson & Dias Filho, Jose Maria. Análise Multivariada: Para Os Cursos de Administraç ão, Ciências Contábeis E Economia. Editora Atlas, 2007.

� JOHNSON, R.A. & WICHERN, D.W. 1998. Applied multivariate statistical analysis. 4th Ed., Prentic e Hall, New Jersey, 816 p

2







3

Definição de Análise MultivariadaDefinição de Análise Multivariada

� Análise multivariada refere-se a todos osmétodos analíticos que analisamsimultaneamente múltiplas medidas emcada indivíduo ou objeto sob investigação

� Qualquer análise simultânea de mais do queduas variáveis pode ser consideradaanálise multivariada

� Muitas técnicas multivariadas sãoextensões das análises univariadas ebivariadas







4

� Análise multivariada ��

variáveis interrelacionadas

� Objetivo da análise multivariada ��

medir, explicar e predizer o grau de relaçãoentre variáveis

� O caráter multivariado ��

surge nas variáveis múltiplas (múltiplascombinações de variáveis)

3







5

Alguns conceitos básicos da Análise MultivariadaAlguns conceitos básicos da Análise Multivariada

� Variável: uma combinação linear devariáveis com pesos determinadosempiricamente

� Valor da variável: w 1X1 + w2X2 + . . . + wnXn

� Regressão múltipla ⇒⇒⇒⇒ a melhor correlaçãocom a variável que está sendo predita

� Análise discriminante ⇒⇒⇒⇒ criar escores paracada observação que diferencia ao máximoentre grupos de observações







6

Tipos de Técnicas MultivariadasTipos de Técnicas Multivariadas� Componentes Principais: transformação

linear de p variáveis em um conjunto com kvariáveis não correlacionadas

Objetivos:

� Redução da dimensionalidade dos dados� Obtenção de combinações interpretáveis

das variáveis� Descrição e entendimento da estrutura de

correlação das variáveis

4







7

� Análise Fatorial ⇒⇒⇒⇒ descreve a estrutura dedependência de um conjunto de variáveisatravés da criação de fatores, que sãovariáveis que medem aspectos comuns

� Permite identificar o quanto cada fator estáassociado a cada variável e o quanto cadaconjunto de fatores explica davariabilidade total dos dados originais

� Usossumarização e redução dos dados







8

� técnica de interdependência �� conceito davariação, a composição linear das variáveis

� Variações (fatores) ��maximizar suaexplicação

� Não para predizer uma variável (s)dependente (s)

5







9

� Análise Discriminante ⇒⇒⇒⇒ usada em variáveisdependentes dicotômica ou multicotômica

� Objetivo é diferenciar e/ou classificarobjetos em populações pré definidas.

Exemplos:� - instituições� Classificação do cliente







10

� A análise discriminante envolve aderivação de uma variação em que acombinação linear de duas (ou mais)variáveis independentes serão melhordiscriminadas entre grupos definidos àpriori

� A combinação linear �� funçãodiscriminante

� Classificação de objetos extra-amostra emuma das populações.

6







11

� Análise Multivariada da Variância (MANOVA):

explora a relação entre várias variáveis

independentes categóricas (tratamentos) e

duas ou mais variáveis dependentes

métricas

� Extensão multivariada das técnicas

univariadas para acessar diferenças entre

grupos de médias

� O processo univariado inclui o teste t e

ANOVA







12

� No teste t e ANOVA, a hipótese denulidade testada é a igualdade de médiasdas variáveis dependentes nos grupos.

� Em MANOVA, a hipótese de nulidadetestada é a igualdade de vetores demédias nas múltiplas variáveisdependentes ao longo dos grupos

� ANOVA: H0: µµµµ1 = µµµµ2 = . . . = µµµµk ou seja,todos os grupos de médias são iguais, istoé, eles vêm da mesma população

7







13







14

� Correlação Canônica: extensão lógica daanálise de regressão múltipla.

� Objetivo é correlacionar simultaneamentevárias variáveis métricas dependentes evárias variáveis métricas independentes.

� Regressão múltiplavs

Correlação canônica

8







15

Objetivos:

� Determinar se dois conjuntos devariáveis são independentes um dooutro, ou, determinar a magnitude derelações que pode existir entre os doisconjuntos;

� Explicar a natureza das relaçõesexistentes entre os conjuntos devariáveis dependentes e independentesmedindo a relativa contribuição de cadavariável para as funções canônicas quesão extraídas.







16

� O princípio desta técnica é desenvolveruma combinação linear de cada conjuntode variáveis (ambas independentes edependentes) para maximizar a correlaçãoentre os dois conjuntos.

� Ou seja, a obtenção de um conjunto depesos para as variáveis independentes edependentes que fornecem a máximacorrelação simples entre o conjunto devariáveis dependentes e o conjunto devariáveis independentes.

9







17

Análise de Agrupamentos ⇒ técnica analíticapara o desenvolvimento de subgrupossignificativos de indivíduos ou objetos.

� O objetivo é classificação em gruposbaseada nas similidades entre osindivíduos ou objetos

� Diferença entre análise de agrupamento ediscriminante







18

Envolve no mínimo 3 passos.

� Primeiro �� obtenção das similaridades oudissimilaridades.

� Segundo �� processo de agrupamento.

� O passo final é a determinação dos grupos

10







19

Case 1. A Deinter (divisão territorial de polícias) do Estado de

São Paulo reuniu dados referentes as taxas de delitos por

100.00 habitantes no ano de 2002, nas cidades de S. J. Rio

Preto, Ribeirão Preto, Bauru, Campinas, Sorocaba, São Paul o,

S. J. Campos e Santos. Os delitos eram: homicídio doloso;

furto; roubo; roubo e furto de veículos. Para cada município

obteve-se uma taxa relativa aos delitos.

� EX: Em S.J.R.P., as taxas foram de 10,85; 1.500,80; 149,35;

108,38 para os delitos homicídio doloso; furto; roubo; roub o

e furto de veículos, respectivamente.

� Admita que se deseja dividir em 4 grupos de regiões que

sejam homogêneas quanto à incidência de homicídios

dolosos e furtos. Qual técnica multivariada eu poderia

aplicar?







20

Case 2. Um pesquisador aplicou um questionário utilizado na

mensuração de traços emocionais existentes em uma

pessoa. Deve-se avaliar cada frase, atribuindo-se uma nota

entre 1 e 4, na qual 1 indica que aquilo que a frase descreve

nunca ocorre e 4 indica que ocorre quase sempre. A medida

de ansiedade é obtida a partir da soma das notas de cada

frase. O questionário foi aplicado à uma amostra de 1.110

estudantes universitários brasileiros.

� Os itens do questionário são: 1-sinto-me bem; 2-preocupo-

me demais com as coisas sem importância; 3-sou feliz; 4-

deixo-me afetar muito pelas coisas; 5-sinto-me seguro; 6-

estou satisfeito; 7-as vezes idéias sem importância me

entram na cabeça e ficam me preocupando; 8-levo as coisas

tão a sério que não consigo tirá-las da cabeça.� Qual técnica multivariada eu poderia utilizar para analisa r

esses dados?

11







21

Case 3. Um administrador está interessado em avaliar o nível deansiedade de seus funcionários após a implantação de umapolítica de demissão voluntária e suas conseqüências naprodutividade da empresa. Existe uma dificuldade em medir aansiedade de um funcionário.

� A ansiedade é um conceito abstrato que não pode sermedido diretamente.

Case 4. Deseja-se avaliar a satisfação dos habitantes de ummunicípio com a administração municipal.

� O que é e como medir satisfação?

Case 5. Deseja-se medir a variação no bem-estar de pacientessubmetidos a radioterapia.

� Como definir bem estar?







22

Case 6. Uma das atribuições do Banco Central do Brasil éfiscalizar as instituições financeiras do país com a finali dadede detectar possíveis problemas de solidez e decomportamento. A idéia é desenvolver métodos estatísticosque possibilitem classificar essas instituições como “com ”ou “sem” problemas e alertar o Banco Central para umafiscalização mais rigorosa a instituições classificadas e m“com problemas”.

� Foi realizado um estudo com 20 instituições financeiras(bancos), sendo 10 com problemas e 10 sem problemas(classificadas como 1 e 2, respectivamente), nas quais fora mcoletadas informações de 4 indicadores econômico-financeiros (1-liquidez imediata; 2-participação dos dep ósitosinterfinanceiros no total operacional; 3-participação da sexigibilidades no ativo operacional; 4-participação dasrendas de prestação de serviços em relação às despesasadministrativas).

� Admita que queiramos obter uma regra com base nessas 4variáveis. Qual técnica multivariada eu devo utilizar?

12







23

Case 7. Uma empresa deseja conhecer o perfil deseus consumidores. Para tanto, elabora umapesquisa na qual é feito um levantamento de dadosde uma grande amostra. A análise dos dados geraalgumas dúvidas:

� os consumidores têm um perfil homogêneo, emrelação às características levantadas?

� Se o perfil não for homogêneo, é possívelidentificar grupos homogêneos?

� Quantos grupos existem?

� Qual técnica multivariada eu devo utilizar?







24

Case 8. A pesquisa emprego-desemprego do DIEESE/SEADE éum levantamento amostral realizado na região metropolitan ade São Paulo. Na sua fase de planejamento, constatou-se queos municípios da Grande São Paulo e os distritosadministrativos da capital não eram homogêneos em relaçãoa dados sobre o tipo de ocupação da população residente.Levar em conta a heterogeneidade da amostra num planoamostral acarreta um aumento na eficiência dos estimadores .Uma maneira de considerar essa heterogeneidade é realizaruma amostra estratificada. Cada estrato seria formado pormunicípios (ou distritos administrativos, no caso da capit al)cujas populações tivessem um perfil ocupacional semelhant e.É necessário então saber como definir os estratos, quantosestratos existem e quais são os municípios (distritos) de ca daestrato.

� Qual técnica multivariada o pesquisador poderia utilizar p aratirar suas conclusões?

13







25

Case 9. Um arqueólogo tem dados sobre a

localização de restos de cerâmica encontrados em

um sítio arqueológico. Para conhecer como era a

organização espacial da tribo que lá habitava, ele

necessita ter uma idéia mais precisa da dispersão

dessas peças. Há locais com alta concentração de

peças? Quantos?

� Qual técnica multivariada o pesquisador poderia

utilizar para tirar suas conclusões?







26

Case 10: Foi realizado um estudo para estimar o

consumo médio de proteínas de diferentes fontes

alimentares para os habitantes de 25 países da

Europa . Foram anotados os consumos de proteína

em g/dia dos seguintes alimentos: carne vermelha,

carne branca, ovos, leite, cereais, oleaginosas,

frutas e vegetais. O objetivo é investigar as

relações entre ao países com base nessas

variáveis.

� Qual técnica multivariada poderia ser utilizada para responder essas questões?

14







27

Diretrizes para Interpretação e Análise MultivariadaDiretrizes para Interpretação e Análise Multivariada

1) Estabelecimento de uma significância estatísticabem como uma significância prática

A significância prática faz a seguinte pergunta “ edaí”? Para qualquer aplicação gerencial, osresultados devem ter uma demonstração dosefeitos que justificam as ações.

As pesquisas estão se tornando mais focadas nãosomente nos resultados estatisticamentesignificativos, mas também, em suas substantivas eteóricas implicações, no qual são muitas vezesretiradas de sua significância prática







28

2) Tamanho da amostra afeta todos os resultados⇒⇒⇒⇒Desigual tamanho de amostras entre gruposinfluencia os resultados e requer adicionalinterpretação e ou análise

3) Conhecer seus dados ⇒⇒⇒⇒ as técnicas multivariadasidentificam relações complexas que são muitodifíceis de serem representadas simplesmente

A análise multivariada requer um exame maisrigoroso dos dados por causa da influência devalores errados ( outliers), violação depressuposições e dados perdidos podem sercomputados ao longo de várias variáveis que têmefeito substancial

15







29

4) Validade dos seus resultados ⇒⇒⇒⇒ a habilidade daanálise multivariada para identificar inter-relaçõescomplexas também significa que os resultadosencontrados podem ser específicos somente paraaquela amostra de dados e não ser generalizadopara a população

O objetivo não é encontrar o melhor ajuste apenaspara a amostra de dados, mas ao invés disso,desenvolver um modelo que melhor descreva apopulação como um todo







30

Uma estrutura proposta para a construção do modelo Uma estrutura proposta para a construção do modelo multivariadomultivariado

Estágio 1- Definir o problema a ser pesquisado, objetivos e a técnica multivariada a ser usada

Com os objetivos e o modelo conceitualespecificado, o pesquisador tem que apenasescolher a técnica multivariada apropriada

16







31

Estágio 2- Desenvolvimento do plano de análise ⇒⇒⇒⇒ aatenção se volta para a implementação da análise

O mínimo ou o desejado tamanho da amostra

Os tipos de variáveis permitidas ou requeridas(métrica versus não métrica)

Métodos de estimação







32

Estágio 3- Avaliação das pressuposições da técnicamultivariada ⇒⇒⇒⇒ Com os dados coletados, a primeiratarefa não é estimar o modelo multivariado, masavaliar as pressuposições

Todas as técnicas multivariadas têm suaspressuposições, ambas estatísticas e conceituais,que tem um impacto na sua capacidade derepresentar relações multivariadas

Para as técnicas baseadas em inferência estatística,as pressuposições da normalidade multivariada,linearidade, independência dos erros e igualdadede variâncias em uma relação de dependênciadevem ser observadas

17







33

Estágio 4. Estimativa do modelo multivariado e acessoao ajuste do modelo global ⇒⇒⇒⇒

Com as pressuposições satisfeitas, a análise éprocessada para a estimação do modelomultivariado e uma avaliação do modelo globalajustado

Depois que o modelo é estimado, o ajuste global domodelo é avaliado para se ter certeza se atingiuníveis aceitáveis de significância, identificou asrelações propostas e atingiu significância prática.

Muitas vezes, o modelo será reespecificado nosentido de atingir melhores níveis de ajustamentoglobal e/ou explicação







34

Estágio 5- Interpretar a variação ⇒⇒⇒⇒ Com aceitável níveldo ajuste do modelo, a interpretação da variação (s)revela a natureza da relação multivariada

A interpretação pode levar a re-especificaçõesadicionais das variáveis e/ou formulação domodelo, onde o modelo será re-estimado e entãointerpretado novamente

Estágio 6- Validade do modelo multivariado ⇒⇒⇒⇒ Antes deaceitar os resultados, o pesquisador deve estarsujeito a um conjunto final de análise dediagnósticos que acessa o grau de generalizaçãodos resultados pela validação do métododisponível

18







35


(Componentes Principais)(Componentes Principais)








36

As p variáveis originais (X1, . . . , Xp) são transformadas emp variáveis (Y1, . . . , Yp), denominadas componentes principais, demodo que Y1 é aquela que explica a maior parcela da variabilidadetotal dos dados, Y2 explica a segunda maior parcela e assim pordiante. Portanto, podemos afirmar que os principais objetivos deACP são:

Principais Objetivos da Análise

ComponentesPrincipais

Reduçãoda dimensionalidade

dos dados

Obtençãode combinações

interpretáveis das variáveis

Descriçãoe entendimento da

estrutura de correlação das variáveis

Confirma grupos da Análise de Agrupamentos

19







37

- O intuito da análise é resumir o padrão de correlação entre asvariáveis e muitas vezes é possível chegar a conjuntos nãocorrelacionados de variáveis, de modo que surge algunsagrupamentos;

- Algebricamente, as componentes principais são combinações linearesdas variáveis originais;

- Geometricamente, as componentes principais são as coordenadas dospontos amostrais em um sistema de eixos obtido pela rotação dosistema de eixos original, na direção da máxima variabilidade dosdados;

- A análise de componentes principais depende somente da matriz decovariância ou a de correlação. Não exige qualquer suposição sobre aforma da distribuição multivariada dessas variáveis;

- Se a normalidade existe, a análise é engrandecida, se não ela aindavale a pena.

Algumas Considerações ImportantesUniversidade Federal de Uberlândia






38

MATRIZ DE DADOSMATRIZ DE DADOS� Matriz de dados para p variáveis e n

indivíduos;� As características observadas são

representadas pelas variáveis x1, x2, x3, ..., xp;

� A matriz de dados é de ordem ‘n x p’ e normalmente denominada de matriz ‘X’.

====

np3n2n1n

p3333231

p2232221

p1131211

xxxx

xxxxxxxxxxxx

X

⋯⋯⋯⋯

⋮⋮⋮⋮⋱⋱⋱⋱⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮

⋯⋯⋯⋯

⋯⋯⋯⋯

⋯⋯⋯⋯

20







39

MATRIZ DE COVARIÂNCIAMATRIZ DE COVARIÂNCIA� Obtida a partir da matriz X de dados de

ordem ‘n x p’;� É uma estimativa da matriz de covariância Σ da população π;

� A matriz S é simétrica e de ordem ‘p x p’.

====

)x(arV)xx(ovC)xx(ovC)xx(ovC

)xx(ovC)x(arV)xx(ovC)xx(ovC

)xx(ovC)xx(ovC)x(arV)xx(ovC

)xx(ovC)xx(ovC)xx(ovC)x(arV

S

p3p2p1p

p332313

p232212

p131211

⋯⋯⋯⋯

⋮⋮⋮⋮⋱⋱⋱⋱⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮

⋯⋯⋯⋯

⋯⋯⋯⋯

⋯⋯⋯⋯







40

PADRONIZAÇÃO DOS DADOSPADRONIZAÇÃO DOS DADOS

� Média zero e variância 1

Variância 1

p,,2,1jen,,2,1i,)x(s

xxz

j

jijij ⋯⋯ ==

−=

p,,2,1jen,,2,1i,)x(s

xz

j

ijij ⋯⋯ ===

21







41

MATRIZ DAS VARIÁVEIS MATRIZ DAS VARIÁVEIS PADRONIZADASPADRONIZADAS

� A matriz Z é igual a matriz de correlação R da matriz de dados X;

====

np3n2n1n

p3333231

p2232221

p1131211

zzzz

zzzz

zzzz

zzzz

Z

⋯⋯⋯⋯

⋮⋮⋮⋮⋱⋱⋱⋱⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮

⋯⋯⋯⋯

⋯⋯⋯⋯

⋯⋯⋯⋯







42

Considerações sobre a padronização Considerações sobre a padronização

� Normalmente partimos da matriz padronizada;

� O resultado a partir da matriz S pode ser diferente do resultado a partir da matriz R.

� A padronização só dever ser feita quando as unidades das variáveis observadas não são as mesmas.

22







43

Determinação dos componentesDeterminação dos componentes

� Os componentes principais são determinados resolvendo-se a equação característica da matriz S ou R, isto é

[ ] 0IRou0IRdet =λ−=λ−







44

AutovaloresAutovalores

� λ1, λ2, λ3, ..., λp são as raízes da equação característica da matriz R ou S, então:

� λ1, λ2, λ3, ..., λp são os autovalores da matriz R ou S;

23







45

AutovetoresAutovetores

� Para cada autovalor λi existe um autovetor:

====

ip

2i

1i

i

a

a

a

a~⋮⋮⋮⋮







46

Componente principal YComponente principal Yii

� Sendo o autovalor = λi , então o i-ésimo componente principal é dado por:

pip22i11ii XaXaXaY ++++++++++++==== ⋯⋯⋯⋯

24







47

Propriedades dos componentePropriedades dos componente

� A variância do componente principal Y i é igual ao valor do autovalor λi:

(((( )))) iiYarV λλλλ====O primeiro componente é o que apresenta maior variância e assim por diante:

)Y(arV)Y(arV)Y(arV p21 >>>>>>>>>>>> ⋯⋯⋯⋯







48

Propriedades dos componentePropriedades dos componente

� Total de variância das variáveis originais = somatório dos autovalores = total de variância dos componentes principais:

∑ ∑ ∑=λ= )Y(arV)X(arV iii

Os componentes principais não são correlacionados entre si:

( ) 0Y,YovC ji =

25







49

Importância de cada componenteImportância de cada componente

� Medida pela porcentagem de variância de cada componente

(((( ))))(((( )))) (((( )))) 100

Straço100100

YarV

YarVC i

p

1ii

ip

1ii

ii ⋅⋅⋅⋅

λλλλ====⋅⋅⋅⋅λλλλ

λλλλ====⋅⋅⋅⋅====∑∑∑∑∑∑∑∑========







50

A importância de cada componenteA importância de cada componente

� É expressa pela proporção de variância total explicada pelo componente

(((( )))) (((( ))))(((( ))))

pkonde%70100YarV

YarVYarVk

1ii

k1 <<<<≥≥≥≥⋅⋅⋅⋅++++

∑∑∑∑====

⋯⋯⋯⋯

26







51

Número de componentesNúmero de componentes

� Não existe um modelo estatístico;� O número de ser aquele que acumula

70% ou mais de proporção da variância total.

(((( )))) (((( ))))(((( ))))

pkonde%70100YarV

YarVYarVk

1ii

k1 <<<<≥≥≥≥⋅⋅⋅⋅++++

∑∑∑∑====

⋯⋯⋯⋯







52

Interpretação dos componentesInterpretação dos componentes

� Verifica-se o Grau de influência que cada variável Xj tem sobre o componente Yi.

(((( )))) (((( ))))))))j

1j11YXj1,j

XarV

YarVarYXCorr ====⋅⋅⋅⋅====⋅⋅⋅⋅====

� Verificar o peso ou loading de cadavariável sobre o componente

(((( )))) (((( )))) (((( ))))p

p1p

2

122

1

111

XarV

aw,

XarV

aw,

XarV

aw ⌢⌢⌢⌢⋯⋯⋯⋯⌢⌢⌢⌢⌢⌢⌢⌢ ============

27







53

Interpretação dos componentesInterpretação dos componentes

� Verificar o peso ou loading de cadavariável sobre o componente

(((( )))) (((( )))) (((( ))))p

p1p

2

122

1

111

XarV

aw,

XarV

aw,

XarV

aw ⌢⌢⌢⌢⋯⋯⋯⋯⌢⌢⌢⌢⌢⌢⌢⌢ ============







54

Escores dos componentesEscores dos componentes

� Organização dos dados⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮

Trat(Indiv)

VariáveisEscores dos

componentes principais

X1 X2 ... Xp Y1 Y2 ... Yk

1 X11 X12 ... X1p Y11 Y12 ... Y1k

2 X21 X22 ... X2p Y21 Y22 ... Y2k

n Xn1 Xn2 Xnp Yn1 Yn2 ... Ynk

⋮⋮

28







55

Exemplo de aplicaçãoExemplo de aplicaçãoValores originais observados (X 1 e X2) e

padronizados (Z 1 e Z2) de duas variáveispara cinco tratamentos (n=5).

TratamentosVariáveis originais

Variáveis padronizadas

X1 X2 Z1 Z2

1 102 96 24,3827 6,9554

2 104 87 24,8608 6,3033

3 101 62 24,1436 4,4920

4 93 68 22,2313 4,9268

5 100 77 23,9046 5,5788

Variância 17,50 190,50 1 1







56

Padronização da variânciaPadronização da variância

� Os dados estão padronizados para variância 1:

( ) 8608,245,17

104Z

Xs

XZ 12

j

ijij ==⇒=

29







57

Matriz de correlaçãoMatriz de correlação

� Elementos da diagonal principal igual a 1

=

15456,0

5456,01R







58

Autovalores da matriz RAutovalores da matriz R

λ1 = 1,5456 e λ2 = 0,4544

Traço da matriz R

traço(R) = 1+1=2

30







59

Autovetores da matriz RAutovetores da matriz R

Primeiro autovetor

=

=

=

7070,0

7071,0

1

1

2

1a

aa~

12

111

Segundo autovetor

−=

−=

=

7070,0

7071,0

1

1

2

1

a

aa~

22

2121

Primeiro componente

211 7071,07071,0 ZZY +−=







60

Informações obtidas Informações obtidas

PCA Var(λ)

Coeficiente de ponderação

Correlação entre Zj eYi

%da variância

total

% acumulada

de variância dos Y i

Z1 Z2 Z1 Z2

Y1 1,5456 0,7071 0,7071 0,879 0,879 77,28 77,28

Y2 0,4544 -0,7071 0,7071 -0,476 0,476 22,72 100,00

31







61

Escores dos dois componentesEscores dos dois componentes

TratamentosEscores dos componentes principais

Y1 Y2

1 22,16 -12,32

2 22,04 -13,12

3 20,25 -13,90

4 19,20 -12,24

5 20,85 -12,96







62

Gráfico de dispersãoGráfico de dispersão

19

20

21

22

23

-14 -13.5 -13 -12.5 -12

Segundo componente (Y2)

Prim

eiro

com

pone

nte

(Y1)

12

3

4

5

32







63

No menu Help, opte por Open Examples, na pasta Datasetsbusque o arquivo Economic Indicators. O arquivo consta de informações

econômicas (Imposto, PNB, Inflação e Dívida) de 40 países.

Vamos estudar o relacionamento

entre as variáveis usando a Análise

de Correlações. Depois faremos uma Análise de

Agrupamentos e, logo em seguida,

uma Análise de Componentes

Principais.

Um case utilizando o StatisticaUm case utilizando o StatisticaUniversidade Federal de Uberlândia






64

Vamos proceder com uma análise de correlação. No menu Statistics, opte por Basic Statistics and Tables e, em seguida, clique duas vezes na opção Correlation matrices.

Insira todas as variáveis em One variable list e clique em Summary Correlation matrix.

Depois clique na opção Scatterplot matrix.

33







65

Correlations (Economic indicators 4v*40c)

WAGERATE

GNP

INFLAT ION

DEBT

Vamos avaliar os resultados: O que há de peculiarentre as variáveis? Qual a estrutura de relação entre elas?







66

Agora, para finalizar essa motivação, vamos à técnica de Análise deComponentes Principais. No menu Statistics, opte por MultivariateExploratory Techiniques e Principal Components & ClassificationAnalysis.

34







67

Na aba Advanced, em Variables inserimos as variáveis de interesse para a análise como na janela abaixo. Variáveis suplementares são aqueles que desejamos analisar, mas não diretamente.

Podemos desejar usar

apenas algumas

observações, então usamos Active cases

variable.







68

Para observar o comportamento

das variáveis podemos avaliar

um gráfico de scaterplot. Clique

em Plot var. factor

coordinates, 2D. Em seguida, na

aba Cases clique em Plot cases

factor coordinates, 2D.

35







69

Projection of the var iables on the factor-plane ( 1 x 2)

WAGERATE GNP

INFLATION

DE BT

-1,0 -0,5 0,0 0,5 1,0

Factor 1 : 94,31%

-1,0

-0,5

0,0

0,5

1,0

Fac

tor

2 :

3,11

%







70

Projection of the cases on the factor-plane ( 1 x 2)

Cases with sum of cosine square >= 0,00

Active

Algeria

AustraliaAustria

Belgium

Britain

Brazil

China

Czech Republic DenmarkE gypt

Ethiopia

F inland

France

Germany

GreeceHaiti Hungary

India

Indonesia

Ireland

Italy

J apan

Kenia

Korea Lux emburg

Malaysia

Mex ico

Netherlands

Norw ay

Peru

Poland

Portugal

South Africa

Spain

Sri Lanka Sw edenSw itzerland

Taiw an

Thailand

USA

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5

Factor 1: 94,31%

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

Fac

tor

2: 3

,11%

36







71

Vamos retornar àquele exemplo sobre índices econômicos. Vejamos como se estrutura o relacionamento entre as variáveis e avaliar um modelo algébrico de componentes principais. Clique em Eigenvalues e Eigenvectors(Autovalores e Autovetores).







72

37







73

Os autovetores nos dão os coeficientes das equações lineares abaixo:

CP1 = – 0,507.Wagerate + 0,497.GNP – 0,504.Inflation – 0,492.Debt

CP2 = 0,386.Wagerate + 0,183.GNP + 0,516.Inflation – 0,742.Debt

CP3 = – 0,192.Wagerate – 0,848.GNP – 0,204.Inflation – 0,450.Debt

CP4 = 0,746.Wagerate + 0,025.GNP – 0,662.Inflation – 0,066.Debt

CP1 é responsável por 94,31% da informação original e CP2 éresponsável por 3,11% da informação original. Essas duas componentesjuntas nos fornecem 97,42% de informação.







74

Em Resumo

- É importante observar quanto da variabilidade total é explicada porcada componente principal. Para encontrar essa medida, bastacalcular;

- Componentes Principais também podem ser obtidas a partir dasvariáveis padronizadas, ou seja, a partir da matriz de correlação;

- As componentes principais derivadas da matriz de covariância Σsão, em geral, diferentes das componentes principais derivadas damatriz de correlação ρ;

- Se os dados seguem uma distribuição Normal Multivariada, osautovalores de Σ são distintos e a análise de componentes principaisé feita com base no Estimador de Máxima Verossimilhança da matrizde covariância.

p; , ... 2, 1, i ,...21

=+++ p

i

λλλλ

38







75

Quando as variáveissão medidas em escalasdiferentes,é mais naturalusar as variáveispadronizadas;

Se o objetivoé agrupar indivíduos,de modo que uma análisede agrupamentossegue aanálise de componentes principais;

Se o objetivoé construir índices(muito comum nas áreasde Economia e Biologia),a análise estatística terminacom a obtençãodas componentes principais







76

Quantidade de Componentes a Escolher

Critério de Kaiser (1958)Matriz de Covariância

Manter na análise as componentes principaiscorrespondentes aos autovalores maiores do que amédia dos autovalores.Matriz de Correlação

Manter as componentes principais que forem maiores ouiguais a 1.

Reter o númerode componentes principaisque acumulempelo menos certaPorcentagemda variabilidade total dosdados, digamos 70%.

Reter as componentes principaisque acumulem pelo menosuma certa porcentagemda variabilidadede cada umadas variáveis originais,digamos 50%.

39







77

Eigenvalues of correlation matrix

94,31%

3,11% 2,23% ,34%

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

Eigenvalue number

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5E

igen

valu

e







78

Como Interpretar as Componentes Principais?

- A interpretação é feita com base nas correlações entreas variáveis originais e as componentes principais, e noscoeficientes dados pelas combinações lineares quelevam às componentes principais;

- As correlações são medidas das contribuiçõesindividuais de cada variável e não consideram acontribuição multivariada das demais variáveis;

- A primeira componente principal pode ser interpretadacomo uma média entre as variáveis com maiorcoeficiente na combinação linear

40







79

Podemos medir o grau de relação que existe entre as variáveis e ascomponentes principais com a opção Factor & variable correlations.

E podemos também medir a contribuição

de cada variável para a construção de

uma componente

principalusando a

opção Contributions of variables.







80

111.CPX WagerateCPX Wagerate CPv λρ =

98512,0772414,3.5072,0 =−=

( )2CPX WagerateCPX Wagerate 11

ãoContribuiç v=

( ) 257252,05072,0 2 =−=

41







81

Podemos avaliar um modelo de

agrupamento usando a técnica de

componentes principais, basta clicar

nas opções Factor coordinates of cases e

Plot case factor coordinates, 2D.

Um modelo de Scorespode ser exibido com

as opções Factor scores e Factor scores

Coefficients

Análise de ClassificaçãoUniversidade Federal de Uberlândia






82

Projection of the cases on the factor-plane ( 1 x 2)

Cases with sum of cosine square >= 0,00

Active

Algeria

AustraliaAustria

Belgium

Britain

Brazil

China

Czech Republic DenmarkE gypt

Ethiopia

F inland

France

Germany

GreeceHaiti Hungary

India

Indonesia

Ireland

Italy

J apan

Kenia

Korea Lux emburg

Malaysia

Mex ico

Netherlands

Norw ay

Peru

Poland

Portugal

South Africa

Spain

Sri Lanka Sw edenSw itzerland

Taiw an

Thailand

USA

-6 -5 -4 -3 -2 -1 0 1 2 3 4 5

Factor 1: 94,31%

-1,4

-1,2

-1,0

-0,8

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

1,0

1,2

Fac

tor

2: 3

,11%

42







83


(Análise Fatorial)(Análise Fatorial)








84

Definição e Conceitos

Análise Fatorial é um nome genérico dado a uma classe de métodosestatísticos multivariados cujo propósito principal é definir a estruturasubjacente em uma matriz de dados. Assim, têm-se os seguintespontos:

Abordar o problema de analisar a estrutura das inter-relações(correlações) entre um grande número de variáveis, definindoum conjunto de dimensões latentes comuns, chamadas defatores;

Identificar as dimensões separadas da estrutura e entãodeterminar o grau em que cada variável é explicada por cadadimensão;

Resumir e reduzir os dados em dimensões latentesinterpretáveis e compreensíveis usando escores para cadadimensão e, conseqüentemente, substituir as variáveis originais.

43







85

+

=

−

pmpmpp

m

m

pp F

F

F

X

X

X

ε

εε

φφφ

φφφφφφ

µ

µµ

⋮⋮

⋯

⋮⋯⋮⋮

⋯

⋯

⋮⋮

2

1

2

1

21

22221

11211

2

1

2

1

Traduzindo para notação de matriz, temos:

Cargas Fatoriais

Podemos interpretar as cargas fatoriais como:

( ) ( )jimimjijiji FFFFCovFXCov ;, 11 εφφφ +++++= ……

( ) ( ) ijjjijji FFCovFXCov φφ == ;,

Observe que os fatores são ortogonais, ou seja a covariância entrefatores é igual a zero. Portanto,







86

Vamos estudar a variância das variáveis observadas. Para Xi

temos:

( ) ( ) ( )imimiiiii FFVarXVarXVar εφφµσ +++=−== …112

o resultado disso é:

Portanto, temos dois importantes conceitos:

Comunalidade. Parcela da variância de Xi que é explicadapelos fatores comuns.

Especificidade. Parcela de variância de Xi que não é explicadapelos fatores

iimii ψφφσ +++= 221

2…

221

2imiic φφ ++= …

idadeEspecifici ψ :

Pode-se usar a proporção de

variabilidade explicada:2

2

Pri

ii

c

σ=

44







87

Se definimos a variabilidade total das variáveis originaiscomo sendo:

∑=

=p

iiT

1

22 σσ

∑=

p

iic

1

2

Representa a parcela da variabilidade total que é explicada peloconjunto de fatores. Conseqüentemente,

21

2

PrT

p

ii

T

c

σ

∑==

temos, então que

é a proporção da variabilidade total dos dados que é explicada peloconjunto de fatores comuns.







88

Aplicação

Imagine a matriz de correlação para nove elementos da imagem deuma loja:

Política de devolução

PessoalDisponibilidade de produto

Serviço internoDiversidade de itens para cada

produtoNível de Preço

Atmosfera da loja

Diversidade de produtos

Qualidade de produto

A questão que se pode levantar é: Estes elementos todos sãoseparados no que se refere às suas propriedades de avaliação oueles se ‘agrupam’ em algumas áreas mais gerais de avaliação?

45







89







90

Experiência Interna

Oferta de Produtos

Valor

46







91

O propósito geral de técnicas de análise fatorial é encontrar um modo decondensar a informação contida em diversas variáveis originais em umconjunto menor de novas dimensões compostas ou variáveis estatísticas comuma perda mínima de informação.

Planejamento da Análise Fatorial

Etapas do Processo de Análise Fatorial

Objetivo

É importante definir com critério as variáveis que farão parte da pesquisa comAnálise Fatorial, definir as propriedades de medidas e tipos de variáveisenvolvidas. Quanto maior for o número de variáveis, maior será o tamanho daamostra.

Algumas cuidados importantes em Análise de Fatores dizem respeito aotamanho da amostra:

Dificilmente um pesquisador realiza uma Análise Fatorial com menos que50 observações;

Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100;

Alguns estudiosos propõem um mínimo de 20 observações vezes onúmero de variáveis a serem estudadas.

Quando se lida com amostras menores, o pesquisador sempre deveinterpretar qualquer descoberta com precaução.

Variáveis

Tamanho da Amostra







92

É importante falar sobre as pressuposições para a Análise de Fatores. Assuposições críticas na análise fatorial são mais conceituais do que estatísticas:

Desvios da normalidade, da homocedasticidade e da linearidade aplicam-seapenas no nível em que elas diminuem as correlações observadas;

Se a normalidade existe, a análise é engrandecida, senão ela ainda vale apena de ser feita;

Um pouco de multicolinearidade é desejável, pois o objetivo é identificarconjuntos de variáveis inter-relacionados.

Deve-se garantir que a matriz de dados tenha correlações suficientes parajustificar a aplicação da análise fatorial.

Deve haver um número substancial de correlações maiores que 0,30, casocontrário a Análise Fatorial é inapropriada.

Suposições da Análise Fatorial

47







93

Uma vez especificadas as variáveis e preparada a matriz de correlações,podemos aplicar a análise fatorial para identificar a estrutura latente de relações. Aquestão agora é que modelo escolher: Componentes Principais ou Análise deFatores?

O modelo de componentes principais é apropriado quando:

a preocupação principal é a previsão;

ou o número mínimo de fatores para explicar uma quantidade suficiente davariância total das variáveis originais;

o conhecimento sobre a variância específica e do erro são pequenas.

O modelo fatorial comum é requerido quando:

o objetivo é identificar as dimensões latentes representadas nas variáveisoriginais;

Tem-se pouco conhecimento sobre a quantia de variância específica e do erroe, portanto, deseja eliminar essa variância.

Determinação de Fatores e Avaliação do Ajuste Geral







94

Vale à pena considerar alguns pontos críticos sobre Análise de Fatores:

Distintos escores fatoriais podem ser calculados a partir dos resultados domodelo fatorial para qualquer respondente – indeterminância fatorial;

Em Análise de Componentes Principais a solução é única para cadarespondente;

Por vezes, as comunalidades, usadas para representar a variânciacompartilhada, não são estimáveis ou podem ser inválidas (valores maioresque 1 e menores que 0), exigindo eliminar a variável da análise;

Na maioria das aplicações, tanto ACP e AF chegam a resultadosessencialmente idênticos se o número de variáveis exceder 30, ou se ascomunalidades excederem 0,60 para a maioria das variáveis

Quando houver dúvida sobre os pressupostos de ACP, então AF deve seraplicada para avaliar sua representação da estrutura.

Determinação de Fatores e Avaliação do Ajuste Geral

48







95

Critério da raiz latente:

Apenas fatores que têm autovalores maiores que 1 são consideradossignificantes, os demais são descartados; esse critério é mais confiávelquando o número de variáveis está entre 20 e 50.

Critério a priori:

O pesquisador simplesmente já sabe quantos fatores extrair antes deempreender a análise.

Critério de percentagem de variância:

O objetivo é garantir significância para os fatores que acumulem umpercentual acumulado satisfatório da variância total nas variáveis originais.

Critério do teste scree:

Esse teste é usado para identificar o número ótimo de fatores que podem serextraídos antes que a quantia de variância única comece a dominar aestrutura de variância comum.

Critérios para o número de fatores a extrair







96

Cargas fatoriais:

A carga fatorial é o meio de interpretar o papel que cada variável tem nadefinição de cada fator;

As cargas fatoriais são a correlação de cada variável com o fator, elas sãosignificantes quando seus valores excedem 0,70;

Cargas maiores fazem a variável ser representativa no fator.

Rotação de fatores:

Interpretação dos Fatores

V1V2

V3

V4

V5

0,50 1,0-0,50-1,0

-0,50

-1,0

0,50

1,0

Fator 1

Fator 2 Fator 2_Ort

Fator 1_Ort

RotaçãoFatorial

Fator 2_Obl

Fator 1_Obl

Quartimax. Concentra-se em rotacionaro fator inicial de modo que uma variáveltenha carga alta em um fator e cargastão baixas nos demais;

Varimax. Este método, por outro lado,busca concentrar cargas altas e baixasem cada fator, isso maximiza a variância

Equamax. É uma espécie de acordoentre os dois métodos acima.

49







97

Especificação da matriz fatorialDeterminar o número de fatores a serem

mantidos

Seleção de um método fatorialA variância total ou apenas a variância

comum é analisada

Seleção de um método rotacionalOs fatores devem ser correlacionados (oblíquos) ou

não correlacionados (ortogonais)?

Interpretação da matriz fatorial rotacionadaÉ possível encontrar cargas fatoriais significantes?É possível nomear os fatores?As comunalidades são suficientes

Reespecificação do modelo fatorialAs variáveis foram eliminadas?Deseja mudar o número de fatores?Deseja outro tipo de rotação?

Variância TotalExtrair fatores com Análise

de Componentes

Variância ComumExtrair fatores com Análise

de fatores comuns

Método ortogonalVarimax, Equimax, Quartimax

Método oblíquoOblimin, Promax, Ortoblíquo

Não

Sim







98

Exemplo

Vamos considerar que se pretende avaliar a existência deagrupamentos de percepções que clientes têm com respeito à umadeterminada empresa.

As variáveis que nos

interessam são: X1 a X4, X6 e X7.

O tamanho da amostra é de

100 observações,

resultando em 14 casos para cada variável,

um valor aceitável.

50







99

Suposições de Normalidade, Linearidade, Homocedasticidade...afetam as correlações e se estas não são significantes, então aperda é considerável nos resultados da Análise Fatorial. Sendoassim, é preciso avaliar a grandeza e significância das correlações.

Estas correlações

são significantes

ao nível de 5%. Note que

8 das 15 correlações

são significantes.

Isso é adequado.

KMO = 0,446 (antes) KMO = 0,665 (depois)







100

O passo seguinte é selecionar o número de componentes aserem mantidos para análise posterior. Podemos usar os autovalorespara fazer essa seleção, tomando o teste da raiz latente em que osautovalores devem assumir resultados superiores a 1.

3 fatores respondem por aproximadamente 80,00% da variabilidadenas variáveis originais.

51







101

Exemplo: O Gráfico para o Teste da Raiz Latente

Teste da Raiz Latente

2.513

1.740

0.5970.530

0.416

0.204

1 2 3 4 5 6

Number of Eigenvalues

0.0

0.5

1.0

1.5

2.0

2.5

3.0V

alue







102

Exemplo: Cargas Fatoriais e Comunalidades

Uma vez decididos por 2 fatores, então precisamos informar ao STATISTICA que ele deve escolher 2fatores com autovalores

maior que 1.

Clique em OK na janela ao lado e retorne ao módulo de análise. Clique em Summary: Factor loading.

52







103

O fator 1 é o que explica aporção maior da variabilidade e ofator 2 é o que explicaligeiramente menos;

2,51 é a porção de variabilidadetotal explicada pelo Fator 1, issocorresponde a 41,89% deexplicação;

1,74 é a porção de variabilidadetotal explicada pelo Fator 2 quecorresponde a 28,99% deexplicação;

A significância das cargasfatoriais foram aquelas comvalores superiores a 0,70.







104

Exemplo: Aplicando Rotação Varimax

Desta forma temos 39,50%em lugar dos 41,89% para

o Fator 1; temos 31,40%em lugar dos 28,99% para

o Fator 2.

A rotação compensou a variância explicada por cada fator, distribuindo melhor os 70,9% de variabilidade explicada pelos dois fatores.

53







105

Exemplo: Aplicando Rotação Varimax

Factor Loadings, Factor 1 vs. Factor 2

Rotation: Varimax normalizedExtraction: Principal components

X1

X2

X3

X4X6

X7

-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0

Factor 1

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Fac

tor

2







106


(Análise de Cluster)(Análise de Cluster)


54







107

Análise de

Agrupamento

Objetivo: Agregar objetos

máxima homogeneidade de objetos

e

máxima heterogeneidade.

T ree Diagram for 36 CasesWard s method

Euclidean distances

Sui

çaS

uéci

aR

FA

RU

Isra

elN

ova

Zel

ândi

aIt

ália

Esp

anha

EU

AA

ustr

ália

Japã

oC

anad

áP

ortu

gal

Iugo

sláv

Gré

cia

Hun

gria

UR

SS

Uru

guai

Fili

pina

Chi

naC

.Ric

aC

hile

Tur

quia

Méx

ico

Bra

sil

Rep

.C.

Af.

Gan

aN

igér

iaP

aqui

stB

angl

ade

Que

nia

Arg

élia

Egi

toIn

dia

Hai

tiB

olív

ia

0

10

20

30

40

50

60

70

Link

age

Dis

tanc

e







108

Tempo (em dias)

Consumo (em R$)

55







109

Alguns pontos relevantes que devemos observar em análise deagrupamentos são:

Não faz distinção entre variáveis dependentes e independentes,� pode examinar relações de interdependência

O objetivo principal de análise de agrupamentos � variáveisconsideradas importantes para a análise;

Objetos semelhantes

A mais forte aplicação desta técnica tem sido em Pesquisa deMarketing, principalmente, Segmentação de Mercado.







110

Problema de pesquisa

Selecionar objetivo:Descrição taxonômica

Simplificação de dados

Revelar relações entre observações

Selecionar variáveis de agrupamento

56







111

Questões do Problema de Pesquisa

As observações atípicas podem ser observadas?

Os dados devem ser padronizados?

Inclusão de variáveis irrelevantes (como nos casos deMulticolinearidade),

Presença de outliers

Observações “absurdas” ou sub-amostras?

Uma empresa deseja conhecer o perfil de seusconsumidores. Para tanto, elabora uma pesquisa na qual éfeito o levantamento de dados de uma grande amostra. Aanálise dos dados gera algumas dúvidas: os consumidorestêm um perfil homogêneo, em relação às característicaslevantadas? Se o perfil não for homogêneo, é possívelidentificar grupos homogêneos? Quantos grupos existem?







112

Padronizando os dados

queremos avaliar

uma forma de

agrupar estes

clientes e

encontrar aquelas

que acompanham

um

comportamento

semelhante.

Percentual deImportância

SalárioMédio

ConsumoMédio

Cliente 1 10,85 1.500,80 149,35

Cliente 2 14,13 1.496,07 187,99

Cliente 3 8,62 1.448,79 130,97

Cliente 4 23,04 1.277,33 424,87

Cliente 5 16,04 1.204,02 214,36

Cliente 6 43,74 1.190,94 1.139,52

Cliente 7 25,39 1.292,91 358,39

Cliente 8 42,86 1.590,66 721,90

Média 23,08 1.375,19 415,92

Desvio

Padrão13,69 152,05 351,62

57







113

Primeiro passo da análise �

Critério para a formaçãodos grupos.

Proximidade entre os pontos.

Cliente 1Cliente 2

Cliente 3

Cliente 4

Cliente 5Cliente 6

Cliente 7

Cliente 8

-50.00 0.00 50.00 100.00 150.00 200.00 250.00 300.00 350.00 400.00 450.00 500.00

Percentual de Importância

1,150.00

1,200.00

1,250.00

1,300.00

1,350.00

1,400.00

1,450.00

1,500.00

1,550.00

1,600.00

1,650.00

Méd

ia S

alar

ial







114

Cliente 1Cliente 2

Cliente 3

Cliente 4

Cliente 5Cliente 6

Cliente 7

Cliente 8

-50.00 0.00 50.00 100.00 150.00 200.00 250.00 300.00 350.00 400.00 450.00 500.00


1,150.00

1,200.00

1,250.00

1,300.00

1,350.00

1,400.00

1,450.00

1,500.00

1,550.00

1,600.00

1,650.00

Méd

ia S

alar

ial

Distâncias vertical

X

Distâncias horizontal

Variabilidade

Em termos, práticos ?

Igual importância às duas variáveis?

58







115

Cliente 1Cliente 2

Cliente 3

Cliente 4

Cliente 5Cliente 6

Cliente 7

Cliente 8

-1.20 -1.00 -0.80 -0.60 -0.40 -0.20 0.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80


-1.40

-1.20

-1.00

-0.80

-0.60

-0.40

-0.20

0.00

0.20

0.40

0.60

0.80

1.00

1.20

1.40

1.60

Méd

ia S

alar

ial

Variáveis padronizadas

Importâncias equivalentes. (novos grupos)

j

jijij S

XXZ

−=

Padronizando os dadosUniversidade Federal de Uberlândia






116

SuposiçõesA amostra é representativa da população?

A multicolinearidade é substancial o suficiente para afetar os

resultados?

Raramente a pesquisa considera o censo da populaçãopara usar na análise de agrupamentos. O pesquisadordeve perceber que a análise de agrupamentos é apenastão boa quanto a representatividade da amostra.

Representatividade.

O efeito de multicolinearidade (grau em que uma variávelpode ser explicada pelas outras variáveis na análise)sobre a análise de agrupamento é um processo deponderação não visível, mas que afeta a análise.

O caminho é identificar a multicolinearidade e reduzir aquantidade de variáveis.

59







117

Resumo dos Estágios

1. Escolha do critério de parecença

2. Definição do número de grupos

3. Formação dos grupos

4. Validação do agrupamento

5. Interpretação dos grupos







118

Medidas de ParecençaMedidas de ParecençaAs medidas de parecença têm

um papel central nos algoritmos de agrupamentos.

Através delas são definidos critérios para avaliar se dois

pontos estão próximos, e portanto podem fazer parte de

um mesmo grupo, ou não.

Há dois tipos:

•medidas de similaridade

• medidas de dissimilaridade

Medidas disponíveis naSolução STATISTICA

60







119

nPnn

P

P

xxx

xxx

xxx

21

22221

11211

.

....

.

.

→converter dissimilaridade ou

similaridade.

DISTÂNCIA EUCLIDIANA (dados quantitativos)•distância euclidiana entre dois pontos ou individuos i e i’:

d x xii ij i jj

P

′ ′=

= −∑ ( ) 2

1

Genótipos X1 X2

I1 4 6

I2 8 8

I3 10 8

d12 = 2,24d13 = 3,16d23 = ?







120

• incoveniente => não preservação da ordem das distâncias, quandose muda a escala e com o número de caracteres estudados.

=> como resolver o problema da escala:# padronização dos dados, antes do cálculo da distância

euclidiana.

)( jx

ijij s

xZ =

DISTÂNCIA EUCLIDIANA MÉDIA•contornar o problema do aumento da distância euclidiana a medida que cresce o número de variáveis.

dP

x xP

dii ij i jj

P

ii′ ′=

′= − =∑1 12

1

( )

•No cálculo da distância euclidiana média, deve ser baseada emdados padronizados, para que se diminua o efeito da escala.

61







121

Sequência para cálculo dadistância euclidiana.1) Calcular a média geralde cada variável.2) Calcular o desvio padrãode cada variável.3) Calcular as variáveispadronizadas para cadaprogenitor.4) Obter os valores de dii’para cada par deprogenitores.

Indivíduo Variável X1

Variável X2

Variável X3

VariávelX4

1 41,90 20,300 3,900 85,675

2 43,80 19,750 3,650 98,250

3 37,30 18,725 4,600 74,575

4 40,15 20,300 4,300 91,625

5 32,50 20,250 4,100 54,125

6 52,75 19,725 4,375 100,375

7 43,90 20,225 4,275 91,000

8 49,25 20,025 4,150 82,175

VariávelMédia de Xj Desvio padrão

[S(Xj)]

X1 42,6937 6,4020

X2 19,9125 0,5340

X3 4,1687 0,2936

X4 84,7250 14,9361

Zx

sijij

x j

=( )







122

Indivíduo Variável X1

Variável X2

Variável X3

Variável X4

1 6,5448 38,0150 12,2834 5,7361

2 6,8416 36,9850 12,4319 6,5780

3 5,8263 35,0655 15,6675 4,9929

4 6,2715 38,0150 14,6458 6,1344

5 5,0765 37,9213 13,9646 3,6338

6 8,2396 36,9382 14,9012 6,7203

7 6,8572 37,8745 14,5606 6,0926

8 7,6929 37,5000 14,1349 5,5018

( ) ( )[ ]4/5780,67361,5...8416,65448,6 2212 −++−=d

Indivíduos2 3 4 5 6 7 8

1 0,8035 1,9654 0,7227 1,3312 1,3800 0,6848 0,76862 2,1033 1,2731 1,9406 1,4208 1,1788 1,12343 1,6765 1,8365 1,7958 1,6872 1,73334 1,4319 1,1663 0,3049 0,85835 2,3150 1,5511 1,62626 0,9079 0,81957 0,5850

62







123

Distância de Mahalanobis (D2).

TxxD ][]][[ 12 µµ −Σ−= −

][ µ−x

][Σ

onde:

vetor linha resultado da subtração dos outros dois vetores linha x e média.

matriz de covariâncias entre as várias variáveis x.

2 variáveis (vendas e lucros) de empresas

[ ]3,29271,62309=µ

91 1026,128893,32

93,3284,1 −−

−−

=Σ x

−−−−

−−

−−−−= −

3,2927)(

1,62309)(10

26,128893,32

93,3284,1]3,2927)(1,62309)([)(

2212

2111922122111

2

xx

xxxxxxxPD







124

DISTÂNCIAS BASEADAS EM DADOS BINÁRIOS

Presença Ausência

Presença a b

Ausência c d

Exemplo : 4 marcas de café

MarcasAvaliadores

1 2 3 4 5 6 7 8

1 0 0 0 1 1 1 1 1

2 0 0 1 1 1 0 1 1

3 0 0 1 1 1 0 1 1

4 0 0 1 0 1 0 1 1

1)Coincidência Simples

S = (a + d) / (a + b + c + d) = (4 + 2) / 8 = 0,75

2)Jaccard

S = a / (a + b +c) = 4/6 = 0,67

63







125

Algoritmos de Agrupamentos

A maioria dos algoritmos utilizados na formação dosagrupamentos pode ser classificada em duas grandes famílias demétodos: hierárquicos e de partição.

Métodos Hierárquicos Aglomerativos

• Para esses métodos osagrupamentos são formados a partir deuma matriz de parecença;

• Queremos identificar os objetos quemais se parecem;

• Agrupamos esses objetos e osconsideramos como um único objeto;

• Definimos uma nova matriz deparecença.







126

Os procedimentos hierárquicos envolvem a construção deuma hierarquia de uma estrutura do tipo árvore. Existembasicamente dois tipos de procedimentos hierárquicos deagrupamento: Aglomerativos e Divisivos.

Métodos Hierárquicos Aglomerativos Usando o STATISTICA

Vamos enumerar pelos menos 5 mé-todos aqui:

• Método do vizinho mais próximo;

• Método do vizinho mais longe;

• Método das médias das distâncias;

• Método da centróide;

• Método de Ward.

64







127

a distância entre os

grupos é definida como

sendo a distância entre

os elementos mais próximos

(menor distância) dos

dois grupos

Método do vizinho mais próximo(Single Linkage)







128

a distância entre dois grupos é

definida como sendo a

distância entre os indivíduos

mais distantesdos dois grupos

(distância máxima).

Método do vizinho mais longe(Complete Linkage)

65







129

Este método define a coordenada de cada grupo como sendo a

média das coordenadas de seus

objetos. Uma vez obtida essa

coordenada, denominada centróide,

a distância entre os grupos é obtida

através do cálculo das distâncias entre os

centróides.

Método do centróide







130

O método de Ward busca unir objetos que tornem osagrupamentos formados os mais homogêneos possível. A medidade homogeneidade utilizada baseia-se na partição da soma dequadrados total de uma análise de variância. Observe abaixo:

Método de Ward

( ) ( ) ( )∑∑∑∑∑= ∈== ∈

−+−=−k

j Gi

ji

k

j

jj

k

j Gii

jj

XxXXnXx1

211

1

211

1

211

O Método de Ward, é atraente por basear-se numa medida comforte apelo estatístico e por gerar grupos que, assim como os dométodo do vizinho mais longe, possuem alta homogeneidadeinterna.

66







131

Faremos agora uma aplicação. Imagine que após aplicar 3

testes de desempenho em

atividades gerenciais em 6

indivíduos, queiramos agrupá-

los de modo a preservar a

homogeneidade interna dos grupos.

ExemploUniversidade Federal de Uberlândia






132

A matriz padronizada possui os seguintes valores:

67







133

A seguir construímos a

matriz de semelhança, e

com ela construímos o Dendrograma. Vamos usar a

distância euclidiana que

nos dá um coeficiente de

dissimilaridade.

2222

211 )()()( nnXY yxyxyxd −++−+−= …

2,79 )144,1104,0()064,1677,0()598,0195,1(

50,1)104,0352,1()258,1677,0()598,0195,1(

222Jeniffer ,

222Ernest Aislan,

=+++++=

=−+−++−=

RobertF

F







134

VamosVamos usarusar umum dosdos métodosmétodos dede agrupamentoagrupamentodisponíveldisponível nono STATISTICASTATISTICA:: UnweightedUnweighted pairpair--groupgroup averageaverage..ComCom esseesse métodométodo rearranjamosrearranjamos aa matrizmatriz fenéticafenética dede distânciasdistâncias..

d(Ann,Jen),Ais = média (d(Ann,Ais);d(Ron,Ais)) = média (3,00;3,10) = 3,05

d(Ann,Jen),Ern = média (d(Ann,Ern);d(Jen,Ern)) = média (2,22;2,64) = 2,43

d(Ann,Jenn),Rob = média (d(Ann,Jen);d(Jen,Rob)) = média (2,08;2,79) = 2,44

d(Ann,Jenn),Ron = média (d;(Ann,Ron);d(Jen,Ron)) = média (2,30;2,59) = 2,45

Temos um novo grupo: Aislan Rick Souza e Ernest Shering.

68







135

d(Ais,Ern),Rob = média (dAis;dErn,Rob) = média (2,70; 1,88) = 2,29

d(Ais,Ern),(Ann,Jen) = média (dAis(Ann,Jen);dErn(Ann, Jen)) = média (3,05;2,43) = 2,74

d(Ais,Ern),Ron = média (dAis,Ron;dErn,Ron) = média (3,02; 3,00) = 3,01

MaisMais umauma vez,vez, procuramosprocuramos umum novonovo agrupamentoagrupamento.. EEcalculamoscalculamos osos valoresvalores dasdas distânciasdistâncias nana matrizmatriz fenéticafenética..ObserveObserve oo resultadoresultado::

Temos um novo grupo: Robert Shaid e Ronald Marker.







136

JáJá encontramosencontramos 33 grupos,grupos, masmas aindaainda queremosqueremosprosseguirprosseguir nana análiseanálise ee observarobservar quantoquanto temostemos distânciadistância atéatésese obterobter umum únicoúnico grupogrupo.. Observe,Observe, novamente,novamente, aa matrizmatrizfenéticafenética::

Agora temos dois grupos: Robert Shaid, Ronald Marker, AnneAntonelli e Jeniffer Fischer; e o outro grupo temos Aislan RickSouza e Ernest Shering.

d(Rob,Ron),(Ais,Ern) = média (dRob, (Ais,Ern),(Ais,Ern); dRon,(Ais,Ern)) =

= média (2,29;3,01) = 2,65

d(Rob,Ron),(Ann,Jen) = média (dRob,(Ann,Jenn); dRon,(Ann,Jen)) =

= média (2,44;2,45) = 2,45

69







137

PorPor fim,fim, temostemos aa últimaúltima matrizmatriz::

Obviamente, não é necessário todo esse desenvolvimento parachegar a alguma conclusão sobre grupos. Podemos observaresses resultados em um gráfico 2D: o Dendograma ouFenograma!

d(Rob,Ron),(Ann,Jen) = média(d(Rob,Ron);d(Ann,Jen)) = média (2,74;2,65) = 2,695

ExemploUniversidade Federal de Uberlândia






138

Tree Diagram for 6 Cases

Unweighted pair-group average

Euclidean distances

Jeniffer FischerAnne Antonelli

Ronald MarkerRobert Shaid

Ernest SheringAislan Rick Sousa

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

2.2

2.4

2.6

2.8

3.0

Link

age

Dis

tanc

e

O Dendograma

70







139

STATISTICA

O primeiro passo é padronizar os dados. Basta selecionar as variáveis de interesse na análise e com o botão direito do mouse sobre a seleção optar por

Fill/Standardize Block e, em seguida, Standardize Columns.







140

Em Statistics busque o módulo Multivariate Exploratory Techniquese, na seqüência, opte por Cluster Analysis.

71







141

O que queremos nesse primeiromomento é descobrir e avaliar algunsagrupamentos entre os casosobservados, considerando que as 3variáveis envolvidas são importantespara classificar os casos. Vamosexplorar usando a opção Joining(tree clustering).Na aba Advanced

observamos diversas opções. Clique em

Variables e insira todas as variáveis. Em Cluster, opte

por Cases. Em Amalgamation,

Unweighted pair-group average (para média).







142

Na opção Input File existem duas maneiras para entrar com umabase de dados: Raw Data ou Distance Matrix. Por vezes, algumprocedimento hierárquico ou medida de distância não estáimplementada num procedimento automático. É possível, então,entrar com a matriz de distância e avaliar os grupos. As informaçõesque esta matriz deve ter são:

Medidas de distância;

Média, Desvio Padrão e Número de Casos;

Tipo de Matriz:

1 – Matriz de Correlação;

2 – Matriz de Similaridade;

3 – Matriz de Dissimilaridade;

4 – Matriz de Variância e Covariância.

72







143







144

Métodos Hierárquicos: Métodos Hierárquicos: aglomerativosaglomerativos

Simples (single linkage) - vizinho mais próximo

A B C D EAB 2C 6 5D 10 9 4E 9 8 5 3

Matriz de distânciasDendograma

E D C B A

02

03

04

05

Link

age

Dis

tanc

e

73







145


Completa (complete linkage) -vizinho mais distante

A B C D EAB 2C 6 5D 10 9 4E 9 8 5 3

Matriz de distâncias

Dendograma

E D C B A123456789

1011

Link

age

Dis

tanc

e







146


média (average linkage)

A B C D EAB 2C 6 5D 10 9 4E 9 8 5 3

Matriz de distânciasDendograma

E D C B A01

02

03

04

05

06

07

08

Link

age

Dis

tanc

e

74







147

ExemploExemploPercentagens de pessoas empregadas em 26

paises europeus, por setor de atividade.agricultura mineracao manufatura energia construcao servicosind financas serpessoais transporte

Belgium 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2Denmark 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1France 10.8 0.8 27.5 0.9 8.9 16.8 6 22.6 5.7Wgermany 6.7 1.3 35.8 0.9 7.3 14.4 5 22.3 6.1Ireland 23.2 1 20.7 1.3 7.5 16.8 2.8 20.8 6.1Italy 15.9 0.6 27.6 0.5 10 18.1 1.6 20.1 5.7Luxembourg 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2Netherlands 6.3 0.1 22.5 1 9.9 18 6.8 28.5 6.8

... ... ... ... ... ... ... ... ... ...

� Padronização dos dadosagricultura mineracao manufatura energia construcao servicosind financas serpessoais transporte

Belgium -1.02 -0.36 0.08 -0.02 0.02 1.34 0.78 0.96 0.47Denmark -0.64 -1.19 -0.74 -0.82 0.08 0.36 0.89 1.78 0.40France -0.54 -0.47 0.07 -0.02 0.45 0.84 0.71 0.38 -0.61Wgermany -0.80 0.05 1.25 -0.02 -0.53 0.32 0.36 0.33 -0.32Ireland 0.26 -0.26 -0.90 1.04 -0.40 0.84 -0.43 0.11 -0.32

... ... ... ... ... ... ... ... ... ...







148

ExemploExemploTree Diagram for 26 Cases

Single LinkageEuclidean distances

0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5

Linkage Distance

TurkeyYugoslavia

SpainUSSR

HungaryEgermany

CzechoslovakiaRomania

PolandBulgaria

LuxembourgPortugalGreece

ItalyNorway

SwitzerlandIrelandAustria

UKFinland

WgermanySweden

DenmarkNetherlands

FranceBelgium

75







149

ExemploExemploTree Diagram for 26 Cases

Single LinkageEuclidean distances

0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5

Linkage Distance

TurkeyYugoslavia

SpainUSSR

HungaryEgermany

CzechoslovakiaRomania

PolandBulgaria

LuxembourgPortugalGreece

ItalyNorway

SwitzerlandIrelandAustria

UKFinland

WgermanySweden

DenmarkNetherlands

FranceBelgium







150

Primeiro grupo: nações do oeste

Bélgica, França, Holanda,Suécia, Dinamarca,Alemanha Ocidental,

Finlândia, Reino Unido,Áustria, Irlanda, Suíça, Noruega,

Grécia, Portugal e Itália

Segundo grupo:

Luxemburgo

Terceiro grupo: antigos países comunistas

Rússia, Hungria, Tchecoslováquia,

Alemanha Oriental, Romênia, Polônia e Bulgária

Quarto grupo:

Espanha

Quinto grupo:

Yugoslavia

Sexto grupo:

Turquia

76







151


(Análise Discriminante)(Análise Discriminante)








152

�As técnicas de análise discriminantesão utilizadas para classificarindivíduos em um, dois ou maisgrupos alternativos (ou populações),como base de um conjunto demensurações. As populações sãosabidamente distintas, e cadaindivíduo pertence a uma delas.Essas técnicas também podem serutilizadas para identificar quaisvariáveis contribuem para que sefaça tal classificação.

77







153

Ex1: Considere um funcionário de umainstituição financeira que precisaaprovar um empréstimo hipotecário aum cliente. Essa decisão será tomadalevando-se em conta as característicasque identifiquem o candidato comaqueles clientes que costumam saldarseus empréstimos ou com aqueles queapresentam problemas. As informaçõessobre esses dois grupos de pessoas,disponíveis nos registros da empresa,podem incluir fatores como idade, renda,estado civil, dívidas, e propriedade decertos bens duráveis.







154

A análise discriminante envolve determinar uma variável estatísticaque é a combinação linear de duas ou mais variáveis independentesque discriminarão melhor entre grupos definidos a priori.

A discriminação é conseguida estabelecendo-se os pesos da variávelestatística para cada variável para maximizar a variância entregrupos relativa à variância dentro dos grupos.

A B A B

Função Discriminante Função Discriminante

78







155







156

A combinação linear para uma análise discriminante,também conhecida como a função discriminante, édeterminada de uma equação que assume a seguinteforma:

onde

zjk = escore Z discriminante da função discriminantej para o objeto k

a = intercepto

wi = peso discriminante para a variávelindependente i

xik = objeto k na variável Xi.

nknkkjk xwxwxwaz ++++= ⋯2211

79







157

Objetivo da Pesquisa:

Determinar se existem diferenças estatisticamentesignificantes entre os perfis de escore médio em umconjunto de variáveis para dois (ou mais) grupos definidos apriori;

Determinar quais das variáveis independentes explicam omáximo de diferenças nos perfis de escore médio dos doisou mais grupos;

Estabelecer procedimentos para classificar objetos emgrupos, com base em seus escores em um conjunto devariáveis independentes;

Estabelecer o número e a composição das dimensões dediscriminação entre grupos formados a partir do conjunto devariáveis independentes.







158

Projeto de Pesquisa para Análise Discriminante:

Seleção de Variáveis Dependente e Independentes:

O pesquisador deve se concentrar na variável dependenteprimeiro. O número de grupos pode ser dois ou mais, mas devemser mutuamente excludentes e cobrir todos os casos.

Tamanho da amostra:

A Análise Discriminante é muito sensível ao tamanho da amostra eo número de variáveis preditoras Alguns estudos sugerem umnúmero de 20 observações para cada preditora.

Divisão da Amostra:

É muito comum um estudo de validação do modelo, usandorecursos de divisão da amostra (crossvalidation); esteprocedimento consiste em dividir a amostra em duas partes: 1.Modelagem (não menos que 60%) e 2. Teste (não mais que 40%).

80







159

Suposições da Análise Discriminante:

Uma suposição chave é a de normalidademultivariada para as variáveis independentes.Existem evidências da sensibilidade da análisediscriminante a violações dessas suposições;

Outra questão é a matriz de covariância que édesconhecida, no entanto deve ser igual paratodo grupo; matrizes desiguais afetamnegativamente o processo de classificação;

Também é preciso ter cuidado com aMulticolinearidade.







160

Estimação do Modelo Discriminante:

Método Computacional

Estimação Simultânea: envolve a computação da funçãodiscriminante, de modo que todas as variáveis independentes sãoconsideradas juntas;

Estimação Stepwise: envolve a inclusão das variáveisindependentes na função discriminante, uma por vez, com base emseu poder discriminatório.

Significância Estatística

As medidas de lambda de Wilks, traço de Hotelling e critério de Pillaiavaliam a significância estatística do poder discriminatório da funçãodiscriminante;

A maior raiz característica de Roy avalia apenas a primeira funçãodiscriminante;

Se um método stepwise é empregado para estimar a funçãodiscriminante, as medidas D2 de Mahalanobis são mais adequadas

81







161

Avaliação do Ajuste Geral:

Cálculo de Escores Z discriminantes

Avaliação de Diferenças de Grupos

Um caminho para avaliar o ajuste geral do modelo é determinar amagnitude de diferenças entre membros de cada grupo em termosdos escores Z discriminantes. Podemos fazer isso usando acomparação dos centróides dos grupos, o escore Z discriminantemédia para todos os membros dos grupos.

Avaliação da Precisão Preditiva de Pertinência de Grupo

O uso de matriz de classificação nos informa o valor razão desucesso (um percentual de classificação correta);

O escore de corte que é o critério em relação ao qual o escorediscriminante de cada objeto é comparado para determinar em qualgrupo o objeto deve ser classificado.

nknkkjk xwxwxwaz ++++= ⋯2211







162

Exemplo

Uma empresa está interessada em investigar se um de seus novosprodutos será comercialmente bem-sucedido. Isso conduz a umapesquisa com consumidores que comprariam ou não o novo produto.Estudamos, então, as 3 características descritas no quadro abaixo:

Note que a característica Durabilidade discrimina

bem os dois grupos.

Já a característica Estilotem uma diferença entre médias de grupo igual a

0,2. No entanto, isso não caracteriza uma má

discriminação. É preciso avaliar a dispersão e os escores discriminantes.

82







163

10

9 7

8

5 26 1

1 2 3 4 5 6 7 8 9 10

4 3

X1Durabilidade

10

9

7

8 52

6

1

1 2 3 4 5 6 7 8 9 10

4 3

X2Desempenho

10

97 8

5 2 61

1 2 3 4 5 6 7 8 9 10

43

X3Estilo







164

Usando apenas a variável X1 obtemos um percentual declassificação correta de 90%, visto que o item 5 não foi alocadocorretamente. Quando inserimos a variável X2, obtemos 100% deacerto na Função 2. Mas com a análise discriminante, estamosinteressados não só em agrupar, como também maximizarvariabilidade entre grupos.

83







165







166

Faremos um procedimento passo apasso. O método é o Forwardstepwise.

84







167

DesempenhodeDurabilidaZ .3588,0.4756,053,4 −−=

O função discriminante:







168

A Matriz de Classificação e a Classificação dos

Casos estão demonstradas nas

tabelas a seguir.

85







169

Ex: Um pesquisador fez uma enquete comdirigentes principais de pequenas empresaspara descobrir a vontade delas em exportarpara outros países. 200 pequenas empresasreceberam os questionários, e 98 foramdevolvidos. Oito deles não puderam serutilizados por causa das respostas aleatóriasou informações incompletas. Dos 90questionários utilizáveis, foram usados osdados de 60 empresas para o modelo deestimação, e as 30 restantes foram mantidaspara a validação do modelo.







170

� Foi criada uma nova variáveldependente, “Interesse emexportar” (IE), revendo a escalaatribuída à variável “vontade deexportar” (Y1). A variável IE terávalor 2 (alto interesse emexportar) se forem incluídas todasas empresas que deram respostascom pontuação de 4 a 5, e terávalor 1 (baixo interesse emexportar) se forem incluídas todasas empresas que responderam compontuação 3 ou menos nessamesma escala.

86







171

Descrição das variáveis

Descrição das variáveisNome correspondente no resultado informatizado

Escala de valores

Vontade de exportar (Y1) Vontade 1 (definitivamente não) a 5 (definitivamente sim)

Nível de interesse em buscar a ajuda do governo

(Y2) Gov 1 (definitivamente não) a 5 (definitivamente sim)

Tamanho enquanto empregador (X1) Tamanho Maior que zero

Receita da empresa (X2) Rec Em milhões de dólares

Anos de operação no mercado nacional

(X3) Anos Número real de anos

Número de produtos atualmente fabricados pela empresa

(X4) Prod Número real

Treinamento de empregados (X5) Trein 0 (nenhum programa) ou 1 (existência de um programa formal)

Experiência empresarial em operações internacionais

(X6) Exp 0 (nenhuma experiência) ou 1 (existência de experiência)







172

Apresentação dos dados sobre exportação

Empresa Vontade de

exportar

Nível de interesse

em buscar a ajuda do governo

Tamanho enquanto

empregador

Receita da

empresa

Anos de operação

no mercado nacional

Número de

produtos atualmente fabricados

pela empresa

Treinamento de

empregados

Experiência empresarial

em operações internacionais

(Y1) (Y2) (X1) (X2) (X3) (X4) (X5) (X6) 1 5 4 54 4,0 6,5 7 1 1 2 3 4 45 2,0 6,0 6 1 1 ... ... ... ... ... ... ... ... ... 60 4 3 43 2,0 7,5 4 1 1

87







173

Informação no nível das classes. Interesse em exportar Frequência Proporção Alto 22 0,366 Baixo 38 0,633

H0: as médias da função discriminante dos grupos na população são iguais.

F G.L. Numerador

G.L. Denominador

Prob.>F

4,192 4 55 0,004







174

Cargas Discriminantes

internas

Coeficientes Discriminates Padronizados

Coeficientes Discriminates

Brutos Tamanho 0,585 0,825 0,077 Receita 0,249 0,196 0,300 Anos 0,541 0,824 0,895 Produção 0,358 0,156 0,061 Médias das Classes nas Variáveis Discriminantes

Interesse em Exportar CAN 1 Alto 0,713

Baixo -0,413

88







175

Sumário da Classificação Utilizando a Função Discriminante Linear

Dentro IE Alto Baixo Total 16 6 22

Alto 72,73 27,27 100,00

9 29 38 Baixo 23,68 76,32 100,00

Total 25 35 60 41,67 58,33 100,00

Proporção de sucesso (16 + 29)/60 = 75%







176

Ex. Uma das atribuições do Banco Central do Brasil éfiscalizar as instituições financeiras do país com afinalidade de detectar possíveis problemas de solidez ede comportamento. A idéia é desenvolver métodosestatísticos que possibilitem classificar essasinstituições como “com” ou “sem” problemas e alertar oBanco Central para uma fiscalização mais rigorosa ainstituições classificadas em “com problemas”.

Foi realizado um estudo com 20 bancos, sendo 10com problemas e 10 sem problemas, nas quais foramcoletadas informações de 4 indicadores econômico-financeiros (1-liquidez imediata; 2-participação dosdepósitos interfinanceiros no total operacional; 3-participação das exigibilidades no ativo operacional; 4-participação das rendas de prestação de serviços emrelação às despesas administrativas).

89







177

Tabela27 : Indicadores econômicos-financeiros.

Banco Condição X1 X2 X3 X4

Banco Real 1 0,8888 0,7391 1,0255 0,3938Banco Garantia 1 1,6655 0,7268 0,8780 0,0004Citibank 1 2,2111 0,9166 0,9492 0,3420Chase Manhattan 1 1,4351 0,9133 0,9577 0,2325Unibanco 1 2,1414 0,0020 1,0245 0,3966Santander Noroeste 1 1,1920 0,4972 1,0340 0,3095Banco Itaú 1 1,5895 0,2593 1,0453 0,5570Francês e Brasileiro 1 1,3272 0,4126 1,0448 0,3482Banco Sogeral 1 1,8847 0,3880 0,9864 0,0337Banco Itamarati 1 0,5229 0,9473 1,1244 0,1180Banco Banorte 2 0,4922 0,3166 1,1127 0,1628Banco Est. Alagoas 2 1,4427 0,0589 0,9019 0,1355Banco Econômico 2 0,5438 0,5358 1,0300 0,1481Banco Nacional 2 0,1904 0,7087 0,9917 0,2625Banco Progresso 2 0,1102 0,7378 1,5280 0,0783Banerj 2 2,0060 0,0414 1,0321 0,0816Banco Rosa 2 0,2321 0,9234 0,9753 0,0045Banco Open 2 0,9019 0,1634 1,1414 0,5485Banespa 2 1,9757 0,3395 0,9997 0,0751Banco Bamerindus 2 0,7276 0,3139 1,1077 0,2957Fonte: Barroso e Artes, 2003.







178

Tabela 28: Valores da Função Discriminante e Classificação.

Banco FunçãoDiscriminante

Condição Classificadoem

Banco Real 7,137 1 1Banco Garantia 9,609 1 1Citibank 12,481 1 1Chase Manhattan 9,922 1 1Unibanco 7,022 1 1Santander Noroeste 6,746 1 1Banco Itaú 6,687 1 1Francês e Brasileiro 6,705 1 1Banco Sogeral 8,390 1 1Banco Itamarati 7,130 1 1Banco Banorte 3,422 2 2Banco Est. Alagoas 5,060 2 2Banco Econômico 4,845 2 2Banco Nacional 4,676 2 2Banco Progresso 4,580 2 2Banerj 6,804 2 1Banco Rosa 6,041 2 2Banco Open 3,887 2 2Banespa 8,410 2 1Banco Bamerindus 4,177 2 2

90







179


(Correlação (Correlação CanonicaCanonica))








180

� Analisa as relações entre dois conjuntos de variáveis, na qual se

estima a máxima correlação entre combinações lineares das

variáveis.

Exemplos:

�X= desempenho de certa marca (vendas, participação no mercado,

crescimento nas vendas, lucro) e Y = variáveis do mix de marketing

(preço, promoção, distribuição, publicidade);

�X = conjunto de variáveis do solo e Y = conjunto de variáveis da

planta;

�X = conjunto de variáveis referentes às medidas físicas de uma

criança e Y = conjunto de variáveis referentes às medidas mentais

de uma criança.

91







181

�Caracteriza-se por avaliar as relações entre doiscomplexos influenciados

�Pode ser definida como a correlação entre acombinação linear das variáveis dependentes e acombinação linear das variáveis independentes.

�O número de correlações canônicas é sempre igualao menor número de caracteres que constituir um doscomplexos (p ou q), e sua magnitude sempredecresce com a ordem em que são estimadas.

� O primeiro coeficiente é sempre maior ou igual, emvalor absoluto, a qualquer coeficiente de correlaçãosimples ou múltipla, entre os caracteres do primeiro edo segundo grupo.







182

�Na análise de correlação canônica cada par canônico é

interpretado com base no nível de significância dos

fatores, na magnitude da correlação canônica e na

quantidade de variância explicada em um conjunto de

variáveis explicada pelo outro conjunto de variáveis.

�As cargas canônicas, que representam as correlações

entre as variáveis originais e os fatores canônicos,

podem ser utilizadas para interpretar a função.

92







183

NaNa análiseanálise dede correlaçãocorrelação canônicacanônica temtem--sese doisdoisconjuntosconjuntos dede variáveisvariáveis

X` = [x1 x2 . . . xp] = vetor das medidas de pcaracteres que constituem o grupo I

Y` = [y1 y2 . . . yq] = vetor das medidas de qcaracteres que constituem o grupo II

Dependente vs Independentes







184

São calculadas inicialmente as combinações lineares,uma sobre cada conjunto de variáveis, de forma que ocoeficiente de correlação entre elas seja máximo.

As combinações lineares são denominadas variáveiscanônicas, e os pares são denominados parescanônicos.

Em seguida são calculadas duas outras variáveiscanônicas, uma sobre cada conjunto de variáveis,ortogonais às primeiras e com o máximo coeficiente decorrelação entre si.

93







185

SejamSejam XX11 ee YY11 asas variáveisvariáveis canônicascanônicas quequeconstituemconstituem oo primeiroprimeiro parpar canônicocanônico::

X´1 = a11X1 + a21X2 + . . . ap1Xp

Y´1 = b11Y1 + b21Y2 + . . . bq1Yq

O problema consiste em determinar os vetores a1 e b1,de forma a tornar máximo o coeficiente de correlaçãoentre X1 e Y1







186

SejamSejam XX22 ee YY22 asas variáveisvariáveis canônicascanônicas quequeconstituemconstituem oo segundosegundo parpar canônicocanônico::

X2 = a12X1 + a22X2 + . . . ap2Xp

Y2 = b12Y1 + b22Y2 + . . . bq2Yq

O problema consiste em determinar os vetores a2 e b2,de forma a se obter o máximo coeficiente de correlaçãoentre X2 e Y2, obedecendo a condição de ortogonalidadeentre X1 e X2 e Y1 e Y2

94







187

DefineDefine--sese comocomo aa primeiraprimeira correlaçãocorrelação canônicacanônicaàquelaàquela queque maximizamaximiza aa relaçãorelação entreentre XX11 ee YY11.. AsAsfunçõesfunções XX11 ee YY11 constituemconstituem oo primeiroprimeiro parpar canônicocanônicoassociadoassociado àquelaàquela correlaçãocorrelação canônica,canônica, queque ééexpressaexpressa porpor::

)(ˆ).(ˆ

),(ˆ

11

11

1 YXYX

VV

voCr =







188

Num estudo para índice de produção e preço para operíodo 1979 a 1999 (n = 21), considerou-se asseguintes variáveis:

X1: produção de bens duráveis;X2: produção de bens não-duráveis;X3: produção mineral;X4: produção agrícola

Y1: preços agrícolas;Y2: preços dos alimentos;Y3: outros preçosFonte: Regazzi, 2000

95







189

1,00 0,49 0,87 0,48 -0,43 -0,42 -0,20 1,00 0,76 0,70 0,42 0,42 0,58 1,00 0,71 -0,03 -0,04 0,13 1,00 0,26 0,26 0,37 1,00 0,98 0,90 1,00 0,91

R =

1,00







190

A equação característica para determinação dosautovalores da matriz fornecerá:

Os autovalores são: λ1 = 0,7799λ2 = 0,3818λ3 = 0,0622

As estimativas dos coeficientes de correlação canônica são, portanto:

r1 = 7799,0 = 0,883

r2 = 3818,0 = 0,618

r3 = 0622,0 = 0,249

96







191

As variáveis canônicas de índices de preços são:V1 = 1,2510 y1 – 0,0139 y2 – 0,2697 y3

V2 = -1,9602 y1 – 0,0363 y2 + 2,3344 y3

V3 = -5,8481 y1 + 6,6267 y2 – 0,7645 y3

As equações das variáveis canônicas de índices de produção são:

U1 = -1,5513 x1 + 0,5269 x2 + 0,8322 x3 + 0,0297 x4

U2 = 1,4247 x1 + 1,3340 x2 – 1,7765 x3 + 0,2192 x4

U3 = 1,4415 x1 + 0,7099 x2 – 3,0660 x3 + 0,8032 x4







192

Quadro 1: Correlações e pares canônicos estimados entre índices de

produção (grupo I) e índices de preços (grupo II).

Pares Canônicos Variáveis 1o 2o 3o

Produção de bens duráveis; -1,5513 1,42 1,44

Produção de bens não-duráveis 0,5269 1,33 0,70

Produção mineral 0,8322 -1,77 -3,06

Produção agrícola 0,0297 0,21 0,80

Preços agrícolas 1,2510 -1,9602 -5,8481

Preços dos alimentos -0,0139 -0,0363 6,6267

Outros preços -0,2697 2,3344 -0,7645

r 0,883 0,618 0,249

χ2 32,941** 8,724 n.s. -

97







193

Ex: Um pesquisador fez uma enquete com dirigentes

principais de pequenas empresas para descobrir a

vontade delas em exportar para outros países. 200

pequenas empresas receberam os questionários, e 98

foram devolvidos. Oito deles não puderam ser

utilizados por causa das respostas aleatórias ou

informações incompletas. Dos 90 questionários

utilizáveis, foram usados os dados de 60 empresas

para o modelo de estimação, e as 30 restantes foram

mantidas para a validação do modelo.







194

Descrição das variáveis

Descrição das variáveisNome correspondente no resultado informatizado

Escala de valores

Vontade de exportar (Y1) Vontade 1 (definitivamente não) a 5 (definitivamente sim)

Nível de interesse em buscar a ajuda do governo

(Y2) Gov 1 (definitivamente não) a 5 (definitivamente sim)

Tamanho enquanto empregador (X1) Tamanho Maior que zero

Receita da empresa (X2) Rec Em milhões de dólares

Anos de operação no mercado nacional

(X3) Anos Número real de anos

Número de produtos atualmente fabricados pela empresa

(X4) Prod Número real

Treinamento de empregados (X5) Trein 0 (nenhum programa) ou 1 (existência de um programa

formal)

Experiência empresarial em operações internacionais

(X6) Exp 0 (nenhuma experiência) ou 1 (existência de experiência)

98







195

Análise de correlação canônica Pares Canônicos Brutos 10 20

Nível 0,7443 -0,0662 Vontade -0,0440 0,8723

Tamanho 0,0533 0,0420 Receita 0,061 0,559 Anos -0,4268 0,7915 Produção 0,1496 0,0441

r 0,8503 0,5712

significância < 0,01 < 0,01







196

Análise de correlação canônica

Pares Canônicos Padronizados

10 20

Nível 1,0058 -0,0896

Vontade -0,0510 1,0085

Tamanho 0,5686 0,4485

Receita 0,0531 0,4841

Anos -0,3930 0,7289

Produção 0,3801 0,1121

99







197

Análise de correlação canônica

Cargas Canônicos

10 20

Nível 0,9987 0,0505

Vontade 0,0887 0,9961

Tamanho 0,8583 0,3108

Receita -0,1131 0,6215

Anos -0,5716 0,7369

Produção 0,7716 0,2091

Correlação entre independentes e variáveis canônicas







198

Análise Análise de de

Variância Variância MultivariadaMultivariada

100







199

Testes simultâneos em várias variáveisTestes simultâneos em várias variáveis

�Quando são coletados dados devárias variáveis para uma mesmaunidade amostral é possível verificaras diferenças entre grupos atravésdo teste para cada variável;

�Por outro lado, pode ser preferívelconduzir um único teste o qual usa ainformação de todas as variáveisconjuntamente







200

Suponha uma situação geral em que há uma únicavariável X e duas amostras ao acaso de diferentespopulações: Considerando que as populações sãoaproximadamente normais, amostras pequenas,variâncias populacionais desconhecidas eestatisticamente iguais.

Ho H1 R. CRITICA

µ µ1 2− = d O µ1-µ2<do µ1-µ2>do

µ µ1 2− ≠ d o

t<-tα t>tα

t<-tα/2 e t>tα/2

tX X

s n n

v n n

s pn s n s

n n

p

=− − −

+= + −

=− + −

+ −

( ) ( )

/ /

( ) ( )

1 2 1 2

1 2

1 2

21 1

2

2 2

2

1 2

1 1

2

1 1

2

µ µ

101







201

Para testar a igualdade de vetores de médias de duas

populações multivariadas podemos utilizar a estatística

T2 de Hotelling.

A hipótese pode ser formulada como:

H0: µ1 = µ2 contra Ha: µ1 ≠ µ2

=

•

•

µ

µ

µ

p

H

1

12

11

0 =

•

•

µ

µ

µ

p2

22

21

vs

=

•

•

µ

µ

µ

p

aH

1

12

11

≠

•

•

µ

µ

µ

p2

22

21







202

A estatística usada para o teste da igualdade dos dois

vetores de médias é a T2 de Hotelling com p e n1 + n2 – p

– 1 graus de liberdade, que pode ser transformada em

uma estatística F com p e n1 + n2 – p – 1 graus de

liberdade, o que torna mais acessível a verificação das

significâncias.

T2 = 21

21.

nn

nn

+ ( 1X - 2X )’ Sc

-1 ( 1X - 2X ) > 1,21

2121

.)1(

)2(−−+−−+

−+pnnpF

pnn

pnn

F = 2

21

21 .)2(

1T

pnn

pnn

−+−−+

> 1, 21 −−+ pnnpF

102







203

Análise da Variância Multivariada (MANOVA)Análise da Variância Multivariada (MANOVA)

As condições para a realização da

MANOVA são as seguintes:

�Modelo aditivo para efeitos de

tratamentos, blocos (se houver) e erro;

�Independência dos erros;

�Igualdade da matriz de covariância ∑/

para todas as amostras;

�Distribuição multinormal dos erros, com

variâncias ∑/ .







204

Para comparar os tratamentos

Função Discriminante Linear de Fisher ou Primeira

Variável Canônica

Para testar hipótese sobre efeito de tratamentos, essa

função é tal que fornece o maior valor possível para o

teste F, entre todas as combinações lineares que se

façam das variáveis envolvidas.

103







205

Exemplo MANOVAExemplo MANOVA

Grupo de funcionários com dificuldades deaprendizado.Variáveis medidas

IQ, Maths, Reading Accuracy, ReadingComprehension, Communication Skill.

Dois grupos � sexo (male, female) e época denascimento (summer, not summer)







206

Estatisticas DescritivasEstatisticas Descritivas3. Gender * Season of Birth

52.466 2.709 47.059 57.873

57.414 2.141 53.140 61.688

60.878 1.826 57.233 64.52373.779 1.786 70.214 77.344

2.218 .665 .891 3.546

4.245 .526 3.195 5.294

3.720 .448 2.825 4.6155.035 .439 4.160 5.911

7.041 .385 6.273 7.809

7.628 .304 7.021 8.235

7.372 .259 6.854 7.8897.497 .254 6.991 8.003

7.599 .244 7.111 8.087

8.441 .193 8.055 8.827

7.971 .165 7.642 8.3008.764 .161 8.442 9.086

6.139 .535 5.071 7.207

7.256 .423 6.412 8.101

6.995 .361 6.275 7.7158.084 .353 7.380 8.788

Season of BirthNot SummerSummer

Not Summer

Summer

Not SummerSummer

Not Summer

Summer

Not SummerSummer

Not Summer

Summer

Not SummerSummer

Not Summer

Summer

Not SummerSummer

Not Summer

Summer

GenderFemale

Male

Female

Male

Female

Male

Female

Male

Female

Male

Dependent VariableIQ

Mathematical Ability

Reading Accuracy

Reading Comprehension

Communication Skill

Mean Std. Error Lower Bound Upper Bound

95% Confidence Interval

104







207

Testando pressuposiçõesTestando pressuposiçõesBox's Test of Equality of Covariance Matrices a

28.543.770

30

2990.804

.810

Box's M

F

df1

df2

Sig.

Tests the null hypothesis that the observed covariancematrices of the dependent variables are equal across groups.

Design: Intercept+GENDER+SOB+GENDER * SOBa.

Levene's Test of Equality of Error Variances a

.333 3 67 .801

2.003 3 67 .122

1.259 3 67 .295

1.471 3 67 .230

1.380 3 67 .256

IQ


Reading Accuracy


Communication Skill

F df1 df2 Sig.

Tests the null hypothesis that the error variance of the dependent variable isequal across groups.

Design: Intercept+GENDER+SOB+GENDER * SOBa.

� Não rejeita homogeneidade da matriz de variâncias e variâncias

� Não rejeita homogeneidade de variâncias







208

� Escolhendo a estatística Wilks’ Lambda

Multivariate Tests b

.995 2296.239a 5.000 63.000 .000 .995

.005 2296.239a 5.000 63.000 .000 .995

182.241 2296.239a 5.000 63.000 .000 .995

182.241 2296.239a 5.000 63.000 .000 .995

.374 7.542a 5.000 63.000 .000 .374

.626 7.542a 5.000 63.000 .000 .374

.599 7.542a 5.000 63.000 .000 .374

.599 7.542a 5.000 63.000 .000 .374

.388 7.974a 5.000 63.000 .000 .388

.612 7.974a 5.000 63.000 .000 .388

.633 7.974a 5.000 63.000 .000 .388

.633 7.974a 5.000 63.000 .000 .388

.104 1.465a 5.000 63.000 .214 .104

.896 1.465a 5.000 63.000 .214 .104

.116 1.465a 5.000 63.000 .214 .104

.116 1.465a 5.000 63.000 .214 .104

Pillai's Trace

Wilks' Lambda

Hotelling's Trace

Roy's Largest Root

Pillai's Trace

Wilks' Lambda

Hotelling's Trace

Roy's Largest Root

Pillai's Trace

Wilks' Lambda

Hotelling's Trace

Roy's Largest Root

Pillai's Trace

Wilks' Lambda

Hotelling's Trace

Roy's Largest Root

EffectIntercept

GENDER

SOB

GENDER * SOB

Value F Hypothesis df Error df Sig.Partial EtaSquared

Exact statistica.

Design: Intercept+GENDER+SOB+GENDER * SOBb.

105







209

Source Dependent Variable Sum of Squares

df Mean Square

F Sig.

GENDER IQ 2441.692 1 2441.692 33.279 .000Mathematical Ability 20.893 1 20.893 4.723 .033

Reading Accuracy .159 1 .159 .107 .744Reading

Comprehension1.922 1 1.922 3.219 .077

Communication Skill 11.275 1 11.275 3.937 .051SOB IQ 1267.047 1 1267.047 17.269 .000

Mathematical Ability 44.414 1 44.414 10.041 .002Reading Accuracy 2.017 1 2.017 1.363 .247


10.629 1 10.629 17.796 .000

Communication Skill 19.350 1 19.350 6.756 .011GENDER *

SOBIQ 251.550 1 251.550 3.429 .068

Mathematical Ability 2.009 1 2.009 .454 .503Reading Accuracy .846 1 .846 .572 .452


9.754E-03 1 9.754E-03 .016 .899

Communication Skill 3.149E-03 1 3.149E-03 .001 .974Error IQ 4915.794 67 73.370

Mathematical Ability 296.371 67 4.423Reading Accuracy 99.134 67 1.480


40.018 67 .597

Communication Skill 191.888 67 2.864

Teste UnivariadoUniversidade Federal de Uberlândia






210

ManovaManova1. Gender

54.940 1.726 51.494 58.386

67.329 1.277 64.779 69.878

3.232 .424 2.385 4.078

4.378 .314 3.752 5.003

7.334 .245 6.845 7.824

7.434 .181 7.072 7.796

8.020 .156 7.709 8.331

8.368 .115 8.138 8.598

6.698 .341 6.017 7.379

7.540 .252 7.036 8.043

GenderFemale

Male

Female

Male

Female

Male

Female

Male

Female

Male



Reading Accuracy


Communication Skill



2. Season of Birth

56.672 1.633 53.412 59.932

65.596 1.394 62.814 68.379

2.969 .401 2.169 3.770

4.640 .342 3.957 5.323

7.206 .232 6.743 7.669

7.562 .198 7.167 7.958

7.785 .147 7.491 8.079

8.603 .126 8.351 8.854

6.567 .323 5.923 7.211

7.670 .275 7.120 8.220

Season of BirthNot Summer

Summer

Not Summer

Summer

Not Summer

Summer

Not Summer

Summer

Not Summer

Summer



Reading Accuracy


Communication Skill



106







211

Não nasceu no verão Não nasceu no verão �� 00Wilks' Lambda

.686 25.050 5 .000Test of Function(s)1

Wilks'Lambda Chi-square df Sig.

Standardized Canonical Discriminant Function Coeffi cients

.235

.388

.141

.640

.359

IQ


Reading Accuracy


Communication Skill

1

Function

� Esta função separa bem os dois grupos (Wilks’ Lambda)

� Coeficientes padronizados, mostram a contribuição de cadavariável na função.







212

Correlações entre as variáveis Correlações entre as variáveis preditoras e a funçãopreditoras e a função

Structure Matrix

.743

.614

.508

.442

.175


IQ


Communication Skill

Reading Accuracy

1

Function

Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.

107







213

Sucesso da prediçãoSucesso da predição

Classification Results a

23 9 32

7 32 39

71.9 28.1 100.0

17.9 82.1 100.0

Season of BirthNot Summer Born

Summer Born

Not Summer Born

Summer Born

Count

%

Original

Not SummerBorn Summer Born

Predicted Group Membership

Total

77.5% of original grouped cases correctly classified.a.

ESTATÍSTICA MULTIVARIADA 11... · alimentares para os habitantes de 25 países da Europa . Foram...

Documents

Transcript of ESTATÍSTICA MULTIVARIADA 11... · alimentares para os habitantes de 25 países da Europa . Foram...