ESTATÍSTICA MULTIVARIADA 11... · alimentares para os habitantes de 25 países da Europa . Foram...
Transcript of ESTATÍSTICA MULTIVARIADA 11... · alimentares para os habitantes de 25 países da Europa . Foram...
1
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
1
ESTATÍSTICA MULTIVARIADAESTATÍSTICA MULTIVARIADA11
Prof. Dr. Marcelo Tavares
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
2
BIBLIOGRAFIA
� HAIR, J. F., ANDERSON, R. E. TATHAM, R. L., BLACK, W. C. Análise Multivariada de Dados. 5. ed. Porto Alegre: Bookman, 2006.
� MANLY, B. F. J. (Org.) ; DIAS, Carlos Tadeu dos Santos(Org.) . Métodos estatísticos multivariados - uma introduç ão.3. ed. Porto Alegre: ARTMED/Bookman, 2008. v. 1. 229 p.
� Corrar, Luiz J. ; Paulo, Edilson & Dias Filho, Jose Maria. Análise Multivariada: Para Os Cursos de Administraç ão, Ciências Contábeis E Economia. Editora Atlas, 2007.
� JOHNSON, R.A. & WICHERN, D.W. 1998. Applied multivariate statistical analysis. 4th Ed., Prentic e Hall, New Jersey, 816 p
2
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
3
Definição de Análise MultivariadaDefinição de Análise Multivariada
� Análise multivariada refere-se a todos osmétodos analíticos que analisamsimultaneamente múltiplas medidas emcada indivíduo ou objeto sob investigação
� Qualquer análise simultânea de mais do queduas variáveis pode ser consideradaanálise multivariada
� Muitas técnicas multivariadas sãoextensões das análises univariadas ebivariadas
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
4
� Análise multivariada ����
variáveis interrelacionadas
� Objetivo da análise multivariada ����
medir, explicar e predizer o grau de relaçãoentre variáveis
� O caráter multivariado ����
surge nas variáveis múltiplas (múltiplascombinações de variáveis)
3
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
5
Alguns conceitos básicos da Análise MultivariadaAlguns conceitos básicos da Análise Multivariada
� Variável: uma combinação linear devariáveis com pesos determinadosempiricamente
� Valor da variável: w 1X1 + w2X2 + . . . + wnXn
� Regressão múltipla ⇒⇒⇒⇒ a melhor correlaçãocom a variável que está sendo predita
� Análise discriminante ⇒⇒⇒⇒ criar escores paracada observação que diferencia ao máximoentre grupos de observações
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
6
Tipos de Técnicas MultivariadasTipos de Técnicas Multivariadas� Componentes Principais: transformação
linear de p variáveis em um conjunto com kvariáveis não correlacionadas
Objetivos:
� Redução da dimensionalidade dos dados� Obtenção de combinações interpretáveis
das variáveis� Descrição e entendimento da estrutura de
correlação das variáveis
4
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
7
� Análise Fatorial ⇒⇒⇒⇒ descreve a estrutura dedependência de um conjunto de variáveisatravés da criação de fatores, que sãovariáveis que medem aspectos comuns
� Permite identificar o quanto cada fator estáassociado a cada variável e o quanto cadaconjunto de fatores explica davariabilidade total dos dados originais
� Usossumarização e redução dos dados
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
8
� técnica de interdependência ���� conceito davariação, a composição linear das variáveis
� Variações (fatores) ����maximizar suaexplicação
� Não para predizer uma variável (s)dependente (s)
5
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
9
� Análise Discriminante ⇒⇒⇒⇒ usada em variáveisdependentes dicotômica ou multicotômica
� Objetivo é diferenciar e/ou classificarobjetos em populações pré definidas.
Exemplos:� - instituições� Classificação do cliente
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
10
� A análise discriminante envolve aderivação de uma variação em que acombinação linear de duas (ou mais)variáveis independentes serão melhordiscriminadas entre grupos definidos àpriori
� A combinação linear ���� funçãodiscriminante
� Classificação de objetos extra-amostra emuma das populações.
6
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
11
� Análise Multivariada da Variância (MANOVA):
explora a relação entre várias variáveis
independentes categóricas (tratamentos) e
duas ou mais variáveis dependentes
métricas
� Extensão multivariada das técnicas
univariadas para acessar diferenças entre
grupos de médias
� O processo univariado inclui o teste t e
ANOVA
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
12
� No teste t e ANOVA, a hipótese denulidade testada é a igualdade de médiasdas variáveis dependentes nos grupos.
� Em MANOVA, a hipótese de nulidadetestada é a igualdade de vetores demédias nas múltiplas variáveisdependentes ao longo dos grupos
� ANOVA: H0: µµµµ1 = µµµµ2 = . . . = µµµµk ou seja,todos os grupos de médias são iguais, istoé, eles vêm da mesma população
7
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
13
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
14
� Correlação Canônica: extensão lógica daanálise de regressão múltipla.
� Objetivo é correlacionar simultaneamentevárias variáveis métricas dependentes evárias variáveis métricas independentes.
� Regressão múltiplavs
Correlação canônica
8
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
15
Objetivos:
� Determinar se dois conjuntos devariáveis são independentes um dooutro, ou, determinar a magnitude derelações que pode existir entre os doisconjuntos;
� Explicar a natureza das relaçõesexistentes entre os conjuntos devariáveis dependentes e independentesmedindo a relativa contribuição de cadavariável para as funções canônicas quesão extraídas.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
16
� O princípio desta técnica é desenvolveruma combinação linear de cada conjuntode variáveis (ambas independentes edependentes) para maximizar a correlaçãoentre os dois conjuntos.
� Ou seja, a obtenção de um conjunto depesos para as variáveis independentes edependentes que fornecem a máximacorrelação simples entre o conjunto devariáveis dependentes e o conjunto devariáveis independentes.
9
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
17
Análise de Agrupamentos ⇒ técnica analíticapara o desenvolvimento de subgrupossignificativos de indivíduos ou objetos.
� O objetivo é classificação em gruposbaseada nas similidades entre osindivíduos ou objetos
� Diferença entre análise de agrupamento ediscriminante
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
18
Envolve no mínimo 3 passos.
� Primeiro ���� obtenção das similaridades oudissimilaridades.
� Segundo ���� processo de agrupamento.
� O passo final é a determinação dos grupos
10
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
19
Case 1. A Deinter (divisão territorial de polícias) do Estado de
São Paulo reuniu dados referentes as taxas de delitos por
100.00 habitantes no ano de 2002, nas cidades de S. J. Rio
Preto, Ribeirão Preto, Bauru, Campinas, Sorocaba, São Paul o,
S. J. Campos e Santos. Os delitos eram: homicídio doloso;
furto; roubo; roubo e furto de veículos. Para cada município
obteve-se uma taxa relativa aos delitos.
� EX: Em S.J.R.P., as taxas foram de 10,85; 1.500,80; 149,35;
108,38 para os delitos homicídio doloso; furto; roubo; roub o
e furto de veículos, respectivamente.
� Admita que se deseja dividir em 4 grupos de regiões que
sejam homogêneas quanto à incidência de homicídios
dolosos e furtos. Qual técnica multivariada eu poderia
aplicar?
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
20
Case 2. Um pesquisador aplicou um questionário utilizado na
mensuração de traços emocionais existentes em uma
pessoa. Deve-se avaliar cada frase, atribuindo-se uma nota
entre 1 e 4, na qual 1 indica que aquilo que a frase descreve
nunca ocorre e 4 indica que ocorre quase sempre. A medida
de ansiedade é obtida a partir da soma das notas de cada
frase. O questionário foi aplicado à uma amostra de 1.110
estudantes universitários brasileiros.
� Os itens do questionário são: 1-sinto-me bem; 2-preocupo-
me demais com as coisas sem importância; 3-sou feliz; 4-
deixo-me afetar muito pelas coisas; 5-sinto-me seguro; 6-
estou satisfeito; 7-as vezes idéias sem importância me
entram na cabeça e ficam me preocupando; 8-levo as coisas
tão a sério que não consigo tirá-las da cabeça.� Qual técnica multivariada eu poderia utilizar para analisa r
esses dados?
11
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
21
Case 3. Um administrador está interessado em avaliar o nível deansiedade de seus funcionários após a implantação de umapolítica de demissão voluntária e suas conseqüências naprodutividade da empresa. Existe uma dificuldade em medir aansiedade de um funcionário.
� A ansiedade é um conceito abstrato que não pode sermedido diretamente.
Case 4. Deseja-se avaliar a satisfação dos habitantes de ummunicípio com a administração municipal.
� O que é e como medir satisfação?
Case 5. Deseja-se medir a variação no bem-estar de pacientessubmetidos a radioterapia.
� Como definir bem estar?
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
22
Case 6. Uma das atribuições do Banco Central do Brasil éfiscalizar as instituições financeiras do país com a finali dadede detectar possíveis problemas de solidez e decomportamento. A idéia é desenvolver métodos estatísticosque possibilitem classificar essas instituições como “com ”ou “sem” problemas e alertar o Banco Central para umafiscalização mais rigorosa a instituições classificadas e m“com problemas”.
� Foi realizado um estudo com 20 instituições financeiras(bancos), sendo 10 com problemas e 10 sem problemas(classificadas como 1 e 2, respectivamente), nas quais fora mcoletadas informações de 4 indicadores econômico-financeiros (1-liquidez imediata; 2-participação dos dep ósitosinterfinanceiros no total operacional; 3-participação da sexigibilidades no ativo operacional; 4-participação dasrendas de prestação de serviços em relação às despesasadministrativas).
� Admita que queiramos obter uma regra com base nessas 4variáveis. Qual técnica multivariada eu devo utilizar?
12
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
23
Case 7. Uma empresa deseja conhecer o perfil deseus consumidores. Para tanto, elabora umapesquisa na qual é feito um levantamento de dadosde uma grande amostra. A análise dos dados geraalgumas dúvidas:
� os consumidores têm um perfil homogêneo, emrelação às características levantadas?
� Se o perfil não for homogêneo, é possívelidentificar grupos homogêneos?
� Quantos grupos existem?
� Qual técnica multivariada eu devo utilizar?
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
24
Case 8. A pesquisa emprego-desemprego do DIEESE/SEADE éum levantamento amostral realizado na região metropolitan ade São Paulo. Na sua fase de planejamento, constatou-se queos municípios da Grande São Paulo e os distritosadministrativos da capital não eram homogêneos em relaçãoa dados sobre o tipo de ocupação da população residente.Levar em conta a heterogeneidade da amostra num planoamostral acarreta um aumento na eficiência dos estimadores .Uma maneira de considerar essa heterogeneidade é realizaruma amostra estratificada. Cada estrato seria formado pormunicípios (ou distritos administrativos, no caso da capit al)cujas populações tivessem um perfil ocupacional semelhant e.É necessário então saber como definir os estratos, quantosestratos existem e quais são os municípios (distritos) de ca daestrato.
� Qual técnica multivariada o pesquisador poderia utilizar p aratirar suas conclusões?
13
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
25
Case 9. Um arqueólogo tem dados sobre a
localização de restos de cerâmica encontrados em
um sítio arqueológico. Para conhecer como era a
organização espacial da tribo que lá habitava, ele
necessita ter uma idéia mais precisa da dispersão
dessas peças. Há locais com alta concentração de
peças? Quantos?
� Qual técnica multivariada o pesquisador poderia
utilizar para tirar suas conclusões?
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
26
Case 10: Foi realizado um estudo para estimar o
consumo médio de proteínas de diferentes fontes
alimentares para os habitantes de 25 países da
Europa . Foram anotados os consumos de proteína
em g/dia dos seguintes alimentos: carne vermelha,
carne branca, ovos, leite, cereais, oleaginosas,
frutas e vegetais. O objetivo é investigar as
relações entre ao países com base nessas
variáveis.
� Qual técnica multivariada poderia ser utilizada para responder essas questões?
14
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
27
Diretrizes para Interpretação e Análise MultivariadaDiretrizes para Interpretação e Análise Multivariada
1) Estabelecimento de uma significância estatísticabem como uma significância prática
A significância prática faz a seguinte pergunta “ edaí”? Para qualquer aplicação gerencial, osresultados devem ter uma demonstração dosefeitos que justificam as ações.
As pesquisas estão se tornando mais focadas nãosomente nos resultados estatisticamentesignificativos, mas também, em suas substantivas eteóricas implicações, no qual são muitas vezesretiradas de sua significância prática
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
28
2) Tamanho da amostra afeta todos os resultados⇒⇒⇒⇒Desigual tamanho de amostras entre gruposinfluencia os resultados e requer adicionalinterpretação e ou análise
3) Conhecer seus dados ⇒⇒⇒⇒ as técnicas multivariadasidentificam relações complexas que são muitodifíceis de serem representadas simplesmente
A análise multivariada requer um exame maisrigoroso dos dados por causa da influência devalores errados ( outliers), violação depressuposições e dados perdidos podem sercomputados ao longo de várias variáveis que têmefeito substancial
15
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
29
4) Validade dos seus resultados ⇒⇒⇒⇒ a habilidade daanálise multivariada para identificar inter-relaçõescomplexas também significa que os resultadosencontrados podem ser específicos somente paraaquela amostra de dados e não ser generalizadopara a população
O objetivo não é encontrar o melhor ajuste apenaspara a amostra de dados, mas ao invés disso,desenvolver um modelo que melhor descreva apopulação como um todo
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
30
Uma estrutura proposta para a construção do modelo Uma estrutura proposta para a construção do modelo multivariadomultivariado
Estágio 1- Definir o problema a ser pesquisado, objetivos e a técnica multivariada a ser usada
Com os objetivos e o modelo conceitualespecificado, o pesquisador tem que apenasescolher a técnica multivariada apropriada
16
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
31
Estágio 2- Desenvolvimento do plano de análise ⇒⇒⇒⇒ aatenção se volta para a implementação da análise
O mínimo ou o desejado tamanho da amostra
Os tipos de variáveis permitidas ou requeridas(métrica versus não métrica)
Métodos de estimação
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
32
Estágio 3- Avaliação das pressuposições da técnicamultivariada ⇒⇒⇒⇒ Com os dados coletados, a primeiratarefa não é estimar o modelo multivariado, masavaliar as pressuposições
Todas as técnicas multivariadas têm suaspressuposições, ambas estatísticas e conceituais,que tem um impacto na sua capacidade derepresentar relações multivariadas
Para as técnicas baseadas em inferência estatística,as pressuposições da normalidade multivariada,linearidade, independência dos erros e igualdadede variâncias em uma relação de dependênciadevem ser observadas
17
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
33
Estágio 4. Estimativa do modelo multivariado e acessoao ajuste do modelo global ⇒⇒⇒⇒
Com as pressuposições satisfeitas, a análise éprocessada para a estimação do modelomultivariado e uma avaliação do modelo globalajustado
Depois que o modelo é estimado, o ajuste global domodelo é avaliado para se ter certeza se atingiuníveis aceitáveis de significância, identificou asrelações propostas e atingiu significância prática.
Muitas vezes, o modelo será reespecificado nosentido de atingir melhores níveis de ajustamentoglobal e/ou explicação
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
34
Estágio 5- Interpretar a variação ⇒⇒⇒⇒ Com aceitável níveldo ajuste do modelo, a interpretação da variação (s)revela a natureza da relação multivariada
A interpretação pode levar a re-especificaçõesadicionais das variáveis e/ou formulação domodelo, onde o modelo será re-estimado e entãointerpretado novamente
Estágio 6- Validade do modelo multivariado ⇒⇒⇒⇒ Antes deaceitar os resultados, o pesquisador deve estarsujeito a um conjunto final de análise dediagnósticos que acessa o grau de generalizaçãodos resultados pela validação do métododisponível
18
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
35
ESTATÍSTICA MULTIVARIADAESTATÍSTICA MULTIVARIADA22
(Componentes Principais)(Componentes Principais)
Prof. Dr. Marcelo Tavares
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
36
As p variáveis originais (X1, . . . , Xp) são transformadas emp variáveis (Y1, . . . , Yp), denominadas componentes principais, demodo que Y1 é aquela que explica a maior parcela da variabilidadetotal dos dados, Y2 explica a segunda maior parcela e assim pordiante. Portanto, podemos afirmar que os principais objetivos deACP são:
Principais Objetivos da Análise
ComponentesPrincipais
Reduçãoda dimensionalidade
dos dados
Obtençãode combinações
interpretáveis das variáveis
Descriçãoe entendimento da
estrutura de correlação das variáveis
Confirma grupos da Análise de Agrupamentos
19
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
37
- O intuito da análise é resumir o padrão de correlação entre asvariáveis e muitas vezes é possível chegar a conjuntos nãocorrelacionados de variáveis, de modo que surge algunsagrupamentos;
- Algebricamente, as componentes principais são combinações linearesdas variáveis originais;
- Geometricamente, as componentes principais são as coordenadas dospontos amostrais em um sistema de eixos obtido pela rotação dosistema de eixos original, na direção da máxima variabilidade dosdados;
- A análise de componentes principais depende somente da matriz decovariância ou a de correlação. Não exige qualquer suposição sobre aforma da distribuição multivariada dessas variáveis;
- Se a normalidade existe, a análise é engrandecida, se não ela aindavale a pena.
Algumas Considerações ImportantesUniversidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
38
MATRIZ DE DADOSMATRIZ DE DADOS� Matriz de dados para p variáveis e n
indivíduos;� As características observadas são
representadas pelas variáveis x1, x2, x3, ..., xp;
� A matriz de dados é de ordem ‘n x p’ e normalmente denominada de matriz ‘X’.
====
np3n2n1n
p3333231
p2232221
p1131211
xxxx
xxxxxxxxxxxx
X
⋯⋯⋯⋯
⋮⋮⋮⋮⋱⋱⋱⋱⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮
⋯⋯⋯⋯
⋯⋯⋯⋯
⋯⋯⋯⋯
20
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
39
MATRIZ DE COVARIÂNCIAMATRIZ DE COVARIÂNCIA� Obtida a partir da matriz X de dados de
ordem ‘n x p’;� É uma estimativa da matriz de covariância Σ da população π;
� A matriz S é simétrica e de ordem ‘p x p’.
====
)x(arV)xx(ovC)xx(ovC)xx(ovC
)xx(ovC)x(arV)xx(ovC)xx(ovC
)xx(ovC)xx(ovC)x(arV)xx(ovC
)xx(ovC)xx(ovC)xx(ovC)x(arV
S
p3p2p1p
p332313
p232212
p131211
⋯⋯⋯⋯
⋮⋮⋮⋮⋱⋱⋱⋱⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮
⋯⋯⋯⋯
⋯⋯⋯⋯
⋯⋯⋯⋯
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
40
PADRONIZAÇÃO DOS DADOSPADRONIZAÇÃO DOS DADOS
� Média zero e variância 1
Variância 1
p,,2,1jen,,2,1i,)x(s
xxz
j
jijij ⋯⋯ ==
−=
p,,2,1jen,,2,1i,)x(s
xz
j
ijij ⋯⋯ ===
21
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
41
MATRIZ DAS VARIÁVEIS MATRIZ DAS VARIÁVEIS PADRONIZADASPADRONIZADAS
� A matriz Z é igual a matriz de correlação R da matriz de dados X;
====
np3n2n1n
p3333231
p2232221
p1131211
zzzz
zzzz
zzzz
zzzz
Z
⋯⋯⋯⋯
⋮⋮⋮⋮⋱⋱⋱⋱⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮
⋯⋯⋯⋯
⋯⋯⋯⋯
⋯⋯⋯⋯
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
42
Considerações sobre a padronização Considerações sobre a padronização
� Normalmente partimos da matriz padronizada;
� O resultado a partir da matriz S pode ser diferente do resultado a partir da matriz R.
� A padronização só dever ser feita quando as unidades das variáveis observadas não são as mesmas.
22
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
43
Determinação dos componentesDeterminação dos componentes
� Os componentes principais são determinados resolvendo-se a equação característica da matriz S ou R, isto é
[ ] 0IRou0IRdet =λ−=λ−
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
44
AutovaloresAutovalores
� λ1, λ2, λ3, ..., λp são as raízes da equação característica da matriz R ou S, então:
� λ1, λ2, λ3, ..., λp são os autovalores da matriz R ou S;
23
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
45
AutovetoresAutovetores
� Para cada autovalor λi existe um autovetor:
====
ip
2i
1i
i
a
a
a
a~⋮⋮⋮⋮
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
46
Componente principal YComponente principal Yii
� Sendo o autovalor = λi , então o i-ésimo componente principal é dado por:
pip22i11ii XaXaXaY ++++++++++++==== ⋯⋯⋯⋯
24
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
47
Propriedades dos componentePropriedades dos componente
� A variância do componente principal Y i é igual ao valor do autovalor λi:
(((( )))) iiYarV λλλλ====O primeiro componente é o que apresenta maior variância e assim por diante:
)Y(arV)Y(arV)Y(arV p21 >>>>>>>>>>>> ⋯⋯⋯⋯
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
48
Propriedades dos componentePropriedades dos componente
� Total de variância das variáveis originais = somatório dos autovalores = total de variância dos componentes principais:
∑ ∑ ∑=λ= )Y(arV)X(arV iii
Os componentes principais não são correlacionados entre si:
( ) 0Y,YovC ji =
25
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
49
Importância de cada componenteImportância de cada componente
� Medida pela porcentagem de variância de cada componente
(((( ))))(((( )))) (((( )))) 100
Straço100100
YarV
YarVC i
p
1ii
ip
1ii
ii ⋅⋅⋅⋅
λλλλ====⋅⋅⋅⋅λλλλ
λλλλ====⋅⋅⋅⋅====∑∑∑∑∑∑∑∑========
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
50
A importância de cada componenteA importância de cada componente
� É expressa pela proporção de variância total explicada pelo componente
(((( )))) (((( ))))(((( ))))
pkonde%70100YarV
YarVYarVk
1ii
k1 <<<<≥≥≥≥⋅⋅⋅⋅++++
∑∑∑∑====
⋯⋯⋯⋯
26
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
51
Número de componentesNúmero de componentes
� Não existe um modelo estatístico;� O número de ser aquele que acumula
70% ou mais de proporção da variância total.
(((( )))) (((( ))))(((( ))))
pkonde%70100YarV
YarVYarVk
1ii
k1 <<<<≥≥≥≥⋅⋅⋅⋅++++
∑∑∑∑====
⋯⋯⋯⋯
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
52
Interpretação dos componentesInterpretação dos componentes
� Verifica-se o Grau de influência que cada variável Xj tem sobre o componente Yi.
(((( )))) (((( ))))))))j
1j11YXj1,j
XarV
YarVarYXCorr ====⋅⋅⋅⋅====⋅⋅⋅⋅====
� Verificar o peso ou loading de cadavariável sobre o componente
(((( )))) (((( )))) (((( ))))p
p1p
2
122
1
111
XarV
aw,
XarV
aw,
XarV
aw ⌢⌢⌢⌢⋯⋯⋯⋯⌢⌢⌢⌢⌢⌢⌢⌢ ============
27
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
53
Interpretação dos componentesInterpretação dos componentes
� Verificar o peso ou loading de cadavariável sobre o componente
(((( )))) (((( )))) (((( ))))p
p1p
2
122
1
111
XarV
aw,
XarV
aw,
XarV
aw ⌢⌢⌢⌢⋯⋯⋯⋯⌢⌢⌢⌢⌢⌢⌢⌢ ============
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
54
Escores dos componentesEscores dos componentes
� Organização dos dados⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮⋮
Trat(Indiv)
VariáveisEscores dos
componentes principais
X1 X2 ... Xp Y1 Y2 ... Yk
1 X11 X12 ... X1p Y11 Y12 ... Y1k
2 X21 X22 ... X2p Y21 Y22 ... Y2k
n Xn1 Xn2 Xnp Yn1 Yn2 ... Ynk
⋮⋮
28
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
55
Exemplo de aplicaçãoExemplo de aplicaçãoValores originais observados (X 1 e X2) e
padronizados (Z 1 e Z2) de duas variáveispara cinco tratamentos (n=5).
TratamentosVariáveis originais
Variáveis padronizadas
X1 X2 Z1 Z2
1 102 96 24,3827 6,9554
2 104 87 24,8608 6,3033
3 101 62 24,1436 4,4920
4 93 68 22,2313 4,9268
5 100 77 23,9046 5,5788
Variância 17,50 190,50 1 1
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
56
Padronização da variânciaPadronização da variância
� Os dados estão padronizados para variância 1:
( ) 8608,245,17
104Z
Xs
XZ 12
j
ijij ==⇒=
29
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
57
Matriz de correlaçãoMatriz de correlação
� Elementos da diagonal principal igual a 1
=
15456,0
5456,01R
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
58
Autovalores da matriz RAutovalores da matriz R
λ1 = 1,5456 e λ2 = 0,4544
Traço da matriz R
traço(R) = 1+1=2
30
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
59
Autovetores da matriz RAutovetores da matriz R
Primeiro autovetor
=
=
=
7070,0
7071,0
1
1
2
1a
aa~
12
111
Segundo autovetor
−=
−=
=
7070,0
7071,0
1
1
2
1
a
aa~
22
2121
Primeiro componente
211 7071,07071,0 ZZY +−=
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
60
Informações obtidas Informações obtidas
PCA Var(λ)
Coeficiente de ponderação
Correlação entre Zj eYi
%da variância
total
% acumulada
de variância dos Y i
Z1 Z2 Z1 Z2
Y1 1,5456 0,7071 0,7071 0,879 0,879 77,28 77,28
Y2 0,4544 -0,7071 0,7071 -0,476 0,476 22,72 100,00
31
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
61
Escores dos dois componentesEscores dos dois componentes
TratamentosEscores dos componentes principais
Y1 Y2
1 22,16 -12,32
2 22,04 -13,12
3 20,25 -13,90
4 19,20 -12,24
5 20,85 -12,96
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
62
Gráfico de dispersãoGráfico de dispersão
19
20
21
22
23
-14 -13.5 -13 -12.5 -12
Segundo componente (Y2)
Prim
eiro
com
pone
nte
(Y1)
12
3
4
5
32
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
63
No menu Help, opte por Open Examples, na pasta Datasetsbusque o arquivo Economic Indicators. O arquivo consta de informações
econômicas (Imposto, PNB, Inflação e Dívida) de 40 países.
Vamos estudar o relacionamento
entre as variáveis usando a Análise
de Correlações. Depois faremos uma Análise de
Agrupamentos e, logo em seguida,
uma Análise de Componentes
Principais.
Um case utilizando o StatisticaUm case utilizando o StatisticaUniversidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
64
Vamos proceder com uma análise de correlação. No menu Statistics, opte por Basic Statistics and Tables e, em seguida, clique duas vezes na opção Correlation matrices.
Insira todas as variáveis em One variable list e clique em Summary Correlation matrix.
Depois clique na opção Scatterplot matrix.
33
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
65
Correlations (Economic indicators 4v*40c)
WAGERATE
GNP
INFLAT ION
DEBT
Vamos avaliar os resultados: O que há de peculiarentre as variáveis? Qual a estrutura de relação entre elas?
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
66
Agora, para finalizar essa motivação, vamos à técnica de Análise deComponentes Principais. No menu Statistics, opte por MultivariateExploratory Techiniques e Principal Components & ClassificationAnalysis.
34
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
67
Na aba Advanced, em Variables inserimos as variáveis de interesse para a análise como na janela abaixo. Variáveis suplementares são aqueles que desejamos analisar, mas não diretamente.
Podemos desejar usar
apenas algumas
observações, então usamos Active cases
variable.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
68
Para observar o comportamento
das variáveis podemos avaliar
um gráfico de scaterplot. Clique
em Plot var. factor
coordinates, 2D. Em seguida, na
aba Cases clique em Plot cases
factor coordinates, 2D.
35
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
69
Projection of the var iables on the factor-plane ( 1 x 2)
WAGERATE GNP
INFLATION
DE BT
-1,0 -0,5 0,0 0,5 1,0
Factor 1 : 94,31%
-1,0
-0,5
0,0
0,5
1,0
Fac
tor
2 :
3,11
%
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
70
Projection of the cases on the factor-plane ( 1 x 2)
Cases with sum of cosine square >= 0,00
Active
Algeria
AustraliaAustria
Belgium
Britain
Brazil
China
Czech Republic DenmarkE gypt
Ethiopia
F inland
France
Germany
GreeceHaiti Hungary
India
Indonesia
Ireland
Italy
J apan
Kenia
Korea Lux emburg
Malaysia
Mex ico
Netherlands
Norw ay
Peru
Poland
Portugal
South Africa
Spain
Sri Lanka Sw edenSw itzerland
Taiw an
Thailand
USA
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
Factor 1: 94,31%
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Fac
tor
2: 3
,11%
36
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
71
Vamos retornar àquele exemplo sobre índices econômicos. Vejamos como se estrutura o relacionamento entre as variáveis e avaliar um modelo algébrico de componentes principais. Clique em Eigenvalues e Eigenvectors(Autovalores e Autovetores).
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
72
37
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
73
Os autovetores nos dão os coeficientes das equações lineares abaixo:
CP1 = – 0,507.Wagerate + 0,497.GNP – 0,504.Inflation – 0,492.Debt
CP2 = 0,386.Wagerate + 0,183.GNP + 0,516.Inflation – 0,742.Debt
CP3 = – 0,192.Wagerate – 0,848.GNP – 0,204.Inflation – 0,450.Debt
CP4 = 0,746.Wagerate + 0,025.GNP – 0,662.Inflation – 0,066.Debt
CP1 é responsável por 94,31% da informação original e CP2 éresponsável por 3,11% da informação original. Essas duas componentesjuntas nos fornecem 97,42% de informação.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
74
Em Resumo
- É importante observar quanto da variabilidade total é explicada porcada componente principal. Para encontrar essa medida, bastacalcular;
- Componentes Principais também podem ser obtidas a partir dasvariáveis padronizadas, ou seja, a partir da matriz de correlação;
- As componentes principais derivadas da matriz de covariância Σsão, em geral, diferentes das componentes principais derivadas damatriz de correlação ρ;
- Se os dados seguem uma distribuição Normal Multivariada, osautovalores de Σ são distintos e a análise de componentes principaisé feita com base no Estimador de Máxima Verossimilhança da matrizde covariância.
p; , ... 2, 1, i ,...21
=+++ p
i
λλλλ
38
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
75
Quando as variáveissão medidas em escalasdiferentes,é mais naturalusar as variáveispadronizadas;
Se o objetivoé agrupar indivíduos,de modo que uma análisede agrupamentossegue aanálise de componentes principais;
Se o objetivoé construir índices(muito comum nas áreasde Economia e Biologia),a análise estatística terminacom a obtençãodas componentes principais
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
76
Quantidade de Componentes a Escolher
Critério de Kaiser (1958)Matriz de Covariância
Manter na análise as componentes principaiscorrespondentes aos autovalores maiores do que amédia dos autovalores.Matriz de Correlação
Manter as componentes principais que forem maiores ouiguais a 1.
Reter o númerode componentes principaisque acumulempelo menos certaPorcentagemda variabilidade total dosdados, digamos 70%.
Reter as componentes principaisque acumulem pelo menosuma certa porcentagemda variabilidadede cada umadas variáveis originais,digamos 50%.
39
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
77
Eigenvalues of correlation matrix
94,31%
3,11% 2,23% ,34%
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
Eigenvalue number
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5E
igen
valu
e
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
78
Como Interpretar as Componentes Principais?
- A interpretação é feita com base nas correlações entreas variáveis originais e as componentes principais, e noscoeficientes dados pelas combinações lineares quelevam às componentes principais;
- As correlações são medidas das contribuiçõesindividuais de cada variável e não consideram acontribuição multivariada das demais variáveis;
- A primeira componente principal pode ser interpretadacomo uma média entre as variáveis com maiorcoeficiente na combinação linear
40
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
79
Podemos medir o grau de relação que existe entre as variáveis e ascomponentes principais com a opção Factor & variable correlations.
E podemos também medir a contribuição
de cada variável para a construção de
uma componente
principalusando a
opção Contributions of variables.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
80
111.CPX WagerateCPX Wagerate CPv λρ =
98512,0772414,3.5072,0 =−=
( )2CPX WagerateCPX Wagerate 11
ãoContribuiç v=
( ) 257252,05072,0 2 =−=
41
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
81
Podemos avaliar um modelo de
agrupamento usando a técnica de
componentes principais, basta clicar
nas opções Factor coordinates of cases e
Plot case factor coordinates, 2D.
Um modelo de Scorespode ser exibido com
as opções Factor scores e Factor scores
Coefficients
Análise de ClassificaçãoUniversidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
82
Projection of the cases on the factor-plane ( 1 x 2)
Cases with sum of cosine square >= 0,00
Active
Algeria
AustraliaAustria
Belgium
Britain
Brazil
China
Czech Republic DenmarkE gypt
Ethiopia
F inland
France
Germany
GreeceHaiti Hungary
India
Indonesia
Ireland
Italy
J apan
Kenia
Korea Lux emburg
Malaysia
Mex ico
Netherlands
Norw ay
Peru
Poland
Portugal
South Africa
Spain
Sri Lanka Sw edenSw itzerland
Taiw an
Thailand
USA
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5
Factor 1: 94,31%
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Fac
tor
2: 3
,11%
42
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
83
ESTATÍSTICA MULTIVARIADAESTATÍSTICA MULTIVARIADA33
(Análise Fatorial)(Análise Fatorial)
Prof. Dr. Marcelo Tavares
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
84
Definição e Conceitos
Análise Fatorial é um nome genérico dado a uma classe de métodosestatísticos multivariados cujo propósito principal é definir a estruturasubjacente em uma matriz de dados. Assim, têm-se os seguintespontos:
Abordar o problema de analisar a estrutura das inter-relações(correlações) entre um grande número de variáveis, definindoum conjunto de dimensões latentes comuns, chamadas defatores;
Identificar as dimensões separadas da estrutura e entãodeterminar o grau em que cada variável é explicada por cadadimensão;
Resumir e reduzir os dados em dimensões latentesinterpretáveis e compreensíveis usando escores para cadadimensão e, conseqüentemente, substituir as variáveis originais.
43
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
85
+
=
−
pmpmpp
m
m
pp F
F
F
X
X
X
ε
εε
φφφ
φφφφφφ
µ
µµ
⋮⋮
⋯
⋮⋯⋮⋮
⋯
⋯
⋮⋮
2
1
2
1
21
22221
11211
2
1
2
1
Traduzindo para notação de matriz, temos:
Cargas Fatoriais
Podemos interpretar as cargas fatoriais como:
( ) ( )jimimjijiji FFFFCovFXCov ;, 11 εφφφ +++++= ……
( ) ( ) ijjjijji FFCovFXCov φφ == ;,
Observe que os fatores são ortogonais, ou seja a covariância entrefatores é igual a zero. Portanto,
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
86
Vamos estudar a variância das variáveis observadas. Para Xi
temos:
( ) ( ) ( )imimiiiii FFVarXVarXVar εφφµσ +++=−== …112
o resultado disso é:
Portanto, temos dois importantes conceitos:
Comunalidade. Parcela da variância de Xi que é explicadapelos fatores comuns.
Especificidade. Parcela de variância de Xi que não é explicadapelos fatores
iimii ψφφσ +++= 221
2…
221
2imiic φφ ++= …
idadeEspecifici ψ :
Pode-se usar a proporção de
variabilidade explicada:2
2
Pri
ii
c
σ=
44
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
87
Se definimos a variabilidade total das variáveis originaiscomo sendo:
∑=
=p
iiT
1
22 σσ
∑=
p
iic
1
2
Representa a parcela da variabilidade total que é explicada peloconjunto de fatores. Conseqüentemente,
21
2
PrT
p
ii
T
c
σ
∑==
temos, então que
é a proporção da variabilidade total dos dados que é explicada peloconjunto de fatores comuns.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
88
Aplicação
Imagine a matriz de correlação para nove elementos da imagem deuma loja:
Política de devolução
PessoalDisponibilidade de produto
Serviço internoDiversidade de itens para cada
produtoNível de Preço
Atmosfera da loja
Diversidade de produtos
Qualidade de produto
A questão que se pode levantar é: Estes elementos todos sãoseparados no que se refere às suas propriedades de avaliação oueles se ‘agrupam’ em algumas áreas mais gerais de avaliação?
45
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
89
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
90
Experiência Interna
Oferta de Produtos
Valor
46
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
91
O propósito geral de técnicas de análise fatorial é encontrar um modo decondensar a informação contida em diversas variáveis originais em umconjunto menor de novas dimensões compostas ou variáveis estatísticas comuma perda mínima de informação.
Planejamento da Análise Fatorial
Etapas do Processo de Análise Fatorial
Objetivo
É importante definir com critério as variáveis que farão parte da pesquisa comAnálise Fatorial, definir as propriedades de medidas e tipos de variáveisenvolvidas. Quanto maior for o número de variáveis, maior será o tamanho daamostra.
Algumas cuidados importantes em Análise de Fatores dizem respeito aotamanho da amostra:
Dificilmente um pesquisador realiza uma Análise Fatorial com menos que50 observações;
Preferencialmente, o tamanho da amostra deve ser maior ou igual a 100;
Alguns estudiosos propõem um mínimo de 20 observações vezes onúmero de variáveis a serem estudadas.
Quando se lida com amostras menores, o pesquisador sempre deveinterpretar qualquer descoberta com precaução.
Variáveis
Tamanho da Amostra
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
92
É importante falar sobre as pressuposições para a Análise de Fatores. Assuposições críticas na análise fatorial são mais conceituais do que estatísticas:
Desvios da normalidade, da homocedasticidade e da linearidade aplicam-seapenas no nível em que elas diminuem as correlações observadas;
Se a normalidade existe, a análise é engrandecida, senão ela ainda vale apena de ser feita;
Um pouco de multicolinearidade é desejável, pois o objetivo é identificarconjuntos de variáveis inter-relacionados.
Deve-se garantir que a matriz de dados tenha correlações suficientes parajustificar a aplicação da análise fatorial.
Deve haver um número substancial de correlações maiores que 0,30, casocontrário a Análise Fatorial é inapropriada.
Suposições da Análise Fatorial
47
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
93
Uma vez especificadas as variáveis e preparada a matriz de correlações,podemos aplicar a análise fatorial para identificar a estrutura latente de relações. Aquestão agora é que modelo escolher: Componentes Principais ou Análise deFatores?
O modelo de componentes principais é apropriado quando:
a preocupação principal é a previsão;
ou o número mínimo de fatores para explicar uma quantidade suficiente davariância total das variáveis originais;
o conhecimento sobre a variância específica e do erro são pequenas.
O modelo fatorial comum é requerido quando:
o objetivo é identificar as dimensões latentes representadas nas variáveisoriginais;
Tem-se pouco conhecimento sobre a quantia de variância específica e do erroe, portanto, deseja eliminar essa variância.
Determinação de Fatores e Avaliação do Ajuste Geral
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
94
Vale à pena considerar alguns pontos críticos sobre Análise de Fatores:
Distintos escores fatoriais podem ser calculados a partir dos resultados domodelo fatorial para qualquer respondente – indeterminância fatorial;
Em Análise de Componentes Principais a solução é única para cadarespondente;
Por vezes, as comunalidades, usadas para representar a variânciacompartilhada, não são estimáveis ou podem ser inválidas (valores maioresque 1 e menores que 0), exigindo eliminar a variável da análise;
Na maioria das aplicações, tanto ACP e AF chegam a resultadosessencialmente idênticos se o número de variáveis exceder 30, ou se ascomunalidades excederem 0,60 para a maioria das variáveis
Quando houver dúvida sobre os pressupostos de ACP, então AF deve seraplicada para avaliar sua representação da estrutura.
Determinação de Fatores e Avaliação do Ajuste Geral
48
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
95
Critério da raiz latente:
Apenas fatores que têm autovalores maiores que 1 são consideradossignificantes, os demais são descartados; esse critério é mais confiávelquando o número de variáveis está entre 20 e 50.
Critério a priori:
O pesquisador simplesmente já sabe quantos fatores extrair antes deempreender a análise.
Critério de percentagem de variância:
O objetivo é garantir significância para os fatores que acumulem umpercentual acumulado satisfatório da variância total nas variáveis originais.
Critério do teste scree:
Esse teste é usado para identificar o número ótimo de fatores que podem serextraídos antes que a quantia de variância única comece a dominar aestrutura de variância comum.
Critérios para o número de fatores a extrair
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
96
Cargas fatoriais:
A carga fatorial é o meio de interpretar o papel que cada variável tem nadefinição de cada fator;
As cargas fatoriais são a correlação de cada variável com o fator, elas sãosignificantes quando seus valores excedem 0,70;
Cargas maiores fazem a variável ser representativa no fator.
Rotação de fatores:
Interpretação dos Fatores
V1V2
V3
V4
V5
0,50 1,0-0,50-1,0
-0,50
-1,0
0,50
1,0
Fator 1
Fator 2 Fator 2_Ort
Fator 1_Ort
RotaçãoFatorial
Fator 2_Obl
Fator 1_Obl
Quartimax. Concentra-se em rotacionaro fator inicial de modo que uma variáveltenha carga alta em um fator e cargastão baixas nos demais;
Varimax. Este método, por outro lado,busca concentrar cargas altas e baixasem cada fator, isso maximiza a variância
Equamax. É uma espécie de acordoentre os dois métodos acima.
49
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
97
Especificação da matriz fatorialDeterminar o número de fatores a serem
mantidos
Seleção de um método fatorialA variância total ou apenas a variância
comum é analisada
Seleção de um método rotacionalOs fatores devem ser correlacionados (oblíquos) ou
não correlacionados (ortogonais)?
Interpretação da matriz fatorial rotacionadaÉ possível encontrar cargas fatoriais significantes?É possível nomear os fatores?As comunalidades são suficientes
Reespecificação do modelo fatorialAs variáveis foram eliminadas?Deseja mudar o número de fatores?Deseja outro tipo de rotação?
Variância TotalExtrair fatores com Análise
de Componentes
Variância ComumExtrair fatores com Análise
de fatores comuns
Método ortogonalVarimax, Equimax, Quartimax
Método oblíquoOblimin, Promax, Ortoblíquo
Não
Sim
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
98
Exemplo
Vamos considerar que se pretende avaliar a existência deagrupamentos de percepções que clientes têm com respeito à umadeterminada empresa.
As variáveis que nos
interessam são: X1 a X4, X6 e X7.
O tamanho da amostra é de
100 observações,
resultando em 14 casos para cada variável,
um valor aceitável.
50
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
99
Suposições de Normalidade, Linearidade, Homocedasticidade...afetam as correlações e se estas não são significantes, então aperda é considerável nos resultados da Análise Fatorial. Sendoassim, é preciso avaliar a grandeza e significância das correlações.
Estas correlações
são significantes
ao nível de 5%. Note que
8 das 15 correlações
são significantes.
Isso é adequado.
KMO = 0,446 (antes) KMO = 0,665 (depois)
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
100
O passo seguinte é selecionar o número de componentes aserem mantidos para análise posterior. Podemos usar os autovalorespara fazer essa seleção, tomando o teste da raiz latente em que osautovalores devem assumir resultados superiores a 1.
3 fatores respondem por aproximadamente 80,00% da variabilidadenas variáveis originais.
51
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
101
Exemplo: O Gráfico para o Teste da Raiz Latente
Teste da Raiz Latente
2.513
1.740
0.5970.530
0.416
0.204
1 2 3 4 5 6
Number of Eigenvalues
0.0
0.5
1.0
1.5
2.0
2.5
3.0V
alue
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
102
Exemplo: Cargas Fatoriais e Comunalidades
Uma vez decididos por 2 fatores, então precisamos informar ao STATISTICA que ele deve escolher 2fatores com autovalores
maior que 1.
Clique em OK na janela ao lado e retorne ao módulo de análise. Clique em Summary: Factor loading.
52
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
103
O fator 1 é o que explica aporção maior da variabilidade e ofator 2 é o que explicaligeiramente menos;
2,51 é a porção de variabilidadetotal explicada pelo Fator 1, issocorresponde a 41,89% deexplicação;
1,74 é a porção de variabilidadetotal explicada pelo Fator 2 quecorresponde a 28,99% deexplicação;
A significância das cargasfatoriais foram aquelas comvalores superiores a 0,70.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
104
Exemplo: Aplicando Rotação Varimax
Desta forma temos 39,50%em lugar dos 41,89% para
o Fator 1; temos 31,40%em lugar dos 28,99% para
o Fator 2.
A rotação compensou a variância explicada por cada fator, distribuindo melhor os 70,9% de variabilidade explicada pelos dois fatores.
53
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
105
Exemplo: Aplicando Rotação Varimax
Factor Loadings, Factor 1 vs. Factor 2
Rotation: Varimax normalizedExtraction: Principal components
X1
X2
X3
X4X6
X7
-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0
Factor 1
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
Fac
tor
2
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
106
ESTATÍSTICA MULTIVARIADAESTATÍSTICA MULTIVARIADA44
(Análise de Cluster)(Análise de Cluster)
Prof. Dr. Marcelo Tavares
54
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
107
Análise de
Agrupamento
Objetivo: Agregar objetos
máxima homogeneidade de objetos
e
máxima heterogeneidade.
T ree Diagram for 36 CasesWard s method
Euclidean distances
Sui
çaS
uéci
aR
FA
RU
Isra
elN
ova
Zel
ândi
aIt
ália
Esp
anha
EU
AA
ustr
ália
Japã
oC
anad
áP
ortu
gal
Iugo
sláv
Gré
cia
Hun
gria
UR
SS
Uru
guai
Fili
pina
Chi
naC
.Ric
aC
hile
Tur
quia
Méx
ico
Bra
sil
Rep
.C.
Af.
Gan
aN
igér
iaP
aqui
stB
angl
ade
Que
nia
Arg
élia
Egi
toIn
dia
Hai
tiB
olív
ia
0
10
20
30
40
50
60
70
Link
age
Dis
tanc
e
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
108
Tempo (em dias)
Consumo (em R$)
55
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
109
Alguns pontos relevantes que devemos observar em análise deagrupamentos são:
Não faz distinção entre variáveis dependentes e independentes,� pode examinar relações de interdependência
O objetivo principal de análise de agrupamentos � variáveisconsideradas importantes para a análise;
Objetos semelhantes
A mais forte aplicação desta técnica tem sido em Pesquisa deMarketing, principalmente, Segmentação de Mercado.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
110
Problema de pesquisa
Selecionar objetivo:Descrição taxonômica
Simplificação de dados
Revelar relações entre observações
Selecionar variáveis de agrupamento
56
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
111
Questões do Problema de Pesquisa
As observações atípicas podem ser observadas?
Os dados devem ser padronizados?
Inclusão de variáveis irrelevantes (como nos casos deMulticolinearidade),
Presença de outliers
Observações “absurdas” ou sub-amostras?
Uma empresa deseja conhecer o perfil de seusconsumidores. Para tanto, elabora uma pesquisa na qual éfeito o levantamento de dados de uma grande amostra. Aanálise dos dados gera algumas dúvidas: os consumidorestêm um perfil homogêneo, em relação às característicaslevantadas? Se o perfil não for homogêneo, é possívelidentificar grupos homogêneos? Quantos grupos existem?
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
112
Padronizando os dados
queremos avaliar
uma forma de
agrupar estes
clientes e
encontrar aquelas
que acompanham
um
comportamento
semelhante.
Percentual deImportância
SalárioMédio
ConsumoMédio
Cliente 1 10,85 1.500,80 149,35
Cliente 2 14,13 1.496,07 187,99
Cliente 3 8,62 1.448,79 130,97
Cliente 4 23,04 1.277,33 424,87
Cliente 5 16,04 1.204,02 214,36
Cliente 6 43,74 1.190,94 1.139,52
Cliente 7 25,39 1.292,91 358,39
Cliente 8 42,86 1.590,66 721,90
Média 23,08 1.375,19 415,92
Desvio
Padrão13,69 152,05 351,62
57
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
113
Primeiro passo da análise �
Critério para a formaçãodos grupos.
Proximidade entre os pontos.
Cliente 1Cliente 2
Cliente 3
Cliente 4
Cliente 5Cliente 6
Cliente 7
Cliente 8
-50.00 0.00 50.00 100.00 150.00 200.00 250.00 300.00 350.00 400.00 450.00 500.00
Percentual de Importância
1,150.00
1,200.00
1,250.00
1,300.00
1,350.00
1,400.00
1,450.00
1,500.00
1,550.00
1,600.00
1,650.00
Méd
ia S
alar
ial
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
114
Cliente 1Cliente 2
Cliente 3
Cliente 4
Cliente 5Cliente 6
Cliente 7
Cliente 8
-50.00 0.00 50.00 100.00 150.00 200.00 250.00 300.00 350.00 400.00 450.00 500.00
Percentual de Importância
1,150.00
1,200.00
1,250.00
1,300.00
1,350.00
1,400.00
1,450.00
1,500.00
1,550.00
1,600.00
1,650.00
Méd
ia S
alar
ial
Distâncias vertical
X
Distâncias horizontal
Variabilidade
Em termos, práticos ?
Igual importância às duas variáveis?
58
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
115
Cliente 1Cliente 2
Cliente 3
Cliente 4
Cliente 5Cliente 6
Cliente 7
Cliente 8
-1.20 -1.00 -0.80 -0.60 -0.40 -0.20 0.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80
Percentual de Importância
-1.40
-1.20
-1.00
-0.80
-0.60
-0.40
-0.20
0.00
0.20
0.40
0.60
0.80
1.00
1.20
1.40
1.60
Méd
ia S
alar
ial
Variáveis padronizadas
Importâncias equivalentes. (novos grupos)
j
jijij S
XXZ
−=
Padronizando os dadosUniversidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
116
SuposiçõesA amostra é representativa da população?
A multicolinearidade é substancial o suficiente para afetar os
resultados?
Raramente a pesquisa considera o censo da populaçãopara usar na análise de agrupamentos. O pesquisadordeve perceber que a análise de agrupamentos é apenastão boa quanto a representatividade da amostra.
Representatividade.
O efeito de multicolinearidade (grau em que uma variávelpode ser explicada pelas outras variáveis na análise)sobre a análise de agrupamento é um processo deponderação não visível, mas que afeta a análise.
O caminho é identificar a multicolinearidade e reduzir aquantidade de variáveis.
59
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
117
Resumo dos Estágios
1. Escolha do critério de parecença
2. Definição do número de grupos
3. Formação dos grupos
4. Validação do agrupamento
5. Interpretação dos grupos
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
118
Medidas de ParecençaMedidas de ParecençaAs medidas de parecença têm
um papel central nos algoritmos de agrupamentos.
Através delas são definidos critérios para avaliar se dois
pontos estão próximos, e portanto podem fazer parte de
um mesmo grupo, ou não.
Há dois tipos:
•medidas de similaridade
• medidas de dissimilaridade
Medidas disponíveis naSolução STATISTICA
60
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
119
nPnn
P
P
xxx
xxx
xxx
21
22221
11211
.
....
.
.
→converter dissimilaridade ou
similaridade.
DISTÂNCIA EUCLIDIANA (dados quantitativos)•distância euclidiana entre dois pontos ou individuos i e i’:
d x xii ij i jj
P
′ ′=
= −∑ ( ) 2
1
Genótipos X1 X2
I1 4 6
I2 8 8
I3 10 8
d12 = 2,24d13 = 3,16d23 = ?
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
120
• incoveniente => não preservação da ordem das distâncias, quandose muda a escala e com o número de caracteres estudados.
=> como resolver o problema da escala:# padronização dos dados, antes do cálculo da distância
euclidiana.
)( jx
ijij s
xZ =
DISTÂNCIA EUCLIDIANA MÉDIA•contornar o problema do aumento da distância euclidiana a medida que cresce o número de variáveis.
dP
x xP
dii ij i jj
P
ii′ ′=
′= − =∑1 12
1
( )
•No cálculo da distância euclidiana média, deve ser baseada emdados padronizados, para que se diminua o efeito da escala.
61
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
121
Sequência para cálculo dadistância euclidiana.1) Calcular a média geralde cada variável.2) Calcular o desvio padrãode cada variável.3) Calcular as variáveispadronizadas para cadaprogenitor.4) Obter os valores de dii’para cada par deprogenitores.
Indivíduo Variável X1
Variável X2
Variável X3
VariávelX4
1 41,90 20,300 3,900 85,675
2 43,80 19,750 3,650 98,250
3 37,30 18,725 4,600 74,575
4 40,15 20,300 4,300 91,625
5 32,50 20,250 4,100 54,125
6 52,75 19,725 4,375 100,375
7 43,90 20,225 4,275 91,000
8 49,25 20,025 4,150 82,175
VariávelMédia de Xj Desvio padrão
[S(Xj)]
X1 42,6937 6,4020
X2 19,9125 0,5340
X3 4,1687 0,2936
X4 84,7250 14,9361
Zx
sijij
x j
=( )
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
122
Indivíduo Variável X1
Variável X2
Variável X3
Variável X4
1 6,5448 38,0150 12,2834 5,7361
2 6,8416 36,9850 12,4319 6,5780
3 5,8263 35,0655 15,6675 4,9929
4 6,2715 38,0150 14,6458 6,1344
5 5,0765 37,9213 13,9646 3,6338
6 8,2396 36,9382 14,9012 6,7203
7 6,8572 37,8745 14,5606 6,0926
8 7,6929 37,5000 14,1349 5,5018
( ) ( )[ ]4/5780,67361,5...8416,65448,6 2212 −++−=d
Indivíduos2 3 4 5 6 7 8
1 0,8035 1,9654 0,7227 1,3312 1,3800 0,6848 0,76862 2,1033 1,2731 1,9406 1,4208 1,1788 1,12343 1,6765 1,8365 1,7958 1,6872 1,73334 1,4319 1,1663 0,3049 0,85835 2,3150 1,5511 1,62626 0,9079 0,81957 0,5850
62
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
123
Distância de Mahalanobis (D2).
TxxD ][]][[ 12 µµ −Σ−= −
][ µ−x
][Σ
onde:
vetor linha resultado da subtração dos outros dois vetores linha x e média.
matriz de covariâncias entre as várias variáveis x.
2 variáveis (vendas e lucros) de empresas
[ ]3,29271,62309=µ
91 1026,128893,32
93,3284,1 −−
−−
=Σ x
−−−−
−−
−−−−= −
3,2927)(
1,62309)(10
26,128893,32
93,3284,1]3,2927)(1,62309)([)(
2212
2111922122111
2
xx
xxxxxxxPD
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
124
DISTÂNCIAS BASEADAS EM DADOS BINÁRIOS
Presença Ausência
Presença a b
Ausência c d
Exemplo : 4 marcas de café
MarcasAvaliadores
1 2 3 4 5 6 7 8
1 0 0 0 1 1 1 1 1
2 0 0 1 1 1 0 1 1
3 0 0 1 1 1 0 1 1
4 0 0 1 0 1 0 1 1
1)Coincidência Simples
S = (a + d) / (a + b + c + d) = (4 + 2) / 8 = 0,75
2)Jaccard
S = a / (a + b +c) = 4/6 = 0,67
63
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
125
Algoritmos de Agrupamentos
A maioria dos algoritmos utilizados na formação dosagrupamentos pode ser classificada em duas grandes famílias demétodos: hierárquicos e de partição.
Métodos Hierárquicos Aglomerativos
• Para esses métodos osagrupamentos são formados a partir deuma matriz de parecença;
• Queremos identificar os objetos quemais se parecem;
• Agrupamos esses objetos e osconsideramos como um único objeto;
• Definimos uma nova matriz deparecença.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
126
Os procedimentos hierárquicos envolvem a construção deuma hierarquia de uma estrutura do tipo árvore. Existembasicamente dois tipos de procedimentos hierárquicos deagrupamento: Aglomerativos e Divisivos.
Métodos Hierárquicos Aglomerativos Usando o STATISTICA
Vamos enumerar pelos menos 5 mé-todos aqui:
• Método do vizinho mais próximo;
• Método do vizinho mais longe;
• Método das médias das distâncias;
• Método da centróide;
• Método de Ward.
64
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
127
a distância entre os
grupos é definida como
sendo a distância entre
os elementos mais próximos
(menor distância) dos
dois grupos
Método do vizinho mais próximo(Single Linkage)
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
128
a distância entre dois grupos é
definida como sendo a
distância entre os indivíduos
mais distantesdos dois grupos
(distância máxima).
Método do vizinho mais longe(Complete Linkage)
65
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
129
Este método define a coordenada de cada grupo como sendo a
média das coordenadas de seus
objetos. Uma vez obtida essa
coordenada, denominada centróide,
a distância entre os grupos é obtida
através do cálculo das distâncias entre os
centróides.
Método do centróide
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
130
O método de Ward busca unir objetos que tornem osagrupamentos formados os mais homogêneos possível. A medidade homogeneidade utilizada baseia-se na partição da soma dequadrados total de uma análise de variância. Observe abaixo:
Método de Ward
( ) ( ) ( )∑∑∑∑∑= ∈== ∈
−+−=−k
j Gi
ji
k
j
jj
k
j Gii
jj
XxXXnXx1
211
1
211
1
211
O Método de Ward, é atraente por basear-se numa medida comforte apelo estatístico e por gerar grupos que, assim como os dométodo do vizinho mais longe, possuem alta homogeneidadeinterna.
66
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
131
Faremos agora uma aplicação. Imagine que após aplicar 3
testes de desempenho em
atividades gerenciais em 6
indivíduos, queiramos agrupá-
los de modo a preservar a
homogeneidade interna dos grupos.
ExemploUniversidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
132
A matriz padronizada possui os seguintes valores:
67
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
133
A seguir construímos a
matriz de semelhança, e
com ela construímos o Dendrograma. Vamos usar a
distância euclidiana que
nos dá um coeficiente de
dissimilaridade.
2222
211 )()()( nnXY yxyxyxd −++−+−= …
2,79 )144,1104,0()064,1677,0()598,0195,1(
50,1)104,0352,1()258,1677,0()598,0195,1(
222Jeniffer ,
222Ernest Aislan,
=+++++=
=−+−++−=
RobertF
F
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
134
VamosVamos usarusar umum dosdos métodosmétodos dede agrupamentoagrupamentodisponíveldisponível nono STATISTICASTATISTICA:: UnweightedUnweighted pairpair--groupgroup averageaverage..ComCom esseesse métodométodo rearranjamosrearranjamos aa matrizmatriz fenéticafenética dede distânciasdistâncias..
d(Ann,Jen),Ais = média (d(Ann,Ais);d(Ron,Ais)) = média (3,00;3,10) = 3,05
d(Ann,Jen),Ern = média (d(Ann,Ern);d(Jen,Ern)) = média (2,22;2,64) = 2,43
d(Ann,Jenn),Rob = média (d(Ann,Jen);d(Jen,Rob)) = média (2,08;2,79) = 2,44
d(Ann,Jenn),Ron = média (d;(Ann,Ron);d(Jen,Ron)) = média (2,30;2,59) = 2,45
Temos um novo grupo: Aislan Rick Souza e Ernest Shering.
68
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
135
d(Ais,Ern),Rob = média (dAis;dErn,Rob) = média (2,70; 1,88) = 2,29
d(Ais,Ern),(Ann,Jen) = média (dAis(Ann,Jen);dErn(Ann, Jen)) = média (3,05;2,43) = 2,74
d(Ais,Ern),Ron = média (dAis,Ron;dErn,Ron) = média (3,02; 3,00) = 3,01
MaisMais umauma vez,vez, procuramosprocuramos umum novonovo agrupamentoagrupamento.. EEcalculamoscalculamos osos valoresvalores dasdas distânciasdistâncias nana matrizmatriz fenéticafenética..ObserveObserve oo resultadoresultado::
Temos um novo grupo: Robert Shaid e Ronald Marker.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
136
JáJá encontramosencontramos 33 grupos,grupos, masmas aindaainda queremosqueremosprosseguirprosseguir nana análiseanálise ee observarobservar quantoquanto temostemos distânciadistância atéatésese obterobter umum únicoúnico grupogrupo.. Observe,Observe, novamente,novamente, aa matrizmatrizfenéticafenética::
Agora temos dois grupos: Robert Shaid, Ronald Marker, AnneAntonelli e Jeniffer Fischer; e o outro grupo temos Aislan RickSouza e Ernest Shering.
d(Rob,Ron),(Ais,Ern) = média (dRob, (Ais,Ern),(Ais,Ern); dRon,(Ais,Ern)) =
= média (2,29;3,01) = 2,65
d(Rob,Ron),(Ann,Jen) = média (dRob,(Ann,Jenn); dRon,(Ann,Jen)) =
= média (2,44;2,45) = 2,45
69
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
137
PorPor fim,fim, temostemos aa últimaúltima matrizmatriz::
Obviamente, não é necessário todo esse desenvolvimento parachegar a alguma conclusão sobre grupos. Podemos observaresses resultados em um gráfico 2D: o Dendograma ouFenograma!
d(Rob,Ron),(Ann,Jen) = média(d(Rob,Ron);d(Ann,Jen)) = média (2,74;2,65) = 2,695
ExemploUniversidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
138
Tree Diagram for 6 Cases
Unweighted pair-group average
Euclidean distances
Jeniffer FischerAnne Antonelli
Ronald MarkerRobert Shaid
Ernest SheringAislan Rick Sousa
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
2.2
2.4
2.6
2.8
3.0
Link
age
Dis
tanc
e
O Dendograma
70
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
139
STATISTICA
O primeiro passo é padronizar os dados. Basta selecionar as variáveis de interesse na análise e com o botão direito do mouse sobre a seleção optar por
Fill/Standardize Block e, em seguida, Standardize Columns.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
140
Em Statistics busque o módulo Multivariate Exploratory Techniquese, na seqüência, opte por Cluster Analysis.
71
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
141
O que queremos nesse primeiromomento é descobrir e avaliar algunsagrupamentos entre os casosobservados, considerando que as 3variáveis envolvidas são importantespara classificar os casos. Vamosexplorar usando a opção Joining(tree clustering).Na aba Advanced
observamos diversas opções. Clique em
Variables e insira todas as variáveis. Em Cluster, opte
por Cases. Em Amalgamation,
Unweighted pair-group average (para média).
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
142
Na opção Input File existem duas maneiras para entrar com umabase de dados: Raw Data ou Distance Matrix. Por vezes, algumprocedimento hierárquico ou medida de distância não estáimplementada num procedimento automático. É possível, então,entrar com a matriz de distância e avaliar os grupos. As informaçõesque esta matriz deve ter são:
Medidas de distância;
Média, Desvio Padrão e Número de Casos;
Tipo de Matriz:
1 – Matriz de Correlação;
2 – Matriz de Similaridade;
3 – Matriz de Dissimilaridade;
4 – Matriz de Variância e Covariância.
72
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
143
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
144
Métodos Hierárquicos: Métodos Hierárquicos: aglomerativosaglomerativos
Simples (single linkage) - vizinho mais próximo
A B C D EAB 2C 6 5D 10 9 4E 9 8 5 3
Matriz de distânciasDendograma
E D C B A
02
03
04
05
Link
age
Dis
tanc
e
73
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
145
Métodos Hierárquicos: Métodos Hierárquicos: aglomerativosaglomerativos
Completa (complete linkage) -vizinho mais distante
A B C D EAB 2C 6 5D 10 9 4E 9 8 5 3
Matriz de distâncias
Dendograma
E D C B A123456789
1011
Link
age
Dis
tanc
e
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
146
Métodos Hierárquicos: Métodos Hierárquicos: aglomerativosaglomerativos
média (average linkage)
A B C D EAB 2C 6 5D 10 9 4E 9 8 5 3
Matriz de distânciasDendograma
E D C B A01
02
03
04
05
06
07
08
Link
age
Dis
tanc
e
74
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
147
ExemploExemploPercentagens de pessoas empregadas em 26
paises europeus, por setor de atividade.agricultura mineracao manufatura energia construcao servicosind financas serpessoais transporte
Belgium 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2Denmark 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1France 10.8 0.8 27.5 0.9 8.9 16.8 6 22.6 5.7Wgermany 6.7 1.3 35.8 0.9 7.3 14.4 5 22.3 6.1Ireland 23.2 1 20.7 1.3 7.5 16.8 2.8 20.8 6.1Italy 15.9 0.6 27.6 0.5 10 18.1 1.6 20.1 5.7Luxembourg 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2Netherlands 6.3 0.1 22.5 1 9.9 18 6.8 28.5 6.8
... ... ... ... ... ... ... ... ... ...
� Padronização dos dadosagricultura mineracao manufatura energia construcao servicosind financas serpessoais transporte
Belgium -1.02 -0.36 0.08 -0.02 0.02 1.34 0.78 0.96 0.47Denmark -0.64 -1.19 -0.74 -0.82 0.08 0.36 0.89 1.78 0.40France -0.54 -0.47 0.07 -0.02 0.45 0.84 0.71 0.38 -0.61Wgermany -0.80 0.05 1.25 -0.02 -0.53 0.32 0.36 0.33 -0.32Ireland 0.26 -0.26 -0.90 1.04 -0.40 0.84 -0.43 0.11 -0.32
... ... ... ... ... ... ... ... ... ...
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
148
ExemploExemploTree Diagram for 26 Cases
Single LinkageEuclidean distances
0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5
Linkage Distance
TurkeyYugoslavia
SpainUSSR
HungaryEgermany
CzechoslovakiaRomania
PolandBulgaria
LuxembourgPortugalGreece
ItalyNorway
SwitzerlandIrelandAustria
UKFinland
WgermanySweden
DenmarkNetherlands
FranceBelgium
75
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
149
ExemploExemploTree Diagram for 26 Cases
Single LinkageEuclidean distances
0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5
Linkage Distance
TurkeyYugoslavia
SpainUSSR
HungaryEgermany
CzechoslovakiaRomania
PolandBulgaria
LuxembourgPortugalGreece
ItalyNorway
SwitzerlandIrelandAustria
UKFinland
WgermanySweden
DenmarkNetherlands
FranceBelgium
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
150
Primeiro grupo: nações do oeste
Bélgica, França, Holanda,Suécia, Dinamarca,Alemanha Ocidental,
Finlândia, Reino Unido,Áustria, Irlanda, Suíça, Noruega,
Grécia, Portugal e Itália
Segundo grupo:
Luxemburgo
Terceiro grupo: antigos países comunistas
Rússia, Hungria, Tchecoslováquia,
Alemanha Oriental, Romênia, Polônia e Bulgária
Quarto grupo:
Espanha
Quinto grupo:
Yugoslavia
Sexto grupo:
Turquia
76
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
151
ESTATÍSTICA MULTIVARIADAESTATÍSTICA MULTIVARIADA44
(Análise Discriminante)(Análise Discriminante)
Prof. Dr. Marcelo Tavares
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
152
�As técnicas de análise discriminantesão utilizadas para classificarindivíduos em um, dois ou maisgrupos alternativos (ou populações),como base de um conjunto demensurações. As populações sãosabidamente distintas, e cadaindivíduo pertence a uma delas.Essas técnicas também podem serutilizadas para identificar quaisvariáveis contribuem para que sefaça tal classificação.
77
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
153
Ex1: Considere um funcionário de umainstituição financeira que precisaaprovar um empréstimo hipotecário aum cliente. Essa decisão será tomadalevando-se em conta as característicasque identifiquem o candidato comaqueles clientes que costumam saldarseus empréstimos ou com aqueles queapresentam problemas. As informaçõessobre esses dois grupos de pessoas,disponíveis nos registros da empresa,podem incluir fatores como idade, renda,estado civil, dívidas, e propriedade decertos bens duráveis.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
154
A análise discriminante envolve determinar uma variável estatísticaque é a combinação linear de duas ou mais variáveis independentesque discriminarão melhor entre grupos definidos a priori.
A discriminação é conseguida estabelecendo-se os pesos da variávelestatística para cada variável para maximizar a variância entregrupos relativa à variância dentro dos grupos.
A B A B
Função Discriminante Função Discriminante
78
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
155
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
156
A combinação linear para uma análise discriminante,também conhecida como a função discriminante, édeterminada de uma equação que assume a seguinteforma:
onde
zjk = escore Z discriminante da função discriminantej para o objeto k
a = intercepto
wi = peso discriminante para a variávelindependente i
xik = objeto k na variável Xi.
nknkkjk xwxwxwaz ++++= ⋯2211
79
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
157
Objetivo da Pesquisa:
Determinar se existem diferenças estatisticamentesignificantes entre os perfis de escore médio em umconjunto de variáveis para dois (ou mais) grupos definidos apriori;
Determinar quais das variáveis independentes explicam omáximo de diferenças nos perfis de escore médio dos doisou mais grupos;
Estabelecer procedimentos para classificar objetos emgrupos, com base em seus escores em um conjunto devariáveis independentes;
Estabelecer o número e a composição das dimensões dediscriminação entre grupos formados a partir do conjunto devariáveis independentes.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
158
Projeto de Pesquisa para Análise Discriminante:
Seleção de Variáveis Dependente e Independentes:
O pesquisador deve se concentrar na variável dependenteprimeiro. O número de grupos pode ser dois ou mais, mas devemser mutuamente excludentes e cobrir todos os casos.
Tamanho da amostra:
A Análise Discriminante é muito sensível ao tamanho da amostra eo número de variáveis preditoras Alguns estudos sugerem umnúmero de 20 observações para cada preditora.
Divisão da Amostra:
É muito comum um estudo de validação do modelo, usandorecursos de divisão da amostra (crossvalidation); esteprocedimento consiste em dividir a amostra em duas partes: 1.Modelagem (não menos que 60%) e 2. Teste (não mais que 40%).
80
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
159
Suposições da Análise Discriminante:
Uma suposição chave é a de normalidademultivariada para as variáveis independentes.Existem evidências da sensibilidade da análisediscriminante a violações dessas suposições;
Outra questão é a matriz de covariância que édesconhecida, no entanto deve ser igual paratodo grupo; matrizes desiguais afetamnegativamente o processo de classificação;
Também é preciso ter cuidado com aMulticolinearidade.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
160
Estimação do Modelo Discriminante:
Método Computacional
Estimação Simultânea: envolve a computação da funçãodiscriminante, de modo que todas as variáveis independentes sãoconsideradas juntas;
Estimação Stepwise: envolve a inclusão das variáveisindependentes na função discriminante, uma por vez, com base emseu poder discriminatório.
Significância Estatística
As medidas de lambda de Wilks, traço de Hotelling e critério de Pillaiavaliam a significância estatística do poder discriminatório da funçãodiscriminante;
A maior raiz característica de Roy avalia apenas a primeira funçãodiscriminante;
Se um método stepwise é empregado para estimar a funçãodiscriminante, as medidas D2 de Mahalanobis são mais adequadas
81
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
161
Avaliação do Ajuste Geral:
Cálculo de Escores Z discriminantes
Avaliação de Diferenças de Grupos
Um caminho para avaliar o ajuste geral do modelo é determinar amagnitude de diferenças entre membros de cada grupo em termosdos escores Z discriminantes. Podemos fazer isso usando acomparação dos centróides dos grupos, o escore Z discriminantemédia para todos os membros dos grupos.
Avaliação da Precisão Preditiva de Pertinência de Grupo
O uso de matriz de classificação nos informa o valor razão desucesso (um percentual de classificação correta);
O escore de corte que é o critério em relação ao qual o escorediscriminante de cada objeto é comparado para determinar em qualgrupo o objeto deve ser classificado.
nknkkjk xwxwxwaz ++++= ⋯2211
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
162
Exemplo
Uma empresa está interessada em investigar se um de seus novosprodutos será comercialmente bem-sucedido. Isso conduz a umapesquisa com consumidores que comprariam ou não o novo produto.Estudamos, então, as 3 características descritas no quadro abaixo:
Note que a característica Durabilidade discrimina
bem os dois grupos.
Já a característica Estilotem uma diferença entre médias de grupo igual a
0,2. No entanto, isso não caracteriza uma má
discriminação. É preciso avaliar a dispersão e os escores discriminantes.
82
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
163
10
9 7
8
5 26 1
1 2 3 4 5 6 7 8 9 10
4 3
X1Durabilidade
10
9
7
8 52
6
1
1 2 3 4 5 6 7 8 9 10
4 3
X2Desempenho
10
97 8
5 2 61
1 2 3 4 5 6 7 8 9 10
43
X3Estilo
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
164
Usando apenas a variável X1 obtemos um percentual declassificação correta de 90%, visto que o item 5 não foi alocadocorretamente. Quando inserimos a variável X2, obtemos 100% deacerto na Função 2. Mas com a análise discriminante, estamosinteressados não só em agrupar, como também maximizarvariabilidade entre grupos.
83
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
165
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
166
Faremos um procedimento passo apasso. O método é o Forwardstepwise.
84
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
167
DesempenhodeDurabilidaZ .3588,0.4756,053,4 −−=
O função discriminante:
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
168
A Matriz de Classificação e a Classificação dos
Casos estão demonstradas nas
tabelas a seguir.
85
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
169
Ex: Um pesquisador fez uma enquete comdirigentes principais de pequenas empresaspara descobrir a vontade delas em exportarpara outros países. 200 pequenas empresasreceberam os questionários, e 98 foramdevolvidos. Oito deles não puderam serutilizados por causa das respostas aleatóriasou informações incompletas. Dos 90questionários utilizáveis, foram usados osdados de 60 empresas para o modelo deestimação, e as 30 restantes foram mantidaspara a validação do modelo.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
170
� Foi criada uma nova variáveldependente, “Interesse emexportar” (IE), revendo a escalaatribuída à variável “vontade deexportar” (Y1). A variável IE terávalor 2 (alto interesse emexportar) se forem incluídas todasas empresas que deram respostascom pontuação de 4 a 5, e terávalor 1 (baixo interesse emexportar) se forem incluídas todasas empresas que responderam compontuação 3 ou menos nessamesma escala.
86
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
171
Descrição das variáveis
Descrição das variáveisNome correspondente no resultado informatizado
Escala de valores
Vontade de exportar (Y1) Vontade 1 (definitivamente não) a 5 (definitivamente sim)
Nível de interesse em buscar a ajuda do governo
(Y2) Gov 1 (definitivamente não) a 5 (definitivamente sim)
Tamanho enquanto empregador (X1) Tamanho Maior que zero
Receita da empresa (X2) Rec Em milhões de dólares
Anos de operação no mercado nacional
(X3) Anos Número real de anos
Número de produtos atualmente fabricados pela empresa
(X4) Prod Número real
Treinamento de empregados (X5) Trein 0 (nenhum programa) ou 1 (existência de um programa formal)
Experiência empresarial em operações internacionais
(X6) Exp 0 (nenhuma experiência) ou 1 (existência de experiência)
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
172
Apresentação dos dados sobre exportação
Empresa Vontade de
exportar
Nível de interesse
em buscar a ajuda do governo
Tamanho enquanto
empregador
Receita da
empresa
Anos de operação
no mercado nacional
Número de
produtos atualmente fabricados
pela empresa
Treinamento de
empregados
Experiência empresarial
em operações internacionais
(Y1) (Y2) (X1) (X2) (X3) (X4) (X5) (X6) 1 5 4 54 4,0 6,5 7 1 1 2 3 4 45 2,0 6,0 6 1 1 ... ... ... ... ... ... ... ... ... 60 4 3 43 2,0 7,5 4 1 1
87
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
173
Informação no nível das classes. Interesse em exportar Frequência Proporção Alto 22 0,366 Baixo 38 0,633
H0: as médias da função discriminante dos grupos na população são iguais.
F G.L. Numerador
G.L. Denominador
Prob.>F
4,192 4 55 0,004
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
174
Cargas Discriminantes
internas
Coeficientes Discriminates Padronizados
Coeficientes Discriminates
Brutos Tamanho 0,585 0,825 0,077 Receita 0,249 0,196 0,300 Anos 0,541 0,824 0,895 Produção 0,358 0,156 0,061 Médias das Classes nas Variáveis Discriminantes
Interesse em Exportar CAN 1 Alto 0,713
Baixo -0,413
88
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
175
Sumário da Classificação Utilizando a Função Discriminante Linear
Dentro IE Alto Baixo Total 16 6 22
Alto 72,73 27,27 100,00
9 29 38 Baixo 23,68 76,32 100,00
Total 25 35 60 41,67 58,33 100,00
Proporção de sucesso (16 + 29)/60 = 75%
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
176
Ex. Uma das atribuições do Banco Central do Brasil éfiscalizar as instituições financeiras do país com afinalidade de detectar possíveis problemas de solidez ede comportamento. A idéia é desenvolver métodosestatísticos que possibilitem classificar essasinstituições como “com” ou “sem” problemas e alertar oBanco Central para uma fiscalização mais rigorosa ainstituições classificadas em “com problemas”.
Foi realizado um estudo com 20 bancos, sendo 10com problemas e 10 sem problemas, nas quais foramcoletadas informações de 4 indicadores econômico-financeiros (1-liquidez imediata; 2-participação dosdepósitos interfinanceiros no total operacional; 3-participação das exigibilidades no ativo operacional; 4-participação das rendas de prestação de serviços emrelação às despesas administrativas).
89
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
177
Tabela27 : Indicadores econômicos-financeiros.
Banco Condição X1 X2 X3 X4
Banco Real 1 0,8888 0,7391 1,0255 0,3938Banco Garantia 1 1,6655 0,7268 0,8780 0,0004Citibank 1 2,2111 0,9166 0,9492 0,3420Chase Manhattan 1 1,4351 0,9133 0,9577 0,2325Unibanco 1 2,1414 0,0020 1,0245 0,3966Santander Noroeste 1 1,1920 0,4972 1,0340 0,3095Banco Itaú 1 1,5895 0,2593 1,0453 0,5570Francês e Brasileiro 1 1,3272 0,4126 1,0448 0,3482Banco Sogeral 1 1,8847 0,3880 0,9864 0,0337Banco Itamarati 1 0,5229 0,9473 1,1244 0,1180Banco Banorte 2 0,4922 0,3166 1,1127 0,1628Banco Est. Alagoas 2 1,4427 0,0589 0,9019 0,1355Banco Econômico 2 0,5438 0,5358 1,0300 0,1481Banco Nacional 2 0,1904 0,7087 0,9917 0,2625Banco Progresso 2 0,1102 0,7378 1,5280 0,0783Banerj 2 2,0060 0,0414 1,0321 0,0816Banco Rosa 2 0,2321 0,9234 0,9753 0,0045Banco Open 2 0,9019 0,1634 1,1414 0,5485Banespa 2 1,9757 0,3395 0,9997 0,0751Banco Bamerindus 2 0,7276 0,3139 1,1077 0,2957Fonte: Barroso e Artes, 2003.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
178
Tabela 28: Valores da Função Discriminante e Classificação.
Banco FunçãoDiscriminante
Condição Classificadoem
Banco Real 7,137 1 1Banco Garantia 9,609 1 1Citibank 12,481 1 1Chase Manhattan 9,922 1 1Unibanco 7,022 1 1Santander Noroeste 6,746 1 1Banco Itaú 6,687 1 1Francês e Brasileiro 6,705 1 1Banco Sogeral 8,390 1 1Banco Itamarati 7,130 1 1Banco Banorte 3,422 2 2Banco Est. Alagoas 5,060 2 2Banco Econômico 4,845 2 2Banco Nacional 4,676 2 2Banco Progresso 4,580 2 2Banerj 6,804 2 1Banco Rosa 6,041 2 2Banco Open 3,887 2 2Banespa 8,410 2 1Banco Bamerindus 4,177 2 2
90
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
179
ESTATÍSTICA MULTIVARIADAESTATÍSTICA MULTIVARIADA66
(Correlação (Correlação CanonicaCanonica))
Prof. Dr. Marcelo Tavares
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
180
� Analisa as relações entre dois conjuntos de variáveis, na qual se
estima a máxima correlação entre combinações lineares das
variáveis.
Exemplos:
�X= desempenho de certa marca (vendas, participação no mercado,
crescimento nas vendas, lucro) e Y = variáveis do mix de marketing
(preço, promoção, distribuição, publicidade);
�X = conjunto de variáveis do solo e Y = conjunto de variáveis da
planta;
�X = conjunto de variáveis referentes às medidas físicas de uma
criança e Y = conjunto de variáveis referentes às medidas mentais
de uma criança.
91
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
181
�Caracteriza-se por avaliar as relações entre doiscomplexos influenciados
�Pode ser definida como a correlação entre acombinação linear das variáveis dependentes e acombinação linear das variáveis independentes.
�O número de correlações canônicas é sempre igualao menor número de caracteres que constituir um doscomplexos (p ou q), e sua magnitude sempredecresce com a ordem em que são estimadas.
� O primeiro coeficiente é sempre maior ou igual, emvalor absoluto, a qualquer coeficiente de correlaçãosimples ou múltipla, entre os caracteres do primeiro edo segundo grupo.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
182
�Na análise de correlação canônica cada par canônico é
interpretado com base no nível de significância dos
fatores, na magnitude da correlação canônica e na
quantidade de variância explicada em um conjunto de
variáveis explicada pelo outro conjunto de variáveis.
�As cargas canônicas, que representam as correlações
entre as variáveis originais e os fatores canônicos,
podem ser utilizadas para interpretar a função.
92
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
183
NaNa análiseanálise dede correlaçãocorrelação canônicacanônica temtem--sese doisdoisconjuntosconjuntos dede variáveisvariáveis
X` = [x1 x2 . . . xp] = vetor das medidas de pcaracteres que constituem o grupo I
Y` = [y1 y2 . . . yq] = vetor das medidas de qcaracteres que constituem o grupo II
Dependente vs Independentes
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
184
São calculadas inicialmente as combinações lineares,uma sobre cada conjunto de variáveis, de forma que ocoeficiente de correlação entre elas seja máximo.
As combinações lineares são denominadas variáveiscanônicas, e os pares são denominados parescanônicos.
Em seguida são calculadas duas outras variáveiscanônicas, uma sobre cada conjunto de variáveis,ortogonais às primeiras e com o máximo coeficiente decorrelação entre si.
93
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
185
SejamSejam XX11 ee YY11 asas variáveisvariáveis canônicascanônicas quequeconstituemconstituem oo primeiroprimeiro parpar canônicocanônico::
X´1 = a11X1 + a21X2 + . . . ap1Xp
Y´1 = b11Y1 + b21Y2 + . . . bq1Yq
O problema consiste em determinar os vetores a1 e b1,de forma a tornar máximo o coeficiente de correlaçãoentre X1 e Y1
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
186
SejamSejam XX22 ee YY22 asas variáveisvariáveis canônicascanônicas quequeconstituemconstituem oo segundosegundo parpar canônicocanônico::
X2 = a12X1 + a22X2 + . . . ap2Xp
Y2 = b12Y1 + b22Y2 + . . . bq2Yq
O problema consiste em determinar os vetores a2 e b2,de forma a se obter o máximo coeficiente de correlaçãoentre X2 e Y2, obedecendo a condição de ortogonalidadeentre X1 e X2 e Y1 e Y2
94
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
187
DefineDefine--sese comocomo aa primeiraprimeira correlaçãocorrelação canônicacanônicaàquelaàquela queque maximizamaximiza aa relaçãorelação entreentre XX11 ee YY11.. AsAsfunçõesfunções XX11 ee YY11 constituemconstituem oo primeiroprimeiro parpar canônicocanônicoassociadoassociado àquelaàquela correlaçãocorrelação canônica,canônica, queque ééexpressaexpressa porpor::
)(ˆ).(ˆ
),(ˆ
11
11
1 YXYX
VV
voCr =
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
188
Num estudo para índice de produção e preço para operíodo 1979 a 1999 (n = 21), considerou-se asseguintes variáveis:
X1: produção de bens duráveis;X2: produção de bens não-duráveis;X3: produção mineral;X4: produção agrícola
Y1: preços agrícolas;Y2: preços dos alimentos;Y3: outros preçosFonte: Regazzi, 2000
95
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
189
1,00 0,49 0,87 0,48 -0,43 -0,42 -0,20 1,00 0,76 0,70 0,42 0,42 0,58 1,00 0,71 -0,03 -0,04 0,13 1,00 0,26 0,26 0,37 1,00 0,98 0,90 1,00 0,91
R =
1,00
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
190
A equação característica para determinação dosautovalores da matriz fornecerá:
Os autovalores são: λ1 = 0,7799λ2 = 0,3818λ3 = 0,0622
As estimativas dos coeficientes de correlação canônica são, portanto:
r1 = 7799,0 = 0,883
r2 = 3818,0 = 0,618
r3 = 0622,0 = 0,249
96
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
191
As variáveis canônicas de índices de preços são:V1 = 1,2510 y1 – 0,0139 y2 – 0,2697 y3
V2 = -1,9602 y1 – 0,0363 y2 + 2,3344 y3
V3 = -5,8481 y1 + 6,6267 y2 – 0,7645 y3
As equações das variáveis canônicas de índices de produção são:
U1 = -1,5513 x1 + 0,5269 x2 + 0,8322 x3 + 0,0297 x4
U2 = 1,4247 x1 + 1,3340 x2 – 1,7765 x3 + 0,2192 x4
U3 = 1,4415 x1 + 0,7099 x2 – 3,0660 x3 + 0,8032 x4
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
192
Quadro 1: Correlações e pares canônicos estimados entre índices de
produção (grupo I) e índices de preços (grupo II).
Pares Canônicos Variáveis 1o 2o 3o
Produção de bens duráveis; -1,5513 1,42 1,44
Produção de bens não-duráveis 0,5269 1,33 0,70
Produção mineral 0,8322 -1,77 -3,06
Produção agrícola 0,0297 0,21 0,80
Preços agrícolas 1,2510 -1,9602 -5,8481
Preços dos alimentos -0,0139 -0,0363 6,6267
Outros preços -0,2697 2,3344 -0,7645
r 0,883 0,618 0,249
χ2 32,941** 8,724 n.s. -
97
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
193
Ex: Um pesquisador fez uma enquete com dirigentes
principais de pequenas empresas para descobrir a
vontade delas em exportar para outros países. 200
pequenas empresas receberam os questionários, e 98
foram devolvidos. Oito deles não puderam ser
utilizados por causa das respostas aleatórias ou
informações incompletas. Dos 90 questionários
utilizáveis, foram usados os dados de 60 empresas
para o modelo de estimação, e as 30 restantes foram
mantidas para a validação do modelo.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
194
Descrição das variáveis
Descrição das variáveisNome correspondente no resultado informatizado
Escala de valores
Vontade de exportar (Y1) Vontade 1 (definitivamente não) a 5 (definitivamente sim)
Nível de interesse em buscar a ajuda do governo
(Y2) Gov 1 (definitivamente não) a 5 (definitivamente sim)
Tamanho enquanto empregador (X1) Tamanho Maior que zero
Receita da empresa (X2) Rec Em milhões de dólares
Anos de operação no mercado nacional
(X3) Anos Número real de anos
Número de produtos atualmente fabricados pela empresa
(X4) Prod Número real
Treinamento de empregados (X5) Trein 0 (nenhum programa) ou 1 (existência de um programa
formal)
Experiência empresarial em operações internacionais
(X6) Exp 0 (nenhuma experiência) ou 1 (existência de experiência)
98
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
195
Análise de correlação canônica Pares Canônicos Brutos 10 20
Nível 0,7443 -0,0662 Vontade -0,0440 0,8723
Tamanho 0,0533 0,0420 Receita 0,061 0,559 Anos -0,4268 0,7915 Produção 0,1496 0,0441
r 0,8503 0,5712
significância < 0,01 < 0,01
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
196
Análise de correlação canônica
Pares Canônicos Padronizados
10 20
Nível 1,0058 -0,0896
Vontade -0,0510 1,0085
Tamanho 0,5686 0,4485
Receita 0,0531 0,4841
Anos -0,3930 0,7289
Produção 0,3801 0,1121
99
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
197
Análise de correlação canônica
Cargas Canônicos
10 20
Nível 0,9987 0,0505
Vontade 0,0887 0,9961
Tamanho 0,8583 0,3108
Receita -0,1131 0,6215
Anos -0,5716 0,7369
Produção 0,7716 0,2091
Correlação entre independentes e variáveis canônicas
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
198
Análise Análise de de
Variância Variância MultivariadaMultivariada
100
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
199
Testes simultâneos em várias variáveisTestes simultâneos em várias variáveis
�Quando são coletados dados devárias variáveis para uma mesmaunidade amostral é possível verificaras diferenças entre grupos atravésdo teste para cada variável;
�Por outro lado, pode ser preferívelconduzir um único teste o qual usa ainformação de todas as variáveisconjuntamente
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
200
Suponha uma situação geral em que há uma únicavariável X e duas amostras ao acaso de diferentespopulações: Considerando que as populações sãoaproximadamente normais, amostras pequenas,variâncias populacionais desconhecidas eestatisticamente iguais.
Ho H1 R. CRITICA
µ µ1 2− = d O µ1-µ2<do µ1-µ2>do
µ µ1 2− ≠ d o
t<-tα t>tα
t<-tα/2 e t>tα/2
tX X
s n n
v n n
s pn s n s
n n
p
=− − −
+= + −
=− + −
+ −
( ) ( )
/ /
( ) ( )
1 2 1 2
1 2
1 2
21 1
2
2 2
2
1 2
1 1
2
1 1
2
µ µ
101
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
201
Para testar a igualdade de vetores de médias de duas
populações multivariadas podemos utilizar a estatística
T2 de Hotelling.
A hipótese pode ser formulada como:
H0: µ1 = µ2 contra Ha: µ1 ≠ µ2
=
•
•
µ
µ
µ
p
H
1
12
11
0 =
•
•
µ
µ
µ
p2
22
21
vs
=
•
•
µ
µ
µ
p
aH
1
12
11
≠
•
•
µ
µ
µ
p2
22
21
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
202
A estatística usada para o teste da igualdade dos dois
vetores de médias é a T2 de Hotelling com p e n1 + n2 – p
– 1 graus de liberdade, que pode ser transformada em
uma estatística F com p e n1 + n2 – p – 1 graus de
liberdade, o que torna mais acessível a verificação das
significâncias.
T2 = 21
21.
nn
nn
+ ( 1X - 2X )’ Sc
-1 ( 1X - 2X ) > 1,21
2121
.)1(
)2(−−+−−+
−+pnnpF
pnn
pnn
F = 2
21
21 .)2(
1T
pnn
pnn
−+−−+
> 1, 21 −−+ pnnpF
102
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
203
Análise da Variância Multivariada (MANOVA)Análise da Variância Multivariada (MANOVA)
As condições para a realização da
MANOVA são as seguintes:
�Modelo aditivo para efeitos de
tratamentos, blocos (se houver) e erro;
�Independência dos erros;
�Igualdade da matriz de covariância ∑/
para todas as amostras;
�Distribuição multinormal dos erros, com
variâncias ∑/ .
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
204
Para comparar os tratamentos
Função Discriminante Linear de Fisher ou Primeira
Variável Canônica
Para testar hipótese sobre efeito de tratamentos, essa
função é tal que fornece o maior valor possível para o
teste F, entre todas as combinações lineares que se
façam das variáveis envolvidas.
103
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
205
Exemplo MANOVAExemplo MANOVA
Grupo de funcionários com dificuldades deaprendizado.Variáveis medidas
IQ, Maths, Reading Accuracy, ReadingComprehension, Communication Skill.
Dois grupos � sexo (male, female) e época denascimento (summer, not summer)
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
206
Estatisticas DescritivasEstatisticas Descritivas3. Gender * Season of Birth
52.466 2.709 47.059 57.873
57.414 2.141 53.140 61.688
60.878 1.826 57.233 64.52373.779 1.786 70.214 77.344
2.218 .665 .891 3.546
4.245 .526 3.195 5.294
3.720 .448 2.825 4.6155.035 .439 4.160 5.911
7.041 .385 6.273 7.809
7.628 .304 7.021 8.235
7.372 .259 6.854 7.8897.497 .254 6.991 8.003
7.599 .244 7.111 8.087
8.441 .193 8.055 8.827
7.971 .165 7.642 8.3008.764 .161 8.442 9.086
6.139 .535 5.071 7.207
7.256 .423 6.412 8.101
6.995 .361 6.275 7.7158.084 .353 7.380 8.788
Season of BirthNot SummerSummer
Not Summer
Summer
Not SummerSummer
Not Summer
Summer
Not SummerSummer
Not Summer
Summer
Not SummerSummer
Not Summer
Summer
Not SummerSummer
Not Summer
Summer
GenderFemale
Male
Female
Male
Female
Male
Female
Male
Female
Male
Dependent VariableIQ
Mathematical Ability
Reading Accuracy
Reading Comprehension
Communication Skill
Mean Std. Error Lower Bound Upper Bound
95% Confidence Interval
104
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
207
Testando pressuposiçõesTestando pressuposiçõesBox's Test of Equality of Covariance Matrices a
28.543.770
30
2990.804
.810
Box's M
F
df1
df2
Sig.
Tests the null hypothesis that the observed covariancematrices of the dependent variables are equal across groups.
Design: Intercept+GENDER+SOB+GENDER * SOBa.
Levene's Test of Equality of Error Variances a
.333 3 67 .801
2.003 3 67 .122
1.259 3 67 .295
1.471 3 67 .230
1.380 3 67 .256
IQ
Mathematical Ability
Reading Accuracy
Reading Comprehension
Communication Skill
F df1 df2 Sig.
Tests the null hypothesis that the error variance of the dependent variable isequal across groups.
Design: Intercept+GENDER+SOB+GENDER * SOBa.
� Não rejeita homogeneidade da matriz de variâncias e variâncias
� Não rejeita homogeneidade de variâncias
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
208
� Escolhendo a estatística Wilks’ Lambda
Multivariate Tests b
.995 2296.239a 5.000 63.000 .000 .995
.005 2296.239a 5.000 63.000 .000 .995
182.241 2296.239a 5.000 63.000 .000 .995
182.241 2296.239a 5.000 63.000 .000 .995
.374 7.542a 5.000 63.000 .000 .374
.626 7.542a 5.000 63.000 .000 .374
.599 7.542a 5.000 63.000 .000 .374
.599 7.542a 5.000 63.000 .000 .374
.388 7.974a 5.000 63.000 .000 .388
.612 7.974a 5.000 63.000 .000 .388
.633 7.974a 5.000 63.000 .000 .388
.633 7.974a 5.000 63.000 .000 .388
.104 1.465a 5.000 63.000 .214 .104
.896 1.465a 5.000 63.000 .214 .104
.116 1.465a 5.000 63.000 .214 .104
.116 1.465a 5.000 63.000 .214 .104
Pillai's Trace
Wilks' Lambda
Hotelling's Trace
Roy's Largest Root
Pillai's Trace
Wilks' Lambda
Hotelling's Trace
Roy's Largest Root
Pillai's Trace
Wilks' Lambda
Hotelling's Trace
Roy's Largest Root
Pillai's Trace
Wilks' Lambda
Hotelling's Trace
Roy's Largest Root
EffectIntercept
GENDER
SOB
GENDER * SOB
Value F Hypothesis df Error df Sig.Partial EtaSquared
Exact statistica.
Design: Intercept+GENDER+SOB+GENDER * SOBb.
105
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
209
Source Dependent Variable Sum of Squares
df Mean Square
F Sig.
GENDER IQ 2441.692 1 2441.692 33.279 .000Mathematical Ability 20.893 1 20.893 4.723 .033
Reading Accuracy .159 1 .159 .107 .744Reading
Comprehension1.922 1 1.922 3.219 .077
Communication Skill 11.275 1 11.275 3.937 .051SOB IQ 1267.047 1 1267.047 17.269 .000
Mathematical Ability 44.414 1 44.414 10.041 .002Reading Accuracy 2.017 1 2.017 1.363 .247
Reading Comprehension
10.629 1 10.629 17.796 .000
Communication Skill 19.350 1 19.350 6.756 .011GENDER *
SOBIQ 251.550 1 251.550 3.429 .068
Mathematical Ability 2.009 1 2.009 .454 .503Reading Accuracy .846 1 .846 .572 .452
Reading Comprehension
9.754E-03 1 9.754E-03 .016 .899
Communication Skill 3.149E-03 1 3.149E-03 .001 .974Error IQ 4915.794 67 73.370
Mathematical Ability 296.371 67 4.423Reading Accuracy 99.134 67 1.480
Reading Comprehension
40.018 67 .597
Communication Skill 191.888 67 2.864
Teste UnivariadoUniversidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
210
ManovaManova1. Gender
54.940 1.726 51.494 58.386
67.329 1.277 64.779 69.878
3.232 .424 2.385 4.078
4.378 .314 3.752 5.003
7.334 .245 6.845 7.824
7.434 .181 7.072 7.796
8.020 .156 7.709 8.331
8.368 .115 8.138 8.598
6.698 .341 6.017 7.379
7.540 .252 7.036 8.043
GenderFemale
Male
Female
Male
Female
Male
Female
Male
Female
Male
Dependent VariableIQ
Mathematical Ability
Reading Accuracy
Reading Comprehension
Communication Skill
Mean Std. Error Lower Bound Upper Bound
95% Confidence Interval
2. Season of Birth
56.672 1.633 53.412 59.932
65.596 1.394 62.814 68.379
2.969 .401 2.169 3.770
4.640 .342 3.957 5.323
7.206 .232 6.743 7.669
7.562 .198 7.167 7.958
7.785 .147 7.491 8.079
8.603 .126 8.351 8.854
6.567 .323 5.923 7.211
7.670 .275 7.120 8.220
Season of BirthNot Summer
Summer
Not Summer
Summer
Not Summer
Summer
Not Summer
Summer
Not Summer
Summer
Dependent VariableIQ
Mathematical Ability
Reading Accuracy
Reading Comprehension
Communication Skill
Mean Std. Error Lower Bound Upper Bound
95% Confidence Interval
106
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
211
Não nasceu no verão Não nasceu no verão �������� 00Wilks' Lambda
.686 25.050 5 .000Test of Function(s)1
Wilks'Lambda Chi-square df Sig.
Standardized Canonical Discriminant Function Coeffi cients
.235
.388
.141
.640
.359
IQ
Mathematical Ability
Reading Accuracy
Reading Comprehension
Communication Skill
1
Function
� Esta função separa bem os dois grupos (Wilks’ Lambda)
� Coeficientes padronizados, mostram a contribuição de cadavariável na função.
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
212
Correlações entre as variáveis Correlações entre as variáveis preditoras e a funçãopreditoras e a função
Structure Matrix
.743
.614
.508
.442
.175
Reading Comprehension
IQ
Mathematical Ability
Communication Skill
Reading Accuracy
1
Function
Pooled within-groups correlations between discriminatingvariables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function.
107
Universidade Federal de Uberlândia
Universidade Federal de Uberlândia
Faculdade de Matemática
Faculdade de Matemática
Curso de Especialização em Estatística Empresarial
Curso de Especialização em Estatística Empresarial
213
Sucesso da prediçãoSucesso da predição
Classification Results a
23 9 32
7 32 39
71.9 28.1 100.0
17.9 82.1 100.0
Season of BirthNot Summer Born
Summer Born
Not Summer Born
Summer Born
Count
%
Original
Not SummerBorn Summer Born
Predicted Group Membership
Total
77.5% of original grouped cases correctly classified.a.