Aula 03 Redução do Conjunto de...
Transcript of Aula 03 Redução do Conjunto de...
Aula 03 – Reducao do Conjunto deDados
Clodoaldo A. M. Lima, Sarajane M. Peres
20 de agosto de 2015
Material baseado em:HAN, J. & KAMBER, M. Data Mining: Conceptsand Techiniques. 2nd. 2006
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 1 / 72
Recapitulando
Conceitos
”coisas”que podem ser aprendidas/descobertas pelos algoritmos de mineracao de
dados;
Componentes da entrada do algoritmos de mineracao de dados
Conjunto de instancias (dados): exemplos individuais e independentes de um conceito;formas mais complicada tambem sao possıveis;
Atributos: medidas de caracterısticas de uma instancia; descritores de uma instancia.
Componente de saıda do algoritmo
Descricao do conceito: conceito aprendido e representado por meio de um modelo
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 2 / 72
O que e um atributo?
Cada instancia e descrita por um conjunto fixo pre-determinado de caracterısticas - Atributos
Na pratica, porem, o numero de atributos pode variar
Solucao possıvel: um sinalizador de “valor irrelevante”
Problema relacionado: a existencia de um atributo pode depender do valor de
um outro
Tipos possıveis de atributos (escalas de medidas)
Escalas nao metricas (qualitativas)
Nominal e Ordinal
Escalas metricas (quantitativas)
Intervalar e Razao
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 3 / 72
Escala Nominal ou Categorica
Valores sao sımbolos distintos que servem apenas para rotular ou identificar
Atributo ”Sexo”: Masculino e Feminino
Atributo ”Religiao”: Catolica, Protestante,...
Atributo ”Partido Polıtico”: PT, PFL, PSDB, ...
Nao existem relacoes entre valores nominais - ordenacao ou distancia
Nao faz sentido o teste “Masculino ≥ Feminino”
Apenas testes de igualdade podem ser feitos
”Sexo”= Masculino
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 4 / 72
Escala Nominal ou Categorica
Alguns tecnicas de aprendizado requerem que os atributos em escala nominal sejamcodificados
Esta codificacao deve ser realizada de forma que a distancia entre os valores atributosde cada seja constante
Considere o atributo Estado civil: solteiro, casado, viuvo.
Se codificarmos solteiro como 1, casado como 2, viuvo como 3. Estamosassumindo uma ordem entre elesA codificacao mais adequada seria: solteiro como 001, casado como 010,viuvo como 100.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 5 / 72
Escala Ordinal
Os valores podem ser ordenados, ranqueados
Toda subclasse pode ser comparada com outra em termos de uma relacao da forma
”maior que”ou ”menor que”
Atributo ”Temperatura”: Quente ≥ Morno ≥ Frio (no entanto, nao fazsentido ”Quente + Frio”ou ”2*Morno”)
Distincao entre Nominal e Ordinal nao e sempre clara
Atributo “Tempo”: Ensolarado, Nublado, Chuvoso
Nublado e algo entre Ensolarado e Chuvoso?
Codificacao
Considerando o atributo temperatura, o qual assume os seguintes valores: Frio,
Morno, Quente.
Uma codificacao adequada seria: Frio - 1, Morno - 2, Quente - 3
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 6 / 72
Escala Intervalar
Quantidades intervalares alem de ordenadas, tambem possuem unidades constantes de medidas
Diferencas entre quaisquer dois pontos adjacentes em qualquer parte da escala saoiguais
O ponto zero e arbitrario
Soma e produto nao fazem sentido
As escalas intervalares mais familiares sao as escalas de temperatura Fahrenheit e
Celsius
Cada uma tem um ponto zero arbitrario e nenhuma indica uma quantia nulaou ausencia de temperatura
Podemos dizer que 80oF tem o dobro de temperatura de 40oF?
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 7 / 72
Escala de Razao (Proporcional)
Difere da escala intervalar por possuir um zero absoluto
Todas as operacoes matematicas sao possıveis com medidas em escala de razao
Numeros reaisAtributo ”Distancia”: a distancia entre um objeto e ele mesmo e zero
Atributo ”Peso”: os aparelhos usados para medir peso tem um ponto zero
absoluto
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 8 / 72
Tipos de Atributos
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 9 / 72
Por que estudar tipos especıficos deatributos?
Compreender os diferentes tipos de escalas de medidas e importante por duas razoes:
O pesquisador deve identificar a escala de medida de cada atributo usado, de
forma que dados nao metricos nao sejam incorretamente usados como dados
metricos e vice-versa;
“Partido Polıtico” ≥ PFL nao faz sentido, enquanto que ”Temperatura”≥ Frio
ou ”Peso”≤ 38 fazem.
A escala de medida e crıtica ao determinar que algoritmos de aprendizado de maquina
sao mais apropriados.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 10 / 72
Tipos de Dados
Matriz de dados (ou estrutura objeto-por-variavel): representa N objetos com p
variaveis (tambem chamadas de medidas ou atributos).
cada linha (com suas colunas) representam uma entidadeA estrutura e organizada na forma de uma tabelarelacional, ou uma matriz N × p.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 11 / 72
Medida de dissimilaridade entre doisobjetos
Matriz de dissimilaridade (ou estrutura objeto-por-objeto)
Armazena um conjunto de medidas de proximidade para todo par de objetos (tambem
chamadas de medidas de dissimilaridade)
a estrutura e organizada em uma matriz n × n: onde d(i , j) e a medida de
diferenca ou dissimilaridade entre os objetos i e j .
cada linha e coluna na matriz de dissimilaridade representa uma mesma
entidade.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 12 / 72
Distancia entre atributos nominais(binarios)
Tabela de contingencia para dados binarios
Considerando que os atributos foram codificados como 1 e 0.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 13 / 72
Distancia entre atributos nominais(binarios)
Atributos nominais binarios simetricos
Aquelas que nao possuem preferencia na codificacao (caso do atributo sexo), o
resultado nao sofre alteracoes quando os codigos sao modificados, assim a e d
tem a mesma funcao
Atributos nominais binarios assimetricos
Aquelas cuja codificacao usa o numero 1 para indicar a presenca do atributo e 0 para aausencia (na area de saude 1 indica a presenca da doenca e 0 a ausencia)
A modificacao desta codificacao altera os resultados. Por esta razao deve se utilizarcoeficientes especıficos para esta mensuracao; indivıduos com codigos 1-1 indicamsemelhanca, mas indivıduos 0-0 nao indicam necessariamente semelhanca.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 14 / 72
Distancia entre atributos nominais(binarios)
Simple Matching (invariante a codificacao, se a variavel binaria e simetrica)
d(i , j) =b + c
a + b + c + d
Jaccard (nao invariante a codificacao, se a variavel e assimetrica
d(i , j) =b + c
a + b + c
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 15 / 72
ExemploConsidere o seguinte exemplo
genero e um atributo simetrico.
os atributos restantes sao binarios assimetricos
assuma que os valores de Y e P sejam fixados para 1, e o valor de N para 0
d(i , j) =0 + 1
2 + 0 + 1= 0.33 d(i , j) =
1 + 1
1 + 1 + 1= 0.67 d(i , j) =
1 + 2
1 + 1 + 2= 0.75
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 16 / 72
Distancia entre atributos categoricos(mais de 2 categorias)
Metodo 1: Concordancias simples
m: # das concordancias, p: numero de variaveis
d(i , j) =p −m
p
Metodo 2: usa um grande numero de variaveis binarias
Criacao de um novo atributo binario para cada uma das M categorias
Proceda-se como anteriormente, assumindo valores binarios
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 17 / 72
Distancia entre Atributos intervalares
Permitem nao apenas ordenar em postos os itens que estao sendo medidos, mas
tambem quantificar e comparar o tamanho das diferencas entre eles.
Exemplo: temperatura medida em graus Celsius constitui uma variavel intervalar.
Pode-se dizer que a temperatura de 40oC e maior do que 30oC e que um aumento de
20oC para 40oC e duas vezes maior do que um aumento de 30oC para 40oC.
E possıvel calcular a diferenca
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 18 / 72
Atributos Ordinais
Um atributo ordinal pode ser qualitativo (classe social) ou quantitativo (numero defilhos)
A ordem e importante
Pode ser tratado como uma variavel de escala intervalar
Trocando seu valor xif pelo seu rank rifMapear a amplitude de cada variavel em [0, 1] trocando ri f por
rif ∈ {1, · · · ,Mf }
zif =rif − 1
Mf − 1
Calcular a dissimilaridade usando os metodos atributos de escala intervalar
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 19 / 72
Atributos Proporcional
Nessa escala de valores numericos, alem da diferenca, tem sentido calcular a proporcaoentre valores (o zero e absoluto).
Ex: Peso, Altura,
Metodos:
Trata-las como variaveis de escala intervalar — nao e uma boa escolha!
(Porque?)
A escala do intervalo pode ser distorcido
Aplicar uma transformacao logarıtmica
yif = log(xif )
Trata-las como os dados ordinais quantitativos (Peso: Baixo, Medio, Alto)
Tratando os seus ranks como escala intervalar.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 20 / 72
Atributos de varios tipos
Uma base de dados pode conter todos os 6 tipos: simetrica binaria, assimetrica
binaria, nominal, ordinal, intervalar e proporcional.
Pode-se usar uma expressao ponderada para combina-las.
f e binaria ou nominal: dij(f ) = 0 se xif = xjf , ou dij(f ) = 1 senao
f e intervalar: use a distancia normalizada
f e ordinal ou de escala proporcional
d(i , j) =
∑pf =1 δij(f )dij(f )∑p
f =1 δij(f )
Calcule ranks rif eE trate zif como intervalar
zif =rif − 1
Mf − 1
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 21 / 72
Revisao
Problemas de Otimizacao
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 22 / 72
PreliminaresTipos de problema de otimizacao
Problema de otimizacao irrestrita
(P1) minimizex
f (x)
s. t. x ∈ X .
onde x = [xi , · · · , xn] ∈ Rn, f (x) : Rn →R, e X e um conjunto fechado (usualmente
X= Rn)
Problema de otimizacao restrita
(P2) minimizex
f (x)
subject to gi (x) ≤ 0, i = 1, . . . ,m.
hi (x) = 0, i = 1, . . . , l .
x ∈ X ,
onde g1(x), · · · , gm(x), h1(x), · · · , hl(x) : Rn →RSeja g(x) = (g1(x), · · · , gm(x)) : Rn →Rm, h(x) = (h1(x), · · · , hl(x)) : Rn →Rl
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 23 / 72
Condicoes de otimalidade para problemasirrestritos
Teorema
Suponha que f (x) seja duas vezes diferenciavel em x ∈ X . Se x e um mınimo local,
entao ∇f (x) = 0 e H(x) e semidefinida positiva.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 24 / 72
Exemplo
f (x) = 12x2
1 + x1x2 + 2x22 − 4x1 − 4x2 − x3
2
Entao
∇f (x) =(x1 + x2 − 4, x1 + 4x2 − 4− 3x2
2
)T,
e
H(x)) =
[1 1
1 4− 6x2
]
∇f (x) = 0 tem exatamente duas solucoes: x = (4, 0) e x = (3, 1). Mas
H(x) =
[1 1
1 −2
]
e indefinita, portanto, a unica solucao candidata para um mınimo local e x = (4, 0)
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 25 / 72
Exemplo
Encontre os candidatos a mınimos e maximos locais da funcao
f (x) = (2x1 − x2)2 + (3x1 − x3)2 + (3x2 − 2x3)2
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 26 / 72
Condicoes Algebricas Necessaria
Teorema - Condicoes necessarias Karush-Khun-Tucker (KKT)
Seja x ser uma solucao factıvel de (P2) e seja I = {i : gi (x) = 0}. Alem disso, suponha
que ∇hi (x) para i = 1, · · · , l e ∇gi (x) para i ∈ I sao linearmente independente. Se x e
um mınimo local, la existe (u, v) tal que
∇f (x) +∇gi (x)Tu +∇hi (x)T v = 0,
u ≥ 0
,
uigi (x), i = 1, · · · ,m
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 27 / 72
Autovalor e Autovetor
X =
[1 2
1.2 2.12.1 4.3
]
X−X =
[1 2
1.2 2.12.1 4.3
]−[ −1.43 −2.79−1.43 −2.79−1.43 −2.79
]
X =
[ −0.43 −0.79−0.23 −0.690.66 1.5
]
Cov(X ) =1
2X
TX
Cov(X ) =1
2
[0.686 1.511.51 3.38
]
Cov(X ) =
[0.343− α 0.755
0.755 1.69− α
]
Det [Cov(X )− Iα] = α2 − 2.033α + 0.010 = 0
α =
[2.02830.0050
]
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 28 / 72
Autovalor e Autovetor
Σw1 = αw1
w1 =
[ab
][
0.343− α 0.7550.755 1.69− α
]∗[
ab
]=
[00
][−1.684 0.7550.755 −0.338
]∗[
ab
]=
[00
]a = 0.448b
w1 =
[ab
]=
[0.448
1
]
w1 =w1
‖w1‖=
[ab
]=
0.448√0.4482+12
1√0.4482+12
=
[0.40890.9126
]
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 29 / 72
Autovalor e Autovetor
Σw1 = αw1
w2 =
[ab
][
0.343− α 0.7550.755 1.69− α
]∗[
ab
]=
[00
][
0.338 0.7550.755 1.689
]∗(
ab
]=
[00
]a = −2.231b
w1 =
[ab
]=
[0.448
1
]
w2 =w1
‖w2‖=
[ab
]=
−2.237√2.2312+12
1√2.2312+12
=
[−0.91250.4089
]
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 30 / 72
Alguns conceitos ....Reducao do conjunto de dados
Mineracao e analise de dados em um conjunto muito grande de dados podem tomar
muito tempo e dificultar o trabalho de criacao dos modelos, tornando tal analise
impraticavel e/ou ineficiente.
Tecnicas de reducao de dados devem ser aplicadas para obter uma representacao
reduzida do conjunto de dados, porem mantendo a integridade dos dados originais –
preservando informacao.
Estrategias:
Agregacao de dados: aplicacao de operacoes sobre os dados de forma a construir os‘cubos”;Discretizacao e geracao de hierarquias: os valores dos atributos sao substituıdos porintervalos ou conceitos.Selecao de atributos: atributos (dimensoes) irrelevantes, fracamente relevantes ouredundantes devem ser detectados e removidos”;Reducao de dimensionalidade: mecanismos para transformacao sao usados paradiminuir a quantidade de dimensoes dos dados;Reducao de “numero” (numerosity): substituicao ou estimativa por representacoesalternativas, tais como modelos parametricos (onde e necessario guardar somente osparametros do modelo) ou metodos nao parametricos tais como clustering,amostragem ou histogramas;
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 31 / 72
As principais tecnicas de reducao dedimensionalidade
Selecao de caracterısticas
Definicao
Objetivos
Extracao de caracterıstica
Definicao
Objetivos
As diferencas entre as duas tecnicas
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 32 / 72
Selecao de Caracterıstica
Definic ao
Um processo que seleciona um subconjunto otimo de caracteristicas de acordo para
uma func ao objetivo
Objetivos
Reduzir a dimensionalidade e remover ruıdos
Melhorar o desempenho de mineracao
Velocidade de aprendizadoPrecisao preditivaSimplicidade e compreensibilidade dos resultadosextraıdos
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 33 / 72
Extracao de caracterıstica
Definic ao
Refere-se para o mapeamento dos dados de alta dimensionalidade em um espaco de
baixa de dimensionalidade
Dado um conjunto de pontos no espaco d-dimensional {x1, x2, · · · , xn}, compute sua
representacao de baixa dimensao
xi ∈ <d → yi ∈ <p (p � d)
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 34 / 72
Extracao de caracterısticas
Extracao de caracterıstica linear
O mapeamento otimo y = f (x) e, em geral, uma funcao cuja forma e dependente do
problema
1 Assim, em extracao de caracterıstica e comumente empregado projecoes
lineares y = Wx
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 35 / 72
Representacao do sinal versus classificacaoDois criterios podem ser usado para encontrar um mapeamento para extracao de caracterısticay = f (x)
1 Representacao Sinal: o objetivo de extracao de caracterıstica e representar os
exemplos precisamente em um espaco de baixa dimensionalidade
2 Classificacao: O objetivo da extracao de caracterısticas e o de melhorar a
informacao discriminatoria da classe no espaco de menor dimensao
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 36 / 72
Extracao de caracterıstica
1 Baseado na representacao do sinal
1 Analise de Componentes Principais (PCA)2 Analise de Componentes Independentes (ICA)3 Analise de Fator
2 Baseado na Classificacao:
1 Analise de Discriminante de Fisher (LDA)
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 37 / 72
Analise de Componentes Principais - PCA
Definicao
Nos metodos de projecao, nos estamos interessados em encontrar um mapeamento a
partir das entradas no espaco original para um novo espaco (p < d)-dimensional, com
mınima perda de informacao. A projecao de x sobre a direcao de w e
z = wT x
PCA e um metodo nao supervisionado o qual nao usa a informacao da saıda; o criterio
a ser maximizado e a variancia.
A componente principal e w1 tal que as amostras da entrada, apos a projecao sobre w1,
sejam mais espalhada tal que a diferenca entre os pontos de amostragem tornam-se
mais aparente.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 38 / 72
Abordagem de Variancia MaximaNeste caso nos tentamos encontrar um subespaco de dimensionalidade p < m para o
qual a variabilidade da projecao dos pontos e maximizada. Se nos denotarmos com x a
media amostral:
x = 1n
∑ni=1 xi
entao a variancia dos dados projetados sobre o subespaco definido pela direcao W sera
Var(z) = 1n
∑ni=1
(wT xi − wT x
)2= 1
n
∑ni=1
(wT (xi − x
)2
Var(z) = wT(∑n
i=1(xi−x)T (xi−x)
n
)w
Dado que a matriz de covariancia de z (Cov(z)) e definida por:
Σ =∑n
i=1(xi−x)T (xi−x)
n
A equacao acima pode ser escrita como:
Var(z) = wTΣw
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 39 / 72
Analise de componentes principais
Para uma solucao unica e fazer a direcao o fator mais importante, temos que
‖w1‖ = 1.
Se z1 = wT1 x com Cov(x) = Σ, entao Var(z1) = wT
1 ΣwT1 .
O problema a ser resolvido e dado por:
maximizarw1
wT1 Σw
T1
subject to wT1 w1 = 1.
Escrevendo esta como um problema de Lagrange, nos temos
maximizarw1
wT1 Σw
T1 − α(wT
1 w1 − 1)
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 40 / 72
Analise de componentes principais
Derivando com relacao a w1 e fazendo igual a zero, nos temos
2Σw1 − 2αw1 = 0, portanto Σw1 = αw1
Isto e verdade, se w1 e um auto-vetor de Σ e α e o correspondente auto-valor.
Logo nos queremos maximimizar
wT1 Σw1 = αwT
1 w1 = α
Portando, nos escolhemos o auto-vetor com maior auto-valor para a variancia ser
maxima.
Conclusao
A componente principal e o auto-vetor da matriz de covariancia das amostras de
entrada com o maior auto-valor λ1 = α
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 41 / 72
Analise de componentes principais
A segunda componente principal, w2, devera tambem maximizar a variancia, ter norma
unitaria, e ser ortogonal para w1.
Este requerimento e tal que apos a projecao z2 = wT2 x e descorrelacionado com z1.
Para a segunda componente, nos temos que:
maximizarw2
wT2 Σw
T2
subject to wT1 w1 = 1. w
T2 w1 = 0.
Escrevendo esta equacao empregando os multiplicadores de Lagrange, temos que:
maximizarw1
wT1 Σw
T1 − α(wT
1 w1 − 1)− β(wT2 w1 − 1)
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 42 / 72
Analise de componentes principais
wT2 ΣwT
2 − α(wT2 w2 − 1)− β(wT
2 w1 − 1)
Derivando a equacao acima com relacao a w2, e fazendo igual a 0, nos temos que:
2Σw2 − 2αw2 − βw1 = 0
Multiplicando por wT1 a direita, temos que
2wT1 Σw2 − 2αwT
1 w2 − βwT1 w1 = 0
Sabemos que wT1 w2 = 0 e wT
1 w1 = 1. Logo
2wT1 Σw2 − β = 0
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 43 / 72
Analise de componentes principais
wT1 Σw2 e um escalar e igual para sua transposta wT
2 Σw1. Assim temos
2wT2 Σw1 − β = 0
Vamos analisar este primeiro termo. w1 e um auto-vetor de Σ, logo Σw1 = λw1, isto e
wT2 Σw1 = wT
2 λw1 = λwT2 w1 = 0
Portanto, β = 0. Logo a equacao inicial se reduz para
2Σw2 − 2αw2 = 0
Σw2 = αw2
Isto implica que w2 deveria ser um auto-vetor de Σ com o segundo maior auto-valor,λ2 = α. De forma similar, nos podemos mostrar que as outras dimensoes sao dadaspelo auto-vetor com auto-valores decrescente.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 44 / 72
Analise de Componentes Principais
Dado que Σ e simetrica, para dois auto-valores diferentes, os auto-vetores sao
ortogonais.
Se Σ e definida positiva (xTΣx > 0, para ∀x 6== 0), entao seus auto-valores sao
positivos.
Se Σ e singular, entao seu rank, a dimensionalidade efetiva, e k com k < d e
λi , i = k + 1, · · · , d sao 0 (λi sao ordenados em ordem decrescente). Os k auto-vetores
com auto-valores nao-zeros correspondem para dimensao do espaco reduzido.
O primeiro auto-vetor (aquele com maior auto-valor), w1, isto e, a componente
principal, explica a maior parte da variancia, a segunda explica a segunda maior parte e
assim sucessivamente
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 45 / 72
Analise de Componentes PrincipaisVamos definir
z = W T (x −m)
onde as k colunas de W sao os k auto-vetores de S , o estimador de Σ. Nos subtraımosa medias amostral de x antes de realizar a projecao, visando centralizar os dados naorigem.
Apos esta transformacao linear, chegamos a um espaco k-dimensional, cujas dimensoessao os auto-vetores, e as variancias ao longo destas novas dimensoes sao iguais aosauto-valores. Para normalizar as variancias, podemos dividir pelas raızes quadradas dosauto-valores.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 46 / 72
Analise de Fatores - FA
Aplicacoes
Identificar dimensoes latentes, isto e, fatores que justifiquem as correlacoes
observadas entre as variaveis
Substituir o conjunto original de variaveis (em geral grande) e correlacionadas
por um conjunto menor de variaveis sem correlacao ou com baixa correlacao.
Objetivo Global: parcimonia, isto e, reducao da complexidade.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 47 / 72
Analise de Fatores - FA
E uma classe de processos utilizados na reducao e sumarizacao de dados (Malhotra,
2001);
E um nome generico dado a uma classe de metodos estatısticos multivariados, cujo
proposito principal e definir uma estrutura fundamental em uma matriz de dados (Hair
et al., 1995).
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 48 / 72
Analise de Fatores - FA
Objetivos
Examinar a “interdependencia” entre todas as variaveis (correlacoes).
Reduzir diversas variaveis, provavelmente “correlacionadas”, a uma quantidade
menor e mais facilmente “gerenciavel”.
Analisar a estrutura das correlacoes entre um grande numero de variaveis,
definindo um conjunto menor de dimensoes basicas comuns, chamadas fatores.
Reduzir “massas” de informacao a um tamanho mais facilmente gerenciavel;
A ciencia busca explicacoes mais simples (lei da parcimonia);
AF propoe-se a reduzir a complexidade das variaveis a uma maior simplicidade.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 49 / 72
Historico
Charles Sperman (1904), psicologo americano
Pesquisas sobre habilidades mentais
Buscava identificar ”um fator comum”para matematica, vocabulario,
comunicacao, arte, logica, etc.
Fator basico de inteligencia geral - Fator G
Desenvolveu a Analise de Fatores
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 50 / 72
Analise de Fator - FA
Analise de Componentes Principais - PCA
A partir das dimensoes originais xi , i = 1, 2, · · · , d , nos formamos um novo conjunto de
variaveis z tal que
z = W T (x − µ)
Analise de Fator - FA
Nos assumimos que ha um conjunto de variaveis latentes zj , j = 1, · · · , k, o qual
quando agindo em combinacao gera x
Objetivo
O objetivo e caracterizar a dependencia entre as variaveis observadas por meio de um
numero pequeno de fatores
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 51 / 72
Analise de Fator - FA
Suponha que haja um conjunto de variaveis que tem alta correlacao entre si e baixa
correlacao com todas as outras variaveis.
Entao, pode ser que haja um fator que de origem a essas variaveis. Se as outras
variaveis podem ser igualmente agrupados em subconjuntos, entao alguns fatores pode
representar esses grupos de variaveis.
Embora a analise de fatores sempre particiona as variaveis em clusters de fatores, se os
fatores significam algo, ou realmente existe, e uma questao em aberto.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 52 / 72
Analise de Fator
Definicao
FA assume que cada dimensao da entrada, xi , i = 1, · · · , d pode ser escrita como uma
soma ponderada de k < d fatores, zj , j = 1, · · · , k, mais um termo residual.
xi − µi = vi1z1 + vi3z2 + · · ·+ vikzk + εi , ∀i = 1, · · · , d
xi − µi =k∑
j=1
vijzj + εi
Este pode ser escrito em forma matricial como:
x − µ = Vz + ε
onde V e uma matriz de pesos d × k, chamada de carga dos fatores. A partir de
agora, vamos assumir µ = 0 sem perda de generalidade; nos podemos sempre adicionar
µ apos a projecao.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 53 / 72
Analise de Fator
Dado que Var(zj) = 1 e Var(εi ) = ψ
Var(xi ) = v2i1 + v
2i2 + · · ·+ v
2i1 + ψi
∑kj=1 v
2ij e a parte da variancia explicada pelos fatores comuns e ψi e a variancia
especifica de xi
Na forma matricial, nos temos que
Σ = Cov(x) = Cov(Vz + ε)
= Cov(Vz) + Cov(ε)
= VCov(z)V T + Ψ
= VVT + Ψ
onde Ψ e uma matriz diagonal com ψi na diagonal.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 54 / 72
Analise de Fatores
Uma vez que os fatores possuem norma unitaria e sao descorrelacionados, nos temos
que Cov(z) = I .
Considere apenas dois fatores, por exemplo,
x1 = v11z1 + v12z2
x2 = v21z1 + v22z2
Entao
Cov(x1, z2) = Cov(v11z1 + v12z2, z2)
Cov(x1, z2) = Cov(v12z2, z2) = v12Var(z2) = v12
Logo
Cov(x , z) = V
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 55 / 72
Analise de Fator
Dado S , o estimador de Σ, nos gostarıamos de encontrar V e Ψ tal que
S = VV T + Ψ
Se ha poucos fatores, isto e, se V tem poucas colunas, entao nos temos uma estrutura
simplificada para S , como V e d × k e Ψ tem d valores, entao reduzimos o numero de
parametros de d2 para d .k + d .
Quando todos os ψi sao iguais, isto e, Ψ = ψI nos temos PCA probabilıstico (Tippping
and Bishop, 1999) e o PCA tradicional quando ψi sao iguais a zero.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 56 / 72
Analise de Fator
Vamos verificar como podemos encontrar os fatores de carga e especificar a variancia.
Vamos primeiro ignorar Ψ. Entao, usando decomposition espectral de S , nos sabemos
que:
S = CDCT = CD
1/2D
1/2C
T = (CD1/2)(CD1/2)T
onde temos somente k dos auto-vetores analisando a proporcao de variancia explicada
tal que C e matriz de auto-vetores d × k e D1/2 e matriz diagonal k × k com raiz
quadrada dos auto-valores na diagonal.
Logo temos que
V = CD1/2
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 57 / 72
Analise de Fator
Como estamos interessados na reducao da dimensionalidade, nos precisamos encontraros scores dos fatores, zj , a partir de xi . Nos queremos encontrar wji tal que
zj =d∑
i=1
wjixi + εi , j = 1, 2, · · · , k
onde xi tem media zero 0. Na forma vetorial, para observacao t, este pode ser escritocomo:
zt = W
txt + ε,∀t = 1, · · · ,N
Este e um modelo linear com d entradas e k saıdas. Sua transposta pode ser escritacomo:
(z t)T = (x t)TW T + εT , ∀t = 1, · · · ,N
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 58 / 72
Analise de fatores - FA
Dado que nos temos um conjunto com N observacoes, nos podemos escrever
Z = XW + Ξ
onde Z e uma matriz de fatores N × k, X e matriz de observacoes (centrada) N × d eΞ e uma matriz ruıdo N × k. Esta e regressao multivariada com multiplas saıdas e nossabemos que W pode ser encontrado como
W = (XTX )−1
XTZ
E agora?
Nos nao conhecemos Z; este e o que gostarıamos de calcular
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 59 / 72
Analise de Fator
Anteriormente, temos queW = (XT
X )−1X
TZ
Nos podemos dividir e multiplicar por N − 1 e obtemos
W = (N − 1)(XTX )−1 XTZ
N − 1=
1
(N − 1)−1(XT
X )−1 XTZ
N − 1
W =
(XTX
N − 1
)−1XTZ
N − 1
W = S−1
V
Logo, podemos escrever Z
Z = XW → Z = XS−1V
Assumindo que S e nao singular.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 60 / 72
Analise de Fator
Para reducao da dimensionalidade, FA nao oferece nenhuma vantagem sobre PCA
exceto a interpretabilidade dos fatores permitindo a identificacao de causas comuns,
uma explicacao simples e uma extracao de conhecimento.
Exemplo
No contexto de reconhecimento de fala, x corresponde para um sinal acustico, mas
sabemos que este e resultado da interacao nao linear de numero pequeno de
articuladores, isto e, mandıbula, lıngua, palato, labios e boca sao posicionados de
forma adequada para moldar o ar que sai dos pulmoes e gerar o som da fala.
Se um sinal de voz pode ser transformado para este espaco de articulacao, entao seria
muito facil. Esta e uma das linhas de pesquisa em reconhecimento de voz.
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 61 / 72
PCA usando Matlab
Conjunto de dados
Vamos considerar o conjunto de dados de celulas de levedura (yeast). Este conjunto dedados contem 384 genes correspondendo para 5 fases, medida em 17 pontos.
%Limpa tela e variaveisclear all; close all;%Carrega os dadosload yeast;%Calcula a dimensao dos dados[n,p] = size(data);% Centraliza os dadosdatac = data - repmat(sum(data)/n, n, 1);%Encontra a matriz de covarianciacovm = cov (datac);%Calculando os auto-vetores e auto-valores[eigvec, eigval]=eig(covm);
%Extraindo os elementos da diagonaleigval = diag(eigval);%Coloca em ordem decrescenteeigval = flipud(eigval);%Coloca em ordem decrescenteeigvec = eigvec(:,p:-1:1);Plota os autovaloresfigure(1), plot(1:length(eigval),eigval,’ko’)title(’Autovalores’)xlabel(’Indice dos autovalores - k’)ylabel(’Valor dos autovalores
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 62 / 72
PCA usando Matlab
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 63 / 72
Analise em Componentes Independentes -ICA
Historico
Tecnica ICA surge na decada de 1980 na modelagem de redes neurais
Em meados de 1990, novos algoritmos introduzidos por varios grupos de
pesquisas (Bell and Sejnowski, 1995; Lee et al., 1999; Hyvarinen and Oja,
1997; Hvarinen, 199a)
Decada de 1990: uso em problemas reais como processamento de sinais
biomedicos e separacao de sinais de audio em telecomunicacoes
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 64 / 72
Analise em Componentes Independentes -ICA
Motivacao
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 65 / 72
Analise em Componentes Independentes -ICA
Definicao
Observacao de n combinacao lineares de x1, x2, · · · , xn de n componentes s
xj = aj1s1 + aj2s2 + · · ·+ ajnsn, ∀j
x = As
Computar a inversa de A e obter as componentes independentes
s = Wx
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 66 / 72
Analise em Componentes Independentes -ICA
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 67 / 72
Analise em Componentes Independentes -ICA
Processo whithening (branqueamento)
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 68 / 72
Whithening
Objetivo
Tornar as variaveis aleatorias descorrelacionadas e com variancia 1
z = Vx
V = ED− 1
2 ET
E - e a matriz ortogonal dos autovetores da matriz de covariancia E [xxT ] D - e a
matriz diagonal dos autovalores da matriz de covariancia E [xxT ]
z sera o resultado de vetores medidos x1 e x2 apos whithening
Busca de fontes s1 e s2 atraves das variaveis z1 e z2
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 69 / 72
Whithening
Prova:
E [xxT ] = EDET
E [zzT ] = E [Vx(Vx)T ] = E [VxxTV ] = VE [xxT ]V T
E [zzT ] = (ED−12 E
T )(EDET )ED−12 E
T
E [zzT ] = ED− 1
2 ETEDE
TED− 1
2 ET
E [zzT ] = ED− 1
2 DD− 1
2 ET
E [zzT ] = ED12 D− 1
2 ET = EE
T = I
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 70 / 72
Whithening - Matlab
Funcoes usadas no Matlab para descobrir V
XX = cov(X );
[E ,D] = eig(XX );
V = E ∗ (D(−1/2)) ∗ E ′;
Assim foi possıvel obter a matriz para descorrelacionar os dados da matriz de sinais
medidos x1 e x2
A busca passou a ser feita entao na matriz Z e nao na matriz X
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 71 / 72
Solucionando ICA s = Wx
Dado um x
encontrar z (a estimacao de s)
encontrar w (a estimacao de A−1)
Remova a media, E [x] = 0
Whithening, E [xxT ] = I
Encontre um W ortogonal otimizando uma funcao objetiva
Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 72 / 72