Aula 03 Redução do Conjunto de...

Post on 25-May-2020

1 views 0 download

Transcript of Aula 03 Redução do Conjunto de...

Aula 03 – Reducao do Conjunto deDados

Clodoaldo A. M. Lima, Sarajane M. Peres

20 de agosto de 2015

Material baseado em:HAN, J. & KAMBER, M. Data Mining: Conceptsand Techiniques. 2nd. 2006

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 1 / 72

Recapitulando

Conceitos

”coisas”que podem ser aprendidas/descobertas pelos algoritmos de mineracao de

dados;

Componentes da entrada do algoritmos de mineracao de dados

Conjunto de instancias (dados): exemplos individuais e independentes de um conceito;formas mais complicada tambem sao possıveis;

Atributos: medidas de caracterısticas de uma instancia; descritores de uma instancia.

Componente de saıda do algoritmo

Descricao do conceito: conceito aprendido e representado por meio de um modelo

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 2 / 72

O que e um atributo?

Cada instancia e descrita por um conjunto fixo pre-determinado de caracterısticas - Atributos

Na pratica, porem, o numero de atributos pode variar

Solucao possıvel: um sinalizador de “valor irrelevante”

Problema relacionado: a existencia de um atributo pode depender do valor de

um outro

Tipos possıveis de atributos (escalas de medidas)

Escalas nao metricas (qualitativas)

Nominal e Ordinal

Escalas metricas (quantitativas)

Intervalar e Razao

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 3 / 72

Escala Nominal ou Categorica

Valores sao sımbolos distintos que servem apenas para rotular ou identificar

Atributo ”Sexo”: Masculino e Feminino

Atributo ”Religiao”: Catolica, Protestante,...

Atributo ”Partido Polıtico”: PT, PFL, PSDB, ...

Nao existem relacoes entre valores nominais - ordenacao ou distancia

Nao faz sentido o teste “Masculino ≥ Feminino”

Apenas testes de igualdade podem ser feitos

”Sexo”= Masculino

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 4 / 72

Escala Nominal ou Categorica

Alguns tecnicas de aprendizado requerem que os atributos em escala nominal sejamcodificados

Esta codificacao deve ser realizada de forma que a distancia entre os valores atributosde cada seja constante

Considere o atributo Estado civil: solteiro, casado, viuvo.

Se codificarmos solteiro como 1, casado como 2, viuvo como 3. Estamosassumindo uma ordem entre elesA codificacao mais adequada seria: solteiro como 001, casado como 010,viuvo como 100.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 5 / 72

Escala Ordinal

Os valores podem ser ordenados, ranqueados

Toda subclasse pode ser comparada com outra em termos de uma relacao da forma

”maior que”ou ”menor que”

Atributo ”Temperatura”: Quente ≥ Morno ≥ Frio (no entanto, nao fazsentido ”Quente + Frio”ou ”2*Morno”)

Distincao entre Nominal e Ordinal nao e sempre clara

Atributo “Tempo”: Ensolarado, Nublado, Chuvoso

Nublado e algo entre Ensolarado e Chuvoso?

Codificacao

Considerando o atributo temperatura, o qual assume os seguintes valores: Frio,

Morno, Quente.

Uma codificacao adequada seria: Frio - 1, Morno - 2, Quente - 3

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 6 / 72

Escala Intervalar

Quantidades intervalares alem de ordenadas, tambem possuem unidades constantes de medidas

Diferencas entre quaisquer dois pontos adjacentes em qualquer parte da escala saoiguais

O ponto zero e arbitrario

Soma e produto nao fazem sentido

As escalas intervalares mais familiares sao as escalas de temperatura Fahrenheit e

Celsius

Cada uma tem um ponto zero arbitrario e nenhuma indica uma quantia nulaou ausencia de temperatura

Podemos dizer que 80oF tem o dobro de temperatura de 40oF?

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 7 / 72

Escala de Razao (Proporcional)

Difere da escala intervalar por possuir um zero absoluto

Todas as operacoes matematicas sao possıveis com medidas em escala de razao

Numeros reaisAtributo ”Distancia”: a distancia entre um objeto e ele mesmo e zero

Atributo ”Peso”: os aparelhos usados para medir peso tem um ponto zero

absoluto

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 8 / 72

Tipos de Atributos

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 9 / 72

Por que estudar tipos especıficos deatributos?

Compreender os diferentes tipos de escalas de medidas e importante por duas razoes:

O pesquisador deve identificar a escala de medida de cada atributo usado, de

forma que dados nao metricos nao sejam incorretamente usados como dados

metricos e vice-versa;

“Partido Polıtico” ≥ PFL nao faz sentido, enquanto que ”Temperatura”≥ Frio

ou ”Peso”≤ 38 fazem.

A escala de medida e crıtica ao determinar que algoritmos de aprendizado de maquina

sao mais apropriados.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 10 / 72

Tipos de Dados

Matriz de dados (ou estrutura objeto-por-variavel): representa N objetos com p

variaveis (tambem chamadas de medidas ou atributos).

cada linha (com suas colunas) representam uma entidadeA estrutura e organizada na forma de uma tabelarelacional, ou uma matriz N × p.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 11 / 72

Medida de dissimilaridade entre doisobjetos

Matriz de dissimilaridade (ou estrutura objeto-por-objeto)

Armazena um conjunto de medidas de proximidade para todo par de objetos (tambem

chamadas de medidas de dissimilaridade)

a estrutura e organizada em uma matriz n × n: onde d(i , j) e a medida de

diferenca ou dissimilaridade entre os objetos i e j .

cada linha e coluna na matriz de dissimilaridade representa uma mesma

entidade.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 12 / 72

Distancia entre atributos nominais(binarios)

Tabela de contingencia para dados binarios

Considerando que os atributos foram codificados como 1 e 0.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 13 / 72

Distancia entre atributos nominais(binarios)

Atributos nominais binarios simetricos

Aquelas que nao possuem preferencia na codificacao (caso do atributo sexo), o

resultado nao sofre alteracoes quando os codigos sao modificados, assim a e d

tem a mesma funcao

Atributos nominais binarios assimetricos

Aquelas cuja codificacao usa o numero 1 para indicar a presenca do atributo e 0 para aausencia (na area de saude 1 indica a presenca da doenca e 0 a ausencia)

A modificacao desta codificacao altera os resultados. Por esta razao deve se utilizarcoeficientes especıficos para esta mensuracao; indivıduos com codigos 1-1 indicamsemelhanca, mas indivıduos 0-0 nao indicam necessariamente semelhanca.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 14 / 72

Distancia entre atributos nominais(binarios)

Simple Matching (invariante a codificacao, se a variavel binaria e simetrica)

d(i , j) =b + c

a + b + c + d

Jaccard (nao invariante a codificacao, se a variavel e assimetrica

d(i , j) =b + c

a + b + c

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 15 / 72

ExemploConsidere o seguinte exemplo

genero e um atributo simetrico.

os atributos restantes sao binarios assimetricos

assuma que os valores de Y e P sejam fixados para 1, e o valor de N para 0

d(i , j) =0 + 1

2 + 0 + 1= 0.33 d(i , j) =

1 + 1

1 + 1 + 1= 0.67 d(i , j) =

1 + 2

1 + 1 + 2= 0.75

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 16 / 72

Distancia entre atributos categoricos(mais de 2 categorias)

Metodo 1: Concordancias simples

m: # das concordancias, p: numero de variaveis

d(i , j) =p −m

p

Metodo 2: usa um grande numero de variaveis binarias

Criacao de um novo atributo binario para cada uma das M categorias

Proceda-se como anteriormente, assumindo valores binarios

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 17 / 72

Distancia entre Atributos intervalares

Permitem nao apenas ordenar em postos os itens que estao sendo medidos, mas

tambem quantificar e comparar o tamanho das diferencas entre eles.

Exemplo: temperatura medida em graus Celsius constitui uma variavel intervalar.

Pode-se dizer que a temperatura de 40oC e maior do que 30oC e que um aumento de

20oC para 40oC e duas vezes maior do que um aumento de 30oC para 40oC.

E possıvel calcular a diferenca

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 18 / 72

Atributos Ordinais

Um atributo ordinal pode ser qualitativo (classe social) ou quantitativo (numero defilhos)

A ordem e importante

Pode ser tratado como uma variavel de escala intervalar

Trocando seu valor xif pelo seu rank rifMapear a amplitude de cada variavel em [0, 1] trocando ri f por

rif ∈ {1, · · · ,Mf }

zif =rif − 1

Mf − 1

Calcular a dissimilaridade usando os metodos atributos de escala intervalar

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 19 / 72

Atributos Proporcional

Nessa escala de valores numericos, alem da diferenca, tem sentido calcular a proporcaoentre valores (o zero e absoluto).

Ex: Peso, Altura,

Metodos:

Trata-las como variaveis de escala intervalar — nao e uma boa escolha!

(Porque?)

A escala do intervalo pode ser distorcido

Aplicar uma transformacao logarıtmica

yif = log(xif )

Trata-las como os dados ordinais quantitativos (Peso: Baixo, Medio, Alto)

Tratando os seus ranks como escala intervalar.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 20 / 72

Atributos de varios tipos

Uma base de dados pode conter todos os 6 tipos: simetrica binaria, assimetrica

binaria, nominal, ordinal, intervalar e proporcional.

Pode-se usar uma expressao ponderada para combina-las.

f e binaria ou nominal: dij(f ) = 0 se xif = xjf , ou dij(f ) = 1 senao

f e intervalar: use a distancia normalizada

f e ordinal ou de escala proporcional

d(i , j) =

∑pf =1 δij(f )dij(f )∑p

f =1 δij(f )

Calcule ranks rif eE trate zif como intervalar

zif =rif − 1

Mf − 1

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 21 / 72

Revisao

Problemas de Otimizacao

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 22 / 72

PreliminaresTipos de problema de otimizacao

Problema de otimizacao irrestrita

(P1) minimizex

f (x)

s. t. x ∈ X .

onde x = [xi , · · · , xn] ∈ Rn, f (x) : Rn →R, e X e um conjunto fechado (usualmente

X= Rn)

Problema de otimizacao restrita

(P2) minimizex

f (x)

subject to gi (x) ≤ 0, i = 1, . . . ,m.

hi (x) = 0, i = 1, . . . , l .

x ∈ X ,

onde g1(x), · · · , gm(x), h1(x), · · · , hl(x) : Rn →RSeja g(x) = (g1(x), · · · , gm(x)) : Rn →Rm, h(x) = (h1(x), · · · , hl(x)) : Rn →Rl

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 23 / 72

Condicoes de otimalidade para problemasirrestritos

Teorema

Suponha que f (x) seja duas vezes diferenciavel em x ∈ X . Se x e um mınimo local,

entao ∇f (x) = 0 e H(x) e semidefinida positiva.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 24 / 72

Exemplo

f (x) = 12x2

1 + x1x2 + 2x22 − 4x1 − 4x2 − x3

2

Entao

∇f (x) =(x1 + x2 − 4, x1 + 4x2 − 4− 3x2

2

)T,

e

H(x)) =

[1 1

1 4− 6x2

]

∇f (x) = 0 tem exatamente duas solucoes: x = (4, 0) e x = (3, 1). Mas

H(x) =

[1 1

1 −2

]

e indefinita, portanto, a unica solucao candidata para um mınimo local e x = (4, 0)

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 25 / 72

Exemplo

Encontre os candidatos a mınimos e maximos locais da funcao

f (x) = (2x1 − x2)2 + (3x1 − x3)2 + (3x2 − 2x3)2

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 26 / 72

Condicoes Algebricas Necessaria

Teorema - Condicoes necessarias Karush-Khun-Tucker (KKT)

Seja x ser uma solucao factıvel de (P2) e seja I = {i : gi (x) = 0}. Alem disso, suponha

que ∇hi (x) para i = 1, · · · , l e ∇gi (x) para i ∈ I sao linearmente independente. Se x e

um mınimo local, la existe (u, v) tal que

∇f (x) +∇gi (x)Tu +∇hi (x)T v = 0,

u ≥ 0

,

uigi (x), i = 1, · · · ,m

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 27 / 72

Autovalor e Autovetor

X =

[1 2

1.2 2.12.1 4.3

]

X−X =

[1 2

1.2 2.12.1 4.3

]−[ −1.43 −2.79−1.43 −2.79−1.43 −2.79

]

X =

[ −0.43 −0.79−0.23 −0.690.66 1.5

]

Cov(X ) =1

2X

TX

Cov(X ) =1

2

[0.686 1.511.51 3.38

]

Cov(X ) =

[0.343− α 0.755

0.755 1.69− α

]

Det [Cov(X )− Iα] = α2 − 2.033α + 0.010 = 0

α =

[2.02830.0050

]

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 28 / 72

Autovalor e Autovetor

Σw1 = αw1

w1 =

[ab

][

0.343− α 0.7550.755 1.69− α

]∗[

ab

]=

[00

][−1.684 0.7550.755 −0.338

]∗[

ab

]=

[00

]a = 0.448b

w1 =

[ab

]=

[0.448

1

]

w1 =w1

‖w1‖=

[ab

]=

0.448√0.4482+12

1√0.4482+12

=

[0.40890.9126

]

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 29 / 72

Autovalor e Autovetor

Σw1 = αw1

w2 =

[ab

][

0.343− α 0.7550.755 1.69− α

]∗[

ab

]=

[00

][

0.338 0.7550.755 1.689

]∗(

ab

]=

[00

]a = −2.231b

w1 =

[ab

]=

[0.448

1

]

w2 =w1

‖w2‖=

[ab

]=

−2.237√2.2312+12

1√2.2312+12

=

[−0.91250.4089

]

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 30 / 72

Alguns conceitos ....Reducao do conjunto de dados

Mineracao e analise de dados em um conjunto muito grande de dados podem tomar

muito tempo e dificultar o trabalho de criacao dos modelos, tornando tal analise

impraticavel e/ou ineficiente.

Tecnicas de reducao de dados devem ser aplicadas para obter uma representacao

reduzida do conjunto de dados, porem mantendo a integridade dos dados originais –

preservando informacao.

Estrategias:

Agregacao de dados: aplicacao de operacoes sobre os dados de forma a construir os‘cubos”;Discretizacao e geracao de hierarquias: os valores dos atributos sao substituıdos porintervalos ou conceitos.Selecao de atributos: atributos (dimensoes) irrelevantes, fracamente relevantes ouredundantes devem ser detectados e removidos”;Reducao de dimensionalidade: mecanismos para transformacao sao usados paradiminuir a quantidade de dimensoes dos dados;Reducao de “numero” (numerosity): substituicao ou estimativa por representacoesalternativas, tais como modelos parametricos (onde e necessario guardar somente osparametros do modelo) ou metodos nao parametricos tais como clustering,amostragem ou histogramas;

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 31 / 72

As principais tecnicas de reducao dedimensionalidade

Selecao de caracterısticas

Definicao

Objetivos

Extracao de caracterıstica

Definicao

Objetivos

As diferencas entre as duas tecnicas

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 32 / 72

Selecao de Caracterıstica

Definic ao

Um processo que seleciona um subconjunto otimo de caracteristicas de acordo para

uma func ao objetivo

Objetivos

Reduzir a dimensionalidade e remover ruıdos

Melhorar o desempenho de mineracao

Velocidade de aprendizadoPrecisao preditivaSimplicidade e compreensibilidade dos resultadosextraıdos

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 33 / 72

Extracao de caracterıstica

Definic ao

Refere-se para o mapeamento dos dados de alta dimensionalidade em um espaco de

baixa de dimensionalidade

Dado um conjunto de pontos no espaco d-dimensional {x1, x2, · · · , xn}, compute sua

representacao de baixa dimensao

xi ∈ <d → yi ∈ <p (p � d)

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 34 / 72

Extracao de caracterısticas

Extracao de caracterıstica linear

O mapeamento otimo y = f (x) e, em geral, uma funcao cuja forma e dependente do

problema

1 Assim, em extracao de caracterıstica e comumente empregado projecoes

lineares y = Wx

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 35 / 72

Representacao do sinal versus classificacaoDois criterios podem ser usado para encontrar um mapeamento para extracao de caracterısticay = f (x)

1 Representacao Sinal: o objetivo de extracao de caracterıstica e representar os

exemplos precisamente em um espaco de baixa dimensionalidade

2 Classificacao: O objetivo da extracao de caracterısticas e o de melhorar a

informacao discriminatoria da classe no espaco de menor dimensao

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 36 / 72

Extracao de caracterıstica

1 Baseado na representacao do sinal

1 Analise de Componentes Principais (PCA)2 Analise de Componentes Independentes (ICA)3 Analise de Fator

2 Baseado na Classificacao:

1 Analise de Discriminante de Fisher (LDA)

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 37 / 72

Analise de Componentes Principais - PCA

Definicao

Nos metodos de projecao, nos estamos interessados em encontrar um mapeamento a

partir das entradas no espaco original para um novo espaco (p < d)-dimensional, com

mınima perda de informacao. A projecao de x sobre a direcao de w e

z = wT x

PCA e um metodo nao supervisionado o qual nao usa a informacao da saıda; o criterio

a ser maximizado e a variancia.

A componente principal e w1 tal que as amostras da entrada, apos a projecao sobre w1,

sejam mais espalhada tal que a diferenca entre os pontos de amostragem tornam-se

mais aparente.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 38 / 72

Abordagem de Variancia MaximaNeste caso nos tentamos encontrar um subespaco de dimensionalidade p < m para o

qual a variabilidade da projecao dos pontos e maximizada. Se nos denotarmos com x a

media amostral:

x = 1n

∑ni=1 xi

entao a variancia dos dados projetados sobre o subespaco definido pela direcao W sera

Var(z) = 1n

∑ni=1

(wT xi − wT x

)2= 1

n

∑ni=1

(wT (xi − x

)2

Var(z) = wT(∑n

i=1(xi−x)T (xi−x)

n

)w

Dado que a matriz de covariancia de z (Cov(z)) e definida por:

Σ =∑n

i=1(xi−x)T (xi−x)

n

A equacao acima pode ser escrita como:

Var(z) = wTΣw

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 39 / 72

Analise de componentes principais

Para uma solucao unica e fazer a direcao o fator mais importante, temos que

‖w1‖ = 1.

Se z1 = wT1 x com Cov(x) = Σ, entao Var(z1) = wT

1 ΣwT1 .

O problema a ser resolvido e dado por:

maximizarw1

wT1 Σw

T1

subject to wT1 w1 = 1.

Escrevendo esta como um problema de Lagrange, nos temos

maximizarw1

wT1 Σw

T1 − α(wT

1 w1 − 1)

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 40 / 72

Analise de componentes principais

Derivando com relacao a w1 e fazendo igual a zero, nos temos

2Σw1 − 2αw1 = 0, portanto Σw1 = αw1

Isto e verdade, se w1 e um auto-vetor de Σ e α e o correspondente auto-valor.

Logo nos queremos maximimizar

wT1 Σw1 = αwT

1 w1 = α

Portando, nos escolhemos o auto-vetor com maior auto-valor para a variancia ser

maxima.

Conclusao

A componente principal e o auto-vetor da matriz de covariancia das amostras de

entrada com o maior auto-valor λ1 = α

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 41 / 72

Analise de componentes principais

A segunda componente principal, w2, devera tambem maximizar a variancia, ter norma

unitaria, e ser ortogonal para w1.

Este requerimento e tal que apos a projecao z2 = wT2 x e descorrelacionado com z1.

Para a segunda componente, nos temos que:

maximizarw2

wT2 Σw

T2

subject to wT1 w1 = 1. w

T2 w1 = 0.

Escrevendo esta equacao empregando os multiplicadores de Lagrange, temos que:

maximizarw1

wT1 Σw

T1 − α(wT

1 w1 − 1)− β(wT2 w1 − 1)

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 42 / 72

Analise de componentes principais

wT2 ΣwT

2 − α(wT2 w2 − 1)− β(wT

2 w1 − 1)

Derivando a equacao acima com relacao a w2, e fazendo igual a 0, nos temos que:

2Σw2 − 2αw2 − βw1 = 0

Multiplicando por wT1 a direita, temos que

2wT1 Σw2 − 2αwT

1 w2 − βwT1 w1 = 0

Sabemos que wT1 w2 = 0 e wT

1 w1 = 1. Logo

2wT1 Σw2 − β = 0

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 43 / 72

Analise de componentes principais

wT1 Σw2 e um escalar e igual para sua transposta wT

2 Σw1. Assim temos

2wT2 Σw1 − β = 0

Vamos analisar este primeiro termo. w1 e um auto-vetor de Σ, logo Σw1 = λw1, isto e

wT2 Σw1 = wT

2 λw1 = λwT2 w1 = 0

Portanto, β = 0. Logo a equacao inicial se reduz para

2Σw2 − 2αw2 = 0

Σw2 = αw2

Isto implica que w2 deveria ser um auto-vetor de Σ com o segundo maior auto-valor,λ2 = α. De forma similar, nos podemos mostrar que as outras dimensoes sao dadaspelo auto-vetor com auto-valores decrescente.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 44 / 72

Analise de Componentes Principais

Dado que Σ e simetrica, para dois auto-valores diferentes, os auto-vetores sao

ortogonais.

Se Σ e definida positiva (xTΣx > 0, para ∀x 6== 0), entao seus auto-valores sao

positivos.

Se Σ e singular, entao seu rank, a dimensionalidade efetiva, e k com k < d e

λi , i = k + 1, · · · , d sao 0 (λi sao ordenados em ordem decrescente). Os k auto-vetores

com auto-valores nao-zeros correspondem para dimensao do espaco reduzido.

O primeiro auto-vetor (aquele com maior auto-valor), w1, isto e, a componente

principal, explica a maior parte da variancia, a segunda explica a segunda maior parte e

assim sucessivamente

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 45 / 72

Analise de Componentes PrincipaisVamos definir

z = W T (x −m)

onde as k colunas de W sao os k auto-vetores de S , o estimador de Σ. Nos subtraımosa medias amostral de x antes de realizar a projecao, visando centralizar os dados naorigem.

Apos esta transformacao linear, chegamos a um espaco k-dimensional, cujas dimensoessao os auto-vetores, e as variancias ao longo destas novas dimensoes sao iguais aosauto-valores. Para normalizar as variancias, podemos dividir pelas raızes quadradas dosauto-valores.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 46 / 72

Analise de Fatores - FA

Aplicacoes

Identificar dimensoes latentes, isto e, fatores que justifiquem as correlacoes

observadas entre as variaveis

Substituir o conjunto original de variaveis (em geral grande) e correlacionadas

por um conjunto menor de variaveis sem correlacao ou com baixa correlacao.

Objetivo Global: parcimonia, isto e, reducao da complexidade.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 47 / 72

Analise de Fatores - FA

E uma classe de processos utilizados na reducao e sumarizacao de dados (Malhotra,

2001);

E um nome generico dado a uma classe de metodos estatısticos multivariados, cujo

proposito principal e definir uma estrutura fundamental em uma matriz de dados (Hair

et al., 1995).

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 48 / 72

Analise de Fatores - FA

Objetivos

Examinar a “interdependencia” entre todas as variaveis (correlacoes).

Reduzir diversas variaveis, provavelmente “correlacionadas”, a uma quantidade

menor e mais facilmente “gerenciavel”.

Analisar a estrutura das correlacoes entre um grande numero de variaveis,

definindo um conjunto menor de dimensoes basicas comuns, chamadas fatores.

Reduzir “massas” de informacao a um tamanho mais facilmente gerenciavel;

A ciencia busca explicacoes mais simples (lei da parcimonia);

AF propoe-se a reduzir a complexidade das variaveis a uma maior simplicidade.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 49 / 72

Historico

Charles Sperman (1904), psicologo americano

Pesquisas sobre habilidades mentais

Buscava identificar ”um fator comum”para matematica, vocabulario,

comunicacao, arte, logica, etc.

Fator basico de inteligencia geral - Fator G

Desenvolveu a Analise de Fatores

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 50 / 72

Analise de Fator - FA

Analise de Componentes Principais - PCA

A partir das dimensoes originais xi , i = 1, 2, · · · , d , nos formamos um novo conjunto de

variaveis z tal que

z = W T (x − µ)

Analise de Fator - FA

Nos assumimos que ha um conjunto de variaveis latentes zj , j = 1, · · · , k, o qual

quando agindo em combinacao gera x

Objetivo

O objetivo e caracterizar a dependencia entre as variaveis observadas por meio de um

numero pequeno de fatores

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 51 / 72

Analise de Fator - FA

Suponha que haja um conjunto de variaveis que tem alta correlacao entre si e baixa

correlacao com todas as outras variaveis.

Entao, pode ser que haja um fator que de origem a essas variaveis. Se as outras

variaveis podem ser igualmente agrupados em subconjuntos, entao alguns fatores pode

representar esses grupos de variaveis.

Embora a analise de fatores sempre particiona as variaveis em clusters de fatores, se os

fatores significam algo, ou realmente existe, e uma questao em aberto.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 52 / 72

Analise de Fator

Definicao

FA assume que cada dimensao da entrada, xi , i = 1, · · · , d pode ser escrita como uma

soma ponderada de k < d fatores, zj , j = 1, · · · , k, mais um termo residual.

xi − µi = vi1z1 + vi3z2 + · · ·+ vikzk + εi , ∀i = 1, · · · , d

xi − µi =k∑

j=1

vijzj + εi

Este pode ser escrito em forma matricial como:

x − µ = Vz + ε

onde V e uma matriz de pesos d × k, chamada de carga dos fatores. A partir de

agora, vamos assumir µ = 0 sem perda de generalidade; nos podemos sempre adicionar

µ apos a projecao.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 53 / 72

Analise de Fator

Dado que Var(zj) = 1 e Var(εi ) = ψ

Var(xi ) = v2i1 + v

2i2 + · · ·+ v

2i1 + ψi

∑kj=1 v

2ij e a parte da variancia explicada pelos fatores comuns e ψi e a variancia

especifica de xi

Na forma matricial, nos temos que

Σ = Cov(x) = Cov(Vz + ε)

= Cov(Vz) + Cov(ε)

= VCov(z)V T + Ψ

= VVT + Ψ

onde Ψ e uma matriz diagonal com ψi na diagonal.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 54 / 72

Analise de Fatores

Uma vez que os fatores possuem norma unitaria e sao descorrelacionados, nos temos

que Cov(z) = I .

Considere apenas dois fatores, por exemplo,

x1 = v11z1 + v12z2

x2 = v21z1 + v22z2

Entao

Cov(x1, z2) = Cov(v11z1 + v12z2, z2)

Cov(x1, z2) = Cov(v12z2, z2) = v12Var(z2) = v12

Logo

Cov(x , z) = V

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 55 / 72

Analise de Fator

Dado S , o estimador de Σ, nos gostarıamos de encontrar V e Ψ tal que

S = VV T + Ψ

Se ha poucos fatores, isto e, se V tem poucas colunas, entao nos temos uma estrutura

simplificada para S , como V e d × k e Ψ tem d valores, entao reduzimos o numero de

parametros de d2 para d .k + d .

Quando todos os ψi sao iguais, isto e, Ψ = ψI nos temos PCA probabilıstico (Tippping

and Bishop, 1999) e o PCA tradicional quando ψi sao iguais a zero.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 56 / 72

Analise de Fator

Vamos verificar como podemos encontrar os fatores de carga e especificar a variancia.

Vamos primeiro ignorar Ψ. Entao, usando decomposition espectral de S , nos sabemos

que:

S = CDCT = CD

1/2D

1/2C

T = (CD1/2)(CD1/2)T

onde temos somente k dos auto-vetores analisando a proporcao de variancia explicada

tal que C e matriz de auto-vetores d × k e D1/2 e matriz diagonal k × k com raiz

quadrada dos auto-valores na diagonal.

Logo temos que

V = CD1/2

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 57 / 72

Analise de Fator

Como estamos interessados na reducao da dimensionalidade, nos precisamos encontraros scores dos fatores, zj , a partir de xi . Nos queremos encontrar wji tal que

zj =d∑

i=1

wjixi + εi , j = 1, 2, · · · , k

onde xi tem media zero 0. Na forma vetorial, para observacao t, este pode ser escritocomo:

zt = W

txt + ε,∀t = 1, · · · ,N

Este e um modelo linear com d entradas e k saıdas. Sua transposta pode ser escritacomo:

(z t)T = (x t)TW T + εT , ∀t = 1, · · · ,N

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 58 / 72

Analise de fatores - FA

Dado que nos temos um conjunto com N observacoes, nos podemos escrever

Z = XW + Ξ

onde Z e uma matriz de fatores N × k, X e matriz de observacoes (centrada) N × d eΞ e uma matriz ruıdo N × k. Esta e regressao multivariada com multiplas saıdas e nossabemos que W pode ser encontrado como

W = (XTX )−1

XTZ

E agora?

Nos nao conhecemos Z; este e o que gostarıamos de calcular

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 59 / 72

Analise de Fator

Anteriormente, temos queW = (XT

X )−1X

TZ

Nos podemos dividir e multiplicar por N − 1 e obtemos

W = (N − 1)(XTX )−1 XTZ

N − 1=

1

(N − 1)−1(XT

X )−1 XTZ

N − 1

W =

(XTX

N − 1

)−1XTZ

N − 1

W = S−1

V

Logo, podemos escrever Z

Z = XW → Z = XS−1V

Assumindo que S e nao singular.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 60 / 72

Analise de Fator

Para reducao da dimensionalidade, FA nao oferece nenhuma vantagem sobre PCA

exceto a interpretabilidade dos fatores permitindo a identificacao de causas comuns,

uma explicacao simples e uma extracao de conhecimento.

Exemplo

No contexto de reconhecimento de fala, x corresponde para um sinal acustico, mas

sabemos que este e resultado da interacao nao linear de numero pequeno de

articuladores, isto e, mandıbula, lıngua, palato, labios e boca sao posicionados de

forma adequada para moldar o ar que sai dos pulmoes e gerar o som da fala.

Se um sinal de voz pode ser transformado para este espaco de articulacao, entao seria

muito facil. Esta e uma das linhas de pesquisa em reconhecimento de voz.

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 61 / 72

PCA usando Matlab

Conjunto de dados

Vamos considerar o conjunto de dados de celulas de levedura (yeast). Este conjunto dedados contem 384 genes correspondendo para 5 fases, medida em 17 pontos.

%Limpa tela e variaveisclear all; close all;%Carrega os dadosload yeast;%Calcula a dimensao dos dados[n,p] = size(data);% Centraliza os dadosdatac = data - repmat(sum(data)/n, n, 1);%Encontra a matriz de covarianciacovm = cov (datac);%Calculando os auto-vetores e auto-valores[eigvec, eigval]=eig(covm);

%Extraindo os elementos da diagonaleigval = diag(eigval);%Coloca em ordem decrescenteeigval = flipud(eigval);%Coloca em ordem decrescenteeigvec = eigvec(:,p:-1:1);Plota os autovaloresfigure(1), plot(1:length(eigval),eigval,’ko’)title(’Autovalores’)xlabel(’Indice dos autovalores - k’)ylabel(’Valor dos autovalores

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 62 / 72

PCA usando Matlab

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 63 / 72

Analise em Componentes Independentes -ICA

Historico

Tecnica ICA surge na decada de 1980 na modelagem de redes neurais

Em meados de 1990, novos algoritmos introduzidos por varios grupos de

pesquisas (Bell and Sejnowski, 1995; Lee et al., 1999; Hyvarinen and Oja,

1997; Hvarinen, 199a)

Decada de 1990: uso em problemas reais como processamento de sinais

biomedicos e separacao de sinais de audio em telecomunicacoes

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 64 / 72

Analise em Componentes Independentes -ICA

Motivacao

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 65 / 72

Analise em Componentes Independentes -ICA

Definicao

Observacao de n combinacao lineares de x1, x2, · · · , xn de n componentes s

xj = aj1s1 + aj2s2 + · · ·+ ajnsn, ∀j

x = As

Computar a inversa de A e obter as componentes independentes

s = Wx

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 66 / 72

Analise em Componentes Independentes -ICA

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 67 / 72

Analise em Componentes Independentes -ICA

Processo whithening (branqueamento)

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 68 / 72

Whithening

Objetivo

Tornar as variaveis aleatorias descorrelacionadas e com variancia 1

z = Vx

V = ED− 1

2 ET

E - e a matriz ortogonal dos autovetores da matriz de covariancia E [xxT ] D - e a

matriz diagonal dos autovalores da matriz de covariancia E [xxT ]

z sera o resultado de vetores medidos x1 e x2 apos whithening

Busca de fontes s1 e s2 atraves das variaveis z1 e z2

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 69 / 72

Whithening

Prova:

E [xxT ] = EDET

E [zzT ] = E [Vx(Vx)T ] = E [VxxTV ] = VE [xxT ]V T

E [zzT ] = (ED−12 E

T )(EDET )ED−12 E

T

E [zzT ] = ED− 1

2 ETEDE

TED− 1

2 ET

E [zzT ] = ED− 1

2 DD− 1

2 ET

E [zzT ] = ED12 D− 1

2 ET = EE

T = I

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 70 / 72

Whithening - Matlab

Funcoes usadas no Matlab para descobrir V

XX = cov(X );

[E ,D] = eig(XX );

V = E ∗ (D(−1/2)) ∗ E ′;

Assim foi possıvel obter a matriz para descorrelacionar os dados da matriz de sinais

medidos x1 e x2

A busca passou a ser feita entao na matriz Z e nao na matriz X

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 71 / 72

Solucionando ICA s = Wx

Dado um x

encontrar z (a estimacao de s)

encontrar w (a estimacao de A−1)

Remova a media, E [x] = 0

Whithening, E [xxT ] = I

Encontre um W ortogonal otimizando uma funcao objetiva

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 72 / 72