Aula 03 Redução do Conjunto de...

Aula 03 – Reducao do Conjunto deDados

Clodoaldo A. M. Lima, Sarajane M. Peres

20 de agosto de 2015

Material baseado em:HAN, J. & KAMBER, M. Data Mining: Conceptsand Techiniques. 2nd. 2006

Clodoaldo A. M. Lima, Sarajane M. Peres Aula 03 – Reducao do Conjunto de Dados 20 de agosto de 2015 1 / 72

Recapitulando

Conceitos

”coisas”que podem ser aprendidas/descobertas pelos algoritmos de mineracao de

dados;

Componentes da entrada do algoritmos de mineracao de dados

Conjunto de instancias (dados): exemplos individuais e independentes de um conceito;formas mais complicada tambem sao possıveis;

Atributos: medidas de caracterısticas de uma instancia; descritores de uma instancia.

Componente de saıda do algoritmo

Descricao do conceito: conceito aprendido e representado por meio de um modelo


O que e um atributo?

Cada instancia e descrita por um conjunto fixo pre-determinado de caracterısticas - Atributos

Na pratica, porem, o numero de atributos pode variar

Solucao possıvel: um sinalizador de “valor irrelevante”

Problema relacionado: a existencia de um atributo pode depender do valor de

um outro

Tipos possıveis de atributos (escalas de medidas)

Escalas nao metricas (qualitativas)

Nominal e Ordinal

Escalas metricas (quantitativas)

Intervalar e Razao


Escala Nominal ou Categorica

Valores sao sımbolos distintos que servem apenas para rotular ou identificar

Atributo ”Sexo”: Masculino e Feminino

Atributo ”Religiao”: Catolica, Protestante,...

Atributo ”Partido Polıtico”: PT, PFL, PSDB, ...

Nao existem relacoes entre valores nominais - ordenacao ou distancia

Nao faz sentido o teste “Masculino ≥ Feminino”

Apenas testes de igualdade podem ser feitos

”Sexo”= Masculino


Escala Nominal ou Categorica

Alguns tecnicas de aprendizado requerem que os atributos em escala nominal sejamcodificados

Esta codificacao deve ser realizada de forma que a distancia entre os valores atributosde cada seja constante

Considere o atributo Estado civil: solteiro, casado, viuvo.

Se codificarmos solteiro como 1, casado como 2, viuvo como 3. Estamosassumindo uma ordem entre elesA codificacao mais adequada seria: solteiro como 001, casado como 010,viuvo como 100.


Escala Ordinal

Os valores podem ser ordenados, ranqueados

Toda subclasse pode ser comparada com outra em termos de uma relacao da forma

”maior que”ou ”menor que”

Atributo ”Temperatura”: Quente ≥ Morno ≥ Frio (no entanto, nao fazsentido ”Quente + Frio”ou ”2*Morno”)

Distincao entre Nominal e Ordinal nao e sempre clara

Atributo “Tempo”: Ensolarado, Nublado, Chuvoso

Nublado e algo entre Ensolarado e Chuvoso?

Codificacao

Considerando o atributo temperatura, o qual assume os seguintes valores: Frio,

Morno, Quente.

Uma codificacao adequada seria: Frio - 1, Morno - 2, Quente - 3


Escala Intervalar

Quantidades intervalares alem de ordenadas, tambem possuem unidades constantes de medidas

Diferencas entre quaisquer dois pontos adjacentes em qualquer parte da escala saoiguais

O ponto zero e arbitrario

Soma e produto nao fazem sentido

As escalas intervalares mais familiares sao as escalas de temperatura Fahrenheit e

Celsius

Cada uma tem um ponto zero arbitrario e nenhuma indica uma quantia nulaou ausencia de temperatura

Podemos dizer que 80oF tem o dobro de temperatura de 40oF?


Escala de Razao (Proporcional)

Difere da escala intervalar por possuir um zero absoluto

Todas as operacoes matematicas sao possıveis com medidas em escala de razao

Numeros reaisAtributo ”Distancia”: a distancia entre um objeto e ele mesmo e zero

Atributo ”Peso”: os aparelhos usados para medir peso tem um ponto zero

absoluto


Tipos de Atributos


Por que estudar tipos especıficos deatributos?

Compreender os diferentes tipos de escalas de medidas e importante por duas razoes:

O pesquisador deve identificar a escala de medida de cada atributo usado, de

forma que dados nao metricos nao sejam incorretamente usados como dados

metricos e vice-versa;

“Partido Polıtico” ≥ PFL nao faz sentido, enquanto que ”Temperatura”≥ Frio

ou ”Peso”≤ 38 fazem.

A escala de medida e crıtica ao determinar que algoritmos de aprendizado de maquina

sao mais apropriados.


Tipos de Dados

Matriz de dados (ou estrutura objeto-por-variavel): representa N objetos com p

variaveis (tambem chamadas de medidas ou atributos).

cada linha (com suas colunas) representam uma entidadeA estrutura e organizada na forma de uma tabelarelacional, ou uma matriz N × p.


Medida de dissimilaridade entre doisobjetos

Matriz de dissimilaridade (ou estrutura objeto-por-objeto)

Armazena um conjunto de medidas de proximidade para todo par de objetos (tambem

chamadas de medidas de dissimilaridade)

a estrutura e organizada em uma matriz n × n: onde d(i , j) e a medida de

diferenca ou dissimilaridade entre os objetos i e j .

cada linha e coluna na matriz de dissimilaridade representa uma mesma

entidade.


Distancia entre atributos nominais(binarios)

Tabela de contingencia para dados binarios

Considerando que os atributos foram codificados como 1 e 0.



Atributos nominais binarios simetricos

Aquelas que nao possuem preferencia na codificacao (caso do atributo sexo), o

resultado nao sofre alteracoes quando os codigos sao modificados, assim a e d

tem a mesma funcao

Atributos nominais binarios assimetricos

Aquelas cuja codificacao usa o numero 1 para indicar a presenca do atributo e 0 para aausencia (na area de saude 1 indica a presenca da doenca e 0 a ausencia)

A modificacao desta codificacao altera os resultados. Por esta razao deve se utilizarcoeficientes especıficos para esta mensuracao; indivıduos com codigos 1-1 indicamsemelhanca, mas indivıduos 0-0 nao indicam necessariamente semelhanca.



Simple Matching (invariante a codificacao, se a variavel binaria e simetrica)

d(i , j) =b + c

a + b + c + d

Jaccard (nao invariante a codificacao, se a variavel e assimetrica

d(i , j) =b + c

a + b + c


ExemploConsidere o seguinte exemplo

genero e um atributo simetrico.

os atributos restantes sao binarios assimetricos

assuma que os valores de Y e P sejam fixados para 1, e o valor de N para 0

d(i , j) =0 + 1

2 + 0 + 1= 0.33 d(i , j) =

1 + 1

1 + 1 + 1= 0.67 d(i , j) =

1 + 2

1 + 1 + 2= 0.75


Distancia entre atributos categoricos(mais de 2 categorias)

Metodo 1: Concordancias simples

m: # das concordancias, p: numero de variaveis

d(i , j) =p −m

p

Metodo 2: usa um grande numero de variaveis binarias

Criacao de um novo atributo binario para cada uma das M categorias

Proceda-se como anteriormente, assumindo valores binarios


Distancia entre Atributos intervalares

Permitem nao apenas ordenar em postos os itens que estao sendo medidos, mas

tambem quantificar e comparar o tamanho das diferencas entre eles.

Exemplo: temperatura medida em graus Celsius constitui uma variavel intervalar.

Pode-se dizer que a temperatura de 40oC e maior do que 30oC e que um aumento de

20oC para 40oC e duas vezes maior do que um aumento de 30oC para 40oC.

E possıvel calcular a diferenca


Atributos Ordinais

Um atributo ordinal pode ser qualitativo (classe social) ou quantitativo (numero defilhos)

A ordem e importante

Pode ser tratado como uma variavel de escala intervalar

Trocando seu valor xif pelo seu rank rifMapear a amplitude de cada variavel em [0, 1] trocando ri f por

rif ∈ {1, · · · ,Mf }

zif =rif − 1

Mf − 1

Calcular a dissimilaridade usando os metodos atributos de escala intervalar


Atributos Proporcional

Nessa escala de valores numericos, alem da diferenca, tem sentido calcular a proporcaoentre valores (o zero e absoluto).

Ex: Peso, Altura,

Metodos:

Trata-las como variaveis de escala intervalar — nao e uma boa escolha!

(Porque?)

A escala do intervalo pode ser distorcido

Aplicar uma transformacao logarıtmica

yif = log(xif )

Trata-las como os dados ordinais quantitativos (Peso: Baixo, Medio, Alto)

Tratando os seus ranks como escala intervalar.


Atributos de varios tipos

Uma base de dados pode conter todos os 6 tipos: simetrica binaria, assimetrica

binaria, nominal, ordinal, intervalar e proporcional.

Pode-se usar uma expressao ponderada para combina-las.

f e binaria ou nominal: dij(f ) = 0 se xif = xjf , ou dij(f ) = 1 senao

f e intervalar: use a distancia normalizada

f e ordinal ou de escala proporcional

d(i , j) =

∑pf =1 δij(f )dij(f )∑p

f =1 δij(f )

Calcule ranks rif eE trate zif como intervalar

zif =rif − 1

Mf − 1


Revisao

Problemas de Otimizacao


PreliminaresTipos de problema de otimizacao

Problema de otimizacao irrestrita

(P1) minimizex

f (x)

s. t. x ∈ X .

onde x = [xi , · · · , xn] ∈ Rn, f (x) : Rn →R, e X e um conjunto fechado (usualmente

X= Rn)

Problema de otimizacao restrita

(P2) minimizex

f (x)

subject to gi (x) ≤ 0, i = 1, . . . ,m.

hi (x) = 0, i = 1, . . . , l .

x ∈ X ,

onde g1(x), · · · , gm(x), h1(x), · · · , hl(x) : Rn →RSeja g(x) = (g1(x), · · · , gm(x)) : Rn →Rm, h(x) = (h1(x), · · · , hl(x)) : Rn →Rl


Condicoes de otimalidade para problemasirrestritos

Teorema

Suponha que f (x) seja duas vezes diferenciavel em x ∈ X . Se x e um mınimo local,

entao ∇f (x) = 0 e H(x) e semidefinida positiva.


Exemplo

f (x) = 12x2

1 + x1x2 + 2x22 − 4x1 − 4x2 − x3

2

Entao

∇f (x) =(x1 + x2 − 4, x1 + 4x2 − 4− 3x2

2

)T,

e

H(x)) =

[1 1

1 4− 6x2

]

∇f (x) = 0 tem exatamente duas solucoes: x = (4, 0) e x = (3, 1). Mas

H(x) =

[1 1

1 −2

]

e indefinita, portanto, a unica solucao candidata para um mınimo local e x = (4, 0)


Exemplo

Encontre os candidatos a mınimos e maximos locais da funcao

f (x) = (2x1 − x2)2 + (3x1 − x3)2 + (3x2 − 2x3)2


Condicoes Algebricas Necessaria

Teorema - Condicoes necessarias Karush-Khun-Tucker (KKT)

Seja x ser uma solucao factıvel de (P2) e seja I = {i : gi (x) = 0}. Alem disso, suponha

que ∇hi (x) para i = 1, · · · , l e ∇gi (x) para i ∈ I sao linearmente independente. Se x e

um mınimo local, la existe (u, v) tal que

∇f (x) +∇gi (x)Tu +∇hi (x)T v = 0,

u ≥ 0

,

uigi (x), i = 1, · · · ,m


Autovalor e Autovetor

X =

[1 2

1.2 2.12.1 4.3

]

X−X =

[1 2

1.2 2.12.1 4.3

]−[ −1.43 −2.79−1.43 −2.79−1.43 −2.79

]

X =

[ −0.43 −0.79−0.23 −0.690.66 1.5

]

Cov(X ) =1

2X

TX

Cov(X ) =1

2

[0.686 1.511.51 3.38

]

Cov(X ) =

[0.343− α 0.755

0.755 1.69− α

]

Det [Cov(X )− Iα] = α2 − 2.033α + 0.010 = 0

α =

[2.02830.0050

]



Σw1 = αw1

w1 =

[ab

][

0.343− α 0.7550.755 1.69− α

]∗[

ab

]=

[00

][−1.684 0.7550.755 −0.338

]∗[

ab

]=

[00

]a = 0.448b

w1 =

[ab

]=

[0.448

1

]

w1 =w1

‖w1‖=

[ab

]=

0.448√0.4482+12

1√0.4482+12

=

[0.40890.9126

]



Σw1 = αw1

w2 =

[ab

][

0.343− α 0.7550.755 1.69− α

]∗[

ab

]=

[00

][

0.338 0.7550.755 1.689

]∗(

ab

]=

[00

]a = −2.231b

w1 =

[ab

]=

[0.448

1

]

w2 =w1

‖w2‖=

[ab

]=

−2.237√2.2312+12

1√2.2312+12

=

[−0.91250.4089

]


Alguns conceitos ....Reducao do conjunto de dados

Mineracao e analise de dados em um conjunto muito grande de dados podem tomar

muito tempo e dificultar o trabalho de criacao dos modelos, tornando tal analise

impraticavel e/ou ineficiente.

Tecnicas de reducao de dados devem ser aplicadas para obter uma representacao

reduzida do conjunto de dados, porem mantendo a integridade dos dados originais –

preservando informacao.

Estrategias:

Agregacao de dados: aplicacao de operacoes sobre os dados de forma a construir os‘cubos”;Discretizacao e geracao de hierarquias: os valores dos atributos sao substituıdos porintervalos ou conceitos.Selecao de atributos: atributos (dimensoes) irrelevantes, fracamente relevantes ouredundantes devem ser detectados e removidos”;Reducao de dimensionalidade: mecanismos para transformacao sao usados paradiminuir a quantidade de dimensoes dos dados;Reducao de “numero” (numerosity): substituicao ou estimativa por representacoesalternativas, tais como modelos parametricos (onde e necessario guardar somente osparametros do modelo) ou metodos nao parametricos tais como clustering,amostragem ou histogramas;


As principais tecnicas de reducao dedimensionalidade

Selecao de caracterısticas

Definicao

Objetivos

Extracao de caracterıstica

Definicao

Objetivos

As diferencas entre as duas tecnicas


Selecao de Caracterıstica

Definic ao

Um processo que seleciona um subconjunto otimo de caracteristicas de acordo para

uma func ao objetivo

Objetivos

Reduzir a dimensionalidade e remover ruıdos

Melhorar o desempenho de mineracao

Velocidade de aprendizadoPrecisao preditivaSimplicidade e compreensibilidade dos resultadosextraıdos



Definic ao

Refere-se para o mapeamento dos dados de alta dimensionalidade em um espaco de

baixa de dimensionalidade

Dado um conjunto de pontos no espaco d-dimensional {x1, x2, · · · , xn}, compute sua

representacao de baixa dimensao

xi ∈ <d → yi ∈ <p (p � d)


Extracao de caracterısticas

Extracao de caracterıstica linear

O mapeamento otimo y = f (x) e, em geral, uma funcao cuja forma e dependente do

problema

1 Assim, em extracao de caracterıstica e comumente empregado projecoes

lineares y = Wx


Representacao do sinal versus classificacaoDois criterios podem ser usado para encontrar um mapeamento para extracao de caracterısticay = f (x)

1 Representacao Sinal: o objetivo de extracao de caracterıstica e representar os

exemplos precisamente em um espaco de baixa dimensionalidade

2 Classificacao: O objetivo da extracao de caracterısticas e o de melhorar a

informacao discriminatoria da classe no espaco de menor dimensao



1 Baseado na representacao do sinal

1 Analise de Componentes Principais (PCA)2 Analise de Componentes Independentes (ICA)3 Analise de Fator

2 Baseado na Classificacao:

1 Analise de Discriminante de Fisher (LDA)


Analise de Componentes Principais - PCA

Definicao

Nos metodos de projecao, nos estamos interessados em encontrar um mapeamento a

partir das entradas no espaco original para um novo espaco (p < d)-dimensional, com

mınima perda de informacao. A projecao de x sobre a direcao de w e

z = wT x

PCA e um metodo nao supervisionado o qual nao usa a informacao da saıda; o criterio

a ser maximizado e a variancia.

A componente principal e w1 tal que as amostras da entrada, apos a projecao sobre w1,

sejam mais espalhada tal que a diferenca entre os pontos de amostragem tornam-se

mais aparente.


Abordagem de Variancia MaximaNeste caso nos tentamos encontrar um subespaco de dimensionalidade p < m para o

qual a variabilidade da projecao dos pontos e maximizada. Se nos denotarmos com x a

media amostral:

x = 1n

∑ni=1 xi

entao a variancia dos dados projetados sobre o subespaco definido pela direcao W sera

Var(z) = 1n

∑ni=1

(wT xi − wT x

)2= 1

n

∑ni=1

(wT (xi − x

)2

Var(z) = wT(∑n

i=1(xi−x)T (xi−x)

n

)w

Dado que a matriz de covariancia de z (Cov(z)) e definida por:

Σ =∑n

i=1(xi−x)T (xi−x)

n

A equacao acima pode ser escrita como:

Var(z) = wTΣw


Analise de componentes principais

Para uma solucao unica e fazer a direcao o fator mais importante, temos que

‖w1‖ = 1.

Se z1 = wT1 x com Cov(x) = Σ, entao Var(z1) = wT

1 ΣwT1 .

O problema a ser resolvido e dado por:

maximizarw1

wT1 Σw

T1

subject to wT1 w1 = 1.

Escrevendo esta como um problema de Lagrange, nos temos

maximizarw1

wT1 Σw

T1 − α(wT

1 w1 − 1)



Derivando com relacao a w1 e fazendo igual a zero, nos temos

2Σw1 − 2αw1 = 0, portanto Σw1 = αw1

Isto e verdade, se w1 e um auto-vetor de Σ e α e o correspondente auto-valor.

Logo nos queremos maximimizar

wT1 Σw1 = αwT

1 w1 = α

Portando, nos escolhemos o auto-vetor com maior auto-valor para a variancia ser

maxima.

Conclusao

A componente principal e o auto-vetor da matriz de covariancia das amostras de

entrada com o maior auto-valor λ1 = α



A segunda componente principal, w2, devera tambem maximizar a variancia, ter norma

unitaria, e ser ortogonal para w1.

Este requerimento e tal que apos a projecao z2 = wT2 x e descorrelacionado com z1.

Para a segunda componente, nos temos que:

maximizarw2

wT2 Σw

T2

subject to wT1 w1 = 1. w

T2 w1 = 0.

Escrevendo esta equacao empregando os multiplicadores de Lagrange, temos que:

maximizarw1

wT1 Σw

T1 − α(wT

1 w1 − 1)− β(wT2 w1 − 1)



wT2 ΣwT

2 − α(wT2 w2 − 1)− β(wT

2 w1 − 1)

Derivando a equacao acima com relacao a w2, e fazendo igual a 0, nos temos que:

2Σw2 − 2αw2 − βw1 = 0

Multiplicando por wT1 a direita, temos que

2wT1 Σw2 − 2αwT

1 w2 − βwT1 w1 = 0

Sabemos que wT1 w2 = 0 e wT

1 w1 = 1. Logo

2wT1 Σw2 − β = 0



wT1 Σw2 e um escalar e igual para sua transposta wT

2 Σw1. Assim temos

2wT2 Σw1 − β = 0

Vamos analisar este primeiro termo. w1 e um auto-vetor de Σ, logo Σw1 = λw1, isto e

wT2 Σw1 = wT

2 λw1 = λwT2 w1 = 0

Portanto, β = 0. Logo a equacao inicial se reduz para

2Σw2 − 2αw2 = 0

Σw2 = αw2

Isto implica que w2 deveria ser um auto-vetor de Σ com o segundo maior auto-valor,λ2 = α. De forma similar, nos podemos mostrar que as outras dimensoes sao dadaspelo auto-vetor com auto-valores decrescente.


Analise de Componentes Principais

Dado que Σ e simetrica, para dois auto-valores diferentes, os auto-vetores sao

ortogonais.

Se Σ e definida positiva (xTΣx > 0, para ∀x 6== 0), entao seus auto-valores sao

positivos.

Se Σ e singular, entao seu rank, a dimensionalidade efetiva, e k com k < d e

λi , i = k + 1, · · · , d sao 0 (λi sao ordenados em ordem decrescente). Os k auto-vetores

com auto-valores nao-zeros correspondem para dimensao do espaco reduzido.

O primeiro auto-vetor (aquele com maior auto-valor), w1, isto e, a componente

principal, explica a maior parte da variancia, a segunda explica a segunda maior parte e

assim sucessivamente


Analise de Componentes PrincipaisVamos definir

z = W T (x −m)

onde as k colunas de W sao os k auto-vetores de S , o estimador de Σ. Nos subtraımosa medias amostral de x antes de realizar a projecao, visando centralizar os dados naorigem.

Apos esta transformacao linear, chegamos a um espaco k-dimensional, cujas dimensoessao os auto-vetores, e as variancias ao longo destas novas dimensoes sao iguais aosauto-valores. Para normalizar as variancias, podemos dividir pelas raızes quadradas dosauto-valores.


Analise de Fatores - FA

Aplicacoes

Identificar dimensoes latentes, isto e, fatores que justifiquem as correlacoes

observadas entre as variaveis

Substituir o conjunto original de variaveis (em geral grande) e correlacionadas

por um conjunto menor de variaveis sem correlacao ou com baixa correlacao.

Objetivo Global: parcimonia, isto e, reducao da complexidade.



E uma classe de processos utilizados na reducao e sumarizacao de dados (Malhotra,

2001);

E um nome generico dado a uma classe de metodos estatısticos multivariados, cujo

proposito principal e definir uma estrutura fundamental em uma matriz de dados (Hair

et al., 1995).



Objetivos

Examinar a “interdependencia” entre todas as variaveis (correlacoes).

Reduzir diversas variaveis, provavelmente “correlacionadas”, a uma quantidade

menor e mais facilmente “gerenciavel”.

Analisar a estrutura das correlacoes entre um grande numero de variaveis,

definindo um conjunto menor de dimensoes basicas comuns, chamadas fatores.

Reduzir “massas” de informacao a um tamanho mais facilmente gerenciavel;

A ciencia busca explicacoes mais simples (lei da parcimonia);

AF propoe-se a reduzir a complexidade das variaveis a uma maior simplicidade.


Historico

Charles Sperman (1904), psicologo americano

Pesquisas sobre habilidades mentais

Buscava identificar ”um fator comum”para matematica, vocabulario,

comunicacao, arte, logica, etc.

Fator basico de inteligencia geral - Fator G

Desenvolveu a Analise de Fatores


Analise de Fator - FA

Analise de Componentes Principais - PCA

A partir das dimensoes originais xi , i = 1, 2, · · · , d , nos formamos um novo conjunto de

variaveis z tal que

z = W T (x − µ)


Nos assumimos que ha um conjunto de variaveis latentes zj , j = 1, · · · , k, o qual

quando agindo em combinacao gera x

Objetivo

O objetivo e caracterizar a dependencia entre as variaveis observadas por meio de um

numero pequeno de fatores



Suponha que haja um conjunto de variaveis que tem alta correlacao entre si e baixa

correlacao com todas as outras variaveis.

Entao, pode ser que haja um fator que de origem a essas variaveis. Se as outras

variaveis podem ser igualmente agrupados em subconjuntos, entao alguns fatores pode

representar esses grupos de variaveis.

Embora a analise de fatores sempre particiona as variaveis em clusters de fatores, se os

fatores significam algo, ou realmente existe, e uma questao em aberto.


Analise de Fator

Definicao

FA assume que cada dimensao da entrada, xi , i = 1, · · · , d pode ser escrita como uma

soma ponderada de k < d fatores, zj , j = 1, · · · , k, mais um termo residual.

xi − µi = vi1z1 + vi3z2 + · · ·+ vikzk + εi , ∀i = 1, · · · , d

xi − µi =k∑

j=1

vijzj + εi

Este pode ser escrito em forma matricial como:

x − µ = Vz + ε

onde V e uma matriz de pesos d × k, chamada de carga dos fatores. A partir de

agora, vamos assumir µ = 0 sem perda de generalidade; nos podemos sempre adicionar

µ apos a projecao.


Analise de Fator

Dado que Var(zj) = 1 e Var(εi ) = ψ

Var(xi ) = v2i1 + v

2i2 + · · ·+ v

2i1 + ψi

∑kj=1 v

2ij e a parte da variancia explicada pelos fatores comuns e ψi e a variancia

especifica de xi

Na forma matricial, nos temos que

Σ = Cov(x) = Cov(Vz + ε)

= Cov(Vz) + Cov(ε)

= VCov(z)V T + Ψ

= VVT + Ψ

onde Ψ e uma matriz diagonal com ψi na diagonal.


Analise de Fatores

Uma vez que os fatores possuem norma unitaria e sao descorrelacionados, nos temos

que Cov(z) = I .

Considere apenas dois fatores, por exemplo,

x1 = v11z1 + v12z2

x2 = v21z1 + v22z2

Entao

Cov(x1, z2) = Cov(v11z1 + v12z2, z2)

Cov(x1, z2) = Cov(v12z2, z2) = v12Var(z2) = v12

Logo

Cov(x , z) = V


Analise de Fator

Dado S , o estimador de Σ, nos gostarıamos de encontrar V e Ψ tal que

S = VV T + Ψ

Se ha poucos fatores, isto e, se V tem poucas colunas, entao nos temos uma estrutura

simplificada para S , como V e d × k e Ψ tem d valores, entao reduzimos o numero de

parametros de d2 para d .k + d .

Quando todos os ψi sao iguais, isto e, Ψ = ψI nos temos PCA probabilıstico (Tippping

and Bishop, 1999) e o PCA tradicional quando ψi sao iguais a zero.


Analise de Fator

Vamos verificar como podemos encontrar os fatores de carga e especificar a variancia.

Vamos primeiro ignorar Ψ. Entao, usando decomposition espectral de S , nos sabemos

que:

S = CDCT = CD

1/2D

1/2C

T = (CD1/2)(CD1/2)T

onde temos somente k dos auto-vetores analisando a proporcao de variancia explicada

tal que C e matriz de auto-vetores d × k e D1/2 e matriz diagonal k × k com raiz

quadrada dos auto-valores na diagonal.

Logo temos que

V = CD1/2


Analise de Fator

Como estamos interessados na reducao da dimensionalidade, nos precisamos encontraros scores dos fatores, zj , a partir de xi . Nos queremos encontrar wji tal que

zj =d∑

i=1

wjixi + εi , j = 1, 2, · · · , k

onde xi tem media zero 0. Na forma vetorial, para observacao t, este pode ser escritocomo:

zt = W

txt + ε,∀t = 1, · · · ,N

Este e um modelo linear com d entradas e k saıdas. Sua transposta pode ser escritacomo:

(z t)T = (x t)TW T + εT , ∀t = 1, · · · ,N


Analise de fatores - FA

Dado que nos temos um conjunto com N observacoes, nos podemos escrever

Z = XW + Ξ

onde Z e uma matriz de fatores N × k, X e matriz de observacoes (centrada) N × d eΞ e uma matriz ruıdo N × k. Esta e regressao multivariada com multiplas saıdas e nossabemos que W pode ser encontrado como

W = (XTX )−1

XTZ

E agora?

Nos nao conhecemos Z; este e o que gostarıamos de calcular


Analise de Fator

Anteriormente, temos queW = (XT

X )−1X

TZ

Nos podemos dividir e multiplicar por N − 1 e obtemos

W = (N − 1)(XTX )−1 XTZ

N − 1=

1

(N − 1)−1(XT

X )−1 XTZ

N − 1

W =

(XTX

N − 1

)−1XTZ

N − 1

W = S−1

V

Logo, podemos escrever Z

Z = XW → Z = XS−1V

Assumindo que S e nao singular.


Analise de Fator

Para reducao da dimensionalidade, FA nao oferece nenhuma vantagem sobre PCA

exceto a interpretabilidade dos fatores permitindo a identificacao de causas comuns,

uma explicacao simples e uma extracao de conhecimento.

Exemplo

No contexto de reconhecimento de fala, x corresponde para um sinal acustico, mas

sabemos que este e resultado da interacao nao linear de numero pequeno de

articuladores, isto e, mandıbula, lıngua, palato, labios e boca sao posicionados de

forma adequada para moldar o ar que sai dos pulmoes e gerar o som da fala.

Se um sinal de voz pode ser transformado para este espaco de articulacao, entao seria

muito facil. Esta e uma das linhas de pesquisa em reconhecimento de voz.


PCA usando Matlab

Conjunto de dados

Vamos considerar o conjunto de dados de celulas de levedura (yeast). Este conjunto dedados contem 384 genes correspondendo para 5 fases, medida em 17 pontos.

%Limpa tela e variaveisclear all; close all;%Carrega os dadosload yeast;%Calcula a dimensao dos dados[n,p] = size(data);% Centraliza os dadosdatac = data - repmat(sum(data)/n, n, 1);%Encontra a matriz de covarianciacovm = cov (datac);%Calculando os auto-vetores e auto-valores[eigvec, eigval]=eig(covm);

%Extraindo os elementos da diagonaleigval = diag(eigval);%Coloca em ordem decrescenteeigval = flipud(eigval);%Coloca em ordem decrescenteeigvec = eigvec(:,p:-1:1);Plota os autovaloresfigure(1), plot(1:length(eigval),eigval,’ko’)title(’Autovalores’)xlabel(’Indice dos autovalores - k’)ylabel(’Valor dos autovalores


PCA usando Matlab


Analise em Componentes Independentes -ICA

Historico

Tecnica ICA surge na decada de 1980 na modelagem de redes neurais

Em meados de 1990, novos algoritmos introduzidos por varios grupos de

pesquisas (Bell and Sejnowski, 1995; Lee et al., 1999; Hyvarinen and Oja,

1997; Hvarinen, 199a)

Decada de 1990: uso em problemas reais como processamento de sinais

biomedicos e separacao de sinais de audio em telecomunicacoes



Motivacao



Definicao

Observacao de n combinacao lineares de x1, x2, · · · , xn de n componentes s

xj = aj1s1 + aj2s2 + · · ·+ ajnsn, ∀j

x = As

Computar a inversa de A e obter as componentes independentes

s = Wx



Processo whithening (branqueamento)


Whithening

Objetivo

Tornar as variaveis aleatorias descorrelacionadas e com variancia 1

z = Vx

V = ED− 1

2 ET

E - e a matriz ortogonal dos autovetores da matriz de covariancia E [xxT ] D - e a

matriz diagonal dos autovalores da matriz de covariancia E [xxT ]

z sera o resultado de vetores medidos x1 e x2 apos whithening

Busca de fontes s1 e s2 atraves das variaveis z1 e z2


Whithening

Prova:

E [xxT ] = EDET

E [zzT ] = E [Vx(Vx)T ] = E [VxxTV ] = VE [xxT ]V T

E [zzT ] = (ED−12 E

T )(EDET )ED−12 E

T

E [zzT ] = ED− 1

2 ETEDE

TED− 1

2 ET

E [zzT ] = ED− 1

2 DD− 1

2 ET

E [zzT ] = ED12 D− 1

2 ET = EE

T = I


Whithening - Matlab

Funcoes usadas no Matlab para descobrir V

XX = cov(X );

[E ,D] = eig(XX );

V = E ∗ (D(−1/2)) ∗ E ′;

Assim foi possıvel obter a matriz para descorrelacionar os dados da matriz de sinais

medidos x1 e x2

A busca passou a ser feita entao na matriz Z e nao na matriz X


Solucionando ICA s = Wx

Dado um x

encontrar z (a estimacao de s)

encontrar w (a estimacao de A−1)

Remova a media, E [x] = 0

Whithening, E [xxT ] = I

Encontre um W ortogonal otimizando uma funcao objetiva


Aula 03 Redução do Conjunto de...

Documents

Transcript of Aula 03 Redução do Conjunto de...