FEATURE SELECTION. Introdução Estudo de metodologias relacionadas a seleção de atributos ...
-
Upload
sofia-lobo-leal -
Category
Documents
-
view
215 -
download
0
Transcript of FEATURE SELECTION. Introdução Estudo de metodologias relacionadas a seleção de atributos ...
FEATURE SELECTION
Introdução Estudo de metodologias relacionadas a
seleção de atributos Maldição da dimensionalidade
O número de atributos do desenvolvedor do sistema de classificação é geralmente muito grande
Necessidade de reduzir o número de atributos a um mínimo suficiente Complexidade Computacional Duas características : individual x combinada Grande número de parâmetros dos classificadores
Preprocessing Outlier Removal
Um outlier é definido como um ponto que está muito longe da média da variável aleatória correspondente
Normalização dos dados Normalizar os atributos de modo que seus
valores fiquem dentro de um intervalo similar Dados desconhecidos
Tornar o número de dados válidos os mesmos para todos os atributos Descartar Substituir
Seleção de atributos a partir de Testes de Hipótese Testar cada atributo individualmente
Sua capacidade discriminatória para o problema em questão Descartar facilmente más escolhas Utilizar as técnicas mais elaboradas
x : variável aleatória representando um atributo. Verificaremos se seus valores para classes diferentes se diferem significativamente H I : Os valores se diferem significativamente Ho: Os valores não se diferem significativamente
Seleção de atributos a partir de Testes de Hipótese Iremos calcular a diferença pl - p2 entre as médias dos
valores de um atributo em duas classes. Se xi, i = 1,2, . . . , N, são os valores de um atributo na
classe 1 e possuem média µ1. De maneira correspondente, temos µ2 para a classe 2. Assuma que a variância dos valores do atributo nas duas
classes é igual a 1² = ² = ². Para tomar a decisão baseados na proximidade dos
valores das duas médias, iremos realizar um teste de hipótese:
Exemplo de AplicaçãoExemplo de valores de duas classes:
Esse atributo possui informações suficientes? Iremos testar quando os valores do atributo nas duas
classes diferem de maneira significativa. O nível de significância é p = 0.05.
Em seguida temos:
Para N = 10 nós temos:
Retirados da tabela...
Exemplo de Aplicação D = [-xp, xp] = [-3.2, 3.2] Visto que 4.25 reside fora do intervalo D,
decidimos a favor de HI; isto é, o valor das médias diferem significantemente no nível 0.05.
Logo, o atributo é selecionado.
The Receiver Operating Characteristics CROC Curve Análise de informações sobre a
sobreposição de duas classes.
Essa decisãoé associada a um erro de probabilidade, a, por obter uma decisão errada em relação à classe (a probabilidade de uma decisão correta é 1 – a) e corresponde à área sombreada na curva.
The Receiver Operating Characteristics CROC Curve Quanto menor a sobreposição das
classes, maior a área entre a curva e a linha reta.
Medidas de Separação de Classes Alguns atributos possuem dependência
ou influência sobre os valores de outros. Os métodos de discriminação de
atributos não levam em conta as co-relações entre atributos.
Classificação acaba sendo influenciada pela aparente falta de relação entre atributos.
Como medir a efetividade da discriminação dos vetores de atributos.
Divergência Regra de Bayes.
Dadas duas classes e e um vetor de características x, selecionamos se:
Logo, a razão pode nos mostrar informações úteis a respeito da capacidade disriminatória associada ao vetor x.
Para classes completamente sobrepostas essa razão é igual a zero.
Divergência Já que x pode assumir diferentes
valores…
A soma d12 = D12 + D21 é conhecida como divergência. As medidas de separação das classes ,
em relação ao vetor x.
Divergência Para um problema com várias classes a divergência
é calculada para cada par de classes, i e j. Assumindo que as funções de densidade são
Gaussianas N(i, ∑i ) e N(j, ∑j ) respectivamente, o cálculo da divergência pode ser simplificado: Se as matrizes de covariância das duas
distribuições Gaussianas são iguais, então ∑ i = ∑ j = ∑e
Divergência Não é possível, para distribuições mais gerais, uma
relação direta da divergência com o erro bayesiano. Dependências específicas do valor da divergência entre
os vetores médios pode levar a resultados equivocados. Para evitar isso, uma variação da divergência foi criada,
é chamada de divergência transformada:
Limite de Chernoff O mínimo erro de classificação alcançado pelo
classificador de Bayes para duas classes 1 e 2 é:
Um limite superior pode ser derivado baseado na igualdade:
Combinando as duas expressões chegamos à expressão conhecida como Limite de Chernoff.
O limite mínimo pode ser calculado minimizando ECB em relação a s. Uma forma especial desse limite é encontrada para s = ½ :
Para as distribuições gaussianas N(i, ∑i ) e N(j, ∑j ) e após alguns cálculos, obtemos:
O termo B é conhecido como Distância de Bhattacharyya e é usado como uma medida de separação de classes. e corresponde ao Limite de Chernoff otimizado quando ∑i = ∑j
Distância de Bhattacharyya
Scatter Matrices Isso é bruxaria!
Seleção de Subconjuntos de Características
Após definir os critérios, temos que selecionar um subconjunto de l atributos.
Scalar Feature Selection Adotar qualquer critério de medida de
separabilidade de classes. O valor do critério C(k) é computado para cada
atributo, k =1, 2, . . ., m. Os atributos são ordenados em ordem
decrescente de valores do C(k). Os l melhores valores são selecionados para
formar o feature vector.
Seleção de Subconjuntos de Características
Scalar Feature Selection Divergência unidimensional é um critério para
computar o C(k). Esse critério é executado para todos pares de
classes. Para cada um dos atributos, o C(k)
correspondente é igual a: que é o menor divergence value de todas as classes