DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS...

DIEGO RICARDO DE ARAUJO

DEPARTAMENTO DE C IÊNCIA DA COMPUTAÇÃO

INSTITUTO DE C IÊNCIA EXATASUNIVERSIDADE FEDERAL DE JU IZ DE FORA

Seleção de Características através de

Nearest Shrunken Centroids

Introdução

Classificação de Dados

Seleção de Características

Sistema Inteligente

Testes Comparativos

Resultados

Considerações Finais

Descoberta de Conhecimento em Bases de Dados

Crescente fluxo de dados Dados coletados e acumulados

rapidamente

Transformação de informação em conhecimento útil

Descoberta de Conhecimento em Bases de Dados

Pré-processamento: dados preparados para mineração

Mineração de dados: extração de conhecimento através de métodos inteligentes

AvaliaçãoApresentação: representação e

visualização do conhecimento para o usuário

Mineração de Dados

Análise de grandes base de dados

Extração de padrões de interesse do modelo de dados Conjunto de dados Domínio de conhecimento Métodos de mineração Avaliação de padrões

Mineração de Dados

Introdução

Sistema Inteligente

Testes Comparativos

Resultados

Processo de classificação

Treinamento Aprendizado de conhecimento a partir de

amostras com classes conhecidas

Processo de classificação

Teste Avaliação do conhecimento descoberto

pelo treinamento através da predição de classe de amostras desconhecidas

Avaliação dos Métodos de Classificação

Acurácia: índice de exatidão de classificação de amostras desconhecidas

Desempenho: velocidade e custo computacional referente a utilização do classificador

Avaliação dos Métodos de Classificação

Robustez: capacidade de realizar predições corretas a partir de conjuntos de dados com amostras incompletas ou com ruído

Escalabilidade: eficiência do modelo de conhecimento a partir de uma grande quantidade de dados

Interpretabilidade: compreensão do modelo de conhecimento extraído do modelo de dados

Método Nearest Centroid

Centróide

Centro de distribuição de um conjunto de amostras Amostras de treinamento: centróide geral Amostras de determinada classe: centróide de

classe

Matematicamente Seja um espaço p-dimensional, sendo p o numero

de atributos i = 1, 2, ... , p presentes num conjunto de dados composto de n amostras j = 1, 2, ... , n

xij a expressão do i-ésimo atributo da amostra j. Cada amostra está associada a uma classe k, pertencente a um conjunto discreto de K classes, Ck = (1, 2, ... ,K)

A cada classe k, estão associadas nk amostras que compõem o modelo de dados.

Matematicamente O i-ésimo componente dos centróides

De classe

kCi ijik nxxk/

j iji /1

Função de distância

Classificação

2** log2

ikik s

s nnkk / 11

Introdução

Sistema Inteligente

Testes Comparativos

Resultados

Teoria Maior quantidade de atributos: maior

poder de discernimento

Prática Informações irrelevantes confundem e

retardam os sistemas de aprendizado

Motivação

Existência de bases de dados com alto nível dimensional que acarretam alto custo computacional (baixo desempenho) e/ou pouca acurácia no processo de mineração de dados

Eliminação de atributos irrelevantes/redundantes do modelo de dados

Busca da melhoria do processo de descoberta de conhecimento

Método Nearest Shrunken Centroid

Distância estatística

nnm kk /1/1

ikikiik dsmxx

Função de limiarização suave

ikikik ddsignd .'

Dessa forma

Se dado atributo i, ∃∆ tal que ∀k tem-se d’ik = 0, então o i-ésimo componente dos centróides são eliminados pois não interferem na tarefa de classificação

ikikiik dsmxx ''

2** log2

ikik s

Shrunken Centroids

Introdução

Sistema Inteligente

Testes Comparativos

Resultados

Sistema Inteligente

File: arquivo físico da base de dados *.arff *.dat

Sample: amostra da base de dados. Composta por seus atributos (values) e identificada por sua classe

Sistema Inteligente

DataBase: representação da base de dados. Composta de um conjuntos de amostras (samples)

Centroid: centróide de um conjunto de amostras

Sistema Inteligente

NearestCentroidClassifier: classificador NSC Conjunto de treinamento: trainingSet Conjunto de teste: testSet Centróides de classe: classCentroids Centróide geral: overallCentroids Classificação de amostra: classify(sample)

Sistema Inteligente

Shrinker Seleção de características Realiza a redução dos centróides

shrinkCentroids() NearestCentroidClassifier searchDelta() crossValidation() de kfolds

Introdução

Sistema Inteligente

Testes Comparativos

Resultados

Metodologia

Sub-divisão das bases de dados Testes de classificação

75% conjunto de treinamento 25% conjunto de teste

Seleção de características Dados originais Dados reduzidos

Metodologia

Validação Cruzada

Metodologia

Validação Cruzada

Neste trabalho convencionou-se a utilização de validação cruzada de 10 folhas como ponto de partida para o processo de avaliação de classificação

Metodologia

Bases de dados utilizadas Breast Colon Glasses Iris Leukemia Lymphoma Prostate

Metodologia

Classificadores utilizados NSC

Weka: suíte de mineração de dados Naive-Bayes SMO Multilayer Perceptron J48 Random Forest

Testes Comparativos

Por Base de Dados

Breast

Glasses

Leukemia

Lymphoma

Prostate

Testes Comparativos

Por Classificador

Naive-Bayes

Multilayer Perceptron

Random Forest

Introdução

Sistema Inteligente

Testes Comparativos

Resultados

Média por Base de Dados

Média por Classificador

Resultados

Numero de Atributos x Desempenho Grande redução do número de atributos Ganho considerável de desempenho

Maiores índices Bases de dados de alto nível dimensional

Resultados

Acurácia Perda pouco significativa de acurácia Melhores índices

Base de dados: Leukemia (+2,22%) Classificador: Multilayer Perceptron (+0,96%)

Piores índices Base de dados: Breast (-8%) Classificador: Random Forest (-3,43%)

Resultados

Desempenho x Acurácia Ganho de desempenho e de acurácia

Bases de dados de alto nível dimensional

Introdução

Sistema Inteligente

Testes Comparativos

Resultados

Ganho considerável de desempenho

Queda pouco significativa de acurácia

Melhores resultados em bases de dados de alto nível dimensional

Trabalhos Futuros

Estudos comparativos

Outros métodos de seleção de características

Variação da proporção entre número de amostras de treinamento e teste

DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS...

Documents

Transcript of DIEGO RICARDO DE ARAUJO DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO INSTITUTO DE CIÊNCIA EXATAS...

MASA-SSE: Comparação de Sequências Biológicas ......Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação MASA-SSE:ComparaçãodeSequênciasBiológicas

Universidade de Brasíliabdm.unb.br/bitstream/10483/7001/1/2013_LeonanAlvesDosAnjos_RafaelNasci... · Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência

FACULDADE DE CIÊNCIAS EXATAS E TECNOLOGIA Ciências … PIBIC... · 2018. 7. 31. · Página 2 de 235 Ciências Exatas e da Terra Projeto: 7441 Área: Ciência da Computação Autor:

FACULDADE DE CIÊNCIAS EXATAS E DA NATUREZA - … · Ciência da Computação, da Faculdade de Ciências Exatas e da Natureza, da ... Neste trabalho são apresentadas estratégias

Universidade Federal do Pará Centro de Ciência Exatas e Naturais Departamento de Informática

O GUIA DE GRADUAÇÃO DE EXATAS: SAIBA ESCOLHER A … · 3 introduÇÃo 4 o aluno de exatas 6 as ciÊncias para cursos de exatas 9 as engenharias como oportunidades para exatas 14

INSTITUTO DE CIÊNCIA EXATAS CURSO DE PÓS …ainfo.cnptia.embrapa.br/digital/bitstream/item/135358/1/RFlow-uma... · menos importante na pesquisa agropecuária, que vem produzindo

SISTEMA DE MONITORAMENTO DE TRANSPORTE …pericas/orientacoes/OnibusTempoReal2015.pdf · universidade regional de blumenau centro de ciÊncias exatas e naturais curso de ciÊncia

QoS QUALIDADE DE SERVIÇO EM TCP/IPnetlab.ice.ufjf.br/pdfs/DouglasClementeMaximiano.pdf1 UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE CIÊNCIA

Software Básico Silvio Fernandes 2009.1 Universidade Federal Rural do Semi-Árido Departamento de Ciências Exatas e Naturais Ciência da Computação Aula.

Universidade de Brasíliapedro/trabs/Stucket.pdf · Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação Lição sobre injeção de SQL

Vila da Ciência 2013 De 22 a 24 de Outubro de 2013 ... · Vila da Ciência 2013 De 22 a 24 de Outubro de 2013 Departamento de Química e Exatas Universidade Estadual do Sudoeste

Aurélio Ribeiro Costa - repositorio.unb.brrepositorio.unb.br/bitstream/10482/21381/1/2016... · Universidade de Brasília UnB Instituto de Ciências Exatas Departamento de Ciência

10000003 CIÊNCIAS EXATAS E DA TERRA - capes.gov.br · PDF file10300007 ciÊncia da computaÇÃo 10301003 teoria da computaÇÃo 10301011 computabilidade e modelos de computaÇÃo

New Softwareparadesenhodeprocessosdenegócios … · 2018. 2. 15. · Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência da Computação Softwareparadesenhodeprocessosdenegócios

UNIVERSIDADE FEDERAL DO MARANHÃOlivros01.livrosgratis.com.br/cp045390.pdf · universidade federal do maranhÃo centro de ciÊncias exatas e tecnologia Área: ciÊncia da computaÇÃo

Universidade de Brasíliabdm.unb.br/.../1/2016_HermanFerreiraMilitaodeAsevedo_tcc.pdf · 2017-01-19 · Universidade de Brasília Instituto de Ciências Exatas Departamento de Ciência

UNIVERSIDADE DE BRASÍLIA UNB FACULDADE DE …IBCIT Instituto Brasileiro de Informação em Ciência e Tecnologia ICE/MAT Instituto de Ciências Exatas/Departamento de Matemática

Ciências Exatas e da Terra Ciências Biológicas Linguística ... · Área: Ciências Exatas e da Terra Ciências Biológicas Engenharia e Ciência da Computação Ciência da Saúde

1 CCE - CENTRO DE CIÊNCIAS EXATAS - uel.br · PDF file1 cce - centro de ciÊncias exatas centro: cce - centro de ciÊncias exatas departamento: cce-centro de ciÊncias exatas local: