Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Post on 07-Apr-2016

215 views 0 download

Transcript of Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Sistemas de Informação Inteligentes

Aula 1

Nadilma Nunesncvnp@cin.ufpe.br

nadinunes@gmail.com

Aula Passada...

• Data Mining: processo de exploração de grandes quantidades de dados a fim de detectar novos subconjuntos de dados.• Compreender o domínio da aplicação • Entender as expectativas do usuário final do

processo.• Criar/selecionar uma coleção de dados para

aplicação• Transformar os dados (encontrar atributos úteis e

interessantes).

Aula passada...

• Tarefas principais:– Classificação: aprendizado de uma função que

mapeia um dado em uma de várias classes conhecidas.

– Regressão (predição): aprendizado de uma função mapeia um dado em um valor real.

– Deteção de desvios: identificação de dados que deveriam seguir um padrão mas não o fazem

Hoje...

• A ferramenta WEKA • Exemplo prático de Data Mining

WEKA

• Weka é um Software livre do tipo open source para mineração de dados, desenvolvido em Java, dentro das especificações da GPL (General Public License).

• O sistema foi desenvolvido por um grupo de pesquisadores da Universidade de Waikato, Nova Zelândia.

• Ao longo dos anos se consolidou como a ferramenta de data mining mais utilizada em ambiente acadêmico.

• Seu ponto forte é a tarefa de classificação, mas também é capaz de minerar regras de associação e clusters de dados.

WEKA

• Livro para conhecer melhor a ferramenta

• Agora mostraremos um exemplo prático de utilização da Weka:– Será realizada a mineração de um classificador!

Porém... antes é preciso falar um pouquinho sobre classificação...

Classificação

• Objetivo: a partir de um banco de dados contendo objetos pré-classificados (objetos cuja classe é conhecida), construir um modelo que seja capaz de classificar automaticamente novos objetos (objetos cuja a classe é desconhecida) em função de suas características.

• Exemplo - Mineração do BD de uma seguradora:– Sexo feminino : “não se envolve em acidente”– Sexo masculino e idade superior a 25 anos : “não se envolve em acidente”.– Sexo masculino e idade igual ou inferior a 25 anos: “se envolve em acidente”

O modelo pode ser usado para a empresa

prever a classe de um futuro

cliente. A classificação é uma tarefa

preditiva.

Como Minerar Dados? (Técnicas de Data Mining)

• O conceito de técnica de mineração de dados é diferente do conceito de tarefa.– Cada tarefa de mineração de dados possui um conjunto de técnicas

associadas, que representam os algoritmos que podem ser empregados para a sua execução.

Como utilizar a WEKA?

• Primeiro, ter uma base de dados no formato arff.– O formato arff é utilizado como padrão para

estruturar as bases de dados manipuladas pela Weka

Como utilizar a WEKA?• Base de dados WEKA: corresponde a um arquivo texto

contendo um conjunto de registros, precedido por um pequeno cabeçalho.

Como utilizar a WEKA?

• Exemplo: weather.arff

Como utilizar a WEKA?

Como utilizar a WEKA?

Como utilizar a WEKA?

• A base de dados para classificação deve conter:– um ou mais atributos preditivos.– um atributo especial, denominado atributo classe

(ou atributo alvo), sempre do tipo discreto.– Exemplo - BD de uma locadora de veículos– A ideia é minerar um modelo que classifique o

cliente como “cliente de carro nacional” ou “cliente de carro importado” em função de sua “idade” e “renda”.

Classificador

• Mostraremos agora como minerar um classificador, sobre a base de dados da locadora de veículos, usando a técnica de árvores de decisão.– Domínio da aplicação: Locadora de Veículos– Expectativas do usuário: Redirecionar os clientes

para maiores lucros

Classificador

• PASSO 1: antes de começar o processo, precisamos gerar uma versão arff da base que iremos minerar.

Classificador• PASSO 2: abrir a Weka Explorer (GUI para mineração de

dados)

Classificador

• PASSO 3: abrir a base de dados

Classificador

• PASSO 3: abrir a base de dados

Classificador

Classificador• Podemos explorar a base de dados antes de minerá-la.

Classificador

Classificador• PASSO 4: Seleção da aba “Classify” para a mineração do

classificador.

Classificador

• PASSO 5: Escolha do algoritmo de classificação– Dentre as técnicas que podem ser utilizadas,

encontram-se: • Naïve Bayes • Árvores de Decisão (nossa escolha nessa

apresentação!)• Redes Neurais• k-Nearest Neighbor • Support Vector Machines.

Classificador

• PASSO 5: Escolha do algoritmo de classificação. – Optamos pelo algoritmo J48 para mineração de árvores de

decisão

Classificador

• PASSO 6: Configurar parâmetros e disparar o algoritmo!

Classificador

Classificador

Classificador

Classificador

Sobre a WEKA

• Embora seja normalmente utilizada para fins didáticos, possibilita a mineração de bases reais.

• Muitos papers científicos relatam experiências onde a ferramenta foi aplicada de forma bem sucedida sobre bases de diferentes domínios.

Sobre a WEKA

• Mostramos apenas um exemplo, usando um algoritmo!– A Weka tem dezenas de algoritmos

implementados!– E pode minerar regras de associação e clusters de

dados, além de classificadores.• Outra coisa muito boa é que você pode

integrar os algoritmos implementados na Weka nos programas Java criados por você.

Projeto para NP2

• 06/09: Definir o grupo (no máximo 4 pessoas), definir o domínio do problema e a expectativa do usuário final.

• 27/09: Qual tarefa e qual técnica será utilizada e por quê?

• 01/11: Criar uma base de dados (com pelo menos 5 atributos preditivos) e imprimir a visualização da árvore.

• 29/11: Entrega de um relatório escrito com passo a passo do trabalho.