Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes [email protected] [email protected].

34
Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes [email protected] [email protected]

Transcript of Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes [email protected] [email protected].

Page 1: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Sistemas de Informação Inteligentes

Aula 1

Nadilma [email protected]

[email protected]

Page 2: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Aula Passada...

• Data Mining: processo de exploração de grandes quantidades de dados a fim de detectar novos subconjuntos de dados.• Compreender o domínio da aplicação • Entender as expectativas do usuário final do

processo.• Criar/selecionar uma coleção de dados para

aplicação• Transformar os dados (encontrar atributos úteis e

interessantes).

Page 3: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Aula passada...

• Tarefas principais:– Classificação: aprendizado de uma função que

mapeia um dado em uma de várias classes conhecidas.

– Regressão (predição): aprendizado de uma função mapeia um dado em um valor real.

– Deteção de desvios: identificação de dados que deveriam seguir um padrão mas não o fazem

Page 4: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Hoje...

• A ferramenta WEKA • Exemplo prático de Data Mining

Page 5: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

WEKA

• Weka é um Software livre do tipo open source para mineração de dados, desenvolvido em Java, dentro das especificações da GPL (General Public License).

• O sistema foi desenvolvido por um grupo de pesquisadores da Universidade de Waikato, Nova Zelândia.

• Ao longo dos anos se consolidou como a ferramenta de data mining mais utilizada em ambiente acadêmico.

• Seu ponto forte é a tarefa de classificação, mas também é capaz de minerar regras de associação e clusters de dados.

Page 6: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

WEKA

• Livro para conhecer melhor a ferramenta

Page 7: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

• Agora mostraremos um exemplo prático de utilização da Weka:– Será realizada a mineração de um classificador!

Porém... antes é preciso falar um pouquinho sobre classificação...

Page 8: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificação

• Objetivo: a partir de um banco de dados contendo objetos pré-classificados (objetos cuja classe é conhecida), construir um modelo que seja capaz de classificar automaticamente novos objetos (objetos cuja a classe é desconhecida) em função de suas características.

• Exemplo - Mineração do BD de uma seguradora:– Sexo feminino : “não se envolve em acidente”– Sexo masculino e idade superior a 25 anos : “não se envolve em acidente”.– Sexo masculino e idade igual ou inferior a 25 anos: “se envolve em acidente”

O modelo pode ser usado para a empresa

prever a classe de um futuro

cliente. A classificação é uma tarefa

preditiva.

Page 9: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Como Minerar Dados? (Técnicas de Data Mining)

• O conceito de técnica de mineração de dados é diferente do conceito de tarefa.– Cada tarefa de mineração de dados possui um conjunto de técnicas

associadas, que representam os algoritmos que podem ser empregados para a sua execução.

Page 10: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Como utilizar a WEKA?

• Primeiro, ter uma base de dados no formato arff.– O formato arff é utilizado como padrão para

estruturar as bases de dados manipuladas pela Weka

Page 11: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Como utilizar a WEKA?• Base de dados WEKA: corresponde a um arquivo texto

contendo um conjunto de registros, precedido por um pequeno cabeçalho.

Page 12: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Como utilizar a WEKA?

• Exemplo: weather.arff

Page 13: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Como utilizar a WEKA?

Page 14: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Como utilizar a WEKA?

Page 15: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Como utilizar a WEKA?

• A base de dados para classificação deve conter:– um ou mais atributos preditivos.– um atributo especial, denominado atributo classe

(ou atributo alvo), sempre do tipo discreto.– Exemplo - BD de uma locadora de veículos– A ideia é minerar um modelo que classifique o

cliente como “cliente de carro nacional” ou “cliente de carro importado” em função de sua “idade” e “renda”.

Page 16: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

• Mostraremos agora como minerar um classificador, sobre a base de dados da locadora de veículos, usando a técnica de árvores de decisão.– Domínio da aplicação: Locadora de Veículos– Expectativas do usuário: Redirecionar os clientes

para maiores lucros

Page 17: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

• PASSO 1: antes de começar o processo, precisamos gerar uma versão arff da base que iremos minerar.

Page 18: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador• PASSO 2: abrir a Weka Explorer (GUI para mineração de

dados)

Page 19: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

• PASSO 3: abrir a base de dados

Page 20: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

• PASSO 3: abrir a base de dados

Page 21: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

Page 22: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador• Podemos explorar a base de dados antes de minerá-la.

Page 23: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

Page 24: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador• PASSO 4: Seleção da aba “Classify” para a mineração do

classificador.

Page 25: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

• PASSO 5: Escolha do algoritmo de classificação– Dentre as técnicas que podem ser utilizadas,

encontram-se: • Naïve Bayes • Árvores de Decisão (nossa escolha nessa

apresentação!)• Redes Neurais• k-Nearest Neighbor • Support Vector Machines.

Page 26: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

• PASSO 5: Escolha do algoritmo de classificação. – Optamos pelo algoritmo J48 para mineração de árvores de

decisão

Page 27: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

• PASSO 6: Configurar parâmetros e disparar o algoritmo!

Page 28: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

Page 29: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

Page 30: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

Page 31: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Classificador

Page 32: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Sobre a WEKA

• Embora seja normalmente utilizada para fins didáticos, possibilita a mineração de bases reais.

• Muitos papers científicos relatam experiências onde a ferramenta foi aplicada de forma bem sucedida sobre bases de diferentes domínios.

Page 33: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Sobre a WEKA

• Mostramos apenas um exemplo, usando um algoritmo!– A Weka tem dezenas de algoritmos

implementados!– E pode minerar regras de associação e clusters de

dados, além de classificadores.• Outra coisa muito boa é que você pode

integrar os algoritmos implementados na Weka nos programas Java criados por você.

Page 34: Sistemas de Informação Inteligentes Aula 1 Nadilma Nunes ncvnp@cin.ufpe.br nadinunes@gmail.com.

Projeto para NP2

• 06/09: Definir o grupo (no máximo 4 pessoas), definir o domínio do problema e a expectativa do usuário final.

• 27/09: Qual tarefa e qual técnica será utilizada e por quê?

• 01/11: Criar uma base de dados (com pelo menos 5 atributos preditivos) e imprimir a visualização da árvore.

• 29/11: Entrega de um relatório escrito com passo a passo do trabalho.