Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ......

9
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017 Prof. Dr. Dilermando Piva Jr. 1 Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos da Mineração de Dados (MD) Entender o processo KDD (Knowledge Discovery Data) e MD Descrever as etapas do KDD/MD

Transcript of Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ......

Page 1: Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ... válidos, novos e ... desempenho ótimo em todos os domínios de aplicação. ...

Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017

Prof. Dr. Dilermando Piva Jr. 1

Inteligência de Negócios

Fatec Indaiatuba Prof. Piva

Compreender as definições e conceitos básicos da Mineração de Dados (MD)

Entender o processo KDD (Knowledge Discovery Data) e MD

Descrever as etapas do KDD/MD

Page 2: Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ... válidos, novos e ... desempenho ótimo em todos os domínios de aplicação. ...

Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017

Prof. Dr. Dilermando Piva Jr. 2

$10 63,3% vendas.

7x nas vendas de cerveja às sextas-feiras.

Mineração de Dados (MD) refere-se ao processo de extrair conhecimento de bases de dados... Trabalhar com grandes quantidades de dados com o objetivo de extrair significado e DESCOBRIR NOVOS CONHECIMENTOS.

Page 3: Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ... válidos, novos e ... desempenho ótimo em todos os domínios de aplicação. ...

Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017

Prof. Dr. Dilermando Piva Jr. 3

Caixa-preta

Caixa semitransparente Orientada à Conhecimento

KDD é um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados”.

Fayyad et al., 1996

Page 4: Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ... válidos, novos e ... desempenho ótimo em todos os domínios de aplicação. ...

Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017

Prof. Dr. Dilermando Piva Jr. 4

Estudo do domínio de Aplicação

Definição e identificação dos objetivos

◦ Quais as principais METAS do processo?

◦ Quais CRITÉRIOS DE DESEMPENHO são importantes?

◦ O conhecimento extraído deve ser COMPREENSÍVEL a seres humanos ou o modelo do tipo caixa-preta é apropriado?

◦ Qual deve ser a relação entre SIMPLICIDADE e PRECISÃO do conhecimento extraído?

Page 5: Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ... válidos, novos e ... desempenho ótimo em todos os domínios de aplicação. ...

Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017

Prof. Dr. Dilermando Piva Jr. 5

Trata-se de uma transformação nos dados para deixá-los adequados para a etapa de Extração de Padrões.

O processo consiste: ◦ Extração e Integração

◦ Transformação

◦ Limpeza

◦ Redução de Dados

EXTRAÇÃO E INTEGRAÇÃO ◦ Os dados podem estar em DIFERENTES FORMATOS,

como arquivos textos, arquivos em EXCEL, Banco de dados Relacional, DataWarehouse...

É necessário a unificação, formando uma única fonte de dados

TRANSFORMAÇÃO ◦ Adequação aos algoritmos de Extração de Padrões

Resumo

Transformação de tipo ou Codificação

Normalização de Dados Linear, Desvio Padrão, Soma de Elementos ou Max

◦ Podem ser muito importantes em alguns domínios, como em aplicações que envolvem séries temporais como predições no mercado financeiro.

LIMPEZA ◦ Os dados podem apresentar problemas (ruídos)

provenientes da coleta (digitação ou leitura por sensores)

◦ Qualidade é muito importante Utilizar conhecimento do domínio

Decisão da estratégia de tratamento de atributos incompletos, remover ruídos.

REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de

processamento

◦ A redução pode ser realizada de três formas: Numero de Exemplos

Número de Atributos

Número de Valores

Discretização

Suavização

REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de

processamento

◦ A redução pode ser realizada de três formas: Numero de Exemplos

Page 6: Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ... válidos, novos e ... desempenho ótimo em todos os domínios de aplicação. ...

Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017

Prof. Dr. Dilermando Piva Jr. 6

REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de

processamento

◦ A redução pode ser realizada de três formas:

Numero de Exemplos

Número de Atributos

REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de

processamento

◦ A redução pode ser realizada de três formas:

Numero de Exemplos

Número de Atributos

Número de Valores

Discretização

REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de

processamento

◦ A redução pode ser realizada de três formas: Numero de Exemplos

Número de Atributos

Número de Valores

Discretização

Suavização

Ou, especificamente, a Mineração dos Dados

Essa etapa é direcionada ao cumprimento dos objetivos identificados na fase de identificação do problema

Processo iterativo ◦ Escolha da ATIVIDADE e da TAREFA

◦ Escolha do ALGORITMO

◦ Extração dos PADRÕES

ESCOLHA DA ATIVIDADE E DA TAREFA ◦ Deve ser feita de acordo com os objetivos

desejáveis para solução a ser encontrada

◦ Atividades podem ser agrupadas em:

ATIVIDADES PREDITIVAS

Corresponde ao aprendizado supervisionado

ATIVIDADES DESCRITIVAS

Corresponde ao aprendizado não-supervisionado

Page 7: Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ... válidos, novos e ... desempenho ótimo em todos os domínios de aplicação. ...

Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017

Prof. Dr. Dilermando Piva Jr. 7

ESCOLHA DA ATIVIDADE E DA TAREFA ESCOLHA DA ATIVIDADE E DA TAREFA

Encontrar um conjunto de itens que ocorram simultaneamente e de forma frequente em um banco de dados Exemplo: (1) Quem compra leite, compra também pão (2) Quem compra Pão e Manteiga, compra café.

ESCOLHA DA ATIVIDADE E DA TAREFA

Utilizada para separar os registros de uma BD em subconjuntos ou clusters, com propriedades comuns (que distingam um cluster dos outros). Intra e Entre Exemplo: Clientes com mesmo perfil de compra Homens solteiros, entre 30 e 40 anos, compram mais produtos eletrônicos

ESCOLHA DA ATIVIDADE E DA TAREFA

Identificar e indicar características comuns entre conjuntos de dados. Exemplo: Clientes que assinam uma determinada revista semanal. A tarefa de sumarização terá que buscar o maior conjunto de características comuns a esses assinantes.

ESCOLHA DA ATIVIDADE E DA TAREFA

Classificação consiste em descobrir uma função que mapeie um conjunto de registros em um conjunto de rótulos categóricos predefinidos, denominados classes. Exemplo: Exemplo em uma Financeira... Clientes que pagaram em dia e clientes inadimplentes Função que mapeie corretamente esses clientes.

ESCOLHA DA ATIVIDADE E DA TAREFA

Regressão consiste na busca por uma função que mapeie os registros de um BD em valores reais. Similar a Classificação, restrita a atributos numéricos. Exemplo: Predição da soma da biomassa existente em uma floresta ou estimativa da probabilidade de um paciente sobreviver, dado um conjunto de diagnósticos.

Page 8: Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ... válidos, novos e ... desempenho ótimo em todos os domínios de aplicação. ...

Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017

Prof. Dr. Dilermando Piva Jr. 8

ESCOLHA DO ALGORITMO

◦ Para efetuar a busca de padrões podem ser

utilizados Algoritmos de APRENDIZADO DE MÁQUINA, ou outros...

◦ A escolha de um algoritmo é vista como um processo analítico, pois nenhum deles tem desempenho ótimo em todos os domínios de aplicação.

ESCOLHA DO ALGORITMO

◦ Um fator relacionado com a configuração dos

parâmetros dos algoritmos é a complexidade da solução a ser buscada

◦ Vários algoritmos estão disponíveis para cada TAREFA

◦ Representação do Conhecimento

ARVORES DE DECISÃO

REGRAS DE PRODUÇÃO

REDES NEURAIS ARTIFICIAIS

...

EXECUÇÃO

◦ Aplicação do algoritmo escolhido

◦ Geralmente, os algoritmos são executados diversas vezes. Alguns casos em que isso ocorre são:

ESTIMATIVA da TAXA DE ERRO

Exemplo: Cross-validation

AVALIAÇÃO DO CONHECIMENTO EXTRAÍDO

◦ O conhecimento extraído representa o

conhecimento do especialista?

◦ De que maneira o conhecimento do especialista difere do conhecimento extraído?

◦ Em que parte o conhecimento do especialista está correto?

AVALIAÇÃO DO CONHECIMENTO EXTRAÍDO

◦ Pode-se ter uma QUANTIDADE ENORME DE

PADRÕES que podem não ser IMPORTANTES, RELEVANTES ou INTERESSANTES aos usuários

◦ Não é muito interessante fornecer uma quantidade grande de padrões ao usuário, para ser avaliado

Desenvolver técnicas de apoio para fornecer padrões mais interessantes

Page 9: Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ... válidos, novos e ... desempenho ótimo em todos os domínios de aplicação. ...

Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017

Prof. Dr. Dilermando Piva Jr. 9

MEDIDAS DE AVALIAÇÃO

◦ Existem diversas medidas para auxiliar o usuário no

entendimento e na utilização do conhecimento adquirido...

Incorporando-o a um sistema inteligente Apoio à tomada de decisão

Relatar às pessoas interessadas

DISPONIBILIZAÇÃO DO CONHECIMENTO

Após a análise do conhecimento, se os resultados não forem satisfatórios, o processo de extração pode ser reiniciado com o objetivo de se obter melhores resultados

No final do processo de MD é interessante que todo o conhecimento adquirido seja disponibilizado em um ambiente adequado para facilitar sua exploração, interpretação e utilização