© Prof. Dr. Dilermando Piva Jr. Direitos Autorais na EAD Prof. Dr. Dilermando Piva Jr.
Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ......
Transcript of Prof. Dr. Dilermando Piva Jr. 1 - fatecead.com.br · Tópicos Especiais em Informática ......
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017
Prof. Dr. Dilermando Piva Jr. 1
Inteligência de Negócios
Fatec Indaiatuba Prof. Piva
Compreender as definições e conceitos básicos da Mineração de Dados (MD)
Entender o processo KDD (Knowledge Discovery Data) e MD
Descrever as etapas do KDD/MD
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017
Prof. Dr. Dilermando Piva Jr. 2
$10 63,3% vendas.
7x nas vendas de cerveja às sextas-feiras.
Mineração de Dados (MD) refere-se ao processo de extrair conhecimento de bases de dados... Trabalhar com grandes quantidades de dados com o objetivo de extrair significado e DESCOBRIR NOVOS CONHECIMENTOS.
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017
Prof. Dr. Dilermando Piva Jr. 3
Caixa-preta
Caixa semitransparente Orientada à Conhecimento
KDD é um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados”.
Fayyad et al., 1996
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017
Prof. Dr. Dilermando Piva Jr. 4
Estudo do domínio de Aplicação
Definição e identificação dos objetivos
◦ Quais as principais METAS do processo?
◦ Quais CRITÉRIOS DE DESEMPENHO são importantes?
◦ O conhecimento extraído deve ser COMPREENSÍVEL a seres humanos ou o modelo do tipo caixa-preta é apropriado?
◦ Qual deve ser a relação entre SIMPLICIDADE e PRECISÃO do conhecimento extraído?
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017
Prof. Dr. Dilermando Piva Jr. 5
Trata-se de uma transformação nos dados para deixá-los adequados para a etapa de Extração de Padrões.
O processo consiste: ◦ Extração e Integração
◦ Transformação
◦ Limpeza
◦ Redução de Dados
EXTRAÇÃO E INTEGRAÇÃO ◦ Os dados podem estar em DIFERENTES FORMATOS,
como arquivos textos, arquivos em EXCEL, Banco de dados Relacional, DataWarehouse...
É necessário a unificação, formando uma única fonte de dados
TRANSFORMAÇÃO ◦ Adequação aos algoritmos de Extração de Padrões
Resumo
Transformação de tipo ou Codificação
Normalização de Dados Linear, Desvio Padrão, Soma de Elementos ou Max
◦ Podem ser muito importantes em alguns domínios, como em aplicações que envolvem séries temporais como predições no mercado financeiro.
LIMPEZA ◦ Os dados podem apresentar problemas (ruídos)
provenientes da coleta (digitação ou leitura por sensores)
◦ Qualidade é muito importante Utilizar conhecimento do domínio
Decisão da estratégia de tratamento de atributos incompletos, remover ruídos.
REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de
processamento
◦ A redução pode ser realizada de três formas: Numero de Exemplos
Número de Atributos
Número de Valores
Discretização
Suavização
REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de
processamento
◦ A redução pode ser realizada de três formas: Numero de Exemplos
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017
Prof. Dr. Dilermando Piva Jr. 6
REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de
processamento
◦ A redução pode ser realizada de três formas:
Numero de Exemplos
Número de Atributos
REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de
processamento
◦ A redução pode ser realizada de três formas:
Numero de Exemplos
Número de Atributos
Número de Valores
Discretização
REDUÇÃO DE DADOS ◦ Limitações de espaço em memória, tempo de
processamento
◦ A redução pode ser realizada de três formas: Numero de Exemplos
Número de Atributos
Número de Valores
Discretização
Suavização
Ou, especificamente, a Mineração dos Dados
Essa etapa é direcionada ao cumprimento dos objetivos identificados na fase de identificação do problema
Processo iterativo ◦ Escolha da ATIVIDADE e da TAREFA
◦ Escolha do ALGORITMO
◦ Extração dos PADRÕES
ESCOLHA DA ATIVIDADE E DA TAREFA ◦ Deve ser feita de acordo com os objetivos
desejáveis para solução a ser encontrada
◦ Atividades podem ser agrupadas em:
ATIVIDADES PREDITIVAS
Corresponde ao aprendizado supervisionado
ATIVIDADES DESCRITIVAS
Corresponde ao aprendizado não-supervisionado
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017
Prof. Dr. Dilermando Piva Jr. 7
ESCOLHA DA ATIVIDADE E DA TAREFA ESCOLHA DA ATIVIDADE E DA TAREFA
Encontrar um conjunto de itens que ocorram simultaneamente e de forma frequente em um banco de dados Exemplo: (1) Quem compra leite, compra também pão (2) Quem compra Pão e Manteiga, compra café.
ESCOLHA DA ATIVIDADE E DA TAREFA
Utilizada para separar os registros de uma BD em subconjuntos ou clusters, com propriedades comuns (que distingam um cluster dos outros). Intra e Entre Exemplo: Clientes com mesmo perfil de compra Homens solteiros, entre 30 e 40 anos, compram mais produtos eletrônicos
ESCOLHA DA ATIVIDADE E DA TAREFA
Identificar e indicar características comuns entre conjuntos de dados. Exemplo: Clientes que assinam uma determinada revista semanal. A tarefa de sumarização terá que buscar o maior conjunto de características comuns a esses assinantes.
ESCOLHA DA ATIVIDADE E DA TAREFA
Classificação consiste em descobrir uma função que mapeie um conjunto de registros em um conjunto de rótulos categóricos predefinidos, denominados classes. Exemplo: Exemplo em uma Financeira... Clientes que pagaram em dia e clientes inadimplentes Função que mapeie corretamente esses clientes.
ESCOLHA DA ATIVIDADE E DA TAREFA
Regressão consiste na busca por uma função que mapeie os registros de um BD em valores reais. Similar a Classificação, restrita a atributos numéricos. Exemplo: Predição da soma da biomassa existente em uma floresta ou estimativa da probabilidade de um paciente sobreviver, dado um conjunto de diagnósticos.
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017
Prof. Dr. Dilermando Piva Jr. 8
ESCOLHA DO ALGORITMO
◦ Para efetuar a busca de padrões podem ser
utilizados Algoritmos de APRENDIZADO DE MÁQUINA, ou outros...
◦ A escolha de um algoritmo é vista como um processo analítico, pois nenhum deles tem desempenho ótimo em todos os domínios de aplicação.
ESCOLHA DO ALGORITMO
◦ Um fator relacionado com a configuração dos
parâmetros dos algoritmos é a complexidade da solução a ser buscada
◦ Vários algoritmos estão disponíveis para cada TAREFA
◦ Representação do Conhecimento
ARVORES DE DECISÃO
REGRAS DE PRODUÇÃO
REDES NEURAIS ARTIFICIAIS
...
EXECUÇÃO
◦ Aplicação do algoritmo escolhido
◦ Geralmente, os algoritmos são executados diversas vezes. Alguns casos em que isso ocorre são:
ESTIMATIVA da TAXA DE ERRO
Exemplo: Cross-validation
AVALIAÇÃO DO CONHECIMENTO EXTRAÍDO
◦ O conhecimento extraído representa o
conhecimento do especialista?
◦ De que maneira o conhecimento do especialista difere do conhecimento extraído?
◦ Em que parte o conhecimento do especialista está correto?
AVALIAÇÃO DO CONHECIMENTO EXTRAÍDO
◦ Pode-se ter uma QUANTIDADE ENORME DE
PADRÕES que podem não ser IMPORTANTES, RELEVANTES ou INTERESSANTES aos usuários
◦ Não é muito interessante fornecer uma quantidade grande de padrões ao usuário, para ser avaliado
Desenvolver técnicas de apoio para fornecer padrões mais interessantes
Tópicos Especiais em Informática – Fatec Indaiatuba 13/07/2017
Prof. Dr. Dilermando Piva Jr. 9
MEDIDAS DE AVALIAÇÃO
◦ Existem diversas medidas para auxiliar o usuário no
entendimento e na utilização do conhecimento adquirido...
Incorporando-o a um sistema inteligente Apoio à tomada de decisão
Relatar às pessoas interessadas
DISPONIBILIZAÇÃO DO CONHECIMENTO
Após a análise do conhecimento, se os resultados não forem satisfatórios, o processo de extração pode ser reiniciado com o objetivo de se obter melhores resultados
No final do processo de MD é interessante que todo o conhecimento adquirido seja disponibilizado em um ambiente adequado para facilitar sua exploração, interpretação e utilização