TÓPICOS DE I.A.DATA MINING – MINERAÇÃO DE DADOS
Prof. Régis Albuquerque
DATA MINING – MINERAÇÃO DE DADOSINTRODUÇÃO
A evolução da computação possibilitou um aumento na capacidade de processamento e armazenamento de dados.
Diante da deficiência para analisar e compreender grande volume de dados. Diversos estudos têm sido direcionados ao desenvolvimento de tecnologias de extração automática de conhecimento de Bases de Dados.
Extração de Conhecimento de Base de Dados (Knowledge Discovery in Database - KDD)
Mineração de Dados (MD). 2
DATA MINING – MINERAÇÃO DE DADOSINTRODUÇÃO
Segundo Figueira(1998), “a tecnlogia tornou relativamente fácil o acúmulo de dados. A consequência é a apliação do uso dos Data Warehouses. Ao mesmo tempo, a informação é valorizada como nunca antes na história, e os dados armazenados nos Data Warehouses são vasculhados por profissionais especializados, a procura de tendências e padrões”.
3
Data Warehouse: Um datawarehouse é um conjunto de dados orientado por assunto, integrado, variável com o tempo, e não-volátil, que fornece suporte ao processo de tomada de decisão do negócio.
DATA MINING – MINERAÇÃO DE DADOSINTRODUÇÃO
Grande disponibilidade de dados armazenados eletronicamente
Existem informações úteis, invisíveis, nesses grandes volumes de dados
Aproveitar para prever um conhecimento futuro (ir além do armazenamento explícito de dados).
4
DATA MINING – MINERAÇÃO DE DADOSDEFINIÇÃO
Segundo Groth (1998), Data Mining é o processo de descoberta automático de informações.
Para Ávila (1998), Data Mining é uma área de pesquisa da Inteligência Artificial que busca encontrar padrões em bases de dados. Geralmente, considerado como um dos passos no processo de KDD – Knowledge Discovery Database (Descobrimento de Conhecimento em Bases de Dados.
Data Mining é uma tecnologia usada para revelar informação estratégica escondida em grandes massas de dados (KREMER, 1999).
5
DATA MINING – MINERAÇÃO DE DADOS
6
DATA MINING – MINERAÇÃO DE DADOSPOR QUÊ DATAMINING?
Grandes quantidades de dados (bases de dados)
Conhecimento dos mercados / clientes Sectores muito dependentes da informação
banca, seguros, telecomunicações, retalho Forte pressão competitiva Vantagem económica
Respostas mais rápidas Produtividade
Personalização em massa Promoção directa em função das compras
Automação de tarefas /Apoio à decisão Detecção de fraude
7
DATA MINING – MINERAÇÃO DE DADOSEVOLUÇÃO
8
E v o lu çã o P e rg u n ta s T ecn o lo g ia d isp o n ív e l C a ra cte ríst ica s
C o le ção d ed ad o s1 9 6 0
“Q u a l fo i m eurend im e nto to ta l no s
ú lt im o s c in co ano s ?”
C o m p u tad o res , F ita s ,d isco s
R e t ro sp ec t iva ,D ad o s e stát ico sco m o re sp o sta
A ce sso s ao sd ad o s1 9 8 0
“Q u a l fo i m eurend im e nto no B rasil no
ú lt im o ja ne iro ?”
R D B M S ,S Q L ,
O D B C
R est ro p ect iva ,d ad o s d inâ m ico s a
n ív e l d e reg is to sco m o re sp o sta
D a taw areho u s ing& su p o rte a
d ec isão1 9 9 0
“Q u a l fo i m eurend im e nto no B rasil noú lt im o ja ne iro ? D o su l
a té o no rd este
P ro cessa m e nto ana lít icoo n- lin e , ba nco d e d ado sm u lt id im e n c io na is , d a ta
w areho u s ing
R e tro sp ec t iva , d ad o s d inâ m ico s
e m m ú lt ip lo s n ív e isco m o re sp o sta
D a ta M in in gA tu a lm e nte
“P o rq u e a lg u n s p ro d uto ssão m a is ve nd id o s na
reg ião su l ?”
A lg o r itm o s av a nçad o s,co m p u tad o res
m u lt ip ro cessad o s, B .D .g rand es e p o d e ro so s
P ro sp ec t ivo ,In fo r m açõ es
(p e rsp ec t iva s)co m o re sp o sta .
DATA MINING – MINERAÇÃO DE DADOSEXEMPLO
9
Fabricante Estado Cidade Cor do Produto LucroS m ith C A L o s A ng e les A zu l A ltoS m ith A Z F lag sta ff V erd e B aixo
A d am s N Y N Y C A zu l A ltoA d am s A Z F lag sta ff V erm elho B aixo
Jo hnso n N Y N Y C V erd e M éd io Jo hnso n C A L o s A ng e les V erm elho M éd io
Produtos azuis são de alto lucroou
Arizona é um lucro baixo?
DATA MINING – MINERAÇÃO DE DADOSEXEMPLO
10
Fabricante Estado Cidade Cor do Produto LucroS m ith C A L o s A ng e les A zu l A ltoS m ith A Z F lag sta ff V erd e B aixo
A d am s N Y N Y C A zu l A ltoA d am s A Z F lag sta ff V erm elho B aixo
Jo hnso n N Y N Y C V erd e M éd io Jo hnso n C A L o s A ng e les V erm elho M éd io
DATA MINING – MINERAÇÃO DE DADOSOBJETIVO
O processo de Extração de Conhecimento de Base de Dados tem o objetivo de encontrar conhecimento a partir de um conjunto de dados para ser utilizado em um processo decisório.
Um requisito importante é que esse conhecimento descoberto seja compreensível a humanos, além de útil e interessante para os usuários finais do processo.
Procura de padrões úteis em grandes quantidades de dados padrão: motivo que se repete com alguma frequência útil: o padrão deve servir para resolver um problema
11
DATA MINING – MINERAÇÃO DE DADOSOBJETIVO
12
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS
Dados Padrões Processo Válidos Novos Úteis Compreensíveis Conhecimento
A união desses conceitos define o processo de Mineração de Dados.
13
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - DADOS
Conjunto de fatos ou casos em um repositório de dados. Por exemplo, os dados correspondem aos valores dos campos de um registro de vendas em uma Base de dados qualquer;
14
Fabricante Estado Cidade Cor do Produto LucroS m ith C A L o s A ng e les A zu l A ltoS m ith A Z F lag sta ff V erd e B aixo
A d am s N Y N Y C A zu l A ltoA d am s A Z F lag sta ff V erm elho B aixo
Jo hnso n N Y N Y C V erd e M éd io Jo hnso n C A L o s A ng e les V erm elho M éd io
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - PADRÕES
Denota alguma abstração de um subconjunto dos dados em alguma linguagem descritiva de conceitos;
Padrões são unidades de informação que se repetem.
A tarefa de localizar padrões não é privilégio da mineração de dados. O cérebro dos seres humanos utiliza-se de processos similares, pois muito do conhecimento que temos em nossa mente é, de certa forma, um processo que depende da localização de padrões
15
EX: ABCXYABCZKABDKCABCTUABEWLABCWO
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - PROCESSO
A Extração de Conhecimento de Base de Dados envolve diversas etapas como a preparação dos dados, busca por padrões e avaliação do conhecimento;
16
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - VÁLIDOS
Os padrões descobertos devem possuir algum grau de certeza,ou seja, devem satisfazer funções ou limiares que garantem que os exemplos cobertos e os casos relacionados ao padrão encontrado sejam aceitáveis;
17
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - NOVOS
Um padrão encontrado deve fornecer novas informações sobre os dados. O grau de novidade serve para determinar quão novo ou inédito é um padrão. Pode ser medido por meio de comparações entre as mudanças ocorridas nos dados ou no conhecimento anterior;
18
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - ÚTEIS
Os padrões descobertos devem ser incorporados para serem utilizados
19
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - COMPREENSÍVEIS
Um dos objetivos de realizar MD é encontrar padrões descritos em alguma linguagem que pode ser compreendida pelos usuários permitindo uma análise mais profunda dos dados;
20
DATA MINING – MINERAÇÃO DE DADOSCONCEITOS RELACIONADOS - CONHECIMENTO
O conhecimento é definido em termos dependentes do dominio que estão relacionados fortemente com medidas de utilildade, originalidade e compreensão
21
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
Todo o processo de Mineração de Dados é orientado em função de seu conhecimento de aplicação e dos reposotórios de dados inerentes aos mesmos.
Para usar os dados é necessário que estejam estruturados de forma a serem consultados e analisados adequadamente.
22
EXERCÍCIO - PRÁTICO
23
se x o ID A C IV ES C O L P R O F H D O R M A C T IV D ES P T A B A L C C A F P e so A L T IM C C o le stm 40anos c E s tS uperiores s up 8ha10h pouc a nao nao bebe s im 70a60K g m 160 norm al a l tof 40anos c 12ano int 6ha8h pouc a s im nao bebe s im 70a60K g m 150 ex c es s opes o baix of 50anos s 9C las s e s up 6ha8h pouc a nao nao nao s im 50a60K g m 150 norm al ba ix om 60anos c 4C las s e s em i-qual 6ha8h pouc a nao ex bebe nao m ais 80 m 160 ex c es s opes o m ediof 60anos c 4C las s e s em -prof m enos 6h algum a nao nao nao s im 50a60K g m 150 ex c es s opes o m ediof 50anos c E s tS uperiores s up 8ha10h pouc a s im nao oc as s im 50a60K g m 150 norm al m ediom 40anos c 4C las s e es p-m an m ais 10h algum a nao ex bebe s im m ais 80 m 170 ex c es s opes o baix om 40anos c E s tS uperiores s up 6ha8h nenhum a s im ex bebe s im 70a60K g m 170 norm al ba ix om 40anos c 4C las s e es p-n-m an 6ha8h pouc a s im nao bebe s im 80a70k g m 160 ex c es s opes o m ediom 60anos c E s tS uperiores s up 8ha10h nenhum a s im ex bebe s im m ais 80 m 170 ex c es s opes o m ediom 60anos c 4C las s e s em i-qual 8ha10h pouc a nao ex ex s im 70a60K g m 180 norm al a l tom 50anos c 9C las s e es p-n-m an 8ha10h pouc a nao nao bebe s im 70a60K g m 150 ex c es s opes o m ediof 40anos v 4C las s e es p-n-m an 8ha10h nenhum a nao nao nao s im 50a60K g m 160 norm al ba ix om 40anos c 9C las s e es p-n-m an 6ha8h nenhum a s im fum a bebe s im m ais 80 m 160 obes idade al tof 50anos c 12ano int 6ha8h algum a s im ex bebe s im 70a60K g m 150 ex c es s opes o m ediom 50anos c 12ano int 6ha8h pouc a s im nao bebe s im 80a70k g m 170 norm al m ediom 40anos d E s tS uperiores s up 6ha8h pouc a s im fum a bebe s im 70a60K g m 160 norm al a l to
1 – Construir uma visão em árvore baseado nos dados acima.2 – Tirar no mínimo duas conclusões apartir dessa visão.
24
M
F
40 anos
50 anos
60 anos
baixo
baixo
médio
médio
40 anos
50 anos
60 anos
baixo
alto
médio
médio
médio
alto
SEXO IDADE COLESTEROL
Todos os Homens de 50 anos tem o colesterol médio
Todas as Mulheres de 40 anos tem o colesterol baixo
25
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
Existme diversas abordagens para a divisão das etapas do processo de Extração de Conhecimento de Base de Dados.
Aguns autores dividem o processo em quatro, seis ou nove etapas, dependendo do autor.
Porém existem três grandes etapas: Pré-processamento, Extração de Padrões e Pós-Processamento
O processo de MD é centrado na interação entre as diversas classes de usuários, e o seu sucesso depende, em parte, dessa interação. (Classes: Especialista do Domínio, Analista e Usuário Final)
26
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
27
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
28
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
INDENTIFICAÇÃO DO PROBLEMA:
O estudo do domínio da aplicação e a definição de objetivos e metas a serem alcançados no processo de Mineração de Dados são identificados nesta fase.
Questões importantes que devem ser respondidads nesta fase: Quais são as principais metas do processo? Quais critérios de desempenho são importantes? O conhecimento estraído deve ser compreensível a
seres humanos ou um modelo do tipo caixa-preta é apropriado?
Qual deve ser a relação entre simplicidade e precisão do conhecimento extraído?
29
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
PRÉ-PROCESSAMENTO:
Normalmente, os dados disponíveis para análise não estão em um formatoa dequado para a Extração de Conhecimento.
Diversas transformações nos dados podem ser executadas nesta etapa: Extração e Integração; Transformação; Limpeza; Seleção e Redução de Dados
30
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
EXTRAÇÃO DE PADRÕES:
Esta etapa é direcionada ao cumprimento dos objetivos definidos na Identificação do Problema.
É realizada a escolha, a configuração e execução de um ou mais algoritmos para extração de conhecimento.
Compreende a escolha da: tarefa de Mineração de Dados a ser empregada, a escolha do algoritmo e a extração dos padrões propriamente dita.
31
DATA MINING – MINERAÇÃO DE DADOSO PROCESSO DE MINERAÇÃO DE DADOS
PÓS-PROCESSAMENTO:
A obtenção do conhecimento não é o passo final do processo de Extração de Conhecimento de Bases de Dados.
O conhecimento extraído pode ser utilizado na resolução de problemas da vida real. Para isso é importante responder algumas questões aos usuários: O conhecimento extraído representa o conhecimento
do especialista? De que maneira o conhecimento do especialista difere
do conhecimento extraído? Em que parte o conhecimento do especialista está
correto?
32
DATA MINING – MINERAÇÃO DE DADOSTÉCINCAS E FERRAMENTAS USADAS EM MINERAÇÃO DE DADOS
ALGUMAS TÉCNICAS:
Análise Estatística; Aprendizado de Máquina; Algoritmos Genéticos; Clustering; Lógica Fuzzy; Regras e Árvores de Decisão; Redes Neurais.
33
DATA MINING – MINERAÇÃO DE DADOSTÉCINCAS E FERRAMENTAS USADAS EM MINERAÇÃO DE DADOS
ALGUMAS FERRAMENTAS:
Enterprise Miner, ferramenta de data mining do SAS Microsoft SQL Server, ferramenta originalmente de banco de
dados que a cada nova versão tem ganho novas funcionalidades de Business Intelligence. Possui 8 algorítmos na versão do SQL Server 2008 e sua plataforma é extensível para integração de outros algorítmos desenvolvidos.
IlliMine Projeto de mineração de dados escrito em C++. InfoCodex Aplicação de mineração de dados com uma base de
dados linguística. KDB2000 Uma ferramenta livre em C++ que integra acesso à
bases de dados, pre-processamento, técnicas de transformação e um vasto escopo de algoritmos de mineração de dados.
KXEN Ferramenta de mineração de dados comercial, utiliza conceitos do Profesor Vladimir Vapnik como Minimização de Risco Estruturada (Structured Risk Minimization ou SRM) e outros.
34
DATA MINING – MINERAÇÃO DE DADOSTÉCINCAS E FERRAMENTAS USADAS EM MINERAÇÃO DE DADOS
KNIME Plataforma de mineração de dados aberta que implementa o paradigma de pipelining de dados. Baseada no eclipse
LingPipe API em Java para mineração em textos distribuída com código-fonte.
MDR Ferramenta livre em Java para detecção de interações entre atributos utilizando o método da multifactor dimensionality reduction (MDR).
Orange Tookit livre em Python para mineração de dados e aprendizado de máquina.
Pimiento Um ambiente para mineração em textos baseado em Java.
PolyaAnalyst Ambiente que permite a montagem de fluxos para mineração de dados e texto.
Tanagra Software livre de mineração de dados e estatística. WEKA Software livre em java para mineração de dados. Cortex Intelligence Sistema de PLN para mineração de textos
aplicado à Inteligência Competitiva 35
SAS ENTERPRISE MINER
Presente em 110 países, com mais de 40 mil instalações, a SAS no Brasil é o parceiro de negócios líder de mercado na oferta de soluções para a gestão corporativa baseada em inteligência.
36
37
38
39
IBM INTELLIGENT MINER
O Intelligent Miner, uma poderosa ferramenta para análise de dados integrada. As tradicionais técnicas de mineração de dados (análise de 40 agrupamentos, análise de afinidades, classificação, estimativa e previsão) são suportadas. Adicionalmente, ricos componentes de apresentação estão disponíveis para possibilitar uma análise visual dos resultados.
40
41
42
43
44
ORACLE DARWIN DATA MINING SOFTWARE
poderosa ferramenta de mineração de dados que ajuda a transformar gigantes massas de dados em inteligência corporativa. Darwin ajuda a encontrar padrões significativos e correlações em dados corporativos. Padrões que permitem um melhor entendimento e previsão do comportamento de clientes.
45
46
47
48
EXERCÍCIO DE FIXAÇÃO:
49
Top Related