Post on 17-Apr-2015
Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn
Aplicações práticas daAplicações práticas dadescoberta de conhecimento em descoberta de conhecimento em
BDBD
Aplicações da Mineração de Aplicações da Mineração de DadosDados
Marketing e comércioMarketing e comércio Gerenciamento de relação com clientes
• descrição multi-dimensional, agrupamento e classificação de clientes, associações entre produtos ou serviços, para otimização e personalização de:
campanhas de propaganda e de promoções sugestões de produtos e serviços
• mineração comparativa de evolução de compras, produtos ou serviços oferecidos e preços para:
promover retenção de clientes definir política de preço altamente dinâmica (ex,
passagem aérea)
Marketing e comércioMarketing e comércio Gerenciamento de relação com clientes
• ambos a partir de: Transações com cartões de fidelidade, de
requisitos de programa a la carte (TV, vídeo, música), de reservas (passagens, hotéis, ingressos)
Log de servidor Web para comércio eletrônico
Finanças e segurançaFinanças e segurança Serviços financeiros:
• mineração de séries temporais de valores na bolsa para especulação
• mineração de associação e grupos de valores para definição de portfolio de investimento e planos de aposentadoria
• previsão de inadimplência para definir política de empréstimo
Detecção de fraude: • descrição multi-dimensional e mineração de séries
excepcionais de: uso de cartão de créditos para serviços financeiros pedidos de acesso a sites para segurança de sistemas transferências de fundos para lavagem de dinheiro sujo e
sonegação de imposto chamadas para telecomunicações
Finanças e segurançaFinanças e segurança Detecção de tentativas de intrusão
• mineração de padrões temporais de comandos de protocolos em arquivos de log de servidores
• batch e tempo real
Jogos, esportes e Jogos, esportes e recursos humanosrecursos humanos
Jogos:• mineração de regras estratégicas e táticas a
partir de BD de partidas (xadrez, futebol de robôs) Jogos, esportes e re-engenharia de
organizações:• OLAP, agrupamento e mineração multi-
dimensional de séries de resultados para identificar fatores internos (ex: composição do time, tática usada) e externos (ex: tipo de adversário, local do jogo) contribuindo a vitórias e a derrotas
Jogos, esportes e Jogos, esportes e recursos humanosrecursos humanos
Jogos de esportes virtuais, esportes e recrutamento:• previsão do desempenho e popularidade futura de
atletas, artistas e funcionários para contratação e transferência
Serviços de infra-estrutura: Serviços de infra-estrutura: energia, água, transporte, energia, água, transporte, telecomunicação, Internettelecomunicação, Internet
descrição multi-dimensional e previsão comparativa
de demanda e da capacidade das fontes ou equipamentos
para:• planejar investimentos e otimizar rotas para
evitar interrupção de serviços e congestionamento
• definir vários níveis de qualidade de serviços, seus preços e seus clientes potenciais
• detecção de fraudes
Serviços de infra-estrutura: Serviços de infra-estrutura: energia, água, transporte, energia, água, transporte, telecomunicação, Internettelecomunicação, Internet
previsão de falha de equipamento para definir política de prevenção de falha
mineração de regras de diagnóstico para análise de falha
SaúdeSaúde
Indústria farmacêutica:• previsão dos efeitos de um novo remédio
composto a partir dos efeitos dos seus componentes em remédios testados
Medicina e epidemiologia: • mineração de regras de diagnóstico • previsão de predisposição a doenças e resposta a
tratamento• a partir de BD de órgãos de saúde (CDC,
ministério da saúde)
SaúdeSaúde
Pesquisa em genética e biologia molecular: • mineração comparativa de seqüências de genes
em células sadias e doentes (adaptação da mineração de séries temporais para dados categóricos)
• mineração de associações e grupos de genes baseada na sua co-ocorrência em várias classes de células
• previsão da forma 3D de uma proteína a partir da sua seqüência de ácidos-amidos
Conclusão sobre a aplicabilidade de Conclusão sobre a aplicabilidade de KDDKDD
Ainda existe muito mais tarefas e domínios de aplicação prática da descoberta de conhecimento em BD não mencionadas
Ubiqüidade da necessidade por mineração de dados e descoberta de conhecimento em BD
O mais difícil não é identificar setores de atividade que precisam dessa tecnologia e sim identificar setores que não podem beneficiar-se dela
Sistemas e ProtótiposSistemas e Protótiposde Data Miningde Data Mining
Como escolher um Sistema de Como escolher um Sistema de Data Mining?Data Mining?
Os sistemas comerciais de data mining tem pouco em comum• Diferentes funcionalidades ou metodologias de
data mining• Podem trabalhar com conjuntos de dados de
tipos completamente diferentes Tipos de dados: relacional, transacional,
texto, seqüência temporal, espacial? Questões sobre o sistema
• execução em um ou vários sistemas operacionais?
• arquitetura cliente/servidor?• Fornece interfaces baseadas na Web e permite
dados XML como entrada e/ou saída?
Como escolher um Sistema de Como escolher um Sistema de Data Mining? (2)Data Mining? (2)
Fontes de dados• arquivos texto ASCII, fontes de dados relacionais
múltiplas• suporte de conexões ODBC (OLE DB, JDBC)?
Funções e metodologias de Data mining• Única vs. múltiplas funções de data mining• Único vs. vários metodos por função
Mais funções e métodos por função fornece ao usuário grande flexibilidade e poder de análise
Como escolher um Sistema de Como escolher um Sistema de Data Mining? (2)Data Mining? (2)
Acoplamento com BD e/ou data warehouse• Quatro formas de acoplamento: sem acoplamento,
acoplamento “frouxo”, acoplamento semifirme, e acoplamento firme
Idealmente, um sistema de data mining deve ser firmemente acoplado com um sistema de bases de dados
Como escolher um Sistema deComo escolher um Sistema de Data Mining? (3) Data Mining? (3)
Escalabilidade• Escalabilidade por linhas • Escalabilidade por coluna• realizar um sistema com escalabilidade por
coluna é um desafio muito maior do que realizar um sistema com escalabilidade por linha
Ferramentas de Visualização• “Uma figura vale milhares de palavras”• Categorias de visualização: visualização de
dados, visualização dos resultados da mineração, vizualização do processo de mineração, e visual data mining
Interface gráfica e linguagem de interrogação (query) de Data mining• Interface gráfica de alta qualidade e fácil de
usar
Exemplos de Sistemas de Exemplos de Sistemas de Data Mining (1)Data Mining (1)
IBM Intelligent Miner• Uma ampla faixa de algoritmos de data mining• Algoritmos de mineração escaláveis• Kit de ferramentas: algoritmos de redes neurais,
métodos estatísticos, preparação de dados, ferramentas de visualização
• Firme integração com o sistema de bases de dados relacionais IBM's DB2
SAS Enterprise Miner • Grande variedade de ferramentas de análise
estatística• Ferramentas de Data warehouse e múltiplos
algoritmos de data mining Microsoft SQLServer 2000
• Integração de BD e OLAP com mineração
Exemplos de Sistemas deExemplos de Sistemas deData Mining (2)Data Mining (2)
SGI MineSet • Múltiplos algoritmos de data mining e métodos
estatísticos avançados• Ferramentas de visualização avançadas
Clementine (SPSS)• Meio ambiente de desenvolvimento integrado de
data mining para usuários e programadores• Múltiplos algoritmos de data mining e ferramentas
de visualização
Exemplos de Sistemas deExemplos de Sistemas deData Mining (2)Data Mining (2)
DBMiner (DBMiner Technology Inc.)• Múltiplos módulos de data mining: análise OLAP,
associação, classificação, agrupamento • Funções eficientes de mineração de padrões
seqüenciais e associação, ferramentas de classificação visual
• Mineração de bases de dados relacionais e de data warehouses
Temas Adicionais emTemas Adicionais emMineração de DadosMineração de Dados
Data Mining VisualData Mining Visual Visualização: uso de computação gráfica para criar
imagens visuais que ajudam a entender representações massivas e complexas de dados
Data Mining Visual: processo de descoberta de conhecimento implícito a partir de grandes conjuntos de dados usando técnicas de visualização
Computação Gráfica
Computação de alto desempenho
Reconhecimento de Padrões
Interface Homem Máquina
Multimídia
VisualizaçãoVisualização
Propósito da Visualização• Fornecer uma visão geral qualitativa de
grandes conjuntos de dados• Busca de padrões, tendências, estrutura,
irregularidades, relações entre dados.• Ajuda para encontrar regiões interessantes e
parâmetros apropriados para posterior análise qualitativa.
Data MiningVisual & Data MiningVisual & Visualização de DadosVisualização de Dados
Integração da visualização e do data mining• visualização de dados• visualização dos resultados de data mining• visualização do processo de data mining• data mining visual interativo
Visualização de dados• Dados em um BD ou em um data warehouse
podem ser visualizados em diferentes níveis de abstração via diferentes combinações de atributos (ou
dimensões)• Os dados podem ser apresentados em várias
formas visuais
Visualização dos Resultados Visualização dos Resultados do Data Miningdo Data Mining
Apresentação visual dos resultados (ou conhecimento) obtidos da mineração de dados
Exemplos• Scatter plots e boxplots (obtidos de data mining
descritivo)
• Árvores de Decisão
• Regras de Associação
• Agrupamentos
• Outliers
• Regras de generalização
Boxplots (Boxplots (Statsoft): Múltiplas Statsoft): Múltiplas Combinações de VariáveisCombinações de Variáveis
Visualização dos resultados de Data Visualização dos resultados de Data Mining (SAS Enterprise Miner):Mining (SAS Enterprise Miner): Scatter Scatter
PlotsPlots
Visualização de Regras de Visualização de Regras de Associação (SGI/MineSet 3.0)Associação (SGI/MineSet 3.0)
Visualização de umaVisualização de uma Árvore de Árvore de decisãodecisão (SGI/MineSet 3.0) (SGI/MineSet 3.0)
Visualização do ProcessoVisualização do Processode Data Miningde Data Mining
Apresentação dos vários processos de data mining em formas visuais de modo que o usuário pode ver
• O processo de extração de dados
• Onde os dados são extraídos
• Como os dados são limpados, integrados, processados e minerados
• O método selecionado para data mining
• Onde os resultados são armazenados
• Como eles podem ser vistos
Data Mining Visual InterativoData Mining Visual Interativo
Uso de ferramentas de visualização no processo de mineração para ajudar os usuários a realizarem decisões locais astuciosas para a mineração
Exemplo• Mostrar a distribuição dos dados em um
conjunto de atributos usando setores coloridos
• Usar o resultado para decidir qual setor deve ser selecionado para a classificação e onde fica um “bom” ponto de corte desse setor
Áudio Data MiningÁudio Data Mining
Usar sinais de áudio para ressaltar padrões de dados ou características dos resultados da mineração
Alternativa a mineração visual Data mining visual pode ressaltar padrões
interessantes usando gráficos, mas exige que o usuário se concentre na busca visual de padrões
Em vez disso: transformar padrões em sons e música e ouvir ritmos, tons, e melodias para identificar algo interessante ou não usual
Impactos sociais daImpactos sociais daMineração de DadosMineração de Dados
Data Mining é uma moda ou é Data Mining é uma moda ou é algo persistente?algo persistente?
Data mining é uma tecnologia Ciclo de vida tecnológico
• Inovação
• Adesão inicial
• Ruptura
• Maioridade inicial
• Maioridade tardia
• Legado
Cilco de vida de adoção Cilco de vida de adoção tecnológicatecnológica
Data mining está na ruptura!?• Os sistemas de data mining existentes são
muito genéricos• É necessário soluções de data mining
específicas e integração da lógica das organizações com as funções da mineração
Impactos Sociais: Ameaça a Impactos Sociais: Ameaça a privacidade e a segurança dos privacidade e a segurança dos
dados?dados?
Data mining é uma ameaça para a privacidade e segurança dos dados?• “Big Brother”, “Big Banker”, e “Big Business”
estão vigiando você cuidadosamente• Informações de perfil são coletadas o tempo todo
cartão de crédito, cartão de fidelidade, etc Surfar na Web, alugar um vídeo, preencher um
formulário,
• Coletar dados pessoais pode ser benéfico para as organizações e as pessoas, mas existe o perigo de uso indevido
Registros médicos, Avaliação do empregado, Etc.
Proteção da Privacidade e Proteção da Privacidade e da Segurança dos Dadosda Segurança dos Dados
Práticas corretas• Regras internacionais para a proteção da
privacidade de dados• Cobre aspectos relacionados a coleta de dados,
propósito, uso, qualidade, acesso, participação individual, etc
• Especificação do propósito e Limitação do Uso• Acesso: Indivíduos tem o direito de conhecer
que informação é coletada sobre ele, quem tem acesso aos dados, e como os dados são usados
Desenvolvimento de técnicas de segurança• criptografia• bases de dados anônimas
Tendências em Mineração de Tendências em Mineração de DadosDados
Tendências em Data Mining Tendências em Data Mining (1)(1)
Aplicações• desenvolvimento de sistemas de data mining
para aplicações específicas• Data mining invisível (mineração como função
interna) Métodos de data mining com escalabilidade
• Constraint-based mining: uso de restrições para guiar os sistemas de data mining na busca por padrões interessantes
Integração de data mining com bases de dados, data warehouse e bases de dados na Web
Data mining invisível
Tendências em Data Mining Tendências em Data Mining (2)(2)
Padronização da linguagem de data mining• A padronização facilitará o desenvolvimento
sistemático, melhorará a interoperabilidade, e promoverá a instrução e o uso de sistemas de data mining na indústria e na sociedade
Data mining Visual Novos métodos para minerar tipos de dados
complexos• Maior esforço de pesquisa para a integração de
métodos de mineração de dados com técnicas existentes da análise de dados para os tipos complexos de dados
Web mining Proteção da privacidade e segurança da
informação na mineração dos dados