DataMining

FACULDADE EXPONENCIAL – FIE

CURSO DE SISTEMAS DE INFORMÇÃO

DATAMINING

GLAUBER DE BORTOLI

JOSÉ CLAUDIO PIGNAT FILHO

ANDRÉ GEIER MENDES

Extração de Informações de DB’s

CHAPECÓ – SC, OUTUBRO DE 2005

O que é um DataMining?

DataMining (ou mineração de dados) é o processo de extrair informação válida,

previamente desconhecida e de máxima abrangência a partir de grandes bases de dados,

usando-as para efetuar decisões cruciais. O Datamining vai muito além da simples

consulta a um banco de dados, no sentido de que permite aos usuários explorar e inferir

informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco de

dados. Pode ser considerada uma forma de descobrimento de conhecimento em bancos

de dados (KDD - Knowledge Discovery in Databases), área de pesquisa de bastante

evidência no momento, envolvendo Inteligência Artificial e Banco de Dados. Apesar

dessa tecnologia ter uma longa evolução de sua história, o termo como conhecemos

hoje só foi introduzido recentemente, nos anos 90.

Características de um Datamining

A figura abaixo exemplifica como o Datamining está definido:

O Datamining descende fundamentalmente de 3 linhagens.

A estatística: A mais antiga delas. Sem a estatística não seria possível termos o DM,

visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é

construído. A Estatística Clássica envolve conceitos como distribuição normal,

variância, análise de regressão, desvio simples, análise de conjuntos, análises de

discriminantes e intervalos de confiança, todos usados para estudar dados e os

relacionamentos entre eles. Esses são as pedras fundamentais onde as mais avançadas

análises estatísticas se apóiam. E sem dúvida, no coração das atuais ferramentas e

técnicas de DM, a análise estatística clássica desempenha um papel fundamental.

Inteligência Artificial: A segunda linhagem do DM é a Inteligência Artificial, ou IA.

Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à

estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas

estatísticos. As notáveis exceções utilizações de IA certamente são alguns conceitos

adotados por alguns produtos de ponta, como módulos de otimização de consultas para

SGBDs.

Machine Learning: E a terceira e última linhagem do DM é a chamada machine

learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. A

machine learning tenta fazer com que os programas de computador “aprendam” com os

dados que eles estudam, tal que esses programas tomem decisões diferentes baseadas

nas características dos dados estudados, usando a estatística para os conceitos

fundamentais, e adicionando mais heurística avançada da IA e algoritmos para alcançar

os seus objetivos. De muitas formas, o DM é fundamentalmente a adaptação das

técnicas da Machine Learning para as aplicações de negócios.

Aplicações do Datamining

Técnicas de Datamining têm sido aplicadas com sucesso para a solução de

problemas em diversas áreas, como descrito a seguir:

Vendas:

- Identificar padrões de comportamento dos consumidores;

- Encontrar características dos consumidores de acordo com a região demográfica;

- Prever quais consumidores serão atingidos nas campanhas de marketing.

Finanças:

- Detectar padrões de fraudes no uso dos cartões de crédito;

- Identificar os consumidores que estão tendendo a mudar a companhia do cartão de

crédito;

- Identificar regras de estocagem a partir dos dados do mercado;

- Encontrar correlações escondidas nas bases de dados.

Seguros e Planos de Saúde:

- Determinar quais procedimentos médicos são requisitados ao mesmo tempo;

- Prever quais consumidores comprarão novas apólices;

- Identificar comportamentos fraudulentos;

Transporte:

- Determinar a distribuição dos horários entre os vários caminhos;

- Analisar padrões de sobrecarga;

Medicina:

- Caracterizar o comportamento dos pacientes para prever novas consultas;

- Identificar terapias de sucessos para diferentes doenças.

Fases de implementação de um Datamining

Pode ser dito com relativa confiança que é fácil começar um projeto de

Datamining, a dificuldade está em finalizá-lo de acordo com as expectativas. As

promessas geradas, no início de um projeto, pela utilização de novas tecnologias que

podem solucionar problemas tradicionalmente difíceis, podem ser mal interpretadas ao

avaliar as perspectivas de um novo projeto. Dificuldades com extração dos dados,

preparação dos mesmos, validação dos dados extraídos e a alocação de recursos no

cliente, frequentemente são subestimadas ao planejar o envolvimento e os cronogramas

para a execução do projeto. As atividades de obtenção e limpeza dos dados

normalmente consomem mais da metade do tempo dedicado ao projeto. Para a execução

de projetos de Datamining e a correta alocação de recursos para os mesmos, foi

desenvolvida uma metodologia padrão não proprietária que visa identificar as diferentes

fases na implantação de um projeto. Segundo a metodologia desenvolvida, a

implementação de um sistema de Datamining pode ser dividida em seis fases

interdependentes para que o mesmo atinja seus objetivos finais. São elas:

Entendimento do negócio: A fase inicial do projeto deve ter por objetivo identificar as

metas e requerimentos a partir de uma perspectiva de negócio, e então converte-las para

uma aplicação de Datamining e um plano inicial de ataque ao problema.

Entendimento dos dados: Esta fase tem como atividade principal extrair uma amostra

dos dados a serem usados e avaliar o ambiente em que os mesmos se encontram.

Preparação dos dados: Criação de programas de extração, limpeza e transformação

dos dados para uso pelos algoritmos de Datamining.

Modelagem: Seleção do(s) algoritmo(s) a serem utilizados e efetivo processamento do

modelo. Alguns algoritmos necessitam dos dados em formatos específicos, o que acaba

causando vários retornos à fase de preparação dos dados.

Avaliação do modelo: Ao final da fase de modelagem, vários modelos devem ter sido

avaliados sob a perspectiva do analista responsável. Agora, o objetivo passa a ser

avaliar os modelos com a visão do negócio, se certificando que não existem falhas ou

contradições com relação às regras do negócio.

Publicação: A criação e validação do modelo permite avançarmos mais um passo, no

sentido de tornar a informação gerada acessível. Isto pode ser feito de várias maneiras,

desde a criação de um software específico para tal, até a publicação de um relatório para

uso interno.

Exemplo de Produtos Comerciais (segundo a visão da empresa desenvolvedora)

DSS EBIS®: Preparado para atender ambientes tecnológicos e informacionais

complexos, integrando fontes de dados heterogêneas como: bancos relacionais, arquivos

de texto, planilhas eletrônicas e entradas manuais. Aplicativos próprios e integrados

para extração, transformação e carga de dados (ETL), registro de dados (Data Enters),

preparação e entrega de informações para análises, em ambientes dinâmicos, com

acesso via intranet ou internet. Nas aplicações para usuários finais são disponibilizados

poderosos recursos analíticos, garantindo autonomia para que analistas de negócio

explorem as informações corporativas com segurança e facilidade, sem a dependência

da equipe de TI.

Cypress Data Mining: O Cypress Data Mining filtra, classifica e resume dados de

relatórios "num instante" segundo as necessidades de cada usuário, salva as informações

como uma conveniente planilha Excel ou arquivo de texto e então o encaminha

automaticamente para a impressora, caixa de entrada de e-mail, fax, diretório ou outro

local adequado da empresa. Uma vez que os relatórios tenham sido processados, os

arquivos resultados em Excel ou texto podem ser totalmente integrados com outros

softwares, incluindo arquivamento e entrega na internet. A integração com o Cypress

DocuVault possibilita aos usuários ver somente as informações que foram autorizados a

acessar - isso é algo que as soluções de Datamining de usuário final não conseguem

fornecer de forma consistente. A capacidade de arquivamento de longo prazo do

Cypress proporciona uma solução rápida livre de programação para informações

históricas de exploração que podem não estar mais em seus bancos de dados. O Módulo

Cypress Datamning é baseado em servidor e destinado a ambiente de produção ao invés

de um software para usuário final. O treinamento extensivo dos usuários finais é,

portanto eliminado e as informações podem ser disponibilizadas mais rapidamente a um

número maior de usuários. Automatizar as tarefas de datamining normalmente

executadas pelos usuários finais significa que eles podem dedicar mais tempo em suas

tarefas básicas e menos tempo aprendendo e operando software sofisticado de

Datamining baseado em cliente.

Keyword AxB: A proposta da família de ferramentas Keyword AxB é trazer a

informação diretamente para quem precisa dela no seu dia a dia com velocidade,

segurança, confiabilidade e com muita simplicidade, sendo útil onde quer que haja

necessidade de consolidar e analisar bases de dados de qualquer tamanho. O Keyword

AxB é uma ferramenta muito flexível e pode ser empregado nas mais diversas

necessidades de análise.

BIBLIOGRAFIA

Bruno Eduardo Cerquinho, e Henrique Figueiredo de Souza (UNICAP – 2002),

disponível em:

http://www.dei.unicap.br/~almir/seminarios/2002.1/ns01/datawarehouse/

datamining.htm, acesso em: 20/10/2005.

Crisp DM, disponível em: http://www.crisp-dm.org/, acesso em: 20/10/2005.

Fabio Vessoni, disponível em: http://www.mv2.com.br/datamining.doc, acesso em:

20/10/2005.

DataMining

Documents

Transcript of DataMining