Mineração de dados com RapidMiner + WEKA - Clusterização

34
Mineração de dados com RapidMiner + WEKA Clusterização PROF. JOÃO GABRIEL LIMA @JGABRIEL_LIMA LINKEDIN.COM/IN/JOAOGABRIELLIMA Mineração de dados com RapidMiner + WEKA - Prof. João Gabriel Lima

Transcript of Mineração de dados com RapidMiner + WEKA - Clusterização

Mineração dedadoscomRapidMiner +WEKA

Clusterização

PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA

LINKEDIN.COM/IN/JOAOGABRIELL IMA

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Prof.João GabrielLima

• Pesquisador emMineração dedadoseInteligência Computacional;

• Engenheiro daComputação,especialista em SoftwareeHardware;

• Doutorando em Computação Aplicada;

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Processo deExtração doconhecimento

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Conhecendo nossa basededadosENTENDER ODOMÍNIO EOCONHECIMENTO QUEPODEMOSEXTRAIR

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Qual ahistória dosseus dados?…EASPERGUNTAS QUEQUEREMOS RESPONDER

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Basededados- BMWOs exemplos giram em torno deuma concessionária localdaBMWecomo ela pode aumentar asvendas.

Aconcessionária armazenou todas suas informações devendas passadas einformações arespeito decada pessoaque:

comprou uma BMW

olhou uma BMW

procurou algo nosalão deexposição daBMW.

Aconcessionária quer aumentar suas vendas futuras eempregarmineração dedadosparaconseguir isso.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Comopodemos extrair esseconhecimento?

VAMOSVERUMPOUCOSOBREQUAISMÉTODOSVAMOSAPLICAR...

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Regressão

◦ Determinar quanto aspessoas pagaram pelos carros anteriores daconcessionária,baseando-senos atributos ecaracterísticas devendas doscarros vendidos.

O modelo permitiria queaconcessionária daBMWinserisseos novos atributos docarro paradeterminar opreço.

"Quanto deveríamos cobrar pelanovaBMWM5?”

Ummodelo deregressão usaria dadosdevendas passadas sobre BMWseM5s

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Classificação

Qual aprobabilidade deuma pessoa Xcomprar omais novomodelo BMWM5?

Criando uma árvore declassificação,os dadospodemser minerados paradeterminar aprobabilidade deessapessoa comprar umnovoM5.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Clusterização

Comparar a idade dos compradores prévios decarros e as cores que eles compraram no passado.A partir desses dados, é possível encontrar se certasfaixas estão mais propensas a comprar um certotipo de cor da BMWM5.

Quefaixa etária gosta daBMWM5dacor prata?

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

ClusterizaçãoENCONTRANDOGRUPOS EMSEUSDADOS

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Oqueé?

oMétodo quepermite queumusuário faça grupos dedadosparadeterminar padrões apartir dosdados.o Umbenefício decisivo doarmazenamento em clustersobre aclassificação é quecada atributo noconjunto dedadosserá usadoparaanalisar os dados.o Umagravedesvantagem deusar oarmazenamento em clusteréqueousuário necessita saberdeantemão quantos grupos elegostaria decriar

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Visão matemática§ Cada atributo nesse conjunto de dados deve ser normalizado, pelo qual cada

valor é dividido pela diferença entre o valor alto e o valor baixo no

conjunto de dados para esse atributo.

§ Por exemplo, se o atributo for idade e o valor mais alto for 72 e o valor mais

baixo for 16, então, a idade 32 deve ser normalizada para 0,5714.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Visão matemática§ Dado o número de clusters desejados, selecione, demaneira aleatória, esse número de amostras do conjuntode dados para servir como nossos centros iniciais de testede clusters.

§ Por exemplo, caso deseje ter três clusters, vocêselecionaria, de maneira aleatória, três linhas de dados doconjunto de dados.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Visão matemática• Calcule a distância de cada amostra de dados até o centrodo cluster (ou linha de dados selecionada aleatoriamente), usandoo método de cálculo de distância dos mínimos quadrados.

• Atribua cada linha de dados a um cluster, baseando-se nadistância mínima até cada centro do cluster.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Visão matemática• Calcule ocentroide, queé amédia decada coluna dedadosusando somente os membros decada cluster.• Calcule adistância decada amostra dedadosaté os centroidesrecém-criados.•Seos clustersemembros declusternão mudarem,você terminoueos clustersestão criados.•Caso eles mudem,é necessário começar novamente voltando àetapa 3econtinuando novamente até queos clustersnão sejammodificados.

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Esse é oprocesso declusterização!

Perfeito!eaí?

Vamos lá:Passo-a-Passoo Carregue oarquivo dedadosnoWEKAusando asmesmas etapas queusamos paracarregardadosna guia Preprocess

Vamos lá:Passo-a-PassooNaguia Cluster,cliqueem Choose eselecione SimpleKMeans apartir dasopções queaparecem

Vamos lá:Passo-a-Passoo Vamos justar ocamponumClusters,quenos diz quantos clustersdesejamos criar

Vamos lá:Passo-a-PassooSaída daclusterização:

Interpretando omodelo declusterização

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Interpretando oresultadoCluster0

Grupo de"Sonhadores",eles andam pela

concessionária,masdiminui noquediz

respeito aentrar na concessionária e,opior

detudo,eles não compram nada.

Atributos Cluster0

Dealership 0.9615

Showroom 0.6923

ComputerSearch 0.6538

M5 0.4615

3Series 0.3846

Z4 0.5385

Financing 0.4615

Purchase 0

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Interpretando oresultadoCluster1

"Amantes doM5”,pois tendem air

diretamente em direção aos M5,ignorando os

carros 3-serieseoZ4.Não possuem uma alta

taxadecompra.Poderia ser umfoco de

melhoria paraaconcessionária,talvez enviando

mais vendedores paraaseção doM5

Atributos Cluster1

Dealership 0.6667

Showroom 0.6667

ComputerSearch 0

M5 0.963

3Series 0.4444

Z4 0

Financing 0.6296

Purchase 0.5185

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Interpretando oresultadoCluster2

Não são estatisticamente relevantes enão

podemos tirar nenhuma conclusão boadeseu

comportamento

Atributos Cluster2

Dealership 1

Showroom 0

ComputerSearch 1

M5 1

3Series 0.8

Z4 0.8

Financing 0.8

Purchase 0.4

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Interpretando oresultadoCluster3

Sempre acabam comprando umcarro e

sempre acabam financiando-o.Eles andam

pelo estacionamento olhando paraos carros,

então usam apesquisa docomputador

disponível na concessionária.Tendem a

comprar M5sou Z4s(masnunca 3-series)

Atributos Cluster3

Dealership 0.8571

Showroom 0.5714

ComputerSearch 0.8571

M5 0.7143

3Series 0.0714

Z4 0.5714

Financing 1

Purchase 1

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Interpretando oresultadoCluster4

Sempre olham o3-seriesenunca olham parao

M5,queé muito mais caro.Entram diretamente no

salão deexibição,50por cento chegam ao estágio

definanciamento,somente 32por centoacabam

finalizando atransação.

Atributos Cluster4

Dealership 0

Showroom 1

ComputerSearch 0.3214

M5 0

3Series 1

Z4 0.6786

Financing 0.5

Purchase 0.3214

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Já tosafo!Agoraé

minha vez!

AtividadeHORADECOLOCAR SEUS CONHECIMENTOS EM PRÁTICA

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Atividadeo Comuma basededadosomperfils declientes deumbanco,faça aclusterização dosclientes analizando,respectivamente,orisco deconcedercréditos.o Oresultado deve ser umrelatório quemostre oprocesso declusterização realizado eprincipalmente INTERPRETEeEXPLIQUE osresultados,mostrando como esse resultado pode vir aauxiliar atomada dedecisão.oBasededados:https://goo.gl/1ooaYP

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Algumas outras fontes dedados

https://archive.ics.uci.edu/ml/datasets.htmlhttp://snap.stanford.edu/data/index.htmlhttps://www.kaggle.com/datasets

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Créditoshttps://www.ibm.com/developerworks/br/opensource/library/os-weka2/

https://mineracaodedados.wordpress.com/

http://hunch.net/?p=3692542

http://en.wikipedia.org/wiki/Regression_analysis

http://weka.wikispaces.com/ARFF+%28book+version%29

http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5

https://pt.wikipedia.org/wiki/R%C2%B2

https://pt.wikipedia.org/wiki/Qui-quadrado

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima

Mineração dedadoscomRapidMiner +WEKA

Clusterização

PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA

LINKEDIN.COM/IN/JOAOGABRIELL IMA

Mineração dedadoscomRapidMiner +WEKA- Prof.João GabrielLima