Uma introdução à mineração de informações na era do Big Data
-
Upload
fabricio-barth -
Category
Technology
-
view
144 -
download
1
Transcript of Uma introdução à mineração de informações na era do Big Data
![Page 1: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/1.jpg)
Uma Introducao a Mineracao deInformacoes na era do Big Data
Fabrıcio J. Barth
VAGAS Tecnologia e Faculdades BandTec
Setembro de 2012
![Page 2: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/2.jpg)
Palestrante
• Fabrıcio J. Barth. Formado em Ciencia da
Computacao pela FURB. Mestrado e Doutorado em
Engenharia da Computacao pela USP.
• Recuperacao e mineracao de informacoes para
domınios de investigacao; Identificacao de temas
emergentes e especialistas em bases de patentes e
artigos; Desenvolvimento e gestao de uma plataforma
de busca georeferenciada (www.apontador.com.br).
• Data Scientist na VAGAS Tecnologia
(www.vagas.com.br). Professor da Faculdade BandTec
(www.bandtec.com.br).
Uma Introducao a Mineracao de Informacoes na era do Big Data — Palestrante 2
![Page 3: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/3.jpg)
Objetivo
Apresentar a importancia do tema, os conceitos
relacionados e alguns exemplos de aplicacoes.
Uma Introducao a Mineracao de Informacoes na era do Big Data — Objetivo 3
![Page 4: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/4.jpg)
Sumario
• Importancia do Tema
• Manipulando dados estruturados
• Manipulando dados nao-estruturados (textos)
? Agrupamento
? Classificacao
• Web Data Mining
• Consideracoes Finais
• Referencias
Uma Introducao a Mineracao de Informacoes na era do Big Data — Sumario 4
![Page 5: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/5.jpg)
Importancia do Tema
5
![Page 6: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/6.jpg)
Problema
http://investingcaffeine.com/2010/01/07/tmi-the-age-of-information-overload/
Importancia do Tema — Problema 6
![Page 7: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/7.jpg)
Alguns dados...
0 50 100 150 200 250 300 350 400 450 500
Relação Horário x Dia x Quantidade de Notícias Produzidas
0 2 4 6 8 10 12 14 16 18 20 22Horário
0 10
20 30
40 50
60 70
80 90
Dia
0
100
200
300
400
500
Notícias
Quantidade de notıcias publicadas na Web por apenas seis veıculos de notıcias (D0 = 17/07/2007)
Importancia do Tema — Alguns dados... 7
![Page 8: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/8.jpg)
Mais dados...
0
20000
40000
60000
80000
100000
120000
140000
160000
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Qu
an
tida
de
(N
otí
cia
s)
Tempo (Dias)
Notícias publicadas na Internet
EstadãoFolha
G1Globo Online
TerraÚltimo Segundo
Total
D0 = 17/07/2007
Importancia do Tema — Mais dados... 8
![Page 9: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/9.jpg)
Big Data
“We collect an astonishing amount of digital information... ...we’ve long since surpassed our ability to store
and process it all. Big data is here, and it’s causing big problems...”[1]
Importancia do Tema — Big Data 9
![Page 10: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/10.jpg)
Mais numeros
• A380: Heathrow → JFK: 640 TBs de log
• Twitter: 12+ TBs of tweet every day
• Facebook: 25+ TBs of log data every day
• Sistemas baseados em RFID
• Smartphones com GPS, acelerometro, ...
http://www.ibmbigdatahub.com/
Mitchell. Mining our reality. Science. 2009
Importancia do Tema — Mais numeros 10
![Page 11: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/11.jpg)
Por que minerar informacoes?
• Explicitar conhecimento medico a partir de registros
medicos.
• Identificar comportamento anomalo (i.e., fraudes,
falhas)
• Sumarizar tendencias de publicacoes de artigos e
patentes sobre um determinado tema.
• Sumarizar e filtrar notıcias relevantes.
Importancia do Tema — Por que minerar informacoes? 11
![Page 12: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/12.jpg)
• Sumarizar a opiniao expressa na Web sobre a sua
empresa.
• Identificar padroes de navegacao em sites.
• Identificar conteudo improprio em sites.
• Recomendacao de livros, filmes, restaurantes e
empregos.
Importancia do Tema — Por que minerar informacoes? 12
![Page 13: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/13.jpg)
Explicitar
conhecimento medico
a partir de registros
medicos
13
![Page 14: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/14.jpg)
Diagnostico para o uso de lentes decontato
O setor de oftalmologia de um hospital da cidade de Sao
Paulo possui, no seu banco de dados, um historico de
pacientes que procuraram o hospital queixando-se de
problemas na visao.
A conduta, em alguns casos, realizada pelo corpo clınico
de oftalmologistas do hospital e indicar o uso de lentes ao
paciente.
Problema: Extrair do banco de dados do hospital
uma hipotese que explica que paciente deve usar ou
nao lente de contatos.
Explicitar conhecimento medico a partir de registros medicos — Diagnostico para o uso de lentes de contato 14
![Page 15: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/15.jpg)
Banco de dados do ambiente de producao
Explicitar conhecimento medico a partir de registros medicos — Banco de dados do ambiente de producao 15
![Page 16: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/16.jpg)
Por onde comecar?
16
![Page 17: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/17.jpg)
Responder as seguintes perguntas:
• Que objetos/atributos sao relevantes para a criacao da
hipotese?
• Como representa-los?
• Que linguagem de representacao de conhecimento
deve-se utilizar para representar a hipotese?
• Que algoritmo utilizar para gerar a hipotese?
Por onde comecar? — Responder as seguintes perguntas: 17
![Page 18: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/18.jpg)
• Que objetos sao relevantes?
? Depois de um estudo detalhado do problema com
especialistas da area...
? Idade do paciente.
? Se o paciente tem ou nao miopia.
? Se o paciente tem ou nao astigmatismo.
? Qual e a taxa de lacrimejamento dos olhos do
paciente.
• Como representa-los? Atributo/Valor
Por onde comecar? — Responder as seguintes perguntas: 18
![Page 19: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/19.jpg)
Atributos
• idade (jovem, adulto, idoso)
• miopia (mıope, hipermetrope)
• astigmatismo (nao, sim)
• taxa de lacrimejamento (reduzido, normal)
• lentes de contato (forte, fraca, nenhuma)
Por onde comecar? — Atributos 19
![Page 20: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/20.jpg)
Dados
Idade Miopia Astigmat. Lacrimej. Lentes
jovem mıope nao reduzido nenhuma
jovem mıope nao normal fraca
jovem mıope sim reduzido nenhuma
jovem mıope sim normal forte
jovem hiper nao reduzido nenhuma
jovem hiper nao normal fraca
jovem hiper sim reduzido nenhuma
jovem hiper sim normal forte
adulto mıope nao reduzido nenhuma
Por onde comecar? — Dados 20
![Page 21: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/21.jpg)
Idade Miopia Astigmat. Lacrimej. Lentes
adulto mıope nao normal fraca
adulto mıope sim reduzido nenhuma
adulto mıope sim normal forte
adulto hiper sim reduzido nenhuma
adulto hiper nao normal fraca
adulto hiper sim reduzido nenhuma
adulto hiper sim normal nenhuma
Por onde comecar? — Dados 21
![Page 22: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/22.jpg)
Idade Miopia Astigmat. Lacrimej. Lentes
idoso mıope nao reduzido nenhuma
idoso mıope nao normal nenhuma
idoso mıope sim reduzido nenhuma
idoso mıope sim normal forte
idoso hiper nao reduzido nenhuma
idoso hiper nao normal fraca
idoso hiper sim reduzido nenhuma
idoso hiper sim normal nenhuma
Por onde comecar? — Dados 22
![Page 23: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/23.jpg)
Extracao de “conhecimento”
• O que foi apresentado nos slides anteriores pode ser
considerado como conhecimento? Nao
• Pode ser apresentado como uma informacao que
consegue explicar a tomada de decisao dos
especialistas? Nao
• O que fazer?
Por onde comecar? — Extracao de “conhecimento” 23
![Page 24: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/24.jpg)
Extracao de “conhecimento”
• Extrair a informacao realmente relevante.
• Utilizar uma linguagem de representacao
compreensıvel ao ser humano.
(mostrar exemplo no RapidMiner - www.rapid-i.com)
Por onde comecar? — Extracao de “conhecimento” 24
![Page 25: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/25.jpg)
Arvore de decisao
Por onde comecar? — Arvore de decisao 25
![Page 26: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/26.jpg)
Algoritmos Indutores de Arvores deDecisao
• Que algoritmo utilizar para gerar hipoteses na
forma de arvores de decisao?
• ID3, C4.5[7]: sao algoritmos indutores de arvore de
decisao, top-down, recursivos e que fazem uso do
conceito de entropia para identificar os melhores
atributos que representam o conjunto de dados.
Por onde comecar? — Algoritmos Indutores de Arvores de Decisao 26
![Page 27: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/27.jpg)
Resultado: Sistema Especialista
(none, soft, hard)
Por onde comecar? — Resultado: Sistema Especialista 27
![Page 28: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/28.jpg)
Organizar
documentos
28
![Page 29: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/29.jpg)
O que fazer com grandes quantidades dedocumentos?
• Notıcias, patentes, artigos, mensagens de twitter,
questoes abertas de um questionario de pesquisa, ...
• Para tirar proveito desta informacao e necessario
organiza-la de alguma forma:
? Agrupamento de notıcias, patentes, artigos e
mensagens.
? Classificacao, Recomendacao e Filtragem de
documentos (notıcias, relatorios, mensagens do
twitter, avaliacao de itens).
Organizar documentos — O que fazer com grandes quantidades de documentos? 29
![Page 30: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/30.jpg)
Exemplo de classificacao/agrupamento
Organizar documentos — Exemplo de classificacao/agrupamento 30
![Page 31: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/31.jpg)
Etapas
• Pre-processamento dos dados.
• Modelagem (supervisionada ou nao supervisionada).
• Avaliacao do modelo.
• Utilizacao
Organizar documentos — Etapas 31
![Page 32: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/32.jpg)
Pre-processamento
dos dados
32
![Page 33: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/33.jpg)
Formato de um documento
... Esta disciplina tem como objetivo apresentar os principais
conceitos da area de Inteligencia Artificial, caracterizar as
principais tecnicas e metodos, e implementar alguns problemas
classicos desta area sob um ponto de vista introdutorio.
A estrategia de trabalho, o conteudo ministrado e a forma
dependerao dos projetos selecionados pelos alunos.
Inicialmente, os alunos deverao trazer os seus Projetos de
Conclusao de Curso, identificar interseccoes entre o projeto e a
disciplina, e propor atividades para a disciplina. ...
Pre-processamento dos dados — Formato de um documento 33
![Page 34: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/34.jpg)
Conjunto de Exemplos - Atributo/Valor
Doc. apresent form tecnic caracteriz · · ·
d1 0.33 0.33 0.33 0.33 · · ·
d2 0 0.5 0.2 0.33 · · ·
d3 1 0.6 0 0 · · ·
d4 0.4 0.3 0.33 0.4 · · ·
d5 1 0.4 0.1 0.1 · · ·
dn · · · · · · · · · · · · · · ·
Pre-processamento dos dados — Conjunto de Exemplos - Atributo/Valor 34
![Page 35: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/35.jpg)
Atributo/Valor usando vetores
Como representar os documentos?
−→di = (pi1, pi2, · · · , pin) (1)
• Os atributos sao as palavras que aparecem nos
documentos.
• Se todas as palavras que aparecem nos documentos
forem utilizadas, o vetor nao ficara muito grande?
Pre-processamento dos dados — Atributo/Valor usando vetores 35
![Page 36: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/36.jpg)
Diminuindo a dimensionalidade do vetor
• Como filtrar as palavras que devem ser usadas como
atributos?
• Em todos os idiomas existem atomos (palavras) que
nao significam muito. Stop-words
Esta disciplina tem como objetivo apresentar os principais
conceitos da area de Inteligencia Artificial, caracterizar as
principais tecnicas e metodos, e implementar alguns problemas
classicos desta area sob um ponto de vista introdutorio.
· · ·
Pre-processamento dos dados — Diminuindo a dimensionalidade do vetor 36
![Page 37: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/37.jpg)
Diminuindo ainda mais adimensionalidade do vetor
• Algumas palavras podem aparecer no texto de diversas
maneiras: tecnica, tecnicas, implementar,
implementacao...
• Stemming - encontrar o radical da palavra e usar
apenas o radical.
Pre-processamento dos dados — Diminuindo ainda mais a dimensionalidade do vetor 37
![Page 38: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/38.jpg)
Atributo/Valor usando vetores
• Ja conhecemos os atributos.
• E os valores?
? Booleana - se a palavra aparece ou nao no
documento (1 ou 0)
? Por frequencia do termo - a frequencia com que
a palavra aparece no documento (normalizada ou
nao)
? Ponderacao tf-idf - o peso e proporcional ao
numero de ocorrencias do termo no documento e
inversamente proporcional ao numero de
documentos onde o termo aparece.
Pre-processamento dos dados — Atributo/Valor usando vetores 38
![Page 39: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/39.jpg)
Por frequencia do termo
(apresent,0.33) (form,0.33) (tecnic,0.33) (caracteriz,0.33)
(projet,1.0) (introdutori,0.33) (objet,0.33) (inteligente,0.33)
(conclusa,0.33) (selecion,0.33) (intersecco,0.33) (classic,0.33)
(identific,0.33) (conceit,0.33) (trabalh,0.33) (disciplin,1.0)
(traz,0.33)
Pre-processamento dos dados — Por frequencia do termo 39
![Page 40: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/40.jpg)
Analise do conteudo
publicado no Twitter
atraves de algoritmos
de agrupamento
40
![Page 41: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/41.jpg)
Componentes para uma solucao...
Coletor
Fonte
Pré-processamentodos documentos
Agrupadocumentos
Agrupamentos de documentos
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Componentes para uma solucao... 41
![Page 42: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/42.jpg)
Coletando dados do twitter� �$ c u r l −o a b o u t B r a s i l . t x t h t t p s : / / st ream . t w i t t e r . com/1/ s t a t u s e s /
f i l t e r . j s o n ? t r a c k=b r a s i l −u u s e r : passwd
% T o t a l % R e c e i v e d % X f e r d Average Speed Time Time Time C u r r e n t
Dload Upload T o t a l Spent L e f t Speed
100 4549 k 0 4549 k 0 0 5986 0 −−:−−:−− 0 : 1 2 : 5 8 −−:−−:−− 6226
$ wc −l a b o u t B r a s i l . t x t
1501 a b o u t B r a s i l . t x t
$ d a t e
Ter 28 Ago 2012 2 3 : 5 1 : 1 0 BRT� �
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Coletando dados do twitter 42
![Page 43: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/43.jpg)
� �#
# forma de uso : ruby t w i t t e r . rb > mensagens . c sv
#
r e q u i r e ’ rubygems ’
r e q u i r e ’ j s o n ’
c o n t e n t = F i l e . open ( ’ a b o u t B r a s i l . t x t ’ )
c o n t e n t . each do | l i n e |p u t s JSON . p a r s e ( l i n e ) [ ’ t e x t ’ ]
end� �
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Coletando dados do twitter 43
![Page 44: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/44.jpg)
Componentes para uma solucao...
Coletor
Fonte
Pré-processamentodos documentos
Agrupadocumentos
Agrupamentos de documentos
Wiki2Group - http://trac.fbarth.net.br/wikiAnalysis
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Componentes para uma solucao... 44
![Page 45: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/45.jpg)
Definicoes de Algoritmos de Agrupamento
• O objetivo dos algoritmos de agrupamento e colocar
os objetos similares em um mesmo grupo e objetos
nao similares em grupos diferentes.
• Normalmente, objetos sao descritos e agrupados
usando um conjunto de atributos e valores.
• Nao existe nenhuma informacao sobre a classe ou
categoria dos objetos.
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Definicoes de Algoritmos de
Agrupamento
45
![Page 46: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/46.jpg)
Algoritmos para Agrupamento - K-means
• K significa o numero de agrupamentos (que deve ser
informado a priori).
• Sequencia de acoes iterativas.
• A parada e baseada em algum criterio de qualidade
dos agrupamentos (por exemplo, similaridade media).
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Algoritmos para Agrupamento -
K-means
46
![Page 47: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/47.jpg)
Algoritmo para Agrupamento - K-means
1
2
3
4
5
0
1 2 3 4 5 6 7 8
1
2
3
4
5
0
1 2 3 4 5 6 7 8
1
2
3
4
5
0
1 2 3 4 5 6 7 8
(1) Objetos que devem ser agrupados
1
2
3
4
5
0
1 2 3 4 5 6 7 8
(2) Sorteio dos pontos centrais dos agrupamentos
(3) Atribuição dos objetos aos agrupamentos (4) Definição do centro do agrupamento
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Algoritmo para Agrupamento -
K-means
47
![Page 48: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/48.jpg)
Algoritmo para agrupamento dos twittes -Resultados
Execucao do processo no RapidMiner
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Algoritmo para agrupamento dos
twittes - Resultados
48
![Page 49: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/49.jpg)
Analise dos agrupamentos (clusters)
RT @TWlTTEI : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id i oma .
RT @TWlTTEI : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id i oma .
RT @PiadaDePobre : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id io ma .
RT @soucrack : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id i oma
RT @PiadaDePobre : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id io ma .
’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id i oma .
RT @PiadaDePobre : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id io ma .
’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id i oma .
RT @PiadaDePobre : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id io ma .
RT @PiadaDePobre : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id io ma .
RT @TWlTTEI : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id i oma .
RT @TWlTTEI : ’ t c h e r e r e t c h e tche ’ ’ bara bere ’ ’ tchu tcha ’ ’ l e l e l e ’ ’ paragada ’ ’ t h a r a r a ’ ’ parapapa ’ acho que o b r a s i l mudou de id i oma .
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Analise dos agrupamentos
(clusters)
49
![Page 50: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/50.jpg)
Analise do conteudo publicado no Twitter atraves de algoritmos de agrupamento — Analise dos agrupamentos
(clusters)
50
![Page 51: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/51.jpg)
Classificacao de
documentos
51
![Page 52: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/52.jpg)
Analise de Sentimento em mensagens noTwitter
Teor das mensagens sobre a empresa Vale nos ultimos sete dias. http://www.opsys.com.br/ - [4]
Classificacao de documentos — Analise de Sentimento em mensagens no Twitter 52
![Page 53: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/53.jpg)
Conjunto de Exemplos Rotulados
Doc. Mensagem Classe
d1 A empresa X e uma empresa muito seria Positivo
d2 O produto Y e uma porcaria Negativo
d3 Gostei muito da palestra de fulano Positivo
d4 Aquela praia e muito bonita Positivo
d5 Gostei daquele restaurante Positivo
dn · · ·
• Rotular manualmente
• Utilizar emoticons :) :(
Classificacao de documentos — Conjunto de Exemplos Rotulados 53
![Page 54: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/54.jpg)
Conjunto de Exemplos - Atributo/Valor eClasse
Doc. restaur empres bom caracteriz · · · Classe
d1 0.33 0.33 0.33 0.33 · · · Positivo
d2 0 0.5 0.2 0.33 · · · Negativo
d3 1 0.6 0 0 · · · Positivo
d4 0.4 0.3 0.33 0.4 · · · Positivo
d5 1 0.4 0.1 0.1 · · · Positivo
dn · · · · · · · · · · · · · · · · · ·
Classificacao de documentos — Conjunto de Exemplos - Atributo/Valor e Classe 54
![Page 55: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/55.jpg)
Classificando objetos
• Naıve Bayes [6]
• Support Vector Machines (SVM) [2]
Classificacao de documentos — Classificando objetos 55
![Page 56: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/56.jpg)
Utilizacao
Utilizando o modelo criado e possıvel inferir se novos
twittes possuem sentimento positivo ou negativo.� �Transformando o c o n j u n t o de t r e i n a m e n t o em um v e t o r de p a l a v r a s
C r i a n d o o modelo
A p l i c a n d o o modelo a novos c a s o s
Mensagem ”Meu voto e para X, com c e r t e z a ! ” e c l a s s i f i c a d a como POSITIVA
Mensagem ” E s t e produto e muito ruim ” e c l a s s i f i c a d a como NEGATIVA
Mensagem ”Nunca mais compro n a q u e l a l o j a ! ” e c l a s s i f i c a d a como NEGATIVA
Mensagem ” Fulano e um m e n t i r o s o ! ” e c l a s s i f i c a d a como NEGATIVA
Mensagem ”X l i d e r a intenA§A£o de voto ” e c l a s s i f i c a d a como POSITIVA� �
Classificacao de documentos — Utilizacao 56
![Page 57: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/57.jpg)
Outro Exemplo: Classificacao e Filtragemde Notıcias
Classificacao de documentos — Outro Exemplo: Classificacao e Filtragem de Notıcias 57
![Page 58: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/58.jpg)
Qual e o problema?
http://fbarth.net.br/projetos/riInteligente.html - Sistema FaroFino [5]
Classificacao de documentos — Qual e o problema? 58
![Page 59: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/59.jpg)
Processo de trabalho
Coletor de RSSWeb Pré-processamentodos documentos
Classifica e filtradocumentos
Notícia 1 = gosteiNotícia 2 = não gosteiNotícia 3 = gosteiNotícia 4 = gosteiNotícia 5 = gosteiNotícia 6 = não gosteiNotícia 7 = gostei
Algoritmo geradorde hipóteses
ID3, C4.5, J4.8Naïve BayesKnn, SVM
Hipótese
Treinamento,Testes e Prototipação
implementação
Classificacao de documentos — Processo de trabalho 59
![Page 60: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/60.jpg)
Minerando o log de
um servidor Web
60
![Page 61: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/61.jpg)
Processo de mineracao de padroes naWeb
Padrões
Log dos servidores
de aplicação
Agrupamento de pageview
Análise de correlação
Mineração de regras de associação
Mineração de padrões sequenciais
Banco de dados com
as transações dos usuários
Pré−processamento dos dados
Identificação de pageview
Identificação de seções
Integração de dados
Transformação dos dados
Limpeza dos dados
Padrões de uso
Minerando o log de um servidor Web — Processo de mineracao de padroes na Web 61
![Page 62: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/62.jpg)
Exemplo tıpico de log
Minerando o log de um servidor Web — Exemplo tıpico de log 62
![Page 63: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/63.jpg)
Pre-processamento do log: identificacaode usuarios
Minerando o log de um servidor Web — Pre-processamento do log: identificacao de usuarios 63
![Page 64: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/64.jpg)
Pre-processamento do log: identificacaodas secoes
Minerando o log de um servidor Web — Pre-processamento do log: identificacao das secoes 64
![Page 65: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/65.jpg)
Matriz de transacoes
Minerando o log de um servidor Web — Matriz de transacoes 65
![Page 66: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/66.jpg)
Matriz de transacoes commeta-informacoes sobre as paginas
usuario categoria1 categoria2 categoria3 · · · categoriam
user1 0 2 0 · · · 1
user2 1 1 0 · · · 0
user3 2 0 1 · · · 0
user4 0 1 0 · · · 0
· · · · · · · · · · · · · · · · · ·usern 1 1 0 · · · 1
• Cada pagina pode pertencer a uma categoria (i.e., tipo de livro, tipo de estabelecimento comercial)
• Cada pagina pode estar associada a uma cidade (i.e., um estabelecimento, uma vaga de emprego)
Minerando o log de um servidor Web — Matriz de transacoes com meta-informacoes sobre as paginas 66
![Page 67: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/67.jpg)
Regras de Associacao
• Caso do supermercado (fralda → cerveja)
• Quem acessa a pagina sobre futebol tambem acessa a
pagina de volei em 90% dos casos (futebol → volei).
• Quem acessa a pagina de ofertas e a pagina de
material de construcao tambem finaliza a compra em
83% dos casos (ofertas ∧ material construcao →compra)
Minerando o log de um servidor Web — Regras de Associacao 67
![Page 68: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/68.jpg)
Consideracoes Finais
68
![Page 69: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/69.jpg)
Processo
Acertivo
UtilizaçãoAvaliaçãoCriação dos
modelosPré−processamento
Entendimento
do problema
Ferramentas (i.e., RapidMiner, Weka, libsvm, Octave, Matlab)Levantamento de
requisitos
Análise
descritiva dos dados
Eficiente
(tempo e espaço)
Consideracoes Finais — Processo 69
![Page 70: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/70.jpg)
Consideracoes Finais
• Foram vistos: problemas de classificacao, agrupamento
e analise de log. Tem muito mais de onde vieram
estes...
• Atencao para o processo! Pre-processamento,
criacao dos modelos, avaliacao e aplicacao.
• Mahout, Hadoop, Carrot2. Antes de instalar
ferramentas para a mineracao das informacoes, tente
entender os seus dados e os seus problemas! Faca uma
analise descritiva dos dados.
• Muitos dados... Muitas oportunidades...
Consideracoes Finais — Consideracoes Finais 70
![Page 71: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/71.jpg)
Obrigado!
http://fbarth.net.br
http://fbarth.net.br/materiais/palestras.html
Consideracoes Finais — Obrigado! 71
![Page 72: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/72.jpg)
Referencias
72
![Page 73: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/73.jpg)
References
[1] Data, data everywhere. a special report on managing infor-mation. The Economist, pages 1–16, February 2010.
[2] Chih-Chung Chang and Chih-Jen Lin. LIBSVM: A li-brary for support vector machines. ACM Transactionson Intelligent Systems and Technology, 2:27:1–27:27,2011. Software available at http://www.csie.ntu.edu.
tw/~cjlin/libsvm.
[3] Bing Liu. Web Data Mining: Exploring Hyperlinks, Con-tents, and Usage Data (Data-Centric Systems and Appli-cations). Springer, 1st ed. 2007. corr. 2nd printing edition,January 2009.
72-1
![Page 74: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/74.jpg)
[4] Thomas Jefferson P. Lopes, Gabriel Koji Lemos Hi-ratani, Fabrıcio J. Barth, Orlando Rodrigues, Jr., and Ju-liana Maraccini Pinto. Mineracao de opinioes aplicada aanalise de investimentos. In Companion Proceedings ofthe XIV Brazilian Symposium on Multimedia and the Web,WebMedia ’08, pages 117–120, New York, NY, USA, 2008.ACM.
[5] Joao Carlos Medau, Maria Cristina Belderrain, andFabrıcio J. Barth. Reordenacao de resultados de busca naweb conforme criterio de relevancia definido pelo usuario.In Anais do XI Simposio Brasileiro de Sistemas Multimıdiae Web - WebMedia, pages 220–222, 2005.
[6] Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997.
72-2
![Page 75: Uma introdução à mineração de informações na era do Big Data](https://reader033.fdocumentos.com/reader033/viewer/2022042715/55845061d8b42a6a6d8b4d88/html5/thumbnails/75.jpg)
[7] J. R. Quinlan. Knowledge Acquisition for Knowledge-BasedSystems, chapter Simplifying Decision Trees. AcademicPress, 1988.
[8] Stuart J. Russel and Peter Norvig. Artificial intelligence: amodern approach. Prentice-Hall, 2 edition, 2003.
[9] Ian H. Witten and Eibe Frank. Data Mining: PracticalMachine Learning Tools and Techniques. Elsevier, secondedition, 2005.
72-3