DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . ....

37
MATEUS DALTO PIVETA DETECÇÃO DE LIGAÇÃO ENTRE HISTÓRIAS COM RECONHECIMENTO DE ENTIDADES NO TWITTER LONDRINA–PR 2013

Transcript of DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . ....

Page 1: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

MATEUS DALTO PIVETA

DETECÇÃO DE LIGAÇÃO ENTRE HISTÓRIASCOM RECONHECIMENTO DE ENTIDADES NO

TWITTER

LONDRINA–PR

2013

Page 2: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 3: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

MATEUS DALTO PIVETA

DETECÇÃO DE LIGAÇÃO ENTRE HISTÓRIASCOM RECONHECIMENTO DE ENTIDADES NO

TWITTER

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

Orientador: Prof(a). Dr(a). Daniel dos San-tos Kaster

LONDRINA–PR

2013

Page 4: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

Mateus Dalto PivetaDetecção de Ligação entre Histórias com Reconhecimento de Entidades no

Twitter/ Mateus Dalto Piveta. – Londrina–PR, 2013-35 p. : il. (algumas color.) ; 30 cm.

Orientador: Prof(a). Dr(a). Daniel dos Santos Kaster

– Universidade Estadual de Londrina, 2013.

1. Palavra-chave1. 2. Palavra-chave2. I. Orientador. II. Universidade xxx. III.Faculdade de xxx. IV. Título

CDU 02:141:005.7

Page 5: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

MATEUS DALTO PIVETA

DETECÇÃO DE LIGAÇÃO ENTRE HISTÓRIASCOM RECONHECIMENTO DE ENTIDADES NO

TWITTER

Trabalho de Conclusão de Curso apresentadoao curso de Bacharelado em Ciência da Com-putação da Universidade Estadual de Lon-drina para obtenção do título de Bacharel emCiência da Computação.

BANCA EXAMINADORA

Prof(a). Dr(a). Daniel dos Santos KasterUniversidade Estadual de Londrina

Orientador

Prof. Dr. Segundo Membro da BancaUniversidade/Instituição do Segundo

Membro da Banca

Prof. Msc. Terceiro Membro da BancaUniversidade/Instituição do Terceiro

Membro da Banca

Londrina–PR, 24 de novembrode 2013

LONDRINA–PR2013

Page 6: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 7: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

Este trabalho é dedicado às crianças adultas que,quando pequenas, sonharam em se tornar cientistas.

Page 8: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 9: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

AGRADECIMENTOS

Os agradecimentos principais são direcionados à Gerald Weber, Miguel Frasson,Leslie H. Watter, Bruno Parente Lima, Flávio de Vasconcellos Corrêa, Otavio Real Sal-vador, Renato Machnievscz1 e todos aqueles que contribuíram para que a produção detrabalhos acadêmicos conforme as normas ABNT com LATEX fosse possível.

Agradecimentos especiais são direcionados ao Centro de Pesquisa em Arquiteturada Informação2 da Universidade de Brasília (CPAI), ao grupo de usuários latex-br3 e aosnovos voluntários do grupo abnTEX2 4 que contribuíram e que ainda contribuirão para aevolução do abnTEX2.

1 Os nomes dos integrantes do primeiro projeto abnTEX foram extraídos de http://codigolivre.org.br/projects/abntex/

2 http://www.cpai.unb.br/3 http://groups.google.com/group/latex-br4 http://groups.google.com/group/abntex2 e http://abntex2.googlecode.com/

Page 10: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 11: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

“Não vos amoldeis às estruturas deste mundo,mas transformai-vos pela renovação da mente,a fim de distinguir qual é a vontade de Deus:

o que é bom, o que Lhe é agradável, o que é perfeito.(Bíblia Sagrada, Romanos 12, 2)

Page 12: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 13: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

PIVETA, M. D.. Detecção de Ligação entre Histórias com Reconheci-mento de Entidades no Twitter. 35 p. Trabalho de Conclusão de Curso(Graduação). Bacharelado em Ciência da Computação – Universidade Esta-dual de Londrina, 2013.

RESUMO

As redes sociais têm emergido como uma valiosa ferramenta para comuni-cação e troca de informação dos mais diferentes tipos. Como resultado do rápidocrescimento das redes sociais, o volume de dados com o qual o usuário é expostoé desproporcional ao tempo disponível para o seu consumo. Técnicas vem sendodesenvolvidas para lidar com o problema do excesso de informação. Este trabalhoirá abordar as técnicas de Story Link Detection aplicadas a rede sociais. O objetivoé o desenvolvimemnto de um método para detectar com precisão quando dois oumais tweets tratam do mesmo assunto utilizando métodos abordados na literaturapara detecção de similaridade.

Palavras-chave: detecção de ligação entre histórias, reconhecimento de enti-dades, twitter, sobrecarga de informação

Page 14: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 15: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

PIVETA, M. D.. Story Link Detection with Named Entity Recogniza-tion on Twitter. 35 p. Final Project (Undergraduation). Bachelor of Sciencein Computer Science – State University of Londrina, 2013.

ABSTRACT

Social networks have emerged as a valuable tool for communication andinformation exchange of many different types. As a result of the fast growth of themain social networks, the volume of data that the user is exposed is disproportionalto the time available for its consumption. Techniques have been developed to dealwith the problem of information overload. This work will addressed the Story LinkDetection technique applied to the social networks. The objective of the work is todevelop a method to accurately detect when two or more tweets are in the samesubject using methods discussed in the literature for similarity detection.

Keywords: story link detection, named entity recognization, twitter, infor-mation overload

Page 16: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 17: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

LISTA DE ABREVIATURAS E SIGLAS

SLD Story Link Detection

NER Named Entity Recognition

TDT Topic Detection and Tracking

NLP Natural Language Processing

Page 18: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 19: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

SUMÁRIO

Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1 Definição do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.1 O Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.2 A era da sobrecarga de informação . . . . . . . . . . . . . . . . . . . . . 211.3 O Twitter como veículo de informação gerador de ruído . . . . . . . . . . 221.4 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 Conceitos e Técnicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.1 Detecção de Ligação entre Histórias . . . . . . . . . . . . . . . . . . . . . 252.2 Reconhecimento de Entidades Nomeadas . . . . . . . . . . . . . . . . . . 262.3 Medidas de similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3.1 TF-IDF e Similaridade de Cossenos . . . . . . . . . . . . . . . . . 272.3.2 Soft TF-IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3 Proposta para Detecção de Ligação entre Histórias com a utilizaçãode Reconhecimento de Entidades Nomeadas . . . . . . . . . . . . . . . 293.1 Gold Standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2 Detecção de Entidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.3 TF-IDF e Soft TF-IDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Page 20: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 21: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

19

INTRODUÇÃO

Mensagens divulgadas em sites de mídia social como o Facebook e o Twitter apre-sentam um estilo novo e desafiador para as tecnologias de linguagem devido à sua naturezaruidosa e informal. No entanto, os tweets – postagens feitas na rede social Twitter – forne-cem uma compilação única de informação que, em geral, é mais atualizada e abrangentedo que artigos de notícias, devido à pequena barreira para sua divulgação e a proliferaçãode dispositivos móveis.

É cada vez maior o volume de informação com que o usuário é exposto na Internet.Segundo a pesquisa da Global Information Industry da Universidade da Califórnia em SanDiego [1], o usuário americano comum consome cerca de 34 Gigabytes de informação pordia, consumo que se dá através da TV, rádio, Internet, jogos, etc. Porém muitas dasinformações que são recebidas – principalmente através da Internet – são duplicadas,como por exemplo, notícias que tratam de um mesmo assunto ou evento.

Devido ao enorme volume de tweets publicados cada dia, é impraticável, desneces-sário e à beira do impossível conseguir monitorar o fluxo de dados que é disponibilizadoao usuário. Ferramentas têm sido criadas com o intuito de remover o “ruído social”, osdenominados agregadores de conteúdos como o Flipboard5, TrapIt6 e Zite7, que têm porobjetivo diminuir o número de postagens duplicadas, spams, etc. e formatar a informaçãode modo que fique mais acessível e prazerosa para ser consumida.

O trabalho aqui proposto encaixa-se no contexto dos agregadores de conteúdos etem por objetivo criar um método que possa determinar a similaridade entre duas históriaspara assim poder agrupá-las. Trata-se da Detecção de Ligação entre Histórias (Story LinkDetection – SLD), um dos itens que pertecem à pesquisa Topic Detection and Tracking,patrocinada pela agência de defesa americana DARPA (The Defense Advanced ResearchProjects Agency), cujo estudo piloto foi realizado entre setembro de 1996 e outrubro de1997 [2] e vem sendo discutido desde então.

A proposta deste trabalho será aplicar técnicas de Story Link Detection juntamentecom as de Reconhecimento de Entidades Nomeadas (Named Entity Recognization – NER)e suas respectivas combinações para identificar documentos – aqui chamados de tweets– semelhantes, que tratam do mesmo assunto, na rede social Twitter. Trata-se de umaárea com pesquisas recentes e muitos problemas ainda em aberto, mas que vem ganhandouma notoriedade mundial junto com temas como Big Data e Web Semântica. Controlaro ruído social é um objetivo onde grandes empresas têm investido milhões em pesquisa

5 http://flipboard.com6 http://trap.it7 http://zite.com

Page 22: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

20 Introdução

e desenvolvimento, mas que ainda é de díficil execução e os resultados muitas vezes nãodemonstram a qualidade esperada.

Page 23: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

21

1 DEFINIÇÃO DO PROBLEMA

1.1 O TWITTER

Twitter é um popular site de mídia social que permite aos usuários enviar mensa-gens curtas textuais, ou tweets, que possuem o máximo de 140 caracteres. Os usuários doTwitter podem usar um formato de anotação conheço por hashtag (por exemplo, #SB45)para indicar que suas mensagens são cerca de (por exemplo, “ver Superbowl 45 #SB45”).Além disso, o Twitter permite a interação entre os usuários utilizando o símbolo @. OTwitter atualmente emprega um algoritmo proprietário para exibir trending topics, con-sistindo de termos e frases que apresentam comportamento “tendências” [3].

As mensagens publicadas no Twitter refletem as informações sobre um evento útildentre uma variedade de eventos de diferentes tipos e dimensões. Um evento é definidocomo “algo que acontece em algum tempo e lugar específico” (TDT, 2002) [4]. Estasmensagens podem fornecer um conjunto de perspectivas únicas, que reflete os pontos devista de usuários que estão interessados ou participam de um evento [3].

Com uma base de usuários de 485 milhões – 288 milhões considerados ativos – noquarto trimestre de 2012 [5] e com uma média de 500 milhões de tweets publicados pordia [6], o Twitter tem transformado a maneira como as pessoas transmitem informações[7].

Dentre as principais características do Twitter, a brevidade, o comprimento curtoe a simultaniedade têm influenciado particularmente no modelo de distribuição de notíciaspelos veículos de informação ao redor do mundo. É comum encontrar um link nas páginasoficiais de grandes portais para seu perfil no Twitter, e muitos de seus editores tambémpossuem perfis pessoais por onde divulgam lançamentos de novas colunas, artigos queacharam interessantes ou opiniões curtam sobre algum novo produto ou serviço.

1.2 A ERA DA SOBRECARGA DE INFORMAÇÃO

A sobrecarga de informações tornou-se um problema reconhecido na sociedade deinformação intensiva de hoje. É considerado um problema urgente associada à diminuiçãoda satisfação no trabalho, estresse e perda de desempenho [8].

Quando uma pessoa está com excesso de oferta de informações, ou quando aquantidade de informações excede a capacidade cognitiva de um indivíduo, a pessoa éconfrontada com o que os pesquisadores definiram como o “problema da sobrecarga deinformação” [9].

Page 24: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

22 Capítulo 1. Definição do Problema

Tarefas baseadas em computador muitas vezes envolvem altas cargas cognitivasque podem estar sujeitos a interferências e interrupções. Uma pesquisa recente descobriuque 50% da administração de empresas da Fortune 1000 “foram interrompidas seis ou maisvezes por hora, deixando-as sobrecarregadas pelo número de mensagens que recebem” [10].

Com o surgimento da Internet e a popularização dos gadgets, como tablets esmartphones, hoje somos interrompidos frequentemente, seja com um novo email, umanova mensagem ou até mesmo com notícias em tempo real. As redes sociais, desde queusadas de moderadamente não atrapalham de modo significativo a capacidade produtivade uma pessoa, mas com as relações, sejam elas sociais, emotivas ou profissionais depen-dendo cada vez mais de tais meios para a comunicação, é quase que impossível não ficarimerso em tal realidade.

1.3 O TWITTER COMO VEÍCULO DE INFORMAÇÃO GE-RADOR DE RUÍDO

Sites de mídia social, como o Twitter, surgiram como poderosos meios de comuni-cação para as pessoas que buscam compartilhar e trocar informações sobre uma grandevariedade de eventos do mundo real [3]. O Twitter é um exemplo extremo de um gêneroinformal, pois os usuários são obrigados frequentemente a abreviar seus posts para quecaibam no limite de 140 caracteres.

Como é possível acompanhar as mais variadas e ilimitadas fontes de notícias atra-vés do recurso de seguir outros perfis, é comum o usuário do Twitter se deparar com oproblema do ruído informacional. Trata-se de conteúdos duplicados, comumente notíciassobre o mesmo acontecimento que acabam sendo publicadas por diferentes veículos, oumesmo opiniões de outros usuários sobre tal acontecimento ou notícia. O ruído não possuinenhum valor agregado, pois o usuário acaba investindo tempo e energia no processamentode dados que já foram processados e não lhe interessam mais.

Uma das formas que o Twitter encarou este problema foi através da criação deum algoritmo que gera um ranking com têndencias chamado de Trending Topics, ondeatravés da análise em tempo real é gerado uma lista com os assuntos mais comentadosno momento. Porém a identificação de eventos em tempo real no Twitter é um problemadesafiador, devido à heterogeneidade e imensa escala dos dados. Os usuários do Twitterpublicam mensagens com uma variedade de tipos de conteúdo, incluindo atualizaçõespessoais e vários pedaços de informação [3].

Enquanto o Trending Topics do Twitter, por vezes, refletem eventos atuais (porexemplo, “copa do mundo”), muitas vezes incluem palavras-chave para tópicos de conver-sação populares (por exemplo, “#BieberFever”, “preparando”), sem discriminação entreos diferentes tipos de conteúdo [3]. Além disso, ele funciona apenas como um classificador

Page 25: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

1.4. Objetivos 23

e não consegue determinar com precisão ou agrupar tweets que tratam do mesmo assuntosem o uso de palavras-chave específicas ou hashtags.

1.4 OBJETIVOS

Espera-se que os estudos aqui desenvolvidos contribuam com a discussão sobredetecção de textos duplicados, principalmente voltados para os novos meios sociais aosquais os usuários são expostos na Internet, abordando a dificuldade que é lidar com ainformação destes meios, uma vez que suas principais características são a brevidade einformalidade.

Além disto, através deste trabalho é esperado o desenvolvimento de uma soluçãoeficiente que resolva o problema da detecção de tweets duplicados, ou seja, que tratam domesmo assunto. Eficiente aqui possui um duplo sentido: o de qualidade e o de custo com-putacional. Logo, o algoritmo deverá retornar resultados considerados ótimos ou bonsquando comparados com uma classificação manual feita por uma pessoa da área a serabordada, sendo que no escopo deste trabalho será a área de tecnologia. Além disso,o algoritmo deve ser otimizado para a implementação em um ambiente real de produ-ção, fazendo com que o custo computacional dos métodos envolvidos sejam levados emconsideração durante a fase de testes.

É importante destacar que os tweets das fontes escolhidas possuem normalmente otítulo do artigo e um link para o local de publicação original, comumente no próprio site ouportal do veículo em questão. Portanto, será possível analisar não somente os metadadosprovidos pelo Twitter, como também os metadados disponíveis na página original, comonome do autor, data, etc.

Outros objetivos são: melhorar a qualidade da informação que é dirigida ao usuáriopelas das redes sociais, através da aplicação de algoritmos desenvolvidos neste trabalho eo desenvolvimento de um Gold Standard que poderá ser utilizado para futuras pesquisasna área.

Page 26: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 27: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

25

2 CONCEITOS E TÉCNICAS

2.1 DETECÇÃO DE LIGAÇÃO ENTRE HISTÓRIAS

Detecção de Ligação entre Histórias, conforme definido na competição de Detecçãode Tópicos e Acompanhamento (Topic Detection and Tracking – TDT ) promovida peloprograma DARPA Translingual Information Detection, Extraction, and Summarization(TIDES), é a tarefa de determinar se duas histórias, tais como artigos de notícias e/ouprogramas de rádio, são sobre o mesmo evento, ou possuem ligação.

A importância da detecção de histórias ligadas reside no seu potencial de criar apli-cações relevantes como o monitoramento de cobertura midiática ou o fluxo de um eventoem particular ao redor do mundo, como a gripe suína, conflitos, derramamento de óleo,etc [11]. Na aplicação da técnica em um sistema já existente seu potencial é de estabalecerfiltros para o controle do volume de informação ao qual o usuário é exposto, eliminandoou agrupando conteúdos que sejam semelhantes facilitando assim o seu processamento.

De acordo com TDT, duas histórias estão ligadas se o evento nelas ocorrem emuma mesma data e local específicos [12]. Logo, uma história que não possue ligamentoscom nenhuma das histórias anteriores deve ser considerada a primeira sobre um novoevento, enquanto que a história que está ligada a alguma das anteriores já reconhecidapara um evento deverá ser seguida [13].

Atualmente, o método comumente utilizado para a detecção de ligação entre his-tórias baseia-se na utilização de uma medida de similaridade que leva em consideraçãoa semelhança de cossenos entre vetores de termos com peso TF-IDF [14] em todas aspalavras de um documento.

Para determinar se dois documentos estão vinculados, os sistemas clássicos reali-zam três principais passos de processamento:

1. Pré-processamento para criar um conjunto normalizado de termos para representarcada documento como um vetor de contagem, ou termo vetor;

2. Adaptação dos modelos de parâmetros (isto é, IDF) assim que novas histórias sãointroduzidas, calculando a similaridade dos termo vetores;

3. Determinação se um par de histórias estão ligadas com base na pontuação de simi-laridade [4].

Foi comprovado em Kumaran and Allan [2005] que usar conhecimento prévio temajudado em tarefas TDT similares a SLD. Uma das possíveis melhorias ao sistema é

Page 28: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

26 Capítulo 2. Conceitos e Técnicas

a utilização de um extrator de entidades nomeadas. Pesquisas realizadas por Shah et al.[2006] e Chen and Ku [2002] sugerem que utilizar o reconhecimento de entidades nomeadaspode levar a uma melhoria na detecção de ligamentos entre histórias [15]. Portanto, nestetrabalho é proposto que um novo passo de processamento seja executado previamente aostrês citados acima, consistindo exatamente em um reconhecedor de entidades nomeadas.

2.2 RECONHECIMENTO DE ENTIDADES NOMEADAS

O Reconhecimento de Entidades Nomeadas (Named Entity Recognization – NER)é geralmente entendido como a tarefa de identificar menções de designadores rígidos apartir de texto pertencentes ao chamado entidade-tipo, tais como pessoas, organizações elocais [16] e estão no centro de muitas das aplicações de mineração de dados.

Abordagens NER dominantes são ou baseados em técnicas que por sua vez sãobaseadas em gramática linguísticas ou em modelos estatísticos. Abordagens NER basea-dos em gramática são dependentes de um idioma específico, enquanto abordagens NERestatísticas normalmente requerem uma grande quantidade de dados de treinamento ma-nualmente anotados. Estes métodos NER tradicionais têm sido aplicados em vários domí-nios, por exemplo, bioquímca (Li et al., 2009), reconhecimento de voz (Meyer e Schramm,2006), sistemas de informações geográficas (Silva et al., 2006) [17].

Porém a eficácia das ferramentas existentes são seriamente comprometidas quandoaplicado a dados do Twitter, já que as mensagens são concisas, mal redigidas e publicadasem diversos idiomas [18]. Duas, dentre as principais razões são: Primeiro, tweets contêmuma infinidade de distintos tipos de entidades nomeadas (empresas, produtos, bandas,filmes e outros). Quase todos estes tipos (exceto para pessoas e locais) são relativamentepouco frequentes, e por isso, mesmo com uma amostra grande de tweets anotados ma-nualmente vão conter poucos exemplos para treinamento; E segundo, devido ao limitede 140 caracteres do Twitter, tweets muitas vezes não têm um contexto suficiente paradeterminar o tipo de uma entidade sem o auxílio de conhecimento externo ou anterior[19].

A ferramenta que foi utilizada para este estudo é a ClearForest SWS, uma fer-ramenta comercial criada pela ClearForest Ltd. e adquirida pela Reuters que permite aanálise de textos em inglês e a identificação de tipos ENAMEX utilizando o processa-mento de linguagem natural (NLP) e aprendizado de máquina dentre outros métodos.Atualmente, ela evoluiu para uma ferramenta chamada OpenCalais, que em meio a ou-tros serviços permite o estabelecimento de relações entre entidades e a detecção de eventoscriando metadados semânticos para o conteúdo enviado em bem menos de um segundo.

Em questão de performance no reconhecimento de entidades, observou-se que as

Page 29: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

2.3. Medidas de similaridade 27

melhores ferramenta foram o Supersense-WNSS1 e o ClearForest. O ClearForest (Open-Calais)2 se destaca, obtendo uma precisão de 90% [20].

2.3 MEDIDAS DE SIMILARIDADE

2.3.1 TF-IDF e Similaridade de Cossenos

Existem diferentes maneiras de resolver o problema de correspondência entre en-tidades nomeadas: a mais confiável consiste em estudar as características específicas dosdados, e depois usar qualquer ferramenta disponível para criar um método especializadopara a tarefa correspondente. Esta abordagem geralmente leva vantagem pela especifici-dade de linguagem ou de domínio, de quaisquer recursos externos (por exemplo, banco dedados, nomes de dicionários, etc), e de todas as informações sobre as entidades para pro-cessar, por exemplo, seu tipo (nome pessoa, organização, etc), ou estrutura interna [21].A melhor tecnologia para detecção de ligação entre histórias utilizam a similaridade decossenos entre vetores de termos com pesos TF-IDF para decidir se duas novas históriasdiscutem sobre o mesmo assunto [13] [4].

Em um modelo TF-IDF, a frequência de um termo (TF) é pesada pela frequênciainversa de documentos (IDF), o inverso do número de documentos contendo o termo [4].Essencialmente, o TF-IDF funciona determinando a freqüência relativa de palavras emum documento específico em comparação com a proporção inversa da palavra ao longo detodo o corpo do documento. Intuitivamente, esse cálculo determina o quão relevante umadeterminada palavra está em um documento particular. Palavras que são comuns em umúnico ou um pequeno grupo de documentos tendem a ter uma maior medida TF-IDF doque palavras comuns, tais como artigos e preposições.

A similaridade de cossenos é uma medida popular de similaridade que utiliza ocossenos do ângulo entre dois vetores para o agrupamento de texto, que normaliza ascaracterísticas pela matriz de covariância. A propriedade forte desta operação é de queo cosseno não depende do comprimento da palavra: 𝐶𝑂𝑆(𝛼𝑑1, 𝑑2) = 𝑐𝑜𝑠(𝑑1, 𝑑2) para𝛼 > 0. Também devido a essa propriedade, as amostras podem ser normalizadas parauma unidade de esfera para um processamento mais eficiente [22].

Assim sendo, podemos definir o TF-IDF como

TFIDF =∑︁

𝑤∈𝑆∩𝑇

𝑉 (𝑤, 𝑆).𝑉 (𝑤, 𝑇 )

onde TF𝑤,𝑆 é a frequencia da palavra 𝑤 em 𝑆, 𝑁 é o tamanho do “corpus”, IDF𝑤

é o inverso da fração de nomes no corpus que contém 𝑤,1 http://medialab.di.unipi.it/wiki/SuperSense_Tagger2 http://www.opencalais.com

Page 30: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

28 Capítulo 2. Conceitos e Técnicas

𝑉 ′(𝑤, 𝑆) = log(TF𝑤,𝑆 + 1). log(IDF𝑤)

e 𝑉 (𝑤, 𝑆) = 𝑉 ′(𝑤, 𝑆)/√︁∑︀

𝑤′ 𝑉 ′(𝑤′, 𝑆)2 e a similaridade de cossenos por

𝐶𝑂𝑆(𝑑1, 𝑑2) = 𝑑1𝑑2√︁∑︀𝑖 𝑑2

1𝑖

√︁∑︀𝑖 𝑑2

2𝑖

2.3.2 Soft TF-IDF

Experiências mostram que medidas baseadas em sequência de caracteres detectamsomente NE correfentes que diferem por poucos caracteres. Os métodos de bolsa de pa-lavras (bag-of-words) se dapatam melhor para o problema de correspondência de NE, jáque são mais flexíveis quanto a posição e ordem as palavras. Mas muitos desses pares nãosão indentificados justamente por pequenas mudanças entre palavras, por exemplo, “BillGates” e “Bil Gates”. Por esse motivo, o segundo nível de medidas de similaridade sãorelevantes: eu princípio se baseia em aplicar uma sub-medida 𝑠𝑖𝑚′ em todos os pares depalavras entre duas NE e computar o valor final baseado nestes valores.

O Soft TF-IDF visa precisamente tirar o proveito dos bons resultados obtidos noTF-IDF com similaridade de cossenos, sem descartar palavras que não são estreitamenteidênticas.

Considere 𝑠𝑖𝑚′ como uma função secundária de similaridade e CLOSE(𝜃, 𝑆, 𝑇 ) oconjunto de palavras 𝑤 ∈ 𝑆 tal que há algum 𝑣 ∈ 𝑇 tal que 𝑑𝑖𝑠𝑡′(𝑤, 𝑣) > 𝜃, e para𝑤 ∈ CLOSE(𝜃, 𝑆, 𝑇 ), seja D(𝑤, 𝑇 ) = 𝑚𝑎𝑥𝑣∈𝑇 𝑑𝑖𝑠𝑡(𝑤, 𝑣). Definimos

Soft TF-IDF =∑︁

𝑤∈𝐶𝐿𝑂𝑆𝐸(𝜃,𝑆,𝑇 )𝑉 (𝑤, 𝑆).𝑉 (𝑤, 𝑇 ).𝐷(𝑤, 𝑇 )

Como se pode ver, o Soft TFIDF se baseia no príncipio de que para cada palavra𝑥𝑖 na primeira entidade, deve-se encontrar uma palavra 𝑦𝑗 na segunda que maximize𝑠𝑖𝑚′(𝑥𝑖, 𝑦𝑗).

Page 31: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

29

3 PROPOSTA PARA DETECÇÃO DE LIGAÇÃOENTRE HISTÓRIAS COM A UTILIZAÇÃO DERECONHECIMENTO DE ENTIDADES NOME-ADAS

A proposta deste trabalho é executar o reconhecimento de entidades em cadatweet e no texto original disponível através dos links embutidos no mesmo, e utilizar estainformação semântica no processo de reconhecimento e ligação entre histórias. Para oreconhecedor de entidades, será usado sistemas prontos, treinados e utilizados por outrospesquisadores. Para a detecçã de ligação de histórias serão abordados técnicas reconheci-das na literatura assim como abordagens diferenciadas.

Para a avaliação da eficiência do sistema será desenvolvido um Gold Standard, con-sistindo em um conjunto de tweets classificados manualmente quanto ao assunto abordadopelo mesmo.

3.1 GOLD STANDARD

Através da API (application programming interface) pública de streaming do Twit-ter foi possível obter em tempo real os tweets das fontes escolhidas, que constituem osprincipais portais e blogs de tecnologia existentes atualmente na Internet, que agupadosproduzem uma enorme quantidade de artigos sobre questões ligadas a tecnologia, celula-res, startups, etc. e contam com milhares se seguidores cada uma. Tais fontes estão listadasabaixo:

∙ All Things D (@allthingsd)

∙ Ars Technica (@arstechnica)

∙ CNET News (@CNETNews)

∙ Engadget (@engadget)

∙ Forbes Tech News (@ForbesTech)

∙ GigaOM (@gigaom)

∙ Guardian Tech (@guardiantech)

∙ Mashable (@mashable)

Page 32: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

30Capítulo 3. Proposta para Detecção de Ligação entre Histórias com a utilização de Reconhecimento de

Entidades Nomeadas

∙ Read Write Web (@RWW)

∙ Slashdot (@slashdot)

∙ TechCrunch (@TechCrunch)

∙ The Next Web (@TheNextWeb)

∙ The Verge (@verge)

∙ Wired (@WIRED)

Foi desenvolvido um script simples em Python para o acesso a API e a conexão como banco de dados MySQL. Devido a característica de streaming do Twitter, foi necessáriodeixar o script executando durante dois dias consecutivos, recebendo um total de 1.007tweets das fontes listadas acima. Cada tweet consiste nos seguintes campos: tweetid, userid,username, screenname, datecreated, url e text.

Após a fase de captação foi criado o Gold Standard, que no contexto desse trabalhoé a classificação manual de cada tweet, e que será utilizado como modelo ótimo paracomparação com testes dos algoritmos. Nesta etapa, foi criado um campo adicional natabela de tweets consistindo em um valor inteiro relativo ao assunto tratado no tweet.Através da análise manual do texto de cada tweet, foi atribuído um número de acordocom o assunto tratado, sendo que números diferentes correspondem a assuntos diferentes,e tweets com números iguais correspondem ao mesmo assunto.

Após realizada a classificação manual foi possível perceber através de uma contarápida, que os dados apresentavam uma taxa de 23,5% de ruído, ou seja, dos 1.007 tweetsrecebidos, possivelmente 236 são sobre assuntos duplicados.

3.2 DETECÇÃO DE ENTIDADES

O reconhecedor de entidades que foi utilizado durante os testes iniciais foi o Stan-ford NER, disponível para download em código aberto1. Stanford NER (também conhe-cido como CRFClassifier) é uma implementação Java de um reconhecedor de entidadesnomeadas que oferece uma implementação de modelos sequenciais gerais de cadeia linearde Campo Condicional Aleatório (Conditional Random Field – CRF), juntamente comextratores de recursos para reconhecimento de entidades nomeadas [??].

Porém, através dos conjuntos treinados disponibilizados com o reconhecedor nãofoi possível obter resultados satisfatórios quando utilizados para identificar entidades nostweets, seja pela limitação no reconhecimento de somente três tipos de entidades – pessoa,1 http://nlp.stanford.edu/software/CRF-NER.shtml#Download

Page 33: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

3.3. TF-IDF e Soft TF-IDF 31

organização e local – ou pela qualidade em que as entidades foram extraídas, nem semprereconhecendo a totalidade das entidades presentes no texto.

Através de pesquisas, foi identificado em [20] a ferramenta ClearForest (Open-Calais), que obteve uma taxa de precisão de 90% nos testes realizados no artigo e quereconhece mais de 30 entidades. Utilizou-se então o Web Service2 provido pela própriaempresa para a utilização do reconhecedor de entidades.

O Web Service foi consumido através de um script desenvolvido em Python, utili-zando a biblioteca Python-Calais3 e os resultados foram salvos no mesmo banco de dadosem que é armazenado o Gold Standard, em uma tabela com os seguintes campos: id,idTweet, entityType e value.

Após o processamento dos 1.007 tweets pelo reconhecedor de entidades, foramgeradas 3.197 entidades, ou seja, uma média de três entidades por tweet. As entidades quemais ocorrêram foram: Company, com 692 ocorrências, IndustryTerm com 528 e Personcom 427.

3.3 TF-IDF E SOFT TF-IDF

Primeiramente foi considerado o método Soft TF-IDF, que se adequaria melhor aoproblema, visto que os tweets apresentam muitos erros de sintaxe, principalmente letrasfora de ordem e abreviaturas. Como a análise neste trabalho foi realizada em cima deentidades nomeadas, e uma vez que através de testes foi detectado que o reconhecedor deentidades ignora totalmente palavras escritas de forma incorreta, não se viu motivos parausar um método mais custoso para o cálculo de similaridade.

2 http://www.opencalais.com/documentation/calais-web-service-api3 http://code.google.com/p/python-calais/

Page 34: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,
Page 35: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

33

REFERÊNCIAS

1 CENTER, G. I. I. How Much Information? 2009 Report on American Consumers.2009. http://hmi.ucsd.edu/howmuchinfo_research_report_consum.php. [Online;accessed 12-April-2013].

2 ALLAN, J. et al. Topic detection and tracking pilot study final report. In: InProceedings of the DARPA Broadcast News Transcription and Understanding Workshop.[S.l.: s.n.], 1998. p. 194–218.

3 BECKER, H.; NAAMAN, M.; GRAVANO, L. Beyond trending topics: Real-worldevent identification on twitter. In: Fifth International AAAI Conference on Weblogs andSocial Media. [S.l.: s.n.], 2011.

4 CHEN, F.; FARAHAT, A.; BRANTS, T. Multiple similarity measures and source-pairinformation in story link detection. In: In HLT-NAACL 2004. [S.l.: s.n.], 2004. p. 2–7.

5 INDEX, G. W. Twitter The Fastest Growing So-cial Platform. 2013. http://globalwebindex.net/thinking/twitter-the-fastest-growing-social-platform-infographic/. [Online; ac-cessed 12-April-2013].

6 TERDIMAN, D. Twitter hits half a billion tweets aday. 2012. http://news.cnet.com/8301-1023_3-57541566-93/report-twitter-hits-half-a-billion-tweets-a-day/. [Online; accessed 12-April-2013].

7 PHUVIPADAWAT, S.; MURATA, T. Breaking news detection and tracking in twitter.In: Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACMInternational Conference on. [S.l.: s.n.], 2010. v. 3, p. 120–123.

8 JANSSEN, R.; POOT, H. de. Information overload: why some people seem to suffermore than others. In: Proceedings of the 4th Nordic conference on Human-computerinteraction: changing roles. New York, NY, USA: ACM, 2006. (NordiCHI ’06), p. 397–400.ISBN 1-59593-325-5. Disponível em: <http://doi.acm.org/10.1145/1182475.1182521>.

9 HO, J.; TANG, R. Towards an optimal resolution to information overload: aninfomediary approach. In: Proceedings of the 2001 International ACM SIGGROUPConference on Supporting Group Work. New York, NY, USA: ACM, 2001. (GROUP ’01),p. 91–96. ISBN 1-58113-294-8. Disponível em: <http://doi.acm.org/10.1145/500286-.500302>.

10 SPEIER, C.; VALACICH, J. S.; VESSEY, I. Printed in the U.S.A. The Influence ofTask Interruption on Individual Decision Making: An Information Overload Perspective.

11 NOMOTO, T. Two-tier similarity model for story link detection. In: Proceedingsof the 19th ACM international conference on Information and knowledge management.New York, NY, USA: ACM, 2010. (CIKM ’10), p. 789–798. ISBN 978-1-4503-0099-5.Disponível em: <http://doi.acm.org/10.1145/1871437.1871539>.

Page 36: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

34 Referências

12 WANG, L.; LI, F. Story link detection based on event words. In: Proceedings of the12th international conference on Computational linguistics and intelligent text processing- Volume Part II. Berlin, Heidelberg: Springer-Verlag, 2011. (CICLing’11), p. 202–211.ISBN 978-3-642-19436-8. Disponível em: <http://dl.acm.org/citation.cfm?id=1964750-.1964768>.

13 BROWN, R. D. Dynamic stopwording for story link detection. In: Proceedings ofthe second international conference on Human Language Technology Research. SanFrancisco, CA, USA: Morgan Kaufmann Publishers Inc., 2002. (HLT ’02), p. 190–193.Disponível em: <http://dl.acm.org/citation.cfm?id=1289189.1289194>.

14 MANNING, C. D.; RAGHAVAN, P.; SCHüTZE, H. Introduction to InformationRetrieval. New York, NY, USA: Cambridge University Press, 2008. ISBN 0521865719,9780521865715.

15 SHAH, C.; CROFT, W. B.; JENSEN, D. Representing documents with namedentities for story link detection (sld). In: Proceedings of the 15th ACM internationalconference on Information and knowledge management. New York, NY, USA: ACM,2006. (CIKM ’06), p. 868–869. ISBN 1-59593-433-2. Disponível em: <http://doi.acm-.org/10.1145/1183614.1183771>.

16 LIU, X. et al. Recognizing named entities in tweets. In: Proceedings of the 49thAnnual Meeting of the Association for Computational Linguistics: Human LanguageTechnologies - Volume 1. Stroudsburg, PA, USA: Association for ComputationalLinguistics, 2011. (HLT ’11), p. 359–367. ISBN 978-1-932432-87-9. Disponível em:<http://dl.acm.org/citation.cfm?id=2002472.2002519>.

17 JUNG, J. J. Online named entity recognition method for microtexts in socialnetworking services: A case study of twitter. Expert Syst. Appl., Pergamon Press, Inc.,Tarrytown, NY, USA, v. 39, n. 9, p. 8066–8070, jul. 2012. ISSN 0957-4174. Disponívelem: <http://dx.doi.org/10.1016/j.eswa.2012.01.136>.

18 OLIVEIRA, D. M. de et al. Fs-ner: a lightweight filter-stream approach tonamed entity recognition on twitter data. In: Proceedings of the 22nd internationalconference on World Wide Web companion. Republic and Canton of Geneva,Switzerland: International World Wide Web Conferences Steering Committee, 2013.(WWW ’13 Companion), p. 597–604. ISBN 978-1-4503-2038-2. Disponível em:<http://dl.acm.org/citation.cfm?id=2487788.2488003>.

19 RITTER, A. et al. Named entity recognition in tweets: an experimental study. In:Proceedings of the Conference on Empirical Methods in Natural Language Processing.Stroudsburg, PA, USA: Association for Computational Linguistics, 2011. (EMNLP ’11),p. 1524–1534. ISBN 978-1-937284-11-4. Disponível em: <http://dl.acm.org/citation-.cfm?id=2145432.2145595>.

20 MARRERO, M. et al. Evaluation of named entity extraction systems. Disponívelem: <http://www.cicling.org/2009/RCS-41/047-058.pdf>.

21 MOREAU, E.; YVON, F.; CAPPÉ, O. Robust similarity measures for named entitiesmatching. In: Proceedings of the 22nd International Conference on ComputationalLinguistics - Volume 1. Stroudsburg, PA, USA: Association for ComputationalLinguistics, 2008. (COLING ’08), p. 593–600. ISBN 978-1-905593-44-6. Disponível em:<http://dl.acm.org/citation.cfm?id=1599081.1599156>.

Page 37: DETECÇÃODELIGAÇÃOENTREHISTÓRIAS … · 2013-08-12 · deReconhecimentodeEntidadesNomeadas. . . . . . . . . . . . . . . 29 ... consumo que se dá através da TV, rádio, Internet,

Referências 35

22 MARTíNEZ, S. M. y Víctor Fresno y R. Nesm: a named entity based proximitymeasure for multilingual news clustering. Procesamiento del Lenguaje Natural, v. 48,n. 0, 2012. ISSN 1989-7553. Disponível em: <http://journal.sepln.org/sepln/ojs/ojs-/index.php/pln/article/view/4491>.