Willyan Daniel

download Willyan Daniel

If you can't read please download the document

  • date post

    10-Jan-2017
  • Category

    Documents

  • view

    216
  • download

    1

Embed Size (px)

Transcript of Willyan Daniel

  • UNIVERSIDADE PRESBITERIANA MACKENZIE

    PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA

    Willyan Daniel Abilhoa

    UM MTODO PARA EXTRAO DE PALAVRAS-CHAVE

    DE DOCUMENTOS REPRESENTADOS EM GRAFOS

    So Paulo

    2014

  • UNIVERSIDADE PRESBITERIANA MACKENZIE

    PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA

    Willyan Daniel Abilhoa

    UM MTODO PARA EXTRAO DE PALAVRAS-CHAVE

    DE DOCUMENTOS REPRESENTADOS EM GRAFOS

    Documento de dissertao apresentado ao Programa

    de Ps-Graduao em Engenharia Eltrica da Uni-

    versidade Presbiteriana Mackenzie, como requisito

    parcial para a obteno do ttulo de Mestre em En-

    genharia Eltrica.

    Orientador: Prof. Dr. Leandro Nunes de Castro

    So Paulo

    2014

  • A148m Abilhoa, Willyan Daniel

    Um mtodo para extrao de palavras-chave de documentos representados em grafos. / Willyan Daniel Abilhoa So Paulo, 2014.

    86 f.: il.; 30 cm.

    Dissertao (Programa de Ps-Graduao (Stricto Sensu) em

    Engenharia Eltrica) - Universidade Presbiteriana Mackenzie - So Paulo, 2014.

    Orientador: Prof. Dr. Leandro Nunes de Castro Bibliografia: f. 77-79

    1. Minerao de textos. 2. Representao de textos em grafo. 3. Extrao de palavras-chave. 4. Medidas de centralidade. I. Ttulo.

    CDD 628.3821

  • A Deus, minha famlia e aos meus amigos.

  • AGRADECIMENTOS

    Primeiramente agradeo a Deus e minha famlia por toda a fora e todo o apoio duran-

    te o mestrado. Agradeo a compreenso de minha famlia nos momentos de ausncia.

    Aos meus bons e velhos amigos Vnyton Izidoro, Luiz Henrique e Lcio Charallo.

    Aos amigos do LCoN, que fizeram ou que ainda fazem parte dessa jornada: Ana Caro-

    lina Lima, Danilo Cunha, Eurico Ruivo, Daniel Ferrari, Diego Duarte, Emanuel Tavares, Ra-

    fael Xavier, Alexandre Szabo e Pedro H. Matheus, por todos os momentos de alegria e difi-

    culdades nos quais estivemos juntos.

    Ao Prof. Dr. Leandro Nunes de Castro, meu orientador, por todas as suas contribui-

    es e ensinamentos nesses dois anos.

    A todos os professores e colegas do Programa de Ps Graduao em Engenharia El-

    trica que contriburam para minha formao e para este trabalho.

    Universidade Presbiteriana Mackenzie (UPM) e ao Programa de Ps Graduao em

    Engenharia Eltrica pela infraestrutura e suporte.

    s agncias de fomento CAPES, CNPq, Fapesp e ao Mackpesquisa pelo apoio finan-

    ceiro, direto ou indireto, que possibilitaram o desenvolvimento deste trabalho.

    A todos aqueles que contriburam direta ou indiretamente para a concluso deste traba-

    lho, meus sinceros agradecimentos.

  • Enquanto houver vontade de lutar haver espe-

    rana de vencer.

    (Santo Agostinho)

  • RESUMO

    O Twitter um servio de microblog que gera um grande volume de dados textuais. Todo

    esse contedo precisa ser explorado por meio de tcnicas de minerao de textos, processa-

    mento de linguagem natural e recuperao de informao com o objetivo de extrair um co-

    nhecimento que seja til de alguma forma ou em algum processo. Nesse contexto, a extrao

    automtica de palavras-chave uma tarefa que pode ser usada para a indexao, sumarizao

    e compreenso de documentos. Um passo fundamental nas tcnicas de minerao de textos

    consiste em construir um modelo de representao de documentos. O modelo chamado mode-

    lo de espao vetorial, VSM, o mais conhecido e utilizado dentre essas tcnicas. No entanto,

    algumas dificuldades e limitaes do VSM, tais como escalabilidade e esparsidade, motivam

    a proposta de abordagens alternativas. O presente trabalho prope o mtodo TKG (Twitter

    Keyword Graph) de extrao de palavras-chave de colees de tweets que representa textos

    como grafos e aplica medidas de centralidade para encontrar vrtices relevantes, correspon-

    dentes s palavras-chave. Para medir o desempenho da abordagem proposta, dois diferentes

    experimentos so realizados e comparaes com TF-IDF e KEA so feitas, tendo classifica-

    es humanas como referncia. Os experimentos realizados mostraram que algumas variaes

    do TKG so superiores a outras e tambm aos algoritmos usados para comparao.

    Palavras-chave: Minerao de Textos, Representao de Textos em Grafo, Extrao de Pa-

    lavras-Chave, Medidas de Centralidade.

  • ABSTRACT

    Twitter is a microblog service that generates a huge amount of textual content daily. All this

    content needs to be explored by means of techniques, such as text mining, natural language

    processing and information retrieval. In this context, the automatic keyword extraction is a

    task of great usefulness that can be applied to indexing, summarization and knowledge extrac-

    tion from texts. A fundamental step in text mining consists of building a text representation

    model. The model known as vector space model, VSM, is the most well-known and used

    among these techniques. However, some difficulties and limitations of VSM, such as scalabil-

    ity and sparsity, motivate the proposal of alternative approaches. This dissertation proposes a

    keyword extraction method, called TKG (Twitter Keyword Graph), for tweet collections that

    represents texts as graphs and applies centrality measures for finding the relevant vertices

    (keywords). To assess the performance of the proposed approach, two different sets of exper-

    iments are performed and comparisons with TF-IDF and KEA are made, having human clas-

    sifications as benchmarks. The experiments performed showed that some variations of TKG

    are invariably superior to others and to the algorithms used for comparisons.

    Keywords: Text Mining, Text Representation in Graphs, Keyword Extraction, Centrality

    Measures.

  • Lista de Figuras

    Figura 2.1 - Cinco etapas do processo de KDD (Adaptada de Corra (2003)). ....................... 16

    Figura 2.2 - Processo de Minerao de Textos, ou KDT (Adaptado de Aranha e Passos

    (2008)). ..................................................................................................................................... 18

    Figura 2.3 - Em (a) dada a representao grfica do grafo no direcionado G1, enquanto em

    (b) essa representao feita para o grafo direcionado G2. Em (c), o grafo misto G3 tambm

    representado graficamente. ....................................................................................................... 25

    Figura 2.4 - Representao grfica das arestas a1 A1, em (a), e a2 A2, em (b), nas quais u1

    adjacente a v1 e u2 adjacente a v2, respectivamente. .............................................................. 26

    Figura 2.5 - Representao grfica do multigrafo G1, em (a), e do grafo simples G2, em (b). 27

    Figura 2.6 - Representao grfica do grafo no direcionado G1, em (a), e do grafo

    direcionado G2, em (b). ............................................................................................................ 28

    Figura 2.7 - Exemplo de grafo valorado, dado por G = (V, A, ), em sua representao grfica.

    .................................................................................................................................................. 29

    Figura 2.8 - Representao grfica do grafo no direcionado G = (V, A). ............................... 33

    Figura 2.9 - Representao grfica do grafo G destacando os vrtices de forma proporcional

    centralidade de grau CD. ........................................................................................................... 33

    Figura 2.10 - Representao grfica do grafo G destacando os vrtices de forma proporcional

    centralidade de proximidade CC. ........................................................................................... 34

    Figura 2.11 - Representao grfica do grafo G destacando os vrtices de forma proporcional

    centralidade de excentricidade CE. ........................................................................................ 35

    Figura 2.12 - Representao grfica do grafo G destacando os vrtices de forma proporcional

    centralidade de intermediao CC. ......................................................................................... 35

    Figura 3.1 - Sequncia de funcionamento do mtodo TKG: 1) Etapa de Pr-Processamento

    dos Documentos (tweets), consistindo das fases de Anlise Lxica e Remoo de Stopwords;

    2) Etapa de Construo do Grafo Textual, consistindo das fases de Atribuio de Vrtices e

    Atribuio de Arestas; e 3) Etapa de Extrao das Palavras-Chave, consistindo das fases de

    Clculo de Centralidade e Ordenao dos Vrtices.................................................................. 43

    Figura 3.2 - Grafo textual G construdo segundo a heurstica NND. ....................................... 53

    Figura 3.3 - Grafo textual G construdo segundo a heurstica AND. ....................................... 53

    Figura 3.4 - Grafos gerados a partir de combinaes das heursticas de atribuio de arestas

    NND e AND, e heursticas de peso de aresta 1, f e 1/f. ............................................................ 54

    Figura 3.5 - Vrtices mais importantes destacados pela cor vermelha, de acordo com seus

    respectivos valores quando aplicada uma dada medida de centralidade. ................................. 56

  • Lista de Tabelas

    Tabela 3.1 - Vetores de tokens aps as fases de Anlise Lxica e Remoo de Stopwords. ... 51

    Tabela 3.2 - Vrtices e seus tokens correspondentes. ............................................................... 52